Beratung und Begleitung einer DSGVO-konformen KI- Einführung

Ausgangslage

Unternehmen verfügen über wachsende Mengen unstrukturierter und semi-strukturierter Daten in verschiedensten Formaten. Diese Daten enthalten häufig schützenswerte Informationen – von personenbezogenen Daten über Firmengeheimnisse bis hin zu Intellectual Property (IP) geschützten Inhalten. Gleichzeitig steigt der Bedarf, diese Daten über moderne KI-Werkzeuge und Webanwendungen nutzbar zu machen, ohne dabei Datenschutz- und Compliance-Anforderungen zu verletzen.

Unser Beratung und Begleitungsangebot setzt genau hier an und adressiert genau dieses Spannungsfeld: Es ermöglicht Unternehmen die strukturierte Einlagerung, datenschutzkonforme Klassifizierung und kontrollierte Nutzung von Unternehmensdaten unter Einsatz interner sowie externer KI- und Management-Tools.
image 20260326 111623

Datenerfassung und -transformation

Beschreibung

Der erste Schritt umfasst die Erfassung und Aufbereitung von Daten aus heterogenen Quellen und Formaten. Unterstützt werden unter anderem PDF, Word, Excel, Textdateien, Bilder und weitere gängige Formate.

Da die nachfolgenden Verarbeitungsschritte – insbesondere die Datenschutz-Einordnung und KI-gestützte Klassifizierung – auf konsistente, maschinenlesbare Eingabedaten angewiesen sind, ist häufig eine Datentransformation notwendig. Diese kann je nach Quellformat folgende Schritte umfassen:

  • Konvertierung in ein einheitliches Zwischenformat (z. B. strukturierter Text, JSON)

  • OCR-Verarbeitung bei gescannten Dokumenten oder Bildern

  • Extraktion relevanter Inhalte aus komplexen Dokumentstrukturen (z. B. Tabellen aus Excel, eingebettete Objekte in Word)

  • Normalisierung von Zeichensätzen, Datumsformaten und Metadaten

  • Bereinigung und Deduplizierung von Eingangsdaten

Leistungsumfang

  • Analyse der vorhandenen Datenquellen und Formate

  • Konzeption und Implementierung einer Ingestion-Pipeline mit automatischer Formaterkennung

  • Entwicklung formatspezifischer Transformer und Konverter

  • Anbindung von OCR-Services für bildbasierte Dokumente

  • Qualitätssicherung der transformierten Daten vor Übergabe an Schritt 2

Datenschutz-Einordnung und Routing

Beschreibung

Bevor Daten weiterverarbeitet oder gespeichert werden, erfolgt eine systematische Datenschutz-Einordnung. Diese bestimmt, wie und wo die Daten im weiteren Verlauf behandelt werden dürfen. Die Einordnung umfasst dabei nicht nur die DSGVO-relevante Klassifizierung personenbezogener Daten, sondern explizit auch:

  • Firmengeheimnisse (Trade Secrets), die nicht an externe Systeme übermittelt werden dürfen

  • IP-geschützte Inhalte (Intellectual Property), für die besondere Nutzungs- und Weitergabebeschränkungen gelten

  • Regulatorisch sensible Daten (z. B. Finanzdaten, Gesundheitsdaten)

Diese Einordnung wird in der Regel durch einen menschlichen Entscheider aktiv unterstützt. Das System schlägt eine Klassifizierung vor, die finale Zuordnung und das Routing – also die Entscheidung, welche nachfolgenden Tools und Speicherorte genutzt werden dürfen – wird jedoch durch eine autorisierte Person bestätigt oder korrigiert.

Zusätzlich kann in diesem Schritt eine Anonymisierung oder Pseudonymisierung aktiviert werden. Wenn Daten für die weitere Verarbeitung durch externe KI-Tools vorgesehen sind, aber personenbezogene oder anderweitig schützenswerte Informationen enthalten, können diese vor der Weitergabe automatisiert oder manuell gesteuert anonymisiert werden.

Dieser Schritt bildet gleichzeitig den zentralen Feedback-Loop der Architektur: Wenn nachgelagerte Klassifizierungen (Schritt 3) Unsicherheiten aufweisen oder neue Datenschutzaspekte aufdecken, werden die Daten zur erneuten Prüfung an diesen Schritt zurückgegeben.

Leistungsumfang

  • Erarbeitung eines Datenschutz-Klassifizierungsschemas (Schutzklassen, Routing-Regeln)

  • Implementierung eines regelbasierten Vorklassifizierungssystems mit automatischer Erkennung von PII, Geschäftsgeheimnissen und IP-Markern

  • Entwicklung eines Review-Workflows für die menschliche Validierung der Klassifizierung

  • Integration von Anonymisierungs-/Pseudonymisierungsmodulen (konfigurierbar je Schutzklasse)

  • Aufbau des Feedback-Loops zur Rückführung unsicher klassifizierter Daten

  • Dokumentation der Routing-Logik für Audit- und Compliance-Zwecke

KI-gestützte Klassifizierung und Einlagerungsvorbereitung

Beschreibung

Basierend auf der Datenschutz-Einordnung aus Schritt 2 wird das passende KI-Tool für die inhaltliche Klassifizierung ausgewählt. Die Auswahl richtet sich nach der festgelegten Schutzklasse: Unkritische Daten können über cloud-basierte LLMs verarbeitet werden, während sensible Daten ausschließlich durch lokal gehostete oder als vertrauenswürdig eingestufte Modelle behandelt werden.

Im Kern geht es in diesem Schritt um die Vorbereitung der Daten für die Einlagerung in die Speichersysteme (Schritt 4). Das umfasst:

  • Extraktion und Anreicherung von Metadaten (Thema, Dokumenttyp, Autor, Datum, Relevanz)

  • Generierung von Embeddings für die Vektordatenbank

  • Strukturierung und Tagging für die spätere Suche und Zugriffskontrolle

  • Zuordnung zu Kategorien, Projekten oder Geschäftsbereichen

Leistungsumfang

  • Evaluierung und Auswahl geeigneter KI-Modelle je Schutzklasse (Cloud vs. On-Premise)

  • Implementierung der Klassifizierungs-Pipeline mit konfigurierbarer Modellauswahl

  • Entwicklung der Embedding-Generierung für die Vektordatenbank

  • Aufbau der Metadaten-Extraktion und -Anreicherung

  • Integration in den Gesamtworkflow mit Rückkopplung an Schritt 2 bei Klassifizierungsunsicherheiten

Datenspeicherung (Dual-Storage-Architektur)

Beschreibung

Die klassifizierten und aufbereiteten Daten werden in einer Dual-Storage-Architektur gespeichert:

Relationale Datenbank – Verwaltung strukturierter Daten wie Benutzerprofile, Rollen, Zugriffsrechte und Metadaten. Diese Datenbank steuert, wer auf welche Daten zugreifen darf, und bildet die Grundlage für das Berechtigungssystem.

Vektordatenbank – Speicherung der generierten Embeddings für die semantische Suche. Die Vektordatenbank ermöglicht natürlichsprachliche Abfragen über den gesamten Datenbestand und ist die zentrale Komponente für KI-gestützte Recherche und kontextbezogene Antworten.

Die Kombination beider Systeme stellt sicher, dass Zugriffsrechte (relationale DB) und Suchfähigkeit (Vektor-DB) konsistent zusammenwirken.

Leistungsumfang

  • Konzeption des Datenmodells für die relationale Datenbank (User, Rollen, Berechtigungen, Metadaten)

  • Auswahl und Einrichtung einer geeigneten Vektordatenbank (z. B. Pinecone, Weaviate, Qdrant, Chroma)

  • Implementierung der Zugriffssteuerung und rollenbasierten Berechtigungslogik

  • Aufbau der Indexierungspipeline (Embedding-Ingestion, Aktualisierung, Löschung)

  • Performance-Optimierung für Suchanfragen und Retrieval

MCP-Schnittstelle für KI-Systeme

Beschreibung

MCP-fähige KI-Systeme (z. B. Claude, Copilot) erhalten über eine MCP-Schnittstelle (Model Context Protocol) strukturierten Zugriff auf die gespeicherten Daten. MCP erlaubt es den KI-Modellen, nicht nur Text zu generieren, sondern aktiv Daten abzufragen, zu filtern und kontextbezogen zu antworten – unter Einhaltung der in Schritt 4 definierten Zugriffsrechte.

Die MCP-Schnittstelle ist der intelligente Zugangspunkt für Power-User, automatisierte Workflows und KI-gestützte Entscheidungsunterstützung.

Leistungsumfang

  • Konzeption und Entwicklung der MCP-Schnittstelle als Brücke zwischen KI-Modellen und Datenspeicher

  • Implementierung der Zugriffssteuerung innerhalb der MCP-Schnittstelle (Rechteprüfung, Schutzklassenfilterung)

  • Anbindung an die Vektordatenbank für kontextuelle Suche (RAG-Pattern)

  • Integration mit mindestens einem MCP-fähigen KI-System (z. B. Claude)

  • Monitoring und Logging aller KI-Zugriffe für Compliance und Audit

Web-Anwendung mit API-Anbindung

Beschreibung

Für Kunden oder sonstigen Anwendern, die nicht direkt mit den internen KI-Tools arbeiten, wird eine Web-Anwendung bereitgestellt. Diese bietet Funktionen für Recherche, Chat und weitere Interaktionen über eine benutzerfreundliche Oberfläche. Die Anbindung an die Datenspeicher erfolgt über eine klassische API-Schnittstelle.

Die Web-Anwendung nutzt im Hintergrund die gleiche Datenbasis und Zugriffslogik wie die MCP-Schnittstelle und stellt sicher, dass auch nicht-technische Anwender von der KI-gestützten Datenplattform profitieren.

Leistungsumfang

  • Konzeption und UX-Design der Web-Anwendung (Recherche-Interface, Chat-Funktion)

  • Entwicklung der API-Schnittstelle (REST/GraphQL) mit Authentifizierung und Autorisierung

  • Implementierung des Frontends mit responsivem Design

  • Integration der semantischen Suche über die Vektordatenbank

  • Anbindung an das Berechtigungssystem der relationalen Datenbank

  • Bereitstellung als Self-Hosted- oder Cloud-Lösung

Übergreifende Leistungen

Projektmanagement und Beratung

  • Aufnahme der Ist-Situation und Anforderungsanalyse

  • Erstellung einer detaillierten Umsetzungs-Roadmap mit Meilensteinen

  • Regelmäßige Abstimmungstermine und Fortschrittsberichte

  • Risikobewertung und Eskalationsmanagement

Datenschutz und Compliance

  • Begleitung bei der Datenschutz-Folgenabschätzung (DSFA)

  • Dokumentation der Verarbeitungstätigkeiten gemäß DSGVO

  • Erstellung von Datenschutzkonzept und technisch-organisatorischen Maßnahmen (TOMs)

  • Abstimmung mit dem betrieblichen Datenschutzbeauftragten

Betrieb und Wartung

  • Bereitstellung einer Betriebsdokumentation

  • Schulung der Administratoren und Endanwender

  • Optionaler Wartungsvertrag mit SLA-basierten Reaktionszeiten

  • Monitoring-Setup für alle Systemkomponenten

Erste Schritte

  1. Kick-off-Workshop – Gemeinsame Anforderungsaufnahme und Priorisierung der Komponenten

  2. Proof of Concept – Umsetzung einer reduzierten Pipeline (Schritte 1–4) mit einem ausgewählten Datenbestand

  3. Pilotphase – Erweiterung um die Schnittstellen (Schritte 5–6) mit einer begrenzten Nutzergruppe

  4. Rollout – Produktivbetrieb mit vollständiger Integration und Skalierung

Starten Sie jetzt Ihre DSGVO-konforme KI-Strategie – strukturiert, sicher und praxiserprobt.