DSGVO-konforme KI-Agenten: Wie Unternehmen Innovation und Datenschutz erfolgreich vereinen
Generative KI ist längst kein Experimentierfeld mehr. Unternehmen in nahezu allen Branchen stehen unter Druck, ihre Prozesse mit KI zu optimieren — und das zu Recht. Die Möglichkeiten sind enorm. Doch wer in Europa Verantwortung für sensible Daten trägt, stößt schnell auf eine unbequeme Frage: Wie lassen sich leistungsstarke KI-Modelle nutzen, ohne gegen die DSGVO zu verstoßen (mehr dazu auch in unserem Artikel zum Thema KI Compliane)?
Wir bei Hybrid Heroes haben diese Frage nicht nur theoretisch beantwortet. In einem aktuellen Kundenprojekt haben wir einen KI-Agenten entwickelt, der hochsensible proprietäre Daten verarbeitet — und dabei vollständig DSGVO-konform betrieben wird. In diesem Beitrag teilen wir, welche Architekturentscheidungen den Unterschied machen und worauf Entscheider beim Aufbau von KI-Systemen achten müssen.
Das Kernproblem: Wessen Daten sind das eigentlich?
Wenn ein Unternehmen heute den Einstieg in Generative AI plant, greift der einfachste Weg oft zu kurz: Man schickt Anfragen direkt an die API von OpenAI oder einem anderen US-amerikanischen Anbieter — und hofft, dass schon nichts schiefgeht. Was dabei häufig übersehen wird: Die gesendeten Daten verlassen das eigene Unternehmen und landen auf Servern außerhalb der EU, über die man keine direkte Kontrolle hat.
Für viele Unternehmen mag das vertretbar sein. Für andere ist es ein K.O.-Kriterium. Wer mit personenbezogenen Daten arbeitet — und das tut fast jedes Unternehmen, spätestens wenn Mitarbeiter- oder Kundendaten im Spiel sind — muss sicherstellen, dass die Verarbeitung dieser Daten den Anforderungen der DSGVO entspricht. Wer sensible Daten nach Art. 9 DSGVO verarbeitet, also etwa Gesundheitsdaten, trägt noch mehr Verantwortung.
Das betrifft nicht nur die Frage, wohin Daten gesendet werden. Es betrifft auch, ob und wie diese Daten zum Training des Modells verwendet werden, wer darauf Zugriff hat und welche Rechtsgrundlage für die Verarbeitung herangezogen werden kann.
Kein Datenabfluss zu OpenAI — was das konkret bedeutet
Viele Entscheider denken bei "OpenAI" an eine einheitliche Plattform. Tatsächlich gibt es hier einen wichtigen Unterschied, der für den Datenschutz entscheidend ist.
Die direkte OpenAI-API (also der Dienst, den Privatpersonen und Entwickler über api.openai.com nutzen) unterliegt den allgemeinen Nutzungsbedingungen von OpenAI, einem US-Unternehmen. Daten, die über diese API gesendet werden, können je nach Konfiguration und Vertragslage für das Training zukünftiger Modelle verwendet werden. Die Server stehen in den USA. Für europäische Unternehmen, die personenbezogene oder vertrauliche Daten verarbeiten, ist das aus DSGVO-Sicht problematisch.
Azure OpenAI Service ist eine andere Geschichte. Microsoft stellt dieselben Modelle von OpenAI — darunter GPT-4 und andere — über seine Azure-Cloud-Infrastruktur bereit. Der entscheidende Unterschied liegt in den Vertragsbedingungen und der Datenverarbeitung:
- Kein Training mit Kundendaten: Microsoft verpflichtet sich vertraglich, eingesendete Daten nicht zum Training der Basismodelle zu verwenden. Die proprietären Daten eines Unternehmens bleiben isoliert.
- EU-Hosting möglich: Azure betreibt Rechenzentren in der EU, unter anderem in Deutschland und den Niederlanden. Daten können so konfiguriert werden, dass sie die EU nie verlassen.
- Datenschutzrechtliche Grundlage: Über den Abschluss eines Auftragsverarbeitungsvertrags (AVV) nach Art. 28 DSGVO kann die Verarbeitung rechtssicher gestaltet werden.
- Keine Nutzung für Produktverbesserungen: Im Gegensatz zu Verbraucherprodukten werden Enterprise-Daten bei Azure OpenAI nicht für die Verbesserung der OpenAI-Modelle verwendet.
Das ist kein Marketingversprechen, sondern eine vertraglich zugesicherte und technisch umgesetzte Realität — und sie macht einen fundamentalen Unterschied für die DSGVO-Konformität.
Ein konkretes Beispiel: KI-Agent für sensible Fachdomänen
In einem unserer aktuellen Projekte haben wir für einen Kunden aus dem Fachverlagsumfeld einen KI-Agenten entwickelt, der auf einer großen Menge proprietärer Fachinhalte basiert. Der Anwendungsfall: Nutzerinnen und Nutzer sollen per Konversation auf einen umfangreichen Wissenspool zugreifen können — interaktiv, schnell und inhaltlich präzise.
Die Herausforderung war von Anfang an klar: Die zugrundeliegenden Inhalte sind schützenswert, teils hochsensibel, und dürfen unter keinen Umständen an externe Modelltrainings weitergegeben werden. Gleichzeitig sollte die Anwendung die Sprachkompetenz eines leistungsstarken Large Language Models (LLM) nutzen.
Die Lösung lag in einer Architektur, die zwei Prinzipien konsequent verfolgt: Datensouveränität und semantische Intelligenz.
Retrieval-Augmented Generation (RAG) als datenschutzfreundlicher Ansatz
Das Herzstück der Lösung ist ein sogenannter RAG-Prozess — Retrieval-Augmented Generation. Die Idee dahinter ist elegant: Statt das KI-Modell mit den proprietären Daten zu trainieren (was zu einer dauerhaften Einspeisung in externe Systeme führen würde), bleibt das Wissen in einer eigenen, kontrollierten Datenbasis.
Der Ablauf funktioniert so:
- Retrievalphase: Wenn ein Nutzer eine Anfrage stellt, durchsucht das System zunächst die eigene, interne Wissensdatenbank und identifiziert die relevantesten Inhalte.
- Augmentierungsphase: Diese Inhalte werden der Anfrage beigefügt — als Kontext, nicht als Trainingsdaten.
- Generierungsphase: Das LLM — in unserem Fall über Azure OpenAI in der EU gehostet — generiert auf Basis dieses Kontexts eine präzise, natürlichsprachliche Antwort.
Das Ergebnis: Das Modell "sieht" die proprietären Daten nur im Moment der Anfrage, als temporären Kontext. Es speichert sie nicht, lernt nicht daraus und gibt sie nicht weiter. Die Wissensdatenbank selbst bleibt vollständig unter der Kontrolle des Kunden.
Agentenarchitektur: Intelligente Orchestrierung für komplexe Konversationen
Für anspruchsvollere Anwendungsfälle — etwa wenn Nutzer mehrschrittige Dialoge führen, unterschiedliche Recherchepfade einschlagen oder dynamisch zwischen verschiedenen Inhaltstypen wechseln — reicht ein einfacher RAG-Prozess nicht aus.
In unserem Projekt haben wir deshalb eine Orchestrierungsebene eingeführt: einen KI-Agenten, der auf Basis des bisherigen Gesprächsverlaufs entscheidet, welcher RAG-Prozess als nächstes aufgerufen wird. Der Agent wählt also situativ, ob zum Beispiel eine Breitsuche über alle verfügbaren Inhalte sinnvoll ist, ob ein spezifisches Dokument im Detail besprochen werden soll oder ob ähnliche Inhalte gesucht werden.
Diese Agentenarchitektur erhöht die Qualität und Relevanz der Antworten erheblich — ohne die Datenschutzgrenzen zu verschieben. Denn auch der Agent selbst läuft auf der EU-Infrastruktur, kommuniziert ausschließlich mit den eigenen Systemen und übergibt keine Rohdaten an externe Dienste.
DSGVO-Konformität ist Architektur, nicht Beiwerk
Eine häufige Fehlannahme ist, dass Datenschutz nachträglich "hinzugefügt" werden kann — etwa durch Anonymisierung von Anfragen oder durch das Einholen entsprechender Einwilligungen. In der Praxis zeigt sich: DSGVO-konforme KI beginnt mit der Architekturentscheidung, nicht mit der Rechtsabteilung.
Folgende Prinzipien haben sich in unserem Projekt als leitend bewährt:
1. Privacy by Design
Die DSGVO fordert in Art. 25 explizit, dass Datenschutz von Beginn an in die Systemgestaltung einfließt. Das bedeutet konkret: Welche Daten werden überhaupt verarbeitet? Wo landen sie? Wie lange werden sie gespeichert? Diese Fragen müssen schon im Konzept geklärt sein — nicht nach dem Launch.
2. Datenminimierung
Nicht alle Daten, die für ein KI-System theoretisch nützlich wären, müssen auch verarbeitet werden. Im Gegenteil: Je weniger personenbezogene oder sensible Daten ins System fließen, desto geringer ist das Risiko und desto einfacher die Compliance. In unserem Projekt wurden konsequent nur die Inhalte in die Wissensdatenbank überführt, die für den Anwendungsfall notwendig waren.
3. Klare Verantwortlichkeiten
Wer ist Verantwortlicher, wer Auftragsverarbeiter? Diese Frage ist bei KI-Systemen besonders relevant, da häufig mehrere Parteien involviert sind: der Entwicklungsdienstleister, der Cloud-Anbieter, der Kunde. Ein sauber aufgesetztes AVV-Konstrukt schafft Klarheit und schützt alle Beteiligten.
4. Auditierbarkeit
Ein gutes KI-System lässt sich nachvollziehen. Das gilt sowohl technisch — durch Logging und Monitoring — als auch inhaltlich: Auf welcher Datenbasis wurde eine Antwort generiert? Das ist nicht nur für interne Qualitätssicherung relevant, sondern auch für die Auskunftspflichten nach DSGVO.
5. Keine Drittlandübermittlung ohne Grundlage
Daten dürfen grundsätzlich nur in Länder außerhalb der EU übermittelt werden, wenn eine angemessene Schutzgrundlage existiert. Die sicherste Lösung: EU-Hosting von Anfang an. Keine Ausnahmen, keine Hoffnung auf noch zu schließende Standardvertragsklauseln.
Was Entscheider jetzt tun können
Wenn Sie als CTO, Datenschutzbeauftragter oder Geschäftsführer gerade evaluieren, wie KI in Ihrem Unternehmen eingesetzt werden kann, sind das die wichtigsten Fragen, die Sie sich stellen sollten:
Welche Daten werden verarbeitet? Sind es rein interne, nicht-personenbezogene Dokumente? Oder kommen Nutzer-, Mitarbeiter- oder Kundendaten hinzu? Die Antwort bestimmt das Datenschutzniveau, das Sie einhalten müssen.
Wo werden die Daten verarbeitet? Cloud ist nicht gleich Cloud. EU-zertifizierte Infrastruktur mit klaren AVV-Verträgen ist der Goldstandard. Prüfen Sie nicht nur, wo der Anbieter seinen Hauptsitz hat, sondern wo die Daten tatsächlich verarbeitet und gespeichert werden.
Werden Ihre Daten für Modelltraining verwendet? Das ist keine selbstverständliche Ablehnung — sie muss aktiv eingerichtet und vertraglich abgesichert sein. Fragen Sie nach, fordern Sie schriftliche Zusagen.
Ist Ihre KI-Architektur auditierbar? Können Sie im Zweifelsfall nachweisen, auf welcher Grundlage Entscheidungen oder Antworten generiert wurden? Das ist nicht nur für Datenschutzbehörden relevant, sondern auch für Ihr eigenes Qualitätsmanagement.
Fazit: Datenschutz und KI-Exzellenz schließen sich nicht aus
Die gute Nachricht ist: Es ist möglich, leistungsstarke KI-Systeme zu bauen, die sowohl technologisch auf dem neuesten Stand sind als auch den Anforderungen der DSGVO vollständig entsprechen. Der Schlüssel liegt in den richtigen Architekturentscheidungen — und in einem Entwicklungspartner, der beide Seiten versteht: die technologischen Möglichkeiten und die regulatorischen Anforderungen.
Wir haben in unserem Kundenprojekt gezeigt, dass RAG-basierte KI-Agenten auf Azure OpenAI mit EU-Hosting eine tragfähige, skalierbare und compliant-fähige Grundlage für Enterprise-KI darstellen. Proprietäre Daten bleiben unter Kontrolle, kein Datenabfluss zu OpenAI findet statt, und der gesamte Betrieb erfolgt innerhalb der EU.
Wenn Sie ähnliche Anforderungen haben und überlegen, wie ein DSGVO-konformes KI-System für Ihre Organisation aussehen könnte — sprechen Sie uns an. Wir helfen Ihnen, die richtigen Fragen zu stellen, bevor die falschen Entscheidungen getroffen werden.
Über Hybrid Heroes
Hybrid Heroes entwickelt seit 2015 hoch interaktive Apps und digitale Produkte für Konzerne, Mittelstand, Universitäten und Startups. Seit 2024 beraten und entwickeln wir KI-gestützte Anwendungen — mit Fokus auf technologische Exzellenz, nutzerzentriertes Design und regulatorische Sorgfalt.