Der Spagat zwischen dem Bedarf an KI- und Big-Data-Innovationen und dem Schutz der Privatsphäre ist eine zentrale Herausforderung unserer Zeit. Das Start-up MOSTLY AI hat eine bahnbrechende Innovation auf den Weg gebracht und entwickelt eine Software die persönliche Datensätze in künstliche umwandeln kann – und das unter Gewährleistung voller Anonymität.

Datenschutz und die Nutzung personenbezogener Daten müssen kein Widerspruch sein, wenn sie nur richtig aufbereitet werden. Wie das geht, zeigt das Wiener Start-up MOSTLY AI. Mithilfe künstlicher Intelligenz kann MOSTLY AI reale Datensätze in künstliche umwandeln. „Die synthetischen Datensätze von uns sehen genauso echt aus wie die Original-Kundendaten eines Unternehmens, mit genauso vielen Details. Aber sie sind von Grund auf neu erzeugt und haben keinerlei Bezug zu den echten Kunden“, erläutert Chief Trust Officer Alexandra Ebert.

Chief Trust Officer Alexandra Ebert © AI Mostly

Bei der Datensynthetisierung handelt es sich dabei um eine Verfahrensweise, mit der ein Algorithmus eine künstliche Repräsentation eines Originaldatensatzes erstellt. In diesem Verfahren werden personenbezogene Daten nicht nur lediglich um Identifikationsmerkmale bereinigt – wie es bei der Anonymisierung der Fall ist –, sondern es wird ein gänzlich neuer Datensatz erzeugt, der auf dem trainierten Verständnis eines Originaldatensatzes basiert. Dieser neue Datensatz besteht aus synthetischen Einheiten, welche keinen Personenbezug mehr aufweisen, da sie „neu geschaffen“ wurden.

MOSTLY AI leistete Pionierarbeit bei der Datensynthese für strukturierte, tabellarische Daten. Heute ist MOSTLY AI der Experte für die Generierung synthetischer Verhaltens- und Transaktionsdaten. Vor allem im Bank- und Versicherungswesen, wo strenge Datenschutzauflagen herrschen, werden synthetische Daten oft eingesetzt.

Syntheseprozess kann ursprüngliche Originaldaten verbessern

Synthetische Datensätze von guter Qualität können bei einer Vielzahl von Aufgaben auf eine datenschutzfreundliche und flexible Weise verwendet werden. Das Besondere ist, dass keiner der synthetischen Datenpunkte zu einem Datenpunkt im ursprünglichen Datensatz zurückverfolgt werden kann. Dies stellt den entscheidenden Vorteil für Unternehmen dar, denn wenn Unternehmen personenbezogene Daten verarbeiten, müssen sie laut DSGVO zahlreiche Vorschriften erfüllen. Die DSGVO regelt aber nur diese personenbezogenen Daten, weswegen diese Vorschrift keine Anwendung mehr findet, sobald diese synthetisiert werden. Aufgrund dieser Datenverarbeitungstechnologie können Unternehmen diese frei verarbeiten, analysieren und frei verarbeiten, denn die Privatsphäre der EU-Bürger:innen ist vollständig geschützt. Darüber hinaus kann der Syntheseprozess dazu verwendet werden, die Originaldaten zu verbessern: eingebettete Verzerrungen zu korrigieren, seltene Ereignisse zu erhöhen oder Randfälle zu erzeugen, die in den Originaldaten nicht vorhanden sind.

Doch nicht alle synthetischen Daten sind gleich. Die modernen Generatoren synthetischer Daten wird durch hochentwickelte KI-Algorithmen erzeugt. Die kategorieführenden “deep neural network”-Modelle von MOSTLY AI extrahieren Muster aus einem bereitgestellten Datensatz. Nach dem Training mit echten Daten kann die Plattform völlig neue synthetische Daten erzeugen. Diese Daten ahmen die Eigenschaften der Originaldaten so weit nach, dass sie statistisch von diesen kaum noch zu unterscheiden sind. Dadurch bleibt der Nutzen der Daten erhalten. Denn eine Analyse auf Originaldaten versus synthetischen Daten liefert dieselben Ergebnisse/Erkenntnisse. Da sie jedoch keine direkte Beziehung zu den tatsächlichen Daten haben, ist die Verwendung synthetischer Daten absolut sicher.

Synthetische Daten sind besser als reale Daten

„Datensynthetisierung“ nennt sich dieser Vorgang. Der Vorteil: Wie oben beschrieben ist durch die Anonymisierung eine Zuordnung zu einer real existierenden Person sowohl theoretisch als auch praktisch nicht mehr möglich , zugleich bleiben die spezifischen Merkmale und damit die Aussagekraft der Daten erhalten. Zudem ist die intelligente Software selbstlernend und kann jegliche (strukturierten/tabellarischen) Datensätze angepasst einspeisen und anonymisieren. Dieser neue Ansatz soll die Datenschutzprobleme unserer Zeit lösen. „Security Probleme und Datenschutzpannen in Unternehmen führen meist auf menschliches Versagen zurück“, so Frau Ebert. Die Software von MOSTLY AI knüpft an die Herausforderung der Datenverarbeitung an und möchte Unternehmen dabei helfen, die Datenschätze wertstiftend, das bedeutet frei flexibel und innovativ, und im Einklang mit den hohen Datenschutzstandard der von der EU verordneten DSGVO, zu nutzen. „Die Erzeugung von mit KI generierten synthetischen Daten kann die Privatsphäre der Personen optimal schützen und kann auch unternehmensübergreifend (oder in der Zusammenarbeit mit Forschern) für sicheren Datenaustausch sorgen“, erklärt Chief Trust Officer Alexandra Ebert. Denn synthetische Daten sind Daten, die nicht aus einer echten Quelle stammen, sondern künstlich durch Programme erzeugt werden. Aus diesem Grund können synthetische Daten auch für einen sicheren Wissenstransfer zwischen den Unternehmen sorgen.

Unternehmen können Datensätze erweitern und fair gestalten

Innovationen können durch freie Datennutzung im Einklang mit der DSGVO so viel schneller vorangetrieben werden. Denn die synthetischen Daten können nicht nur für das Training von Machine Learning oder Softwareprogrammierung eingesetzt werden, sondern auch für andere Unternehmen freigegeben werden, um KI-Initiativen zu beschleunigen. „Sie eliminieren Bedenken hinsichtlich des Datenschutzes, sie können modifiziert und bearbeitet werden und sie ermöglichen es Unternehmen, ihre Datensätze zu erweitern oder auch fair zu gestalten,“ erklärt Alexandra Ebert.

Responsible AI und Fair Synthetic Data

Doch synthetische Daten spielen nicht nur eine Rolle im Datenschutz. Sie helfen auch bei Fairness und Responsible AI. Doch was ist eigentlich Responsible AI? Mit dem Begriff Responsible AI werden Bestrebungen zusammengefasst, Systeme künstlicher Intelligenz in verantwortungsvoller Weise zu entwickeln, respektive einzusetzen. Das Ziel dahinter ist, dass wir Menschen KI Algorithmen vertrauen können. Erreicht werden soll dies beispielsweise durch Erklärbarkeit (Explainable AI), also dass in nachvollziehbarer Weise erläutert werden kann, wie ein Algorithmus zu einer Entscheidung gekommen ist. Weitere Eckpfeiler von Responsible AI sind der Datenschutz, Fairness, Verlässlichkeit, Sicherheit oder Human-oversight. Synthetische Daten können hier in verschiedensten Bereichen helfen. Beispielsweise, indem sie Zertifizierung und externe Überprüfungen von AI Fairness möglich machen. Denn um diese durchzuführen brauchen Prüfer nicht nur Zugang zum KI-Modell sondern auch zu repräsentativen, anonymen Daten. Ebenso interessant ist das Konzept “Fair Synthetic Data”. “Normalerweise versucht man mit synthetischen Daten so nah am Original dran zu sein, wie nur irgendwie möglich. Bei Fair Synthetic Data geht es darum historische Ungleichheiten in den Originaldaten auszugleichen, beispielsweise wie viele Frauen in Managementpositionen arbeiten”, erläutert Ebert. Das kann dabei helfen, dass künftige Algorithmen fairer entscheiden. Etwa, indem sie dafür sorgen, dass auch genug Lebensläufe von Frauen an die Personalabteilung geschickt werden, wenn eine neue Managementposition ausgeschrieben ist.

Was ist eigentlich Responsible AI?

Mit dem Begriff der Responsible AI werden Bestrebungen zusammengefasst, Systeme künstlicher Intelligenz in verantwortungsvoller Weise zu entwickeln, respektive in Unternehmen einzusetzen und Algorithmen so zu gestalten, dass sie „responsible“ und „human-centered“ sind. Angesprochen werden damit u.a. Erklärbarkeit (Explainable AI), Vertrauenswürdigkeit (Trustworthy AI), Datenschutz, Verlässlichkeit und Sicherheit. Der Ausdruck hat sich allmählich seit der Jahrtausendwende und dann verstärkt ab ca. 2010 verbreitet, um das Problem der Undurchsichtigkeit der Verwendung von Daten durch die Unternehmen proaktiv in Angriff zu nehmen.

Das Daten-Start-up Mostly AI mit Sitz in Wien hat sich erst kürzlich in einer Finanzierungsrunde 25 Mio. US-Dollar von internationalen Investoren geholt. Das Unternehmen will mit dem Geld das Wachstum in Europa und den USA vorantreiben und sein Team weltweit ausbauen.

(14.04.2022, Sandra Beck)

Über Alexandra Ebert

Alexandra kam 2019 zu MOSTLY AI und übernahm 2020 die Rolle des Chief Trust Officer, um das öffentliche Vertrauen in synthetische Daten weiter zu stärken. Sie arbeitet mit der Datenschutzgemeinschaft, den Regulierungsbehörden, den Medien und den Kunden zusammen. Alexandra spricht regelmäßig auf internationalen Konferenzen und beschäftigt sich mit politischen Fragen im aufstrebenden Bereich der synthetischen Daten und ethischen KI. Darüber hinaus ist sie Gastgeberin des Data Democratization Podcast von MOSTLY AI. Bevor sie zum Unternehmen kam, untersuchte sie die Auswirkungen der Datenschutzgrundverordnung (GDPR) auf den Einsatz von KI in Europa und absolvierte einen Master in digitalem Marketing. Alexandra ist eine begeisterte Seiltänzerin und Boulderin, hat eine große Leidenschaft für Lebensmittelwissenschaften und ist ein lebhaftes Mitglied verschiedener internationaler Toastmaster-Rhetorik-Clubs.

Über MOSTLY AI

Das Team ist zu einem etablierten Unternehmen mit fast 40 Mitarbeitern angewachsen, das Kunden auf der ganzen Welt betreut. Unterstützt von führenden österreichischen und deutschen VCs, ist MOSTLY AI auf der Mission, die Art und Weise zu revolutionieren, wie Unternehmen über Daten denken und mit ihnen arbeiten. Das Unternehmen generiert nicht nur hochwertige synthetische Daten, sondern schafft ein völlig neues Paradigma: Smart Data.

MOSTLY AI wurde 2017 in Wien, Österreich, von Michael Platzer, Klaudius Kalcher und Roland Boubela, drei renommierten Datenwissenschaftlern, gegründet.

Sie erkannten früh das Potenzial der Nutzung von KI zur Generierung strukturierter Geschäftsdaten und zur Erstellung dessen, was wir heute synthetische Daten nennen. Damals war dies nicht viel mehr als eine Idee. Es war unklar, wie der Prozess funktionieren würde, da es in diesem Bereich noch keine Forschung oder Wettbewerber gab.

Die Inspiration kam aus dem Bereich der unstrukturierten Daten, wo die ersten künstlich erzeugten synthetischen Bilder produziert wurden. Die drei Mitbegründer erlebten die Herausforderungen, mit denen Unternehmen bei der herkömmlichen Datenanonymisierung konfrontiert waren. Diese Herausforderungen wurden mit der Einführung der GDPR in Europa im Jahr 2018 noch größer. MOTSLY AI veröffentlichte zur gleichen Zeit die erste Version seiner Plattform für synthetische Daten und bewies der Welt, dass synthetische Daten ein enormes Potenzial haben.