Was macht KI mit deinen Daten?

Und welche Daten solltest du besser nicht eingeben!

Was macht KI mit deinen Daten?

Was macht eigentlich eine KI (ich nutze diesen Begriff mal ganz inflationär für Large Language Models) mit den Daten, die man eingibt? Speichert sie diese? Werden diese am Ende durch Dritte genutzt? Was bedeutet es für Daten, wenn sie durch eine KI verarbeitet werden? Wie verändern Daten den Output einer KI? Und was ist eigentlich der Sinn des Lebens?

Viele Fragen und zahlreiche Antworten erwarten euch. Ich löse gleich den ersten Punkt: Der Sinn des Lebens ist es natürlich, meinen Newsletter zu lesen, plus X. Entscheidet ihr, was X ist. 🤷🏻‍♂️

Wie verarbeitet eine KI Daten?

Wir alle wissen wohl nun, dass die bekannten AIs mit einer riesigen Menge an Daten aus dem Internet gefüttert wurden. Die Daten kommen nicht nur aus Büchern und Artikeln, sondern auch aus riesigen Foren wie Reddit oder aus sozialen Medien wie Twitter. 

Somit könnten wir davon ausgehen, dass eine KI wie GPT-4 theoretisch in der Lage sein müsste, auch jegliche Frage wie Google beantworten zu können. Stelle ich also die Frage, wer denn Steve Jobs ist, dann bekomme ich eine gute Antwort. Stelle ich jedoch die Frage nach meiner Person, welche nur in geringerem Maße unbekannter ist, dann weiß die LLM nicht, wer ich bin (böse LLM😒). Google weiß es aber. (Feines Google. ☺️)

Okayes ChatGPT weiß wer Steve Jobs ist. Wer weiß das nicht 🥱
Gemeines ChatGPT behauptet mich nicht zu kennen…

Woran liegt das? Kurz gesagt: An der Gewichtung. Die vielen Milliarden Informationen, die eine KI verarbeitet, werden unterschiedlich gewichtet, so wie wir dies auch mit Informationen tun. Dabei ist die Gewichtung zum einen über eine Entscheidung möglich: „Das ist jetzt wichtig!“ (Funktioniert leider nicht so gut. Wir kennen das alle. �) und Wiederholung (das kennen wir auch alle und es funktioniert leider zu gut). Jeder Werbejingle jemals!) 

Das bedeutet für eine KI: Je öfter also der Begriff „Steve Jobs“ auftaucht, desto wichtiger wird seine Bedeutung im neuronalen Netz einer KI werden. Das geht so weit, dass bspw. der Username des sehr aktiven Reddit-Users „davidjl“ von GPT-4 als Wort in der englischen Sprache verstanden wurde. Dafür gibt es noch mehr Beispiele, die findet ihr hier

Was bedeutet dies nun für eure neuen Daten?

Wie wir gerade festgestellt haben, lernt die KI Daten durch Wiederholung oder direktes „Anlernen“. Auf diese Weise erkennt sie statistische Zusammenhänge und gibt ihre Daten aus. Eine KI ist keine Datenbank, die alle Datensätze immer wieder unverfälscht abrufen kann. Das soll sie ja auch nicht. Sie soll Texte verstehen und verarbeiten können, was eine Datenbank nicht kann.

Geben wir jetzt also einmalig Daten ein, werden diese wahrscheinlich einfach „vergessen“ oder, genauer gesagt, nicht beachtet. Natürlich können sie mit anderen bereits vorhandenen Daten matchen und sich somit wiederholen, doch je individueller sie sind, umso eher werden sie wohl vergessen. Achtung! Es ist natürlich immer möglich, dass ein Betreiber noch eine Datenbank dazwischengeschaltet hat und somit Daten gesondert abspeichert! 

Genauso ist das dann bei den LLMs

Ich frage mich, ob es denn auch möglich sein könnte, dass man in einer gezielten Aktion eine öffentliche KI beeinflussen könnte. Gerade im Bereich der Politik ist dies doch eine anzunehmende Gefahr, oder? Es ist unstreitig für politische Parteien von Vorteil, wenn die Frage, ob Zuwanderung Vorteile bringt, von einer großen KI in ihrem Sinne beantwortet wird. Ich denke, dass bereits diese Gefahr dazu führen wird, dass im Kern eine KI nicht frei durch allgemeine Eingaben beeinflusst werden kann. Das wäre ja wie, wenn ich den Programmcode eines Online-Spiels zu meinen Gunsten ändern könnte. 

Welche Daten dürft ihr denn nun eingeben?

Das ist eigentlich ganz einfach. Macht euch einfach bewusst, dass man bei der Nutzung eines Chatbots Daten an Dritte weitergibt und die Herrschaft über diese Daten komplett aufgibt. Es ist also etwas anderes, wenn ich einen Cloudspeicher wie Dropbox nutze, der meine Daten für mich speichern soll, als wenn ich diese bei kostenlosen Diensten wie der Googlesuche eingebe.

Einfach Gehirn anlassen und mitdenken…

Wer würde denn bei Google die eigenen Geschäftsgeheimnisse oder private Daten von Dritten eingeben? Damit ist eigentlich schon alles gesagt. Man kann nur Daten eingeben, über die man frei verfügen kann. Keine persönlichen Daten von Dritten, keine Geschäftsgeheimnisse und keine Daten, deren Verarbeitung einen Urheberrechtsverstoß bedeuten würde.

That’s it. 🤷🏻‍♂️