(1/3) Ein Jahr ChatGPT: Woher kommt der KI-Hype?

Ein Jahr Chat GPT. Zu diesem Anlass bringen wir eine 3-teilige KI-Beitragsreihe zum Thema Künstliche Intelligenz (KI) heraus. In dieser Beitragsreihe wollen wir Ihnen einen Einblick in die Hintergründe von Chat GPT und KI geben. Im ersten Teil unserer Reihe fragen wir uns: Wie funktioniert die KI? Wie wird sie trainiert und aktualisiert? Welche politischen und rechtlichen Herausforderungen gibt es? 

Teil 1 • Teil 2 • Teil 3


Seit der Veröffentlichung von ChatGPT im November 2022 hat das Thema der künstlichen Intelligenz ein ganz neues Tempo aufgenommen. Erstmals zeigte sich ein computer-generierter Chat in der Lage, überraschend menschliche und sachbezogen-informative Antworten geben zu können. Viel mehr noch: Er verstand, was von ihm verlangt wurde und erledigte die Aufgabe mitunter besser, als es sich der Mensch vor dem Endgerät zutraute. Wo kommt diese Technologie her?


⁎⁎⁎

⁎⁎⁎

Eigentlich ging der Hype in einigen Kreisen schon etwas vor ChatGPT los: Mit der Bilderzeugungs-KI “Dall-E” Bildern (gesprochen “Dali”, wie der bekannte spanische Maler), entstanden gänzlich neue Grafiken, rein basierend auf der Eingabe per Text. Beide Produkte stammen von der Firma OpenAI, die eine wechselvolle Geschichte hinter sich hat. Im Bewusstsein, welche Möglichkeiten entstehen und vor allem welche Macht KI haben kann, wurde die Firma als non-profit Organisation gegründet mit der festen Absicht, niemals ein florierendes Geschäftsmodell zu entwickeln und eine Marktdominanz zu erreichen.


Einige Zeit später verwarf man sich bereits mit einigen Gründern, darunter Elon Musk (der dann vehement vor der KI warnte und nun doch an einer eigenen arbeitet). Mittlerweile steht das Unternehmen Microsoft nach einer Milliarden-Förderung an OpenAI dem Unternehmen rund um Gründer Sam Altman derart nahe, dass der Windows-Konzern aus Seattle mittlerweile sein gesamtes Geschäftsmodell auf die Möglichkeiten von OpenAI ausrichtet – womit aus Sicht vieler der non-profit Gedanke endgültig ad acta gelegt wurde.

⁎⁎⁎


Jetzt keinen Artikel der Woche mehr verpassen und ins PolisiN-Update eintragen:


⁎⁎⁎

Wat isn KI? Da stelle ma uns mal janz dumm und sagen…


Der Begriff KI (Künstliche Intelligenz) ist kein geschützter Begriff und hat keine einheitliche Definition. Im Grunde muss er seit Jahrzehnten dafür herhalten, wenn vor allem auf einem Bildschirm “Dinge” passieren, die ein Mensch nicht direkt selbst steuert. So bezeichnen Videospieler die Computergegner schon sehr viel länger als KI. Auch im Bereich des autonomen Fahrens kommt der Begriff seit vielen Jahren vor. Die tagesaktuellen Debatten richten sich dabei vor allem an eine bestimmte Form: Den sogenannten Large Language Models, kurz LLM.


LLMs basieren auf einem mehrstufigen Training von Wortsammlungen. Angefangen hat es mit dem Einspeisen von ganz gewöhnlichen Wörterbüchern. Dann wurden Unmengen an realen Texten ergänzt - darüber sollte das LLM lernen, welches Wort am häufigsten vor und nach einem anderen Wort kommt. Ähnlich machen es schon seit Jahren bspw. Smartphone-Tastaturen, indem sie bspw. nach “Ich” das Wort “komme” und dann “später” anbieten, wenn Nutzende bspw. sich wohl besonders oft verspäten und dies immer wieder zuvor selbst eingetippt und damit der Tastatur „beigebracht“ haben. Probieren Sie gerne mal aus, was Ihre Tastatur Ihnen immer als erstes anbietet.


Allerdings drehen sich die Vorschläge der Tastaturen bald im Kreis. Denn LLMs gehen einen Schritt weiter: Sie erkennen den gesamten Text zuvor, nicht nur das letzte Wort. Die sogenannte “Attention”-Funktion (engl. “Aufmerksamkeit”) versteht, was Schlüsselworte und was Kernaussagen sind. Dabei ist eines ganz wichtig: LLMs denken nicht, LLMs rechnen. Mittels Wahrscheinlichkeitsberechnung ermitteln sie, was das nächste Wort ist. Wenn mir ChatGPT also ein Rezept verrät, weiß es nur besonders schnell und gut zu errechnen, dass auf das Wort “Wasser” die Worte “im”, “Kochtopf” “zum”, “kochen” und “bringen” kommen. Deswegen ist auch zu beobachten, wie LLMs ihre Antworten eher im Staccato anzeigen.


Dabei versteht das LLM aber zu keinem Zeitpunkt, was “Wasser” ist. Ein LLM hat kein Verständnis von der Welt, es versteht nur, dass es an die Stelle im Text gehört. Das weiß es, weil im letzten Schritt des Trainings wiederum Menschen das LLM bewertet haben. Das erklärt auch die Abkürzung “GPT”, denn diese steht für “Generative Pre-trained Transformer” - also ein im Vorfeld trainiertes System, welches seine Antworten auf Basis von Eingaben transformiert. Dabei bekommen Menschen im Schnitt vier mögliche Antworten eines LLMs gezeigt und gewichten diese von der aus ihrer Sicht besten zur schlechtesten Variante. Es geht also nicht nur um richtig oder falsch, sondern auch die Nuancen dazwischen. Das ist es, was es nach abertausenden Stunden von Training so menschlich wirken lässt.

⁎⁎⁎

Welche LLMs gibt es und welche ist das Beste?


Das dynamische ist, dass LLMs exponentiell lernen. Das bedeutet, dass sich ihre Qualität nach aktueller Kenntnis in einem sich stets steigernden Tempo verbessert. Aktuell basiert ChatGPT – was eigentlich nur als Test gedacht war, nun aber aufgrund seiner Beliebtheit weiter ausgebaut wird – auf der Version GPT 4 sowie als Option zum Vorgänger GPT 3.5, während bereits erste Testversionen von GPT 5 im Umlauf sind. Die Versionssprünge dabei sind eher willkürlich und beruhen vor allem auf größere Entwicklungssprünge, wie zum Beispiel im Erkennen von Bildern, die hochgeladen werden können, zusätzlich zu den Texteingaben.


Auf GPT-Versionen basieren auch die allermeisten anderen Anbieter wie der “Bing Chat” von Microsoft und auch viele der wohl täglich über 200 neuen KI-StartUps. Es gibt aber auch andere LLMs, etwa LLaMa von Meta (zuvor Facebook) oder LaMDA bzw. PaLM von Google, deren kommerzielle Version aus Marketinggründen zu “Google Bard” umgetauft wurden. Das Bildprogramm “Canva” nutzt mit seiner KI-Funktion “Magic Switch” ebenso die Google-LLMs.


Die meisten Bild-KIs nutzen allerdings, manchmal auch nur ergänzend, ein sogenanntes “Deep Learning-Modell" namens “Stable Diffusion”, bspw. der aktuelle Platzhirsch „Midjourney“ aber auch “Adobe Firefly”. Ein Diffusionsmodell lernt, anders als LLMs, indem es einen Vorwärts- und einen Rückwärtsprozess durchläuft. Im Vorwärtsprozess wird ein Trainingsbild schrittweise mit Rauschen versehen, bis es zu einem reinen Rauschenbild wird. Im Rückwärtsprozess wird das Rauschenbild schrittweise entrauscht, bis es zu einem klaren Bild wird. Dabei verwendet das Modell, wie auch LLMs, einen textlichen Befehl, einen sogenannten “Prompt” als Leitfaden für die gewünschte Bildausgabe. Das Modell wird trainiert, indem es die Wahrscheinlichkeit maximiert, dass das entrauschte Bild dem ursprünglichen Trainingsbild entspricht. Das Modell lernt also, wie es Rauschen aus einem Bild entfernen und ein Bild aus einem Text erzeugen kann.


Das Diffusionsmodell wird, anders als LLMs, nicht direkt von Menschen trainiert, indem es ein Ranking für die Qualität der Bilder erhält. Das Modell wird stattdessen mit einem großen Datensatz von Bildern und Texten trainiert, die miteinander korrespondieren. Das bedeutet jedoch nicht, dass das Modell keine menschliche Rückmeldung benötigt oder erhält. Die Nutzenden können, etwa bei Adobe Firefly, ihre Meinung über die Qualität und Relevanz der Bilder äußern, indem sie Feedback-Formulare ausfüllen oder an Umfragen teilnehmen. Diese Rückmeldungen können dazu beitragen, das Modell zu verbessern oder anzupassen, indem z. B. die Parameter des Modells verändert oder neue Daten hinzugefügt werden.

⁎⁎⁎

Der ChatGPT“-Schock dreht eine Branche auf den Kopf


Der „ChatGPT“-Schock im Frühjahr 2023, als sich das Tool seinen Weg in die allgemeine Aufmerksamkeit bahnte und klar wurde, dass es wohl zu mehr als nur zum Üben genutzt werden wurde, äußerte sich aber auch in der Annahme, die seit ca. 20 Jahren stabilisierten Verhältnisse in der digitalen Marktdominanz von Anbietern auf den Kopf zu stellen. So war bei Google zeitweise intern “Code Red” ausgerufen, nachdem das Gesamtunternehmen seine Geschäftsmodelle dadurch gefährdet sah, als Microsoft seine jahrzehntelang erfolglose Bing-Suche mit GPT verknüpfte und einen ChatGPT ähnlichen „Bing Chat“ einführte.


Zudem sah sich Google ersten Kritiken gegenüber, dass das eigene LLM “Bard” nicht in der selben Qualität in der Lage sei, Antworten zu liefern. Aufgrund des exponentiellen Wachstums von KI drohte Google hier dauerhaft den Rang abgelaufen zu bekommen. Auch hat bis heute niemand einen verlässlichen Weg gefunden, Ergebnisse von LLM mit Werbung zu kombinieren – die Haupteinnahmequelle der Google-Suche. Gleichzeitig konnte Google eigentlich gar nicht zuerst seine KI veröffentlichen: Während die unzähligen Patzer von ChatGPT weltweit zu unzähligen Memes und Pointen von Stand-Up-Comedians und Late Night Talkern führten, wäre eine ebenso unzuverlässige Google-Suche derart rufschädigend, dass sich Google in einem Dilemma befand.


Das ist nämlich Teil des Problems: Die meisten LLMs geben ihre Antworten mit einer dermaßen überzeugten Aussagekraft, dass bei fehlender eigener Kenntnis leicht auch vollkommen falsche Aussagen geglaubt werden (was auch als “ KI-Halluzination” bezeichnet wird). Nochmal: Ein LLM hat kein eigenes Konzept von der realen Welt, es rechnet schlichtweg vor sich hin. Der Bing Chat versucht dem mittlerweile zu begegnen, indem es einem sowohl drei Optionen anbietet, wie „kreativ“ das LLM werden darf (und es im Zweifel lieber sagt „das weiß ich nicht“ statt sich etwas zusammenzureimen) und zudem seine Quellen nennt, die zudem anklickbar und somit überprüfbar sind – ChatGPT macht das nicht in allen Fällen und Google Bard (noch) gar nicht.


Zudem ist das mit dem exponentiellen Vorsprung so eine Sache: So arbeitet OpenAI ebenso daran, dass GPT keinen Schaden anrichten kann, wie zum Beispiel durch das Erstellen von Anleitungen für Waffen. Viele berichten, dass seit einiger Zeit die Antworten weniger zuverlässig oder genau wären, mitunter nahm die Qualität von einzelnen Antworten (wohl zwischenzeitlich) von 98% auf 3% drastisch ab. Welches LLM also letztlich besonders verantwortungsvoll und dabei dennoch möglichst faktenbasiert „richtig“ antwortet, wird sich noch zeigen.


Ein Schutz, dass KI niemals für unerwünschte Themen genutzt wird, gibt es überdies nicht, da die Technologie auch offline und damit selbst-gehostet genutzt werden kann. Allerdings schaffen dies heimische Endgeräte nur in einem sehr geringen Umfang, denn die dafür nötige Rechenleistung haben eigentlich nur große Rechenzentren.

⁎⁎⁎

Kosten, Datenschutz und Urheberrecht


Das führt uns zu den eigentlich und aktuell ziemlich verschleierten Kosten. Eine “Suchanfrage” bei LLMs kann das bis zu 100-fache an Strom kosten im Vergleich zu einer gewöhnlichen Anfrage bei bisherigen Suchmaschinen. Wer diese Kosten trägt, ist aktuell noch völlig offen. Zwar haben Modelle wie Midjourney oder ChatGPT ein mitunter mehrstufiges Bezahlmodell, allerdings sind die Bing Suche und Google Bard noch vollkommen kostenfrei. Hier zahlen die großen Anbieter aus den USA die Kosten gerade aus der Portokasse, wohl um sich im Wettbewerb zunächst die beste Marktposition zu erkämpfen. Es ist zu erwarten, dass sich der Markt aufteilt, wie schon die sozialen Medien: Während es Services gibt, wo wir mit unseren Daten „bezahlen“, werden andere auf monetäre Bezahlmodelle setzen. Letztere werden sich dabei scharf nach Datenvolumen staffeln, ähnlich wie bei Cloud-Speicher.


Aktuell überwiegt aber das Sammeln von Daten. Denn mit jedem Eintrag – man spricht hier wie gesagt von “Prompts” – trainieren nun auch wir die LLMs. Das führt immer wieder zu Datenschutzbedenken. Es zeigt sich, dass Menschen sehr viel mehr Intimes über sich oder bspw. ihre Firma eintragen und dadurch fast noch mehr Einblicke über ihr Seelenleben und ihre Ziele preisgeben als zuvor in den sozialen Medien und davor in die Suchmaschinen. Große Unternehmen untersagten daraufhin sehr schnell bspw. die Nutzung von ChatGPT. Microsoft wiederum reagierte mit dem “Bing Chat Enterprise”, angeknüpft an ihr M365-Abomodell für Unternehmen, das nach einigen Angaben genau nicht “nach Hause telefoniert”.


Aber auch das Urheberrecht meldet sich zu Wort. Da viele LLMs nachweislich urheberrechtlich-geschützte Texte aus der Literatur, Journalismus oder Wissenschaften kennen, aber auch Videos und Musiksongs, klagen nun einige über die nicht-genehmigte Verwendung und bestehen zudem teilweise auf Lizenzgebühren. Auch steht eine fast schon philosophische Frage im Raum: Wo hört bei erzeugter Kunst die Inspiration aufhört und wo fängt das Kopieren an? KI-Verfechter argumentieren dabei, dass Künstler:innen sich schon immer gegenseitig inspiriert haben und nun inspiriere sich KI eben durch die Werke anderer. Aber wenn ein Song auch immer mehr überzeugend echt an die Lieder der Original-Interpreten herankommt, weil es deren Lebenswerk “studiert” hat und es nachweislich Nutzenden auf Spotify reichlich egal ist, ob der “neue Song” von Jay Z tatsächlich nur KI erzeugt ist, dreht es ganze Branchen auf den Kopf.

⁎⁎⁎

Politik und Regularien für die KI


Es wird daher noch viele Entscheidungen der Rechtsprechung und womöglich auch der Politik geben, denn wie so oft preschen vor allem amerikanische Unternehmen erst einmal vor und ordnen dann eher im Nachgang. So sieht der deutsche Digitalminister es sehr kritisch, dass ausgerechnet jetzt OpenAI nach gesetzlichen Regulierungen ruft. Hintergrund ist die Tatsache, wie einst bei der Einführung der DSGVO gefürchteten Bürokratie, dass große Firmen diese Regularien spielend bewältigt bekommen, es hingegen kleine Unternehmen aber vor große Herausforderungen stellen kann. Denn mit zu viel Regulierungen zum jetzigen Zeitpunkt würden kleinere deutsche Firmen womöglich zu früh vor dem Aus stehen – und die EU damit erneut in eine Abhängigkeit von Digitaldiensten aus dem Silicon Valley geraten.


China und andere autoritärere Staaten spielen derweil mit dem Gedanken, die Nutzung von KI ihren Bürger:innen im Einzelfall zu erlauben oder zu verbieten. Die Nutzung solle in jedem Falle gekennzeichnet werden. Wie dies allerdings erreicht werden soll, ist vollkommen unbeantwortet. Einige Firmen haben dazu eine bestimmte Form des digitalen Wasserzeichens erfunden. Es droht aber eher, dass wie bei der Kritik am Bundestrojaner echte Cyberkriminelle sich bestens zu verschleiern wissen, während „der kleine Mann“ mit vergleichsweisen geringen Verstößen ins Visier der Ermittler gerät. Inwieweit das also eher weite Teile der Bevölkerung an die Kantare nehmen soll, statt echte Kriminalität zu verhindern, bleibt offen.

⁎⁎⁎

⁎⁎⁎

KOMMEN WIR INS GESPRÄCH

Jetzt Wunschtermin sichern!

Share by: