Künstliche Intelligenz im Aufwind: Wie generative KI funktioniert
Effektive Anwendung generativer KI
Um generative KI erfolgreich einzusetzen, ist es äußerst hilfreich, ein grundlegendes Verständnis der zugrunde liegenden Prozesse zu haben. Dies lässt sich mit dem Vergleich eines Führerscheins beim Autofahren beschreiben: Um ein Auto sicher zu steuern, ist es von Vorteil, über das Verständnis von Faktoren wie dem Bremsweg und anderen wichtigen Aspekten zu verfügen. Auf ähnliche Weise ermöglicht das Verständnis der Abläufe bei generativer KI die effiziente Erzielung von Ergebnissen.
Da die KI durch das Verwenden eines Large Language Models lediglich das menschliche Verhalten nachahmen kann, ist die KI nur eingeschränkt sozial intelligent. Im Vergleich sind Kinder schon früh in der Lage, Querbezüge und Vergleiche zu verstehen, wo hingegen die KI nicht versucht, den Vergleich zu verstehen, sondern die Informationslücke zu füllen. Man könnte sagen, dass für die KI einfache Dinge schwer und für uns schwere Dinge einfach sind. [1]
Desto genauer die Eingabe, desto präziser die Antwort. Die Eingabe erfolgt durch sogenannte Prompts. Der englische Begriff „prompt“ steht für die Aufforderung, die Nutzer der jeweiligen Software per Befehlszeile kommunizieren können, meist in der Form von geschriebenem Text.[2]
Ein Prompt, die Welt zu verändern
Wenn neue Inhalte von künstlicher Intelligenz erstellt werden, spricht man von generativer KI. Das können Texte und Bilder, aber auch Musik oder Stimmen sein.[3] Dazu beschreibt man per Chat-Dialogfeld, was die KI erzeugen soll. Diese Beschreibung wird als „prompt“ bezeichnet. Die KI-Tools liefern Antworten auf beliebige Fragen, fassen Texte zusammen und generieren in kurzer Zeit zahlreiche Ideen. Je nach Anwendung können Geschichten, Programmcode oder auch Musikstücke entstehen. Generative KI nutzt einen fortgeschrittenen Algorithmus (Large Language Model), um die Muster und Beziehungen in einem Datensatz aus von Menschen erstellten Inhalten zu ermitteln. Anschließend werden anhand der erlernten Muster neue Inhalte generiert.
Um Prompts besser zu verstehen, kann man sich vorstellen, die Welt einer blinden Person zu beschreiben. Alles, was nicht an Informationen zur Verfügung ist, wird Zweifels erfunden. Dadurch entsteht manchmal Schwafelei/Halluzinieren. Bei zu vielen selbst erzeugten Informationen durch die KI im Kontext wird es schwer, genaue Antworten zu erhalten. In der Regel lassen sich viele Probleme mit der Ausgabe über genauere Informationen zur Aufgabe, der gewünschten Lösung oder durch Wiederholung der Prompts bewältigen.
Wie funktioniert textbasierte generative KI
Ein Large Language Model ist eine Art von Algorithmus der künstlichen Intelligenz, um große Datensätze zu analysieren. Erklären wir es anhand von ChatGPT, dem zurzeit meist genutzten auf einem Large Language Model basierendem Chatbot. Ein Large Language Model ist ein auf einem neuronalen Netzwerk basierendes Modell, das auf großen Mengen von Textdaten trainiert wird, um menschliche Sprache zu verstehen und zu erzeugen.
Das Modell verwendet die Trainingsdaten, um die statistischen Muster und Beziehungen zwischen den Wörtern in der Sprache zu erlernen, und nutzt dann dieses Wissen, um die nachfolgenden Wörter, ein Wort nach dem anderen, vorherzusagen. Die Eingaben und Ausgaben des Modells sind nach Token geordnet. Token sind numerische Darstellungen von Wörtern, oder besser gesagt, von Teilen der Wörter. Für Token werden Zahlen und nicht Wörter verwendet, da sie effizienter verarbeitet werden können. GPT-3.5 wurde mit einem großen Teil von Internetdaten trainiert. Hierfür wurde das System von den Entwicklern mit Millionen von Texten, Büchern, Briefen, Artikeln, Wikipedia-Einträgen, aber auch ganzen literarischen Sammlungen wie zum Beispiel dem Gutenberg–Project und dem Oxford Poetry Corpus gefüttert.[4]
Das Modell wurde so trainiert, dass es das nächste Token aus einer Folge von Eingabe-Token vorhersagen kann. Es ist in der Lage, Text zu generieren, der grammatikalisch korrekt ist und ähnlich zu den Internetdaten ist, mit denen es trainiert wurde.
Abbildung 1: Zeigt wie Text von ChatGPT in einzelne Token aufgeteilt wird.
(Quelle: Harry Guinness. 2023. „How does ChatGPT work?“ Zugriff am 19/11/23 https://zapier.com/blog/how-does-chatgpt-work/)
Man konnte dem Modell beibringen, Aufgaben in natürlicher Sprache mithilfe sorgfältig ausgearbeiteter Textaufforderungen auszuführen. Dies ist der Ursprung des Bereiches "Prompt Engineering". Prompt Engineering beschreibt, wie textbasierte Eingaben über die Befehlszeile werden so gestaltet und optimiert, dass die künstliche Intelligenz bestmögliche Ergebnisse liefert.[5]
Man stelle sich GPT-3.5 als einen begabten Koch vor, welcher eine Vielzahl von Gerichten kochen kann, aber manchmal weiß er nicht welches Gericht und wie er es für einen bestimmten Kunden zubereiten soll. Hierfür benötigt er Feedback von echten Personen, welche die Gerichte nach Geschmack und Präsentation bewerten. Dies hilft dem Koch, zu verstehen welche Gerichte seine Kunden bevorzugen. Der Koch benutzt das vorherig gesammelte Wissen, um eine Richtlinie, auch „reward model“ genannt, für die Kundenpräferenz zu erstellen. Je höher die Bewertung des Gerichtes, desto besser ist es. In dieser Analogie übt der Koch die Zubereitung von Gerichten, während er dem „reward model“ folgt. Hierfür verwendet er eine Technik namens Proximal Policy Optimization, um seine Fähigkeiten zu verbessern. Das ist so, als würde der Koch sein aktuelles Gericht mit leicht veränderten Versionen vergleichen und lernen, welche Version anhand des „reward models“ besser ist. Dieser Prozess wird mehrere Male wiederholt. Mit jeder Iteration wird der Koch besser in der Zubereitung von Gerichten, die den Wünschen der Kunden entsprechen.
Nachdem wir nun verstanden haben, wie das Modell trainiert und fein abgestimmt wird, wollen wir uns ansehen, wie das Modell in ChatGPT zur Beantwortung einer Anfrage verwendet wird. Zunächst kennt ChatGPT den Kontext der Chat-Konversation. Dies geschieht dadurch, dass die ChatGPT-Benutzeroberfläche bei jeder Eingabe eines neuen Prompts die gesamte vergangene Unterhaltung in das Modell einspeist. Auf diese Weise scheint ChatGPT kontextbewusst zu sein. Zweitens beinhaltet ChatGPT primäre Prompt Technik. Prompts helfen, das Verhalten der Maschine zu diktieren. Drittens wird der Prompt an die Moderations-API weitergeleitet, um bestimmte Arten von unsicheren Inhalten zu warnen oder zu blockieren.
Abbildung 2: Erläutert den Trainingsprozess, den ein Sprachmodell durchläuft, um seine Nutzbarkeit zu testen.
(Quelle: Aufarbeitet von Christof Schniedermeier in Anlehnung an https://openai.com/blog/chatgpt Zugriff am 12/10/23)
Führende Bots und Tools auf einen Blick
Neben ChatGPT gibt es zahlreiche andere Chatbots und Tools auf dem Markt. Dabei lässt sich zwischen Chatbots, KI-Chatbots, spezialisierten KI-Chatbots und Tools unterscheiden. Chatbots kennt man mittlerweile von fast jedem Onlineshop. Sie sind in ihren Fähigkeiten sehr begrenzt. KI-Chatbots hingegen haben ein breites Anwendungsfeld aufgrund ihrer Fähigkeiten, in denen sie nur in bestimmten Bereichen von spezialisierten KI-Chatbots oder KI-Tools übertroffen werden.
- ChatGPT nutzen ein leistungsstarkes Sprachmodell, das auf riesigen Textdatensätzen trainiert wurde, um lebensechte Gespräche zu einer breiten Palette von Themen zu erzeugen.
- Perplexity AI ist ein KI-Chatbot, der auf den fortschrittlichen GPT-3- und GPT-4-Modellen basiert und das Internet wie eine Suchmaschine durchforstet. Eine besondere Eigenschaft von Perplexity AI ist, dass er dem Nutzer die Quellen seiner Informationen anzeigt.
- Claude beherrscht das Zusammenfassen von Inhalten und das Erstellen kreativer Texte in verschiedenen gewünschten Formaten.
- Claude und Perplexity.AI wurde von ehemaligen OpenAI Forschern entwickelt, um hilfreich, ungefährlich und vertrauenswürdig zu sein. Perplexity baut auf Claude auf und setzt noch fortgeschrittenere Sicherheitstechniken ein.
- Google Bard konzentriert sich auf die Bereitstellung präziser und aktueller Informationen und ist in der Lage, auf natürliche Weise menschliche Sprache zu verarbeiten und auf Fragen zu antworten.
- Microsoft Bing Chat/Copilot zeichnet sich durch seine Konversationsfähigkeiten aus, indem er auf Suchanfragen, Fragen und Aufforderungen in natürlicher Sprache reagiert. Er kann umfangreiche Webseiten zusammenfassen und komplexe Themen in leicht verständliche Hauptpunkte aufteilen.
- Microsoft Bing/Copilot, AI Perplexity und Google Bard nutzen das Internet und aktuelle Informationen, um Anfragen zu beantworten und Benutzern zu helfen.[7] [8] [9]
Abbildung 3: Eine Übersicht über verschiedene hilfreiche Chatbots und Tools, die auf generativer KI basieren.
(Quelle: Eigene Darstellung Philipp Strathaus)
Der Unterschied zwischen KI-Chatbots und KI-Tools liegt in ihrer Verwendung. Chatbots verarbeiten Anfragen und Tools werden verwendet, um Informationen zu finden oder Grafiken und sogar andere Chatbots zu erstellen. KI Design Tools wie Adobe Firefly, MidJourney oder Topaz Labs ermöglichen es, aus Texten Bilder und Grafiken zu erzeugen.[10] [11] [12]
Wenn an dieser Stelle noch Informationsbedarf über die aktuellen KI-Chatbots und andere aufstrebende Anbieter besteht, kann auf folgenden Internetseiten Genaueres nachgelesen werden. Die Artikel auf den Seiten wurden meist durch Anbieter, die dort gelistet sind, mitbezahlt. Aufgrund dessen kann es im Ranking der einzelnen Seiten zu Unterschieden kommen.
- Auflistung Aktueller Chatbots und KI, umfassende Beschreibungen der einzelnen Anbieter: https://www.zendesk.de/service/messaging/chatbot/
- 10 Alternativen zu ChatGPT mit kurzer Beschreibung der einzelnen Anbieter: https://www.moin.ai/chatbot-lexikon/alternativen-zu-chatgpt
- Vorreiter im Bereich generativer KI, einleitende Beschreibung der top Player im Verhältnis: https://www.tagesschau.de/wirtschaft/digitales/kuenstliche-intelligenz-konkurrenz-chatgpt-100.html
- Auflistung der neuen besten Design Tools 2023, mit grafischen Beispielen und Beschreibung: https://www.elegantthemes.com/blog/design/best-ai-design-tools
- Spezialisiertes Ranking generativer KI in verschiedenen Kategorien, mit Beschreibung der KI: https://zapier.com/blog/best-ai-chatbot/
- Ein wissenschaftlicher Artikel zum Thema KI, mit Eindrücken von verschieden Autoren: https://www.ifo.de/DocDL/sd-2023-08-kuenstliche-intelligenz.pdf
- Auflistung der Führenden Chatbots 2023, mit Einleitung ins Thema: https://medium.com/@neltac33/the-top-ai-chatbots-in-2023-capabilities-use-cases-and-limitations-a3bfa31321aa
Wirtschaftlicher und digitaler Wandel mit generativer KI
KI erlauben Unternehmen, auf individuelle Weise mit Kunden zu interagieren, ohne die Kosten für menschliche Mitarbeiter tragen zu müssen. Zum Beispiel sind zahlreiche der Fragen oder Anliegen, die Kunden haben, oft wiederkehrend und unkompliziert zu beantworten. Generative KI ist nicht nur Treiber für Kostenreduktion und Prozessoptimierung, sondern sie schafft auch die Grundlage für innovative Geschäftsmodelle und -prozesse. Dies eröffnet neue Möglichkeiten zur Wertschöpfung und Innovation.[13]
Dennoch ist Vorsicht bei der Nutzung von KI geboten. All jenes, was man ChatGPT und Co erzählt, erfährt die Welt, was besonders ärgerlich ist, wenn es um vertrauliche Firmen oder Kundendaten geht. Eine Lösung für den Umgang mit Daten ist, eine eigene KI zu erstellen, um die Daten und Lösungen über lange Zeit zu speichern. Durch das Abspeichern kann der Wissenstransfer innerhalb des Unternehmens vereinfacht und die mehrfache Bearbeitung von bereits gelösten Problemen vermieden werden.
Bei der Benutzung von ChatGPT, um Informationen zu suchen, sollte man jedoch darauf achten, dass ChatGPT nur Zugriff auf Daten bis Januar 2022 hat. Dieses Problem ist seit dem 27. September 2023 für ChatGPT Plus User, dem Bezahlmodell von OpenAI, beseitigt. Man hat nun die Möglichkeit, mithilfe des Bots auch nach aktuellen Informationen zu suchen.[14]
Eins der Probleme von Chatbots ist, dass diese manchmal plausible klingende, aber falsche oder unsinnige Antworten schreibt.[15] Dies wird als „Halluzinieren“ bezeichnet. Des Weiteren reagiert ChatGPT empfindlich auf Änderungen der Eingabeformulierung oder auf den mehrfachen Gebrauch derselben Eingabe. Beispielsweise kann eine geringe Änderung der Angabe das Ausgabeergebnis stark ändern. Außerdem ist die Ein- und Ausgabe auf eine bestimmte Anzahl an Zeichen limitiert, für die Eingabe auf 2048 und die Ausgabe auf 4096.
Abbildung 4: Übersicht über die Benutzeroberfläche von ChatGPT.
(Quelle: Eigene Darstellung Christof Schniedermeier)
Von generativer KI erstellte Texte sind oft nur schwer von denen, die von Menschen erschaffen sind, zu unterscheiden. Ein weiteres großes Risiko von generativer KI sind die sogenannten Deepfakes, das sind realistisch wirkende Bilder und Videos, die Dinge darstellen, die nicht der Wahrheit entsprechen.
Ein weiteres Beispiel für den Nutzen von generativer KI wäre die Firma Bosch. Diese benutzt in ihren Betrieben eigens entwickelte AI und generative KI, um die Qualität ihrer Produkte zu verbessern. Diese Technologien helfen Bosch, Fertigungsprozesse wie die automatisierte optische Inspektion, Anomalieerkennung, Ursachenanalyse oder Produktionsplanung zu optimieren.[16]
Autoren:
Christof Schniedermeier und Philipp Strathaus
Bei der Erstellung des Textes ist ChatGPT genutzt worden.
[1] Maximilian Schreiner. 2021. „Die vier großen Fehlschlüsse der KI-Forschung“ Zugriff am 17/11/23 https://the-decoder.de/ki-forschung-nur-alchemie-4-gruende-gegen-kuenstliche-intelligenz/
[2] IQB Career Services. 2023. „Wie wird man eigentlich Prompt Engineer? – Neue Berufe durch KI“ Zugriff am 21/10/23 https://iqb.de/karrieremagazin/mint/berufsbild-job-ki-prompt-engineering/
[3] Google Cloud „Text, Bilder, Code und mehr mit KI von Google Cloud generieren“ Zugriff am 20/10/23 https://cloud.google.com/use-cases/generative-ai
[4] Ulf Schönert. 2023. „Was geschieht, wenn ich ChatGPT eine Frage stelle?“ In Die Zeit, 23. März 2023, S. 38.
[5] Dipl.-Ing. Stefan Luber. 2023. „Was ist Prompt Engineering?“ Zugriff am 12/10/23 https://www.bigdata-insider.de/was-ist-prompt-engineering-a-3308973005e97f3927d3f8b63ad3ff2e/
[6] Aufarbeitet und übersetzt von C. Schniedermeier in Anlehnung an https://openai.com/blog/chatgpt Zugriff am 12/10/23
[7] Ahmen Bahaa Elding. 2023. „The Top AI Chatbots in 2023: Capabilities. Use Cases, and Limitations“ Zugriff am 12/10/23 https://medium.com/@neltac33/the-top-ai-chatbots-in-2023-capabilities-use-cases-and-limitations-a3bfa31321aa
[8] Miguel Rebelo. 2023. „The best AI chatbots 2024“ Zugriff am 01/12/23 https://zapier.com/blog/best-ai-chatbot/
[9] Muse AI. 2023. „Text zu Bild mit AI Kunstgenerator“ Zugriff am 21/10/23 https://www.midjourneyai.ai/de
[10] Deanna McLean. 2023. “9 Best AI Design Tools in 2023 (Reviewed & Compared)“ Zugriff am 13/10/23 https://www.elegantthemes.com/blog/design/best-ai-design-tools
[11] Moin AI „21 Alternativen zu ChatGPT im Überblick“ Zugriff am 21/10/23 https://www.moin.ai/chatbot-lexikon/alternativen-zu-chatgpt
[12] Jens Eberl. 2023. „Konkurrenzkampf um Künstliche Intelligenz“ Zugriff am 03/11/23 https://www.tagesschau.de/wirtschaft/digitales/kuenstliche-intelligenz-konkurrenz-chatgpt-100.html
[13] Daria Schaller, Klaus Wohlrabe und Anna Wolf. 2023. „Künstliche Intelligenz: Chance oder Gefahr“ Zugriff am 20/10/23 https://www.ifo.de/DocDL/sd-2023-08-kuenstliche-intelligenz.pdf
[14] OpenAI. 2023. „ChatGPT – Release Notes“ Zugriff am 3/10/23 https://help.openai.com/en/articles/6825453-chatgpt-release-notes#h_4799933861
[15] OpenAI. 2022. „Introducing ChatGPT“ Zugriff am 23/10/23 https://openai.com/blog/chatgpt
[16] Bosch. 2023.“Applied AI at Bosch Center for Artificial Intelligence“ Zugriff am 22/10/23 https://www.bosch-ai.com/industrial-ai/