ChatGPT: Halluzinationen bleiben trotz neuer Modalitäten

 

OpenAI hat sich schon wieder etwas Neues einfallen lassen: ChatGPT kann jetzt auch sehen, hören und sprechen. Das ist sehr beeindruckend, ändert aber nichts daran, dass dieses Large Language Model (wie andere auch) noch viel zu sehr unter Halluzinationen (falschen Aussagen) leidet.

Im September 2023 bekommt ChatGPT neue Modalitäten: Das Large Language Model kann jetzt auch „sehen“ (Inhalte von Bildern erkennen), seine Antworten gesprochen ausgeben und Prompts (Eingaben) akustisch verstehen. Die Neuerungen werden nach und nach eingeführt, bevorzugt werden zunächst die Bezahlversionen ChatGPT Plus und Enterprise. Die Spracherkennung ist für mobile Endgeräte gedacht (und wird in den Android- und iOS-Apps verfügbar sein).

Es ist bemerkenswert, wie OpenAI seit der Veröffentlichung von ChatGPT im November 2022 versucht, sein Angebot mit Neuerungen laufend aktuell und damit im Gespräch zu halten. Doch darf das nicht darüber hinwegtäuschen, dass ein fundamentales Problem unverändert bestehen bleibt: Modelle wie ChatGPT halluzinieren, d. h. ein Teil ihrer Antworten sind grundsätzlich falsch.

Zwar verspricht Sam Altman, der CEO von OpenAI, dass Large Language Models in der Zukunft nicht mehr halluzinieren werden. Besser wäre es aber, wenn das heute schon der Fall sein könnte. Denn in der Praxis kann es zum Problem werden, wenn man sich auf die Antworten einer Künstlichen Intelligenz nicht vollständig verlassen kann.

Dazu kommt, dass neuere Forschungsergebnisse Zweifel an der „Intelligenz“ dieser Modelle anmelden. So hat unlängst eine Gruppe von Forschern herausgefunden, dass Large Language Models nur ungenügend in der Lage sind, Umkehrschlüsse zu ziehen. Wenn A = B, dann ist B = A. Die Forscher nennen das Problem den Umkehrfluch, weil Modelle wie ChatGPT damit so ihre Mühe haben. Sie können gut nachvollziehen, dass A = B ist, geraten aber ins Schlingern, wenn sie gefragt werden, was B entspricht (nämlich: A). Namhafte Forscher (etwa von Google DeepMind) zeigten sich betroffen.

Eine weitere Schwäche: Die Problemlösungs-Kompetenz von Large Language Models ist offenbar geringer als gedacht. Ein anderes Forscherteam fand heraus, dass komplexe Aufgaben vom Typ des Einstein-Puzzles die Modelle ab einem gewissen Komplexitätsniveau überfordern. Was Menschen mit einigem Nachdenken und Kombinieren noch lösen können, bildet für Large Language Models ein unüberwindliches Hindernis, Halluzinationen sind die Folge.

Und noch ein Schlag ins Kontor: Ein weiteres Team von Forschern ist der Frage nachgegangen, wie gut Large Language Models wie GPT-4 in der Lage sind, Lösungswege aus einem Kontext in einen ganz anderen Kontext zu übertragen. Dabei kam heraus, dass Aufgaben im normalen (erlernten) Kontext gut gelöst werden, aber in einem anderen Zusammenhang deutlich schlechter. Das legt den Schluss nahe, dass Large Language Models zwar sehr gut darin sind, erlerntes Wissen (aus dem Pre-Training) wiederzugeben bzw. anzuwenden. Es mangelt aber an der kreativen Übertragungsleistung in andere Zusammenhänge oder Wissensgebiete: Was nicht direkt gelernt wurde, kann nicht durch Schlussfolgerungen oder Analogiebildung kompensiert werden, weil den Modellen speziell diese Fähigkeiten offenbar noch fehlen.

Damit wird klar, dass Large Language Models nicht nur dann unter Halluzinationen leiden, wenn ihnen konkret ein bestimmtes Wissen fehlt, sondern auch, wenn sie an die Grenzen ihrer Denkfähigkeiten stoßen: Das Wissen für den Umkehrschluss ist in den meisten Fällen zwar vorhanden, kann aber nicht sinnvoll angewandt werden. Bei komplexen Logik-Puzzles ist es ähnlich: Alle erforderlichen Teile sind gegeben, können aber nicht zu einem sinnvollen Ganzen kombiniert werden. Die Bildung von Analogien bzw. die Übertragung von Wissen in andere Bereiche scheitert nicht am Wissen selbst, sondern an der fehlenden Fähigkeit zur Übertragung.

Das ist eine faszinierende Entwicklung: Herrschte bis vor kurzem noch eine ziemliche Ehrfurcht vor Künstlicher Intelligenz, so wird ihr nun genauer auf den Zahn gefühlt. Das ist sehr gut, denn nun müssen sich Unternehmen wie OpenAI, Google oder Anthropic mit der (wissenschaftlich fundierten) Kritik auseinandersetzen und darauf Antworten finden. Man darf gespannt sein, wie man den Modellen das Denken, Planen und Schlussfolgern beibringen wird.

Bis dahin ist nichts verloren: Im Gegenteil. Je besser die Stärken und Schwächen von Large Language Models bekannt sind, desto gezielter können sie in der Praxis für Aufgaben eingesetzt werden, bei denen es kaum zu Halluzinationen kommt.

Foto von David Travis auf Unsplash.

0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert