Was ist eine KI-Halluzination?

Eine KI-Halluzination ist eine sachlich falsche oder erfundene Ausgabe, die ein Sprachmodell mit scheinbarer Sicherheit präsentiert. Beispiele sind erfundene Zitate, falsche Daten, nicht existierende Gesetze und frei erfundene Statistiken. Das Modell "lügt" nicht; es vervollständigt Text auf statistisch wahrscheinliche Weise, ohne Wahrheit zu überprüfen.

Wie häufig sind KI-Halluzinationen?

Die Raten variieren stark je nach Modell und Aufgabe. Anfang 2026 erreichen die genauesten Modelle auf dem Vectara-Leaderboard Halluzinationsraten von 1,8 bis 4,1 % bei Zusammenfassungsaufgaben. Ältere oder kleinere Modelle halluzinieren in 15 bis 30 % der Fälle. Bei hochriskanten Aufgaben wie medizinischen oder rechtlichen Informationen wurden modellübergreifend Raten von 10 bis 40 % festgestellt.

Werden KI-Halluzinationen besser oder schlechter?

Die Rate pro Anfrage verbessert sich: Im November 2023 erzielte das beste Modell auf Vectaras Benchmark 3,0 %; im März 2026 liegen Spitzenmodelle bei 1,8 %. Die absolute Zahl der Halluzinationen steigt jedoch, weil das KI-Anfragevolumen schneller wächst als die Genauigkeitsverbesserungen. Mehr Menschen nutzen KI, also gibt es insgesamt mehr falsche Antworten.

Was kosten KI-Halluzinationen wirtschaftlich?

Forrester Research (2024) schätzte die Geschäftskosten durch KI-Halluzinationen auf rund 67,4 Milliarden Dollar jährlich weltweit, entstanden durch Fehlentscheidungen, vergeudete Arbeitszeit und rechtliche Risiken. Dieser Wert dürfte mit zunehmender KI-Nutzung in professionellen Kontexten weiter steigen.

Welche KI-Modelle halluzinieren am seltensten?

Stand März 2026 führt das Vectara Hallucination Leaderboard folgende Modelle an: Antgroup Finix S1 32B (1,8 %), Google Gemini-2.5-Flash-Lite (3,3 %), Microsoft Phi-4 (3,7 %) und Meta Llama-3.3-70B (4,1 %). Die Werte sind aufgabenabhängig: Ein Modell, das bei Zusammenfassungen exzellent abschneidet, kann bei sachbezogenen Fragen schlechter performen.

KI & Medien

Wie viele KI-Halluzinationen passieren täglich? (Live-Zähler)

Name: Wie viele KI-Halluzinationen passieren täglich? (Live-Zähler)
Creator: AnythingCounter
License: https://creativecommons.org/licenses/by/4.0/

Eine KI-Halluzination ist eine selbstsicher klingende, plausibel formulierte Antwort, die falsch oder erfunden ist. Der Begriff stammt aus der Neurowissenschaft: Wie ein halluzinierendes Gehirn "sieht" das Modell Fakten, die nicht existieren. Große Sprachmodelle sagen das wahrscheinlichste nächste Wort voraus, ohne zu prüfen, ob es der Wahrheit entspricht. Bei Milliarden von Anfragen täglich bedeutet selbst eine geringe Fehlerquote täglich hunderte Millionen falscher Antworten.

Grob 319 Fehlantworten pro Sekunde.

28 Mio.Halluzinationen pro Tag

3–10 %aller KI-Antworten

40 %der Nutzenden durch KI-Fehler irregeführt

Quellen: Vectara Hallucination Leaderboard; OpenAI-Anfrageschätzungen. AnythingCounter-Übersicht →

Warum das Selbstvertrauen der KI das eigentliche Problem ist

Warum KI-Systeme halluzinieren

Große Sprachmodelle erzeugen Text, indem sie die statistisch wahrscheinlichste Fortsetzung eines Prompts vorhersagen, basierend auf Mustern aus Milliarden von Dokumenten. Sie besitzen kein "Wissen" im klassischen Sinn und kein internes Realitätsmodell, das sie zur Überprüfung heranziehen könnten. Stoßen sie auf etwas außerhalb ihrer Trainingsdaten oder auf unklare Anfragen, füllen sie die Lücke mit plausibel klingendem Text. Das Ergebnis sind selbstsichere, grammatikalisch korrekte Sätze mit falschen Inhalten. Dieses Problem ist grundlegend für die Transformer-Architektur und lässt sich durch Training allein nicht vollständig beseitigen.

Von Millionen auf Milliarden Anfragen

Als ChatGPT im November 2022 startete, war die Halluzinationsfrage ein Randthema unter KI-Forschenden. Im Februar 2023 hatte der Dienst bereits 100 Millionen Nutzer, die schnellste Wachstumskurve einer Konsumentenanwendung bis dahin. Im Dezember 2024 berichtete OpenAI, ChatGPT verarbeite allein 1 Milliarde Prompts täglich; 2025 waren es bereits 2,5 Milliarden. Über alle KI-Assistenten hinweg (Gemini, Copilot, Claude u. a.) übersteigt das globale KI-Anfragevolumen heute wahrscheinlich 5 Milliarden täglich. Der Live-Zähler verwendet eine konservative Basisrate von rund 27,5 Millionen Halluzinationen täglich (~318/Sek.).

Das Vectara-Leaderboard: die wichtigste Benchmark

Die am häufigsten verwendete Benchmark für LLM-Halluzinationen ist das Vectara Hallucination Leaderboard, erstmals veröffentlicht Ende 2023. Es misst, wie oft Modelle beim Zusammenfassen bereitgestellter Dokumente sachliche Fehler einführen. Die Ergebnisse von November 2023 zeigten die besten Modelle (GPT-4) mit 3 % Halluzinationsrate, schwächere Modelle bis 27 %. Im März 2026 verbesserte sich das Frontier-Modell auf 1,8 % (Antgroup Finix S1). Diese Benchmarks gelten für optimale Bedingungen; reale Halluzinationsraten sind typischerweise höher.

Wirtschaftliche und gesellschaftliche Folgen

KI-Halluzinationen haben nachweisbaren Schaden in der realen Welt verursacht. 2023 reichte ein US-Anwalt einen Schriftsatz mit KI-generierten Fallzitaten ein, von denen keines existierte, und wurde von einem Bundesrichter sanktioniert. Forrester Research schätzte die gesamten Geschäftskosten von KI-Halluzinationen 2024 auf 67,4 Milliarden Dollar jährlich. Je stärker KI in hochriskante professionelle Entscheidungen eingebunden wird, desto größer werden die Folgen unerkannter Halluzinationen.

Was das für die Praxis bedeutet

Wer KI-Antworten ungeprüft übernimmt, arbeitet je nach Modell und Aufgabe bei 1 von 10 bis 30 Abfragen mit einer fehlerhaften Information weiter. Bei Inhalten, die weitergegeben, veröffentlicht oder als Grundlage für Entscheidungen genutzt werden, ist das eine relevante Fehlerquote.

Die Gefahr liegt nicht darin, dass KI Fakten erfindet. Sie liegt darin, dass sie es mit vollständiger sprachlicher Sicherheit tut. Halluzinierte Quellenangaben sehen genauso aus wie echte. Halluzinierte Statistiken werden im selben Ton präsentiert wie korrekte. Es gibt kein "Ich bin mir nicht sicher"-Signal, keine Markierung, und oft keine Möglichkeit, eine Halluzination von einer korrekten Antwort ohne externe Überprüfung zu unterscheiden.

Praktische Faustregel: Jede konkrete Behauptung eines KI-Tools (eine Statistik, ein Name, ein Datum, ein Zitat) sollte als Hypothese behandelt werden, die zu überprüfen ist, nicht als Tatsache, die direkt verwendet werden kann. Bei folgenreichen Entscheidungen (medizinisch, juristisch, finanziell) ist eine unabhängige Gegenprüfung nicht optional.

KI-Halluzinationen vs. gesamte KI-Anfragen heute

Die große Mehrheit aller KI-Anfragen liefert nützliche Antworten. Doch bei über 5 Milliarden täglichen Anfragen bedeutet selbst eine geringe Fehlerquote täglich Millionen von Halluzinationen.

KI-Halluzinationen heute

- bis jetzt heute- dieses Jahr

falsche oder erfundene Antworten

vs.

KI-Anfragen gesamt heute

- bis jetzt heute- dieses Jahr

alle KI-Assistenten-Prompts weltweit

Entwicklung: KI-Halluzinationen seit 2022

Das Halluzinationsproblem hat sich mit dem explosiven Wachstum des KI-Anfragevolumens qualitativ verändert. Pro-Anfrage-Raten sinken, das absolute Volumen steigt.

2022

501K/Tag

2023

6.6M/Tag

2024-2025

27.5M/Tag

Jahr	Rate	Geschätzt pro Tag	Kontext
2022	5.80/sec	501K	ChatGPT launches Nov 2022
2023	76/sec	6.6M	ChatGPT, Bard, Claude all launch; rapid growth
2024-2025	319/sec	27.5M	Volume up; per-query rate improving; rate applied from lab benchmark, not production measurement
2026 (forecast)	1K/sec	109.7M	Query volume surges; rate improvement slower than growth

Chronologie: Vom Nischenthema zum Massenphänomen

2022ChatGPT-Launch (November 2022): LLM-Halluzinationen geraten ins öffentliche Bewusstsein.
2023ChatGPT erreicht in 60 Tagen 100 Millionen Nutzer, schnellstes Wachstum einer Konsumentenanwendung.
2023Vectara veröffentlicht das Hallucination Leaderboard; GPT-4 mit 3,0 % gilt als starkes Ergebnis.
2023US-Anwalt wegen KI-generierter fiktiver Gerichtsurteile in einem Bundesverfahren sanktioniert.
2024ChatGPT verarbeitet 1 Milliarde Prompts täglich (Dezember 2024); tägliche Fehlerzahl in den zehnmillionenbereich.
2025ChatGPT kommt auf 2,5 Milliarden Prompts täglich; KI-Assistenten von 10 % der Weltbevölkerung genutzt.
2026Beste Modelle erreichen 1,8 % Halluzinationsrate; absolute Halluzinationszahl steigt weiter.

Studien & Forschungsbelege

Jahr	Studie / Befund	Wert	Quelle
2023	Vectara Hallucination Leaderboard (Nov. 2023): GPT-4 3,0 %, GPT-3,5 3,5 %, Llama 2 70B 5,1 %, Claude 2 8,5 %, Google PaLM-Chat 27,2 %	3,0 % Halluzinationsrate (GPT-4, bestes Modell 2023)	Vectara
2023	ChatGPT erreicht 100 Millionen aktive Wochennutzer (Nov. 2023)	100 Mio. aktive Wochennutzer	OpenAI
2024	ChatGPT verarbeitet rund 1 Milliarde Prompts täglich (Dez. 2024)	1 Mrd. Prompts/Tag (Dez. 2024)	OpenAI
2024	ChatGPT erreicht 200 Millionen aktive Wochennutzer (Aug. 2024)	200 Mio. aktive Wochennutzer	OpenAI
2024	ChatGPT erreicht 300 Millionen aktive Wochennutzer (Dez. 2024)	300 Mio. aktive Wochennutzer	OpenAI
2025	ChatGPT verarbeitet rund 2,5 Milliarden Prompts täglich; 800+ Mio. aktive Wochennutzer	2,5 Mrd. Prompts/Tag	OpenAI
2026	Vectara Leaderboard (März 2026): Antgroup Finix S1 32B 1,8 %, Gemini-2.5-Flash-Lite 3,3 %, Phi-4 3,7 %, Llama-3.3-70B 4,1 %	1,8 % Halluzinationsrate (bestes Modell, März 2026)	Vectara

In der Perspektive

Bei rund 320 falschen KI-Antworten pro Sekunde (Live-Zähler) sind das rund 27,5 Millionen fehlerhafte KI-Antworten täglich.

Würde jede halluzinierte Antwort eine Minute lang nachgeprüft, bräuchte die Menschheit rund 19.100 Vollzeit-Faktenchecker, allein um die in einer Sekunde erzeugten KI-Fehler zu prüfen.

27,5 Millionen falsche KI-Antworten täglich: jede einzelne davon kann Menschen irreführen, die der Antwort vertrauen.

Wie die Zahl berechnet wird

Die Live-Rate von rund 318/Sek. entspricht rund 27,5 Millionen Halluzinationen täglich, eine konservative Basisschätzung für 2024/25. Grundlage ist ein effektiver Mischkurs, angewendet auf das globale KI-Assistenten-Anfragevolumen (ChatGPT, Gemini, Copilot, Claude u. a.). Das gesamte globale Anfragevolumen übersteigt wahrscheinlich 5 Milliarden täglich; der Zähler verwendet eine konservative effektive Rate. Die Halluzinationsrate schwankt je nach Modell und Aufgabe stark, von 1,8 % (beste Modelle, fokussierte Aufgaben) bis über 30 % (schwächere Modelle, offene Anfragen).

Verwendete Quellen: Vectara Hallucination Leaderboard (2023-2026) – OpenAI Signals Data - ChatGPT Usage Statistics 2025. Vollständige Methodik: Methodikseite.

Häufige Fragen

Was ist eine KI-Halluzination?: Eine KI-Halluzination ist eine sachlich falsche oder erfundene Ausgabe, die ein Sprachmodell mit scheinbarer Sicherheit präsentiert. Beispiele sind erfundene Zitate, falsche Daten, nicht existierende Gesetze und frei erfundene Statistiken. Das Modell "lügt" nicht; es vervollständigt Text auf statistisch wahrscheinliche Weise, ohne Wahrheit zu überprüfen.
Wie häufig sind KI-Halluzinationen?: Die Raten variieren stark je nach Modell und Aufgabe. Anfang 2026 erreichen die genauesten Modelle auf dem Vectara-Leaderboard Halluzinationsraten von 1,8 bis 4,1 % bei Zusammenfassungsaufgaben. Ältere oder kleinere Modelle halluzinieren in 15 bis 30 % der Fälle. Bei hochriskanten Aufgaben wie medizinischen oder rechtlichen Informationen wurden modellübergreifend Raten von 10 bis 40 % festgestellt.
Werden KI-Halluzinationen besser oder schlechter?: Die Rate pro Anfrage verbessert sich: Im November 2023 erzielte das beste Modell auf Vectaras Benchmark 3,0 %; im März 2026 liegen Spitzenmodelle bei 1,8 %. Die absolute Zahl der Halluzinationen steigt jedoch, weil das KI-Anfragevolumen schneller wächst als die Genauigkeitsverbesserungen. Mehr Menschen nutzen KI, also gibt es insgesamt mehr falsche Antworten.
Was kosten KI-Halluzinationen wirtschaftlich?: Forrester Research (2024) schätzte die Geschäftskosten durch KI-Halluzinationen auf rund 67,4 Milliarden Dollar jährlich weltweit, entstanden durch Fehlentscheidungen, vergeudete Arbeitszeit und rechtliche Risiken. Dieser Wert dürfte mit zunehmender KI-Nutzung in professionellen Kontexten weiter steigen.
Welche KI-Modelle halluzinieren am seltensten?: Stand März 2026 führt das Vectara Hallucination Leaderboard folgende Modelle an: Antgroup Finix S1 32B (1,8 %), Google Gemini-2.5-Flash-Lite (3,3 %), Microsoft Phi-4 (3,7 %) und Meta Llama-3.3-70B (4,1 %). Die Werte sind aufgabenabhängig: Ein Modell, das bei Zusammenfassungen exzellent abschneidet, kann bei sachbezogenen Fragen schlechter performen.

Warum diese KI-Halluzinations-Statistiken zuverlässig sind

Halluzinationsraten stammen aus dem Vectara Hallucination Leaderboard, der meistzitierten unabhängigen Benchmark, und werden durch den AI Index des Stanford HAI bekräftigt. Anfragevolumina basieren auf OpenAIs offengelegter Zahl von 2,5 Milliarden täglichen ChatGPT-Anfragen (2025) plus unabhängigen Schätzungen für weitere Plattformen. Da KI-Unternehmen Anfragevolumina als vertraulich behandeln, trägt die globale Schätzung eine nennenswerte Unsicherheit. Der Zähler verwendet eine konservativ gewählte Basisrate und dokumentiert dies transparent.