9 Minuten
Seit dem Auftauchen von ChatGPT Ende 2022 nutzen Millionen Menschen große Sprachmodelle (LLMs) zur Beantwortung von Fragen, zum Synthesieren von Informationen und zur Beschleunigung von Aufgaben, die früher zeitaufwändige Recherchen erforderten. Eine neue Reihe kontrollierter Experimente deutet darauf hin, dass diese Bequemlichkeit einen Preis haben kann: Personen, die sich auf LLM-Zusammenfassungen verlassen, entwickeln tendenziell weniger tiefes Wissen als jene, die über traditionelle Websuchen recherchieren.
Wie die Experimente durchgeführt wurden und was sie ergaben
Die Forschenden Shiri Melumad und Jin Ho Yun, beide Professoren für Marketing, führten sieben kontrollierte Studien mit mehr als 10.000 Teilnehmerinnen und Teilnehmern durch, um zu prüfen, wie sich Lernen unterscheidet, wenn Menschen ein LLM wie ChatGPT im Vergleich zu einer standardmäßigen Google-Suche verwenden. Die Teilnehmenden sollten sich über alltägliche Themen informieren, etwa darüber, wie man einen Gemüsegarten anlegt. Zufällig wurden sie entweder einer LLM-basierten Gruppe oder einer Gruppe zugewiesen, die Weblinks auf die „altmodische“ Weise durchsuchte. Es gab keine Begrenzung, wie lange sie suchen durften oder wie viele Eingaben (Prompts) sie dem LLM geben konnten.
Nach der Recherche verfassten die Teilnehmenden Ratschläge an eine Freundin bzw. einen Freund basierend auf dem, was sie gelernt hatten. Über alle Studien hinweg zeichnete sich ein klares Muster ab: Personen, die LLM-Zusammenfassungen nutzten, berichteten, dass sie weniger gelernt hätten, beim Verfassen ihrer Empfehlungen weniger Aufwand investierten und kürzere, allgemeinere sowie faktisch weniger präzise Texte produzierten als Teilnehmende, die selbst Webseiten durchforstet hatten.
Unabhängige Leserinnen und Leser, die nicht wussten, mit welchem Werkzeug die Texte erstellt wurden, bewerteten die aus LLMs stammenden Empfehlungen durchweg als weniger informativ und weniger hilfreich und gaben an, sie seltener befolgen zu wollen. Diese Befunde zeigten sich robust über verschiedene Themenbereiche und Stichproben hinweg, was die Aussagekraft für Lernverhalten in Gegenwart von generativer KI stärkt.
Die Studien waren umfangreich gestaltet: Neben einfachen Anwendungsfällen testeten die Forschenden auch komplexere Aufgabenstellungen und variierten demografische Merkmale der Probandinnen und Probanden, um Verzerrungen zu minimieren. Solche methodischen Details erhöhen die Aussagekraft der Ergebnisse für Bildung, Personalentwicklung und Produktdesign.

Die klassische Google-Suche erfordert breiteres Lesen und aktives Quellenstudium.
Warum synthetisierte Antworten tiefes Lernen schwächen können
Im Kern dieser Resultate steht ein gut belegtes Prinzip aus der Lernforschung: Aktives Engagement fördert stärkeres und besser übertragbares Wissen. Traditionelle Websuchen zwingen Lernende dazu, vielfältige Quellen zu lesen, Glaubwürdigkeit zu bewerten, unterschiedliche Standpunkte zu interpretieren und diese Elemente selbst zu einer mentalen Repräsentation zu synthetisieren. Diese anstrengende Auseinandersetzung schafft sogenannte „desirable difficulties“ — erwünschte Schwierigkeiten, die das dauerhafte Behalten und die Transferfähigkeit von Wissen unterstützen.
LLMs hingegen destillieren viele Quellen in eine polierte Zusammenfassung und übernehmen damit weite Teile der Interpretation und Synthese für die Nutzerinnen und Nutzer. Die Interaktion wird passiver: Frage stellen, kohärente Antwort erhalten, weitermachen. Die Effizienz ist unbestreitbar, doch der Kompromiss liegt offenbar in einer weniger tiefen Enkodierung von Fakten und in weniger mentalen Verbindungen, die später flexible Anwendung und Transfer des Wissens stützen.
Diese Mechanismen lassen sich aus Kognitionspsychologie und Lernwissenschaft erklären: Prozesse wie Elaborationsstrategie, selbstgenerierte Erklärungen und Retrieval Practice (Abrufübung) sind zentral für dauerhaftes Lernen. Wenn ein LLM viele dieser kognitiven Schritte für den Lernenden übernimmt, werden Gelegenheiten zur Festigung des Wissens reduziert. Kurzfristige Leistung (z. B. eine korrekte Antwort erhalten) ist nicht gleichbedeutend mit langfristig abrufbarem, tief integriertem Wissen.
Die Forschenden untersuchten alternative Erklärungen systematisch. Eine Hypothese war, dass LLMs Nutzende lediglich einer engeren Faktengrundlage aussetzen und deshalb weniger abwechslungsreiche Antworten produzieren. Um dem entgegenzuwirken, präsentierten einige Experimente identischen Faktentext für beide Gruppen. In anderen Studien blieb die Plattform gleich — etwa traditionelle Google-Ergebnisse gegen eine KI-Übersichtsfunktion — und dennoch zeigte sich: synthetisierte Zusammenfassungen führten zu flacherem Verständnis als die aktive Zusammensetzung aus Weblinks.
Technisch betrachtet hängt dieser Effekt auch damit zusammen, wie LLMs trainiert werden: Sie optimieren tendenziell für Kohärenz und Plausibilität über Quellenvielfalt und kritische Abwägung. Das kann nützlich sein für schnelle Orientierung oder Entscheidungen mit geringer Komplexität, ist aber problematisch, wenn das Ziel tiefer Lern- und Transferleistungen ist.

Für tiefere Einsichten ist reine LLM-Nutzung möglicherweise nicht die beste Strategie.
Praktische Implikationen für Lernende, Lehrende und Fachleute
Diese Ergebnisse bedeuten nicht, dass LLMs verboten werden sollten. Große Sprachmodelle sind mächtige Produktivitätswerkzeuge: schnelle Erklärungen, Hilfe beim Programmieren, Entwürfe und Brainstorming sind offensichtliche Anwendungsfälle. Die zentrale Botschaft ist daher nuanciert — Lernende und Arbeitende sollten strategisch wählen, wann sie einen KI-Co-Piloten nutzen und wann sie sich auf aufwändigere Recherche- und Lernprozesse einlassen.
Für routinemäßige Faktenabfragen oder wenn Zeit ein kritischer Faktor ist, liefert ein LLM einen brauchbaren Erstüberblick. Wenn aber das Ziel darin besteht, tiefes, generalisierbares Wissen aufzubauen — ein Thema so gut zu beherrschen, dass man es lehren, argumentativ vertreten oder in neuen Kontexten anwenden kann — ist das ausschließliche Vertrauen auf synthetisierte Antworten wahrscheinlich kontraproduktiv.
Die Forschenden prüften auch, ob eine Kombination der Ansätze hilfreich wäre. In einem Experiment interagierten Teilnehmende mit einem spezialisierten GPT, das in Echtzeit Weblinks neben der Zusammenfassung anbot. Selbst wenn Links verfügbar waren, neigten Nutzerinnen und Nutzer dazu, nach dem Erhalt der ausgefeilten Synthese die Originalquellen nicht weiter zu erkunden; das resultierende Wissen blieb flacher als bei jenen, die von Anfang an aktiv Links navigiert hatten. Das deutet darauf hin, dass die Art und Weise, wie Informationen präsentiert werden, das anschließende Verhalten stark steuert — eine zentrale Erkenntnis für UX-Design und Bildungstechnologie.
Für Ausbilderinnen und Ausbilder bedeutet das konkret: LLMs können als Einstieg oder als Werkzeug zur Effizienzsteigerung dienen, sollten aber in Curricula und Weiterbildung mit Aufgaben kombiniert werden, die aktives Denken, Quellenkritik und eigenständige Synthese erzwingen. Beispiele sind Peer-Teaching, strukturierte Retrieval-Aufgaben, oder Schreibaufträge, die Originalquellen zitieren und interpretieren müssen.
Auch in beruflichen Kontexten — etwa im Journalismus, in der Unternehmensberatung oder in technischen Berufen — sollten Teams Prozesse einführen, die Verifikation, Quellennachweis und kritische Bewertung fördern, wenn Entscheidungen auf fundiertem, robustem Wissen beruhen sollen.
Expertinnen- und Experteneinschätzung
Dr. Elena Morales, Kognitionswissenschaftlerin mit Schwerpunkt Lernen und Technologie, merkt an: „Automatische Zusammenfassungen sparen Zeit, können aber die mentalen Arbeitsschritte verkürzen, die für dauerhaftes Lernen nötig sind. Die Herausforderung für Lehrende und Tool-Designer besteht darin, gesunde Reibung einzubauen — strukturierte Prompts, Abrufübungen oder verpflichtende Auseinandersetzung mit Primärquellen — die Nutzerinnen und Nutzer dazu anregen, aktiv zu denken statt Antworten passiv zu akzeptieren.“
Solche Einschätzungen spiegeln breitere Theorien in Lernwissenschaft und Instruktionsdesign wider: Metakognitive Strategien, formative Assessment-Methoden und gestufte Hilfestellungen können helfen, die Effizienz von KI ohne Verlust an Lernqualität zu nutzen.
Was LLM-gestütztes Lernen verbessern könnte
Melumad und Yun schlagen ein Forschungsprogramm vor, das Designinterventionen untersucht, die die Effizienz generativer KI bewahren, zugleich aber produktive Reibung wieder einführen. Mögliche Ansätze sind Werkzeuge, die Lernende auffordern, Antworten in eigenen Worten zu erklären, vorherige Abrufversuche verlangen oder vielfältige Quelllinks hervorheben und gezielte Anschlussfragen stellen, die zur Verifikation und vertieften Exploration motivieren.
Konkrete technische Maßnahmen könnten sein: adaptive Prompt-Workflows, die progressive Offenlegung von Informationen steuern; verpflichtende Reflexionsfragen nach einer ersten Antwort; sowie integrierte Aufgaben, die explizit Zitier- und Bewertungsanforderungen enthalten. Solche Mechanismen könnten den sogenannten Nutzer-LLM-Halo brechen, bei dem die kohärente Oberfläche einer KI automatisch Vertrauen erzeugt, ohne dass kritische Prüfung stattfindet.
Diese Schutzmaßnahmen sind insbesondere für Sekundar- und Hochschulbildung wichtig, wo grundlegende Lese-, Schreib- und Denkfähigkeiten ausgebildet werden. Lehrkräfte könnten LLM-Ausgaben mit Aufgaben koppeln, die Studierende zwingen, Originalquellen zu zitieren, Thesen zu verteidigen oder Zusammenfassungen in angewandte Projekte zu überführen. So lassen sich Effizienzgewinne durch KI mit fundiertem Lernen verbinden.
Neben pädagogischen Interventionen sind auch produktgestalterische Lösungen relevant: Transparenz-Mechanismen, Source-Attribution, erklärbare Modellkomponenten und Benutzeroberflächen, die Exploration belohnen, können helfen, vertieftes Lernen zu fördern. Forschung zur Evaluation solcher Interventionen sollte quantitative Leistungsmaße mit qualitativen Analysen von Lernstrategien kombinieren.
Technische und forschungsbezogene Details
Aus technischer Sicht beeinflussen mehrere Faktoren, wie stark LLMs das Lernverhalten modulieren: die Trainingsdaten, das Fine-Tuning auf Bedienerpräferenzen, die Art der Prompt-Engineering-Strategien sowie UI-Designs, die Informationen priorisieren. Beispielsweise führen Rekommendationslogiken, die knappe Zusammenfassungen belohnen, eher zu oberflächlichem Scroll- und Akzeptanzverhalten. Demgegenüber fördern Interfaces, die inkrementelle Offenlegung (progressive disclosure) anstatt sofortiger Komplettlösung bieten, aktives Explorationsverhalten.
Methodisch ist es hilfreich, in Folgestudien nicht nur Kurzzeitmessungen, sondern auch Langzeitfolgen zu untersuchen: Bleibt der Unterschied in der Wissentiefe nach Wochen oder Monaten bestehen? Wie beeinflusst LLM-Nutzung Metakognition, Selbstwirksamkeit und Kriterien für Quellenkritik? Und welche Rolle spielen individuelle Faktoren wie Vorwissen, kognitive Fähigkeiten und Motivation?
Aus Sicht der Forschungsethik sollten Studien die Vielfalt der Nutzerinnen und Nutzer, kulturelle Unterschiede und Zugangsfragen zu Technologie berücksichtigen. Ebenso wichtig ist die Replizierbarkeit von Experimenten und die Bereitstellung von Datensätzen und Code, damit die Fachcommunity Ergebnisse validieren und Designlösungen iterativ verbessern kann.
Fazit
Der Aufstieg von ChatGPT und anderen LLMs markiert einen tiefgreifenden Wandel in der Wissenszugänglichkeit. Experimentelle Belege zeigen nun, dass Bequemlichkeit zugunsten von Tiefe gehen kann. Anstatt diese Werkzeuge zu verteufeln, sollte der Fokus auf einer klügeren Nutzung liegen: das richtige Werkzeug für die jeweilige Aufgabe wählen und Lern- bzw. Arbeitsprozesse so gestalten, dass aktive Verarbeitung und kritische Auseinandersetzung wieder ihren Platz bekommen.
Pragmatisch heißt das: LLMs als Ausgangspunkt oder Effizienzwerkzeug verwenden, aber begleitende Aufgaben und Systeme einführen, die vertieftes Lernen, Quellensicherung und eigenständige Synthese erzwingen. So lässt sich das Potenzial generativer KI heben, ohne die langfristige Kompetenzentwicklung zu opfern.
Quelle: sciencealert
Kommentar hinterlassen