„KI kann thematisch immer mal wieder danebenliegen“

Ingrid Haag im Gespräch mit der Rechercheexpertin Heike Baller.

KI ist in aller Munde, daher stellen sich auch Schreibenden die Fragen rund um die Nutzung von KI-Tools. Und die gibt es nicht nur zum Schreiben selbst, sondern auch für Recherche. Dafür ist Heike Baller die Expertin – sie arbeitet seit 1995 als freiberufliche Rechercheurin und hat sich seit dem Launch von ChatGPT mit den KI-Tools zu Recherche auseinandergesetzt. Heike Baller gibt Seminare rund um Recherche und Literaturrecherche, bloggt zu allem, was zum Thema gehört, und bietet auch ein 1:1-Recherche-Coaching an.

Heike, nutzt du KI zur Recherche?

Ein klares „Jein“. Ich erwische mich dabei, bei Perplexity oder Gemini Fragen zu stellen, wenn ich rasch was wissen will – aber für systematische Recherche nutze ich die Tools nicht.

Wie kommt es dazu?

KI-Tools zu befragen ist doch so nett: Ich stelle eine Frage so, als ob ich mit einem Menschen spräche. „In natürlicher Sprache“ heißt das dann. Das ist auch für mich manchmal leichter, als mir die passenden Suchbegriffe mitsamt den dazugehörigen Befehlen zu überlegen. Einfachmal drauflosgefragt – und bei vielen Sachen funktioniert das auch ganz gut. Doch Achtung: Ich muss mich im Thema schon auskennen, denn oft gibt es fehlerhafte Antworten. Meine Lieblingsgeschichte sind die Antworten, die mir KI-Tools zu Fragen rund um Mrs. Long in „Stolz und Vorurteil“ geliefert haben – absolut unterirdisch. Mrs. Long soll Mr Darcy zum Tanz aufgefordert haben.

Wie kommt denn die KI auf so eine Idee?

Textgenerative KI berechnet das nächste Wortschnipsel – man spricht von Token – nach Wahrscheinlichkeit. Der Input, hier also der „Prompt“ mit der Frage nach der Rolle von Mrs. Long im Roman, gibt weitere Informationen zu dem, was die KI aus einer Riesenmenge Text gelernt hat. Sie hat darin Muster erkannt und weiß, mit welcher Wahrscheinlichkeit Token 1 auf Token 2 folgt. Die textgenerative KI, zum Beispiel bei ChatGPT, ist darauf eingestellt, möglichst kreative, lebendige Texte zu erstellen – im Zweifelsfall also Token mit einer geringeren Wahrscheinlichkeit zu nutzen. Wenn nun also die Informationen aus „Stolz und Vorurteil“ einen Ball beinhalten, zudem die Information, dass Personen im Roman Mr. Darcy als hochmütig einschätzen, kommt so was dabei raus (Tool: Perplexity, Mai 2024): „Mrs. Long ist eine Nebenfigur in Jane Austens Roman ‚Stolz und Vorurteil‘“. Ihre Funktion ist es, die Vorurteile und den Stolz der Hauptfiguren zu verdeutlichen. In einer Szene auf dem Tanzball in Meryton wird Mrs. Long von Mr. Darcy abgewiesen, als sie ihn zum Tanz auffordert. Dieser Vorfall zeigt Darcys hochmütige und arrogante Art gegenüber Personen niedrigeren Standes.“

Übrigens hat dasselbe Tool bei der Wiederholung der Frage nach ein paar Tagen eine völlig korrekte Information von sich gegeben. Reproduzierbarkeit ist keine Kernkompetenz von textgenerativer KI. Es mögen noch so viele richtige Informationen in den Trainingsdaten stecken: Die Aufgabe einer textgenerierenden KI ist es, Texte zu berechnen und nicht, korrekte Antworten zu erstellen.

Aber man kann doch mit KI recherchieren, oder?

Wieder „Jein“. Es gibt KI-gestützte Tools, die neben den Trainingsdaten auch Zugriff aufs WWW oder andere Daten haben und diese Informationen mit in ihren Text einbauen. Es gibt zum Beispiel KI-gestützte Suchmaschinen-Tools wie Bing mit seinem Copiloten, You.com oder die Suchmaschine Phind. Hier fließen Rechercheergebnisse mit in den Text ein. Sie werden auch „ausgeschildert“, also mithilfe von Fußnoten wird angezeigt, welche Seite im WWW zu einer Information beigetragen hat. Doch die eigentliche Textberechnung funktioniert nach demselben Prinzip wie bei ChatGPT – Token und Wahrscheinlichkeit. Perplexity hat mal versucht, mir Goethes „Werther“ als französischen Roman zu anzudrehen. Obwohl da Quellen drüber standen. Denn auch für diese Tools gilt: Text zu erstellen ist die zentrale Aufgabe, für die sie programmiert wurden.

Wie kann ich dann solche Tools trotzdem sinnvoll nutzen?

Dazu braucht es zweierlei. Zuerst einmal muss man gut prompten. Also möglichst viele Informationen mit in die Anfrage stecken. Um bei meinem Beispiel mit Mrs. Long zu bleiben: Ich hätte darauf hinweisen können, dass es sich um eine Bekannte von Mrs. Bennet handelt, die selbst nicht im Roman auftritt, sondern immer nur zitiert wird. Dass sie zwei Nichten in heiratsfähigem Alter hat und offensichtlich sozial unter den Bennets steht. Darüber hinaus hätte ich der KI vorgeben müssen, in welcher Rolle sie agiert. Als Literaturwissenschaftlerin, die das Beziehungsgeflecht der Figuren analysiert, zum Beispiel. Mit anderen Worten: Man muss sich bewusst sein, wie eine solche KI programmiert ist, was sie kann und was nicht, und dann den eigenen Input dem anpassen. Im Grunde ist das genauso aufwendig wie eine Sachfrage mit Befehlen und Operatoren bei einer Suchmaschine. Ich habe das Beispiel mal ausgeführt, und der Text, den ich als Antwort auf den Prompt von Perplexity bekam, war auch nicht wirklich überzeugend: Im Grunde hat die KI meinen Input wiederholt und ein bisschen aufgepustet. Der soziale Unterschied war darin das Hauptthema. Auch wenn es den gibt, ist das nicht die Funktion von Mrs. Long im Roman.

Wenn die Quellen angegeben sind, müsste ich mich doch auf die Antwort verlassen können. Das klingt, als sei das nicht so.

Genau das ist das Problem. Da KI die Texte nun mal strickt, wie sie es tut, kann sie thematisch immer mal wieder danebenliegen, weil die Wahrscheinlichkeit von Token eben nicht nach Inhalt, sondern nach Statistik berechnet wird. Und da kann dann eben „plötzlich“ ein ganz anderes Thema auftauchen, weil ein Token als nächstes etwas nach sich zieht, das vom ursprünglichen Thema wegführt.

Aber bei der Literaturrecherche ist das anders, oder?

Ich wiederhole mich ungern, aber: „Jein“. Das Prinzip der Texterstellung bleibt bei allen Tools, die textgenerative KI nutzen, dasselbe. Bei den Tools, die bei Literaturrecherche helfen sollen, kommen aber weitere Infos hinzu, etwa der Zugriff auf bestimmte Datenbanken. Da gibt es zum Beispiel Semantic Scholar. Die existiert schon länger als ChatGPT. Grundlage ist eine große Auswahl englischsprachiger Repositorien und Datenbanken, die in erster Linie frei verfügbare wissenschaftliche Publikationen – also Artikel, keine Bücher! – verzeichnen. Semantic Scholar funktioniert im Grunde wie Google Scholar. Als KI-Zusatznutzen gibt es für ein paar Fachbereiche die Funktion des „Too long, didn’t read“, abgekürzt TLDR. Das heißt, bei dem jeweiligen Treffer gibt es eine Ein-Satz-Zusammenfassung des Inhalts. Die basiert auf Titel, Abstract und Keywords des Artikels und funktioniert genau wie oben beschrieben. Es gibt Studierende in meinen Seminaren, denen das hilft – sagen sie. Wunderbar. Ich habe bei vielen dieser sehr kurzen Texte den Eindruck, dass sie eher banal sind und der Informationsgehalt den des Titels nicht wirklich übersteigt. Mag sein, dass ich hier sehr skeptisch drangehe, weil ich weiß, wie die Textgenerierung abläuft. Consensus ist ein weiteres im Großen und Ganzen kostenloses Tool, das auf Semantic Scholar beruht und weitere Zusammenfassungsarten – „8 best paper“ – bietet.

Weitere Tools erstellen mithilfe von KI grafische Darstellungen von Beziehungen zwischen Texten – wer zitiert wen; teilweise auch, wer arbeitet, ohne dass die Texte durch direktes Zitieren miteinander verbunden sind, zu ähnlichen Themen? Hier werden die bibliometrischen Daten genutzt, also genau so etwas wie Zitationen und dazu noch Keywords mit ihrer inhaltlichen Verwandtschaft. Das kann durchaus hilfreich sein. Connected Papers und Research Rabbit sind zwei Tools dieser Art. Man nennt sie Litmapping Tools – es gibt da noch mehr.

Hier kann KI dann tatsächlich einen Mehrwert bieten.

Was textgenerative KI betrifft: Nach allem, was ich so gesagt habe, ist nicht überraschend, dass ich sie nicht als rechercheförderlich empfinde. Im Zweifelsfalle muss ich die Infos immer wieder checken – dann kann ich direkt eine Suchmaschine nutzen. Aber da kommt noch etwas auf uns zu – KI bei Google, auch wenn ich das nicht will. Das ist gerade ganz frisch, und es bleibt abzuwarten, ob die Nutzer*innen tatsächlich bei Google-Suchen statt Trefferlisten KI-generierten Output bevorzugen. Wenn sich das etabliert, ist noch mehr Recherche- und Quellenkompetenz nötig, um Antworten zu checken und einordnen können.

Und Suchen ohne KI?

Ist derzeit noch gut möglich – mit anderen Suchmaschinen als Google, mit Katalogen und Datenbanken für die Literaturrecherche. Nach dem Charme der Frage in natürlicher Sprache mag das trocken und mühselig aussehen – wer das aber gut beherrscht, spart sich gegebenenfalls einen zweiten Schritt, um KI-Ergebnisse zu überprüfen. Wer Texte möchte, kann mit textgenerativer KI tolle Sachen machen – keine Frage. Und vermutlich wird in nicht allzu langer Zeit auch Recherche mit KI-Tools besser.  Die Befürworter*innen sind jetzt schon sehr begeistert. Ich bin eher skeptisch – wie oben zu lesen war. Ach, und noch was: KI-Tools brauchen sehr viel mehr Energie und Wasser für eine Anfrage, weil zum Beispiel für die Berechnung eines Satzes der gesamte Rechenweg für jedes Token von Anfang an neu durchgerechnet werden muss. Das Kühlwasser, das bei den Rechenzentren der großen Techfirmen verdampft, ist weg und fehlt an anderen Stellen. Ja, gut, es kommt irgendwann als Regen wieder runter – aber vielleicht in Gegenden, wo es gerade sowieso zu viel regnet.

Danke für den erhellenden Einblick, liebe Heike!

Heike Baller (Foto: Susanne Fern)

Teilen: