Trotz ihrer Leistungsfähigkeit in vielen Bereichen ist KI bei Geschichtswissen auf Expertenniveau immer noch unzureichend. Die leistungsstärksten Modelle erreichen bei der Genauigkeit nur 46 %. Die Studie zeigt die Grenzen und das zukünftige Potenzial von KI in der historischen Forschung auf.
Chatbots mit künstlicher Intelligenz haben Bereiche vom Kundenservice bis zur Rechtsforschung revolutioniert, aber neue Erkenntnisse deuten darauf hin, dass diese Systeme immer noch mit komplexem historischem Wissen zu kämpfen haben. Ein Team aus Komplexitätswissenschaftlern und KI-Experten hat kürzlich die Leistung fortschrittlicher Sprachmodelle, darunter ChatGPT-4, bei Geschichtsfragen auf Doktorandenniveau bewertet. Die Ergebnisse, vorgeführt auf der NeurIPS-Konferenz in Vancouver, offenbaren erhebliche Lücken in ihrem historischen Verständnis.
Unter der Leitung von Peter Turchin, einem Komplexitätsforscher am Complexity Science Hub (CSH), und Maria del Rio-Chanona, einer Assistenzprofessorin am University College London, testete die Studie KI-Modelle wie ChatGPT-4 Turbo, Llama und Gemini anhand eines strengen Benchmarks, der mithilfe der Seshat Global History Databank entwickelt wurde. Der Benchmark umfasste fast 600 Gesellschaften, über 36,000 Datenpunkte und mehr als 2,700 wissenschaftliche Referenzen.
„Große Sprachmodelle (LLMs) wie ChatGPT waren in einigen Bereichen enorm erfolgreich – zum Beispiel haben sie es geschafft, Rechtsanwaltsgehilfen zu ersetzen. Aber wenn es darum geht, Urteile über die Eigenschaften vergangener Gesellschaften zu fällen, insbesondere außerhalb Nordamerikas und Westeuropas, sind ihre Fähigkeiten viel eingeschränkter“, sagte Turchin, der die CSH-Forschungsgruppe für soziale Komplexität und Zusammenbruch leitet, in einem Pressemitteilung.
Trotz Verbesserungen gegenüber früheren Iterationen erreichte das leistungsstärkste Modell, GPT-4 Turbo, bei einem Multiple-Choice-Geschichtstest für Doktoranden nur eine Genauigkeit von 46 %. Dies ist zwar besser als die 25 % Genauigkeit, die man bei zufälligen Schätzungen erwarten würde, unterstreicht aber die Grenzen der KI beim Verständnis nuancierter historischer Zusammenhänge.
„Ich dachte, die KI-Chatbots würden viel besser abschneiden“, fügte del Rio-Chanona hinzu, der auch externes Fakultätsmitglied am CSH und der korrespondierende Autor ist. „Geschichte wird oft als Tatsache betrachtet, aber manchmal ist eine Interpretation notwendig, um sie zu verstehen.“
Eine der überraschendsten Erkenntnisse der Studie war die Domänenspezifität der KI-Fähigkeiten.
„Dieses Ergebnis zeigt, dass künstliche ‚Intelligenz‘ sehr domänenspezifisch ist. LLMs sind in manchen Kontexten erfolgreich, in anderen jedoch im Vergleich zu Menschen sehr schlecht“, fügte Turchin hinzu.
Die Leistung variierte je nach Zeiträumen und geografischen Regionen erheblich. KI-Modelle waren bei der Beantwortung von Fragen zur antiken Geschichte, insbesondere von 8,000 v. Chr. bis 3,000 v. Chr., genauer, hatten jedoch bei jüngeren historischen Ereignissen von 1,500 n. Chr. bis zur Gegenwart erhebliche Schwierigkeiten.
Es gab auch erhebliche Unterschiede hinsichtlich der Genauigkeit je nach geografischem Schwerpunkt: Modelle wie das von OpenAI schnitten in Lateinamerika und der Karibik besser ab, waren in Afrika südlich der Sahara jedoch weniger effektiv.
Erstautor Jakob Hauser, Wissenschaftler am CSH, erläuterte die Bedeutung der Festlegung solcher Benchmarks.
„Wir wollten einen Maßstab setzen, um die Fähigkeit dieser LLMs zu beurteilen, Geschichtswissen auf Expertenniveau zu verarbeiten. Die Seshat-Datenbank ermöglicht es uns, über Fragen des ‚Allgemeinwissens‘ hinauszugehen“, sagte er in der Pressemitteilung.
Die Studie hob außerdem hervor, dass KI-Modelle in bestimmten Kategorien wie Rechtssystemen und sozialer Komplexität hervorragende Leistungen zeigten, jedoch bei Themen im Zusammenhang mit Diskriminierung und sozialer Mobilität schwächelten.
„Die wichtigste Erkenntnis aus dieser Studie ist, dass LLMs zwar beeindruckend sind, aber immer noch nicht die Tiefe des Verständnisses aufweisen, die für fortgeschrittene Geschichte erforderlich ist. Sie sind großartig für grundlegende Fakten, aber wenn es um differenziertere historische Untersuchungen auf PhD-Niveau geht, sind sie der Aufgabe noch nicht gewachsen“, fügte del Rio-Chanona hinzu.
Mit Blick auf die Zukunft möchte das Forschungsteam, zu dem auch Experten der Universität Oxford und des Alan Turing Institute gehören, seinen Datensatz erweitern und seine Benchmarks verfeinern, um noch vielfältigere und komplexere historische Fragen einzubeziehen.
„Wir planen, den Benchmark weiter zu verfeinern, indem wir zusätzliche Datenpunkte aus verschiedenen Regionen, insbesondere dem Globalen Süden, integrieren“, fügte Hauser hinzu. „Wir freuen uns auch darauf, neuere LLM-Modelle wie o3 zu testen, um zu sehen, ob sie die in dieser Studie identifizierten Lücken schließen können.“
Diese Erkenntnisse bieten sowohl Historikern als auch KI-Entwicklern wichtige Erkenntnisse und zeigen Verbesserungsbereiche sowie das Potenzial für eine bessere Integration von KI in die historische Forschung auf.