Databricks testet führende Sprachmodelle mit 89.000 Seiten Treasury-Dokumenten. GPT-5.1 und Claude Opus 4.5 bleiben unter 45 Prozent Erfolgsquote.
Während akademische Benchmarks wie ARC-AGI-2 oder Humanity's Last Exam abstrakte Problemlösungsfähigkeiten messen, konfrontiert der neue Open-Source-Benchmark OfficeQA von Databricks KI-Agenten mit alltäglichen Unternehmensaufgaben: Informationsextraktion aus heterogenen, unstrukturierten Dokumentbeständen, bei denen Fehler finanzielle Konsequenzen haben. Die Testgrundlage bilden U.S. Treasury Bulletins: 89.000 Seiten voller Tabellen, historischer Datenreihen und Revisionen aus über 80 Jahren. 246 Fragen mit eindeutig prüfbaren Antworten testen sogenanntes Grounded Reasoning: die Fähigkeit, aus realen Geschäftsdokumenten korrekte Informationen zu extrahieren.
Ohne Zugriff auf Dokumente erreichen getestete Agenten, einschließlich GPT-5.1 und Claude Opus 4.5, lediglich 2 Prozent Trefferquote. Mit vollständigem PDF-Zugriff steigt GPT-5.1 auf 43,1 Prozent, Claude Opus 4.5 auf 37,4 Prozent. Bei komplexen Fragen (OfficeQA-Hard) kollabiert die Performance weiter: GPT-5.1 erreicht 24,8 Prozent, Claude Opus 4.5 nur 21,1 Prozent. Die Fehleranalyse dokumentiert strukturelle Defizite: Parsing-Probleme bei mehrdimensionalen Tabellen, Inkompetenz beim Umgang mit überarbeiteten Finanzdaten, Versagen bei visueller Diagramminterpretation. In einem Beispiel identifizieren Agenten lokale Maxima in Liniendiagrammen auf Seite 5 des US Treasury Monthly Bulletin (September 1990) nicht korrekt.
Die Kernbotschaft: Spitzenleistungen in Forschungs-Benchmarks korrelieren nicht mit betrieblicher Einsatzfähigkeit. „Fast richtig" produziert in Finance, Controlling oder Compliance keine Wertschöpfung, falsche Kennzahlen generieren Folgekosten. Databricks positioniert OfficeQA explizit als Diagnoseinstrument. Der Grounded Reasoning Cup 2026 soll Forscher und Unternehmen motivieren, den Benchmark über Treasury-Daten hinaus zu erweitern. Das GitHub-Repository ist öffentlich verfügbar. Die ungelöste Frage: Bildet ein einzelner Dokumentenkorpus die Heterogenität unternehmensinterner Wissensbasen ab? Erst breitere Anwendung wird zeigen, ob OfficeQA repräsentativ für reale Einsatzszenarien ist oder lediglich eine weitere Testkategorie ergänzt, in der KI-Systeme scheitern.





