OKR für KI-Funktionen: Warum 'Genauigkeit' das falsche Key Result ist

Veröffentlicht am

2.7.2026

Immer mehr Teams bauen gerade eine KI-Funktion – einen internen Assistenten, einen Kundenservice-Bot, ein Analyse-Tool – und stehen dann vor derselben Frage: Wie schreiben wir dafür eigentlich ein Key Result? Die naheliegende Antwort lautet meistens: "Wir erreichen 90% Trefferquote" oder "95% unserer Antworten sind korrekt." Klingt seriös, lässt sich sauber messen, das Team steht dahinter.

Nur: Es ist ein Output. Und damit landen wir – nur mit neuem KI-Anstrich – exakt in der Falle, vor der wir seit über einem Jahrzehnt in jedem OKR-Projekt warnen.

‍

Warum KI-Kennzahlen die alte OKR-Falle nur neu verpacken

Ein Key Result beschreibt eine Verhaltensänderung bei Menschen – nicht eine Eigenschaft eines Systems. Diese Regel gilt für ein neues Reporting-Dashboard genauso wie für eine KI-Funktion. Bei KI wird sie nur schwerer einzuhalten, weil das, was die Maschine produziert, von Nutzer zu Nutzer und von Prompt zu Prompt variiert. Eine Genauigkeits-Kennzahl beschreibt einen Durchschnitt über tausende unterschiedliche Antworten – sie sagt nichts darüber aus, ob die Person, die gerade vor dem Ergebnis sitzt, damit etwas anfangen kann.

Aus systemtheoretischer Sicht ist eine KI-Funktion zunächst nichts anderes als eine neue Kommunikation, die in ein soziales System – Team, Abteilung, Organisation – eingespeist wird. Ob diese Kommunikation etwas bewirkt, entscheidet nicht ihre innere Qualität, sondern ob das System daran anschließt: ob jemand die Antwort übernimmt, weiterverarbeitet, ihr vertraut oder sie verwirft. Eine KI mit 95% Modellgenauigkeit, deren Output niemand nutzt, hat für das System schlicht keine Relevanz. Deshalb gilt für KI-Produkte exakt die Formel, die wir auch sonst für jedes Outcome verwenden:

Wer macht was in welchem Umfang?

Wer ist die Person, die auf die KI-Antwort trifft. Was tut sie infolgedessen anders als vorher. Und in welchem Umfang verändert sich dieses Verhalten. Alles andere – das Modell, der Prompt, die Trefferquote – ist Mittel zum Zweck, nicht das Ziel selbst.

‍

Drei Arten von Key Results für KI-Funktionen

Diese Verhaltenslogik lässt sich in drei Kategorien von Key Results übersetzen, die zusammen ein vollständiges Bild ergeben.

‍

1. Das Anschluss-KR: Was Menschen tun, nachdem die KI geantwortet hat

Nehmen wir einen HR-Assistenten, der Bewerbungsunterlagen vorsortiert und Recruiter:innen eine Shortlist samt Begründung liefert. Die entscheidende Frage ist nicht, wie "richtig" das Modell die Kandidat:innen bewertet – sondern was die Recruiter:innen mit dieser Shortlist machen. Übernehmen sie sie direkt ins nächste Gespräch? Sortieren sie eigenhändig nach, weil sie der Auswahl nicht trauen? Öffnen sie parallel eine eigene Tabelle, um die Vorauswahl zu wiederholen?

Jede dieser Reaktionen ist ein Signal. Das Anschluss-KR macht daraus eine Zahl: "Anteil der KI-Shortlists, die ohne manuelle Nachsortierung ins nächste Gespräch übernommen werden, von 35% auf 60% erhöhen." Dazu passt eine Gegenkennzahl, die das unerwünschte Verhalten im Blick behält, etwa die Häufigkeit, mit der eine Shortlist komplett neu angefordert wird, weil die erste nicht überzeugt hat.

‍

2. Das Kalibrierungs-KR: Qualität als beobachtbares Verhalten

Hier landet die Versuchung, die Genauigkeit doch wieder durch die Hintertür einzuführen – verständlich, denn Qualität ist real und zählt. Nur messen wir sie auch hier über das, was Menschen tun. Ein Support-Team etwa nutzt einen Assistenten, der Antwortentwürfe für eingehende Kundenanfragen vorschlägt. Ist ein Entwurf wirklich gut, verändert sich das Verhalten der Mitarbeitenden sichtbar: Sie verschicken ihn mit kleinen Anpassungen, statt ihn komplett neu zu formulieren. Sie hören auf, jede Antwort gegen das Originalticket zu prüfen, bevor sie sie freigeben.

Das Kalibrierungs-KR könnte lauten: "Anteil der Antwortentwürfe, die komplett neu geschrieben statt übernommen und leicht angepasst werden, von 45% auf 20% senken." Der Moment, in dem jemand entscheidet, ein Ergebnis so zu übernehmen, wie es ist, ist der ehrlichste Qualitätsnachweis, den es gibt – ehrlicher als jede interne Testmetrik, weil jede Nutzerin und jeder Nutzer mit einem anderen Fall und einem anderen Anspruch auf das Ergebnis trifft.

‍

3. Das Vertrauens-KR: Messen, was Menschen der KI überlassen

Vertrauen wird gerne über Umfragen erhoben – und Umfragen sind bei Verhaltensfragen notorisch unzuverlässig. Menschen geben in einer Umfrage an, der KI zu vertrauen, und prüfen anschließend trotzdem jede einzelne Antwort nach. Echtes Vertrauen zeigt sich nicht in einer Aussage, sondern darin, was jemand bereit ist herzugeben.

Ein Vertriebsteam nutzt beispielsweise ein KI-Tool, das nach jedem Kundengespräch automatisch eine Zusammenfassung samt nächsten Schritten ins CRM schreibt. Vertrauen zeigt sich daran, ob Account Manager:innen die automatische Übernahme aktiv lassen oder jede Zusammenfassung erst manuell freigeben, bevor sie ins System wandert – und ob sie das Tool auch bei den Gesprächen einsetzen, die wirklich zählen, nicht nur bei internen Abstimmungen.

Ein sauberes Vertrauens-KR: "Anteil der Gespräche, bei denen die automatische CRM-Übernahme aktiviert bleibt, von 20% auf 55% steigern", flankiert von einer Obergrenze für manuelle Korrekturen der KI-Vorschläge, etwa unter 10%. Beide Zahlen beantworten dieselbe Frage aus zwei Richtungen: Was sind Menschen bereit, der Maschine zu überlassen, wenn sie ihr wirklich vertrauen?

‍

Der Blick durch unsere systemische Brille

Für uns ist das kein neues Prinzip, das KI erforderlich gemacht hätte – es ist derselbe Denkrahmen, den wir seit 2011 in über 2.100 OKR-Projekten anwenden, nur an einer neuen Art von Output erprobt. Wir denken immer vom Outcome her: Zuerst die Verhaltensänderung als Hypothese formulieren, dann den kleinstmöglichen Output finden, der diese Hypothese überprüfen kann. Bei einer KI-Funktion ist der Output eben kein Feature-Release mit festem Datum, sondern ein Modell, dessen Verhalten sich von Anfrage zu Anfrage unterscheidet – was die Versuchung, doch wieder outputorientiert zu denken, nur größer macht, nicht kleiner.

Schaut man systemtheoretisch darauf: Eine Organisation, die einer komplexeren Umwelt begegnet, muss selbst komplexer werden, um überlebensfähig zu bleiben. Eine KI-Funktion erhöht diese Komplexität automatisch, weil ihre Antworten nicht mehr vollständig vorhersagbar sind. Wird diese Komplexität ausschließlich mit einer einzigen mechanistischen Kennzahl – "Genauigkeit" – eingefangen, wird sie künstlich wieder verkleinert, und genau die Information geht verloren, die eigentlich zählt: wie die Menschen im System auf diese neue, unsichere Kommunikation reagieren. Outcome-Denken ist deshalb bei KI keine Kür, sondern die Voraussetzung dafür, dass die Investition in die neue Funktion überhaupt sichtbar wird.

‍

Fazit

Drei Key Results, keines davon eine Eigenschaft des Modells: eines für das, was Menschen mit dem Ergebnis tun, eines für das Verhalten, das Qualität sichtbar macht, eines für das, was sie der KI zu überlassen bereit sind. Zusammen ergeben sie ein OKR, das die KI-Funktion nie direkt misst – sondern immer nur über die Menschen, für die sie gebaut wurde.

Wenn Ihr gerade vor einer KI-Funktion sitzt und die einzige Zahl, auf die Ihr Euch committen könntet, aus dem Inneren des Modells stammt, messt Ihr die Maschine statt der Menschen. Schreibt stattdessen zuerst die eine wertvollste Handlung auf, die jemand nach der KI-Antwort ausführen soll – und fragt dann, um wie viel häufiger Ihr das erreichen könnt. Das war schon vor KI der Ausgangspunkt jeder guten Strategiearbeit. Es bleibt einer.

Diesen Beitrag teilen

Aktuelle News und Artikel

Alle News und Artikel

OKR

9 min

OKR für KI-Funktionen: Warum 'Genauigkeit' das falsche Key Result ist

Viele Teams schreiben für ihre KI-Funktion ein Key Result wie '95% Genauigkeit' – und tappen damit in dieselbe Falle, vor der wir seit über zehn Jahren warnen: Sie messen einen Output statt eines menschlichen Verhaltens. Mit drei Arten von Key Results und unserer systemischen Perspektive zeigen wir, wie OKRs für KI-Funktionen wirklich outcome-orientiert werden.

Jetzt lesen

Outcomes in OKR verstehen: Ein umfassender Leitfaden

OKR

20m

Outcomes in OKR verstehen: Ein umfassender Leitfaden

In der Welt der Objectives & Key Results (OKR) spielt das Konzept der Outcomes eine zentrale Rolle, wenn es darum geht, sinnvolle Veränderungen anzustoßen und den Erfolg zu messen. Im Gegensatz zum Output, der sich auf die Erfüllung von Aufgaben konzentriert, geht es bei den Outcomes um die Auswirkungen, die diese Aufgaben auf das Kundenverhalten und den gesamten Unternehmenswert haben. In diesem Artikel erfährst du, was Outcomes sind, welche Vorteile sie haben, welche Fallstricke es gibt und wie du sie effektiv in deine OKRs einbauen kannst.

Jetzt lesen

View all

Beratung

Zertifizierungen

Trainings

Personen transformieren

Wissen

Über uns

Warum KI-Kennzahlen die alte OKR-Falle nur neu verpacken

Drei Arten von Key Results für KI-Funktionen

1. Das Anschluss-KR: Was Menschen tun, nachdem die KI geantwortet hat

2. Das Kalibrierungs-KR: Qualität als beobachtbares Verhalten

3. Das Vertrauens-KR: Messen, was Menschen der KI überlassen

Der Blick durch unsere systemische Brille

Fazit

Aktuelle News und Artikel

OKR für KI-Funktionen: Warum 'Genauigkeit' das falsche Key Result ist

Outcomes in OKR verstehen: Ein umfassender Leitfaden