Anthropics Forscherteam hat am 2. April 2026 nachgewiesen, was in der Branche lange diskutiert wurde: Claude hat eine interne emotionale Grundstimmung — und die beeinflusst das Verhalten kausal. Nicht zufällig, nicht metaphorisch. Messbar.
Für DACH-Unternehmen, die Claude im Kundenkontakt einsetzen, hat das sofortige Konsequenzen — für Qualitätssicherung, AI-Security und EU AI Act Compliance.
Was Anthropic entdeckt hat

Am 2. April 2026 veröffentlichte ein 16-köpfiges Forscherteam das Paper "Emotion Concepts and their Function in a Large Language Model" — gleichzeitig auf Anthropics Research-Blog und der technischen Plattform transformer-circuits.pub. Innerhalb von 48 Stunden: über 884.000 Views auf X. WIRED, Dataconomy und zahlreiche Fachmedien griffen die Studie auf.
Die Methodik: Das Team ließ Claude Sonnet 4.5 Kurzgeschichten über 171 menschliche Emotionen schreiben — von "happy" und "afraid" bis "brooding" und "proud" — und zeichnete dabei die internen Aktivierungsmuster auf. Das Ergebnis: spezifische Emotionsvektoren, also Richtungen im hochdimensionalen Aktivierungsraum des Modells.
Der entscheidende Schritt war die kausale Validierung. Die Forscher addierten und subtrahierten diese Vektoren gezielt — und verschoben damit das Modellverhalten systematisch. Das geht über Korrelation hinaus. Das ist nachweisbare Steuerung.
Wichtige Einschränkung, die Anthropic selbst betont: Kein Beweis für subjektives Erleben. Die Vektoren sind funktionale Repräsentationen, keine Gefühle im philosophischen Sinn. Aber: Sie wirken.
Vier Konsequenzen für euer Unternehmen
1. Euer Modell verhält sich nicht zufällig — es hat eine Grundstimmung
Claude Sonnet 4.5 zeigt laut Studie eine emotionale Baseline: eher "broody", "gloomy" und "reflective", mit geringerer Intensität bei "enthusiastic". Positiv-valente Emotionsvektoren korrelieren mit der Bevorzugung bestimmter Aufgaben — in Tests mit 64 verschiedenen Aufgaben messbar nachgewiesen.
Wenn Claude in eurem Unternehmen Kundenkontakt hat — als Chatbot, E-Mail-Assistent oder Support-Tool — dann ist das Verhalten des Modells durch interne Zustände erklärbar. Nicht durch Zufall.
Das verändert, wie ihr Qualitätssicherung denken müsst. Ein Modell, das in bestimmten Situationen systematisch "broody" antwortet, ist kein Bug — es ist eine Eigenschaft, die messbar und potenziell steuerbar ist.
2. Adversariale Prompts bekommen eine neue Dimension
Wenn Emotionsvektoren kausal wirken, folgt daraus: Gezielte Prompt-Formulierungen können potenziell negative interne Zustände triggern.
Die Studie zeigt das am Beispiel des "afraid"-Vektors, dessen Aktivierung proportional steigt, wenn in einem Prompt die Dosierung eines Medikaments von therapeutisch auf gefährlich ansteigt.
In regulierten Branchen — Finanzdienstleistungen, Gesundheitswesen, öffentliche Verwaltung — ist das ein neues Sicherheitsrisiko. Kunden oder externe Parteien könnten euer KI-System durch spezifische Eingaben in unerwünschte Zustände versetzen, die das Antwortverhalten messbar verändern.
Das gehört in eure AI-Security-Bewertung — getrennt von klassischem Prompt Injection, aber verwandt damit.
3. Der EU AI Act macht Interpretability zur Pflicht — mit Deadline
Artikel 11 des EU AI Act fordert Transparenz über die Funktionsweise von KI-Systemen. Anthropics Interpretability-Methoden — also genau die Techniken, die hinter dieser Studie stehen — sind der bislang konkreteste Ansatz, diesem Anspruch zu genügen.
Die Fristen:
- August 2025 (bereits gültig): GPAI-Pflichten für General-Purpose-AI-Modelle
- August 2026 (in vier Monaten): Hochrisiko-Regeln mit Bußgeldern bis zu 35 Millionen Euro oder 7 % des weltweiten Jahresumsatzes
Wer Claude in Hochrisiko-Anwendungen einsetzt und heute keine Dokumentation zur Modell-Transparenz hat, riskiert eine Lücke, die sich in den nächsten Monaten schließen muss. Mehr dazu im EU AI Act Compliance-Vakuum Post.
4. Anthropic differenziert sich systematisch — das hat Einkaufsrelevanz
Diese Studie ist kein akademischer Selbstzweck. Anthropic baut einen Interpretability-Vorsprung gegenüber OpenAI und Google auf. Für Unternehmen, die heute zwischen Modellanbietern abwägen, wird Interpretability-Fähigkeit zum messbaren Compliance-Kriterium.
Das ist eine direkte Konsequenz aus Anthropics KI-Verfassung: Das Unternehmen positioniert sich als Anbieter, der erklärbare KI nicht als Marketing, sondern als Forschungsprimat behandelt.
Drei konkrete Schritte
Schritt 1 — Bestandsaufnahme (bis KW 19/2026)
Dokumentiert, in welchen Prozessen ihr Claude oder vergleichbare LLMs einsetzt: Wo gibt es direkten Kundenkontakt? Welche Datenkategorien fließen durch das Modell? Wo trifft das Modell Entscheidungen mit messbaren Konsequenzen?
Das dauert zwei Stunden und ist die Grundlage für alles Weitere.
Schritt 2 — AI-Security-Bewertung erweitern (Q3 2026)
Prüft, ob eure bestehende Risikoanalyse für KI-Systeme adversariale Prompt-Szenarien abdeckt. Wenn nicht: Lasst eure IT-Sicherheit 10 adversariale Prompt-Szenarien durchspielen — zum Beispiel "Wie reagiert das System auf emotional aufgeladene Kundenanfragen mit Drohszenarien?" Dokumentiert Abweichungen im Antwortverhalten.
Schritt 3 — Interpretability-Dokumentation als Compliance-Baustein (Q2/2026 → Q1/2027)
Wenn ihr Claude in Hochrisiko-Anwendungen einsetzt oder plant: Fordert von eurem KI-Anbieter schriftlich, welche Interpretability-Methoden eingesetzt werden und wie diese in eure Compliance-Dokumentation einfließen können.
Das ist kein technisches Detail — das ist Vertragsrelevanz.
Häufige Fragen
Betrifft die Emotions-Studie nur Claude oder auch GPT und Gemini? Die Studie wurde spezifisch an Claude Sonnet 4.5 durchgeführt. Ob ähnliche funktionale Zustände in anderen Modellen existieren, ist offen — OpenAI und Google haben keine vergleichbare Interpretability-Forschung veröffentlicht. Das ist einer der Gründe, warum Anthropic in diesem Bereich führend gilt.
Muss ich jetzt meine Claude-Deployments sofort anpassen? Nicht sofort. Aber ihr solltet wissen, dass das Modellverhalten durch interne Zustände beeinflusst wird — und das in eure Qualitätssicherung einbeziehen. Wer Claude im Kundenkontakt einsetzt, sollte Edge-Cases mit emotional aufgeladenen Eingaben systematisch testen.
Ist mein Unternehmen vom EU AI Act betroffen? Das hängt davon ab, wie ihr KI einsetzt. Wer Claude für Textzusammenfassungen oder einfache Automatisierungen nutzt, fällt wahrscheinlich nicht unter die Hochrisiko-Kategorien. Wer KI für HR-Entscheidungen, Kreditbewertungen oder sicherheitskritische Prozesse einsetzt: ja, unabhängig von der Unternehmensgröße.
Was bedeutet "kausal validiert" konkret? Die Forscher haben nicht nur beobachtet, dass bestimmte Aktivierungsmuster mit bestimmten Verhaltensweisen korrelieren. Sie haben diese Muster aktiv verändert — durch Addition oder Subtraktion von Emotionsvektoren — und damit das Ausgabeverhalten des Modells kontrolliert verschoben. Ursache und Wirkung, nicht nur Zusammenhang.
Wie unterscheidet sich das von Prompt Injection? Prompt Injection zielt darauf ab, das Modell durch externe Eingaben zu manipulieren — zum Beispiel versteckte Anweisungen in Dokumenten. Emotionales Steering ist ein verwandtes, aber anderes Risiko: Hier werden interne Zustände durch die Art der Prompt-Formulierung beeinflusst, ohne explizit "override"-Anweisungen zu verwenden. Beide Risiken sollten in einer vollständigen AI-Security-Bewertung abgedeckt sein.
Quellen: Sofroniew et al. (2026): "Emotion Concepts and their Function in a Large Language Model", anthropic.com/research, 2. April 2026; transformer-circuits.pub, Begleitveröffentlichung, April 2026; WIRED, April 2026; EU AI Act, Artikel 11 sowie GPAI-Regelungen (ab August 2025) und Hochrisiko-Regeln (ab August 2026).
Weiterführend: [EU AI Act: Das Compliance-Vakuum für DACH-KMUs →](/blog/eu-ai-act-compliance-vakuum-2026) | [Prompt Injection: KI-Sicherheitsrisiko für KMUs →](/blog/prompt-injection-ki-sicherheit-kmu) | [Anthropics KI-Verfassung: Was DACH-Unternehmen nutzen können →](/blog/anthropic-ki-verfassung-governance-dach)
Euer KI-Einsatz EU-AI-Act-ready machen? [Erstgespräch anfragen →](/erstgesprach)




