Das Wichtigste in Kürze

Ein Tiny Recursive Model mit 500 USD Trainingsbudget übertrifft GPT-4 und Gemini auf Reasoning-Benchmarks. Für datenschutzbewusste DACH-KMU heißt das: spezialisierte Small Language Models werden bezahlbar, lokal lauffähig und für klar abgegrenzte Aufgaben oft besser als ein generalistisches Cloud-LLM.

200.000×

Effizienzfaktor: TRM ($500) vs. GPT-4 ($100M)

Tiny Recursive Model (Samsung): 7M Parameter — weniger als 0,01% der GPT-4-Größe — schlägt GPT-4 auf Reasoning-Benchmarks.

Quelle: Samsung Advanced Institute of Technology, Oktober 2025

Am 6. Oktober 2025 veröffentlichte Alexia Jolicoeur-Martineau vom Samsung Advanced Institute of Technology Montreal eine Arbeit mit dem schlichten Titel: "Less is More: Recursive Reasoning with Tiny Networks." Die Ergebnisse waren alles andere als schlicht.

Das Tiny Recursive Model (TRM) mit 7 Millionen Parametern — weniger als 0,01% der Größe von GPT-4 — erreichte auf dem ARC-AGI-1 Benchmark 44,6% Genauigkeit. Zum Vergleich: Gemini 2.5 Pro kam auf 37,0%, o3-mini-high auf 34,5%, DeepSeek R1 (671 Milliarden Parameter) auf 15,8%.

Trainingskosten: unter $500. GPT-4: geschätzt $100 Millionen. Effizienzfaktor: 200.000.

Was den Unterschied macht: Rekursives Denken statt lineare Generierung

Traditionelle Large Language Models generieren Antworten Token für Token, linear. Ein früher Fehler im Denkprozess pflanzt sich durch den gesamten Output fort.

TRM verfolgt einen anderen Ansatz: Das Modell startet mit einer groben Antwort und verfeinert diese bis zu 16-mal durch rekursive Selbstkorrektur. Think → Act → Think → Act. Die Schleife simuliert menschliches Problemlösen: Versuch, Evaluation, Korrektur, erneuter Versuch.

Mit nur 2 physischen Netzwerk-Schichten erreicht TRM durch Rekursion die effektive Tiefe eines 42-Layer-Netzwerks. Das ist keine Optimierung an den Rändern — das ist ein anderes Architektur-Prinzip.

Die Benchmark-Ergebnisse

Modell	Parameter	ARC-AGI-1	ARC-AGI-2
TRM	7 Mio.	44,6%	7,8%
Gemini 2.5 Pro	~100 Mrd.	37,0%	4,9%
o3-mini-high	~100 Mrd.	34,5%	—
DeepSeek R1	671 Mrd.	15,8%	1,3%

Auf eng strukturierten Constraint-Aufgaben kehrt sich das Bild um — und das ist 2026 stabil geblieben. TRM löste 87,4 % der Sudoku-Extreme-Puzzles (9×9) und 85,3 % der Maze-Hard-Labyrinthe (30×30); die getesteten General-LLMs lagen bei 0,0 %. Auch aktuelle Frontier-Modelle ändern das kaum: In einem Vergleich vom Februar 2026 lösten sie nur rund 2 % schwerer Sudokus (bestes LLM: 6,9 %), während ein spezialisierter Solver auf 96 % kam. Der Grund ist architektonisch — Sprachmodelle erzeugen Token sequenziell und können einen früheren Fehler kaum zurücknehmen, genau das, was rekursive und solver-basierte Modelle können.

Quelle: arXiv:2510.04871, Samsung SAIT Montreal. Diese Tabelle ist der Stand Oktober 2025. Seitdem haben die Frontier-Modelle beim abstrakten Reasoning massiv aufgeholt: Auf ARC-AGI-2 führt GPT-5.5 im Juni 2026 mit 85,0 % vor Gemini 3.1 Pro (77,1 %) — beide über dem menschlichen Durchschnitt von 66 % und um ein Vielfaches über TRMs 7,8 %. „Klein schlägt groß“ gilt damit nicht mehr fürs offene Reasoning — wohl aber weiterhin für eng abgegrenzte, strukturierte Aufgaben (siehe unten).

Der ARC-AGI (Abstraction and Reasoning Corpus) wurde von François Chollet entwickelt, um "fluide Intelligenz" zu messen — die Fähigkeit, aus minimalen Beispielen abstrakte Regeln abzuleiten. Genau das, was Menschen mühelos können, aber selbst die größten LLMs zum Scheitern bringt.

Was das für KMUs konkret bedeutet

Spezialisierung schlägt Generalisierung

TRM ist kein Allzweck-LLM. Es wurde gezielt auf strukturierte Reasoning-Aufgaben trainiert: Logik-Puzzles, Labyrinthe, visuelle Mustererkennung. Diese Fokussierung ermöglicht die extreme Effizienz.

Für KMUs bedeutet das: Statt teurer API-Calls an GPT-4 für eine spezifische, wiederkehrende Aufgabe kann ein kleines Modell für die exakte Domäne trainiert werden — und läuft auf eigener Hardware, ohne Cloud-Abhängigkeit.

Open Source und lokal lauffähig

Samsung hat TRM vollständig unter MIT-Lizenz veröffentlicht. Kein Abo, keine API-Kosten, keine Vendor-Abhängigkeit.

Ein 7-Millionen-Parameter-Modell passt auf:

Moderne Laptops (16 GB RAM ausreichend)
Edge-Devices (NVIDIA Jetson, ~800 EUR)
Interne Server ohne GPU-Cluster

Für regulierte Branchen — Medizin, Finanzen, Produktion — bedeutet das: DSGVO-Compliance ohne Kompromisse, weil keine Daten das Unternehmen verlassen.

Wo TRM-Prinzipien heute anwendbar sind

TRM glänzt bei Problemen mit klarer Struktur und Logik. Nicht geeignet: offene Textgenerierung, kreatives Schreiben, allgemeines Wissens-QA.

Gut geeignet für KMU-Anwendungen:

Use Case	Beschreibung
Routenoptimierung	Liefertouren, Wartungs-Routen
Produktkonfiguration	Komplexe Regelwerke, Custom-Produkte
Qualitätskontrolle	Visuelle Inspektion mit definierten Fehlermustern
Scheduling	Schichtplanung, Ressourcen-Allokation
Compliance-Checks	Regelbasierte Validierung (z.B. Vertragsklauseln)

Prüffrage: Kann ein Mensch die Aufgabe durch logisches Schlussfolgern in unter fünf Minuten lösen? Wenn ja, ist TRM-Architektur wahrscheinlich geeignet.

Trainingskosten: Was wirklich anfällt

TRM wurde nicht auf Milliarden von Web-Texten trainiert. Das Trainings-Setup:

Hardware: 4× NVIDIA H100 (80GB)
Dauer: ~3 Tage
Geschätzte Kosten: unter $500

Basis-Datensätze (klein, aber hochwertig):

ARC-AGI-1: 800 Aufgaben plus 160 ähnliche
Aggressive Augmentation (1.000-fach): Farbpermutationen, Rotationen, regelkonforme Variationen
Effektiv: ~1 Million Trainingssamples aus wenigen Hundert Ausgangsdaten

Zum Vergleich: Llama 2 nutzte 2 Billionen Tokens. TRM verwendet damit ~0,000002% der Trainingsdaten.

Für KMU-Projekte adaptiert:

Option Cloud GPU (für den Start):

Anbieter: Lambda Labs, RunPod, vast.ai
Hardware: 1–2× NVIDIA L40S
Kosten: 20–50 EUR für 24–72 Stunden

Voraussetzungen: ML-Engineer mit PyTorch-Grundkenntnissen, 500–1.500 domänenspezifische Beispieldaten.

Was sich im Markt verändert

Die KI-Industrie folgte seit 2018 der Annahme: Mehr Parameter = bessere Leistung. TRM zerstört diese Annahme für spezifische Domänen.

Alexia Jolicoeur-Martineau (Autorin): "Die Idee, dass man sich auf massive Foundation Models verlassen muss, die für Millionen Dollar von großen Konzernen trainiert werden, um bei schwierigen Aufgaben erfolgreich zu sein, ist eine Falle."

Für DACH-Unternehmen mit ESG-Zielen kommt noch ein weiterer Aspekt hinzu: Kleine Modelle sind nicht nur günstiger, sondern auch nachhaltiger. Training von TRM verbraucht ~120 kWh. GPT-3 Training: ~552 Tonnen CO₂.

2026: Was seitdem passiert ist — die SLM-Welle

Seit dem TRM-Paper vom Oktober 2025 hat sich das Bild in zwei Richtungen ausdifferenziert:

Erstens: Die Giganten haben beim offenen Reasoning aufgeholt. Was Ende 2025 noch eine Domäne war, in der ein 7-Millionen-Parameter-Modell mithalten konnte, beherrschen die Frontier-Modelle 2026 souverän — GPT-5.5 liegt auf ARC-AGI-2 bei 85 %, über Menschenniveau. Für allgemeines, offenes Reasoning ist ein spezialisiertes Mini-Modell nicht mehr die bessere Wahl.

Zweitens: Die TRM-Idee selbst ist aus dem Puzzle-Labor in die Praxis gewandert. Tab-TRM (Januar 2026) überträgt die rekursive Mini-Architektur auf Tabellendaten und Versicherungs-Pricing; weitere Arbeiten kombinieren sie mit Mamba-2-Attention oder autoregressiver Generierung. Aus der Kuriosität ist eine Forschungslinie geworden — und der On-Device-Zweig wächst parallel:

Microsoft Phi-4 mini (3,8 Mrd. Parameter, Ende 2025): Schlägt deutlich größere Modelle bei Reasoning- und Coding-Tasks. Optimiert für On-Device-Deployment. Prinzip: Hochwertige Trainingsdaten statt rohe Parameterzahl.

Google Gemini Nano: In Android-Geräten integriert — läuft vollständig on-device ohne Cloud-Verbindung. Sprachsteuerung, Foto-Analyse, Text-Zusammenfassungen direkt auf dem Gerät.

Apple On-Device Intelligence: Apple Intelligence auf iPhones und Macs verwendet 3-Mrd.-Parameter-Modelle lokal. Für Medizin, Recht und Finanzen bedeutet das: Verarbeitung sensibler Daten ohne Cloud-Risiko.

Was das für KMUs bedeutet: Das TRM-Prinzip — spezialisiert statt generell, rekursiv statt linear, effizient statt groß — ist kein akademisches Kuriositätenkabinett mehr. Es ist der Leitfaden für KMU-KI in 2026:

Definiere genau, was dein spezifisches Problem ist
Prüfe, ob ein kleines spezialisiertes Modell das Problem löst
Setze es lokal ein, wenn Datenschutz relevant ist
Skaliere erst dann, wenn das Problem wirklich Frontier-Modell-Qualität braucht

Die meisten Prozesse in DACH-KMUs brauchen kein GPT-5.5. Sie brauchen ein kleines, gut trainiertes Modell für eine spezifische Aufgabe.

Häufige Fragen

Für welche Unternehmensgrößen lohnt sich das? Ab einem Team mit einem erfahrenen ML-Engineer und klar definierten, strukturierten Prozessen. Unter diesen Voraussetzungen ist der Aufwand für ein Domänen-Modell in 4–8 Wochen abgeschlossen.

Was unterscheidet TRM von fein-abgestimmten LLMs? Fein-abgestimmte LLMs (Fine-Tuning) bleiben in ihrer Grundarchitektur generative Sprachmodelle. TRM ist von Grund auf für rekursives Reasoning konzipiert — ein architektonisch anderer Ansatz, der bei strukturierten Logik-Aufgaben überlegen ist.

Ist TRM DSGVO-konform einsetzbar? Ja — wenn es on-premise oder auf eigener Infrastruktur läuft, verlassen keine Daten das Unternehmen. Das ist einer der wesentlichen Vorteile gegenüber Cloud-API-basierten Lösungen.

Brauche ich viele Trainingsdaten? Nein. TRM beweist: 1.000 hochwertige, domänenspezifische Beispiele schlagen 1 Million mittelmäßige. Die Augmentation generiert den Rest.

Quellen & Weiterführende Links

ARC Prize: ARC-AGI-2 Leaderboard — aktuelle Frontier-Scores (Stand Juni 2026)

Sudoku-Bench / Logical Intelligence: General-LLMs vs. spezialisierte Solver auf strukturierten Puzzles (Februar 2026)

Tab-TRM: Tiny Recursive Model für Tabellendaten und Versicherungs-Pricing (arXiv:2601.07675, Januar 2026)

Weiterführend: KI-Modell TCO-Guide: Wann lohnen sich Frontier-Modelle vs. spezialisierte Alternativen? →

500 Dollar gegen 100 Millionen: Warum ein Tiny AI-Modell die KI-Giganten schlägt

Was den Unterschied macht: Rekursives Denken statt lineare Generierung

Die Benchmark-Ergebnisse

Was das für KMUs konkret bedeutet

Spezialisierung schlägt Generalisierung

Open Source und lokal lauffähig

Wo TRM-Prinzipien heute anwendbar sind

Trainingskosten: Was wirklich anfällt

Für KMU-Projekte adaptiert:

Was sich im Markt verändert

2026: Was seitdem passiert ist — die SLM-Welle

Häufige Fragen

Quellen & Weiterführende Links

Mehr zum Thema "KI-Tools & Modelle im Vergleich"

ROI-Rechner

Schließe dich 1.200 DACH-Geschäftsführer:innen an, die unseren KI-Newsletter lesen.

Willst du das für deinen Betrieb umsetzen?

Passend dazu

Weitere Artikel

Post-Merger-Integration: die ersten 100 Tage mit KI und Automatisierung

Digitalisierung fördern lassen in Wien: Welche Programme KMU 2026 beantragen können

HubSpot oder eigenes CRM-Setup: Wann reicht Standard-SaaS nicht mehr?