Das Wichtigste in Kürze
Ein Tiny Recursive Model mit 500 USD Trainingsbudget übertrifft GPT-4 und Gemini auf Reasoning-Benchmarks. Für datenschutzbewusste DACH-KMU heißt das: spezialisierte Small Language Models werden bezahlbar, lokal lauffähig und für klar abgegrenzte Aufgaben oft besser als ein generalistisches Cloud-LLM.
Tiny Recursive Model (Samsung): 7M Parameter — weniger als 0,01% der GPT-4-Größe — schlägt GPT-4 auf Reasoning-Benchmarks.
Quelle: Samsung Advanced Institute of Technology, Oktober 2025
Am 6. Oktober 2025 veröffentlichte Alexia Jolicoeur-Martineau vom Samsung Advanced Institute of Technology Montreal eine Arbeit mit dem schlichten Titel: "Less is More: Recursive Reasoning with Tiny Networks." Die Ergebnisse waren alles andere als schlicht.
Das Tiny Recursive Model (TRM) mit 7 Millionen Parametern — weniger als 0,01% der Größe von GPT-4 — erreichte auf dem ARC-AGI-1 Benchmark 44,6% Genauigkeit. Zum Vergleich: Gemini 2.5 Pro kam auf 37,0%, o3-mini-high auf 34,5%, DeepSeek R1 (671 Milliarden Parameter) auf 15,8%.
Trainingskosten: unter $500. GPT-4: geschätzt $100 Millionen. Effizienzfaktor: 200.000.
Was den Unterschied macht: Rekursives Denken statt lineare Generierung
Traditionelle Large Language Models generieren Antworten Token für Token, linear. Ein früher Fehler im Denkprozess pflanzt sich durch den gesamten Output fort.
TRM verfolgt einen anderen Ansatz: Das Modell startet mit einer groben Antwort und verfeinert diese bis zu 16-mal durch rekursive Selbstkorrektur. Think → Act → Think → Act. Die Schleife simuliert menschliches Problemlösen: Versuch, Evaluation, Korrektur, erneuter Versuch.
Mit nur 2 physischen Netzwerk-Schichten erreicht TRM durch Rekursion die effektive Tiefe eines 42-Layer-Netzwerks. Das ist keine Optimierung an den Rändern — das ist ein anderes Architektur-Prinzip.
Die Benchmark-Ergebnisse
| Modell | Parameter | ARC-AGI-1 | ARC-AGI-2 |
|---|---|---|---|
| TRM | 7 Mio. | 44,6% | 7,8% |
| Gemini 2.5 Pro | ~100 Mrd. | 37,0% | 4,9% |
| o3-mini-high | ~100 Mrd. | 34,5% | — |
| DeepSeek R1 | 671 Mrd. | 15,8% | 1,3% |
Auf eng strukturierten Constraint-Aufgaben kehrt sich das Bild um — und das ist 2026 stabil geblieben. TRM löste 87,4 % der Sudoku-Extreme-Puzzles (9×9) und 85,3 % der Maze-Hard-Labyrinthe (30×30); die getesteten General-LLMs lagen bei 0,0 %. Auch aktuelle Frontier-Modelle ändern das kaum: In einem Vergleich vom Februar 2026 lösten sie nur rund 2 % schwerer Sudokus (bestes LLM: 6,9 %), während ein spezialisierter Solver auf 96 % kam. Der Grund ist architektonisch — Sprachmodelle erzeugen Token sequenziell und können einen früheren Fehler kaum zurücknehmen, genau das, was rekursive und solver-basierte Modelle können.
Quelle: arXiv:2510.04871, Samsung SAIT Montreal. Diese Tabelle ist der Stand Oktober 2025. Seitdem haben die Frontier-Modelle beim abstrakten Reasoning massiv aufgeholt: Auf ARC-AGI-2 führt GPT-5.5 im Juni 2026 mit 85,0 % vor Gemini 3.1 Pro (77,1 %) — beide über dem menschlichen Durchschnitt von 66 % und um ein Vielfaches über TRMs 7,8 %. „Klein schlägt groß“ gilt damit nicht mehr fürs offene Reasoning — wohl aber weiterhin für eng abgegrenzte, strukturierte Aufgaben (siehe unten).
Der ARC-AGI (Abstraction and Reasoning Corpus) wurde von François Chollet entwickelt, um "fluide Intelligenz" zu messen — die Fähigkeit, aus minimalen Beispielen abstrakte Regeln abzuleiten. Genau das, was Menschen mühelos können, aber selbst die größten LLMs zum Scheitern bringt.
Was das für KMUs konkret bedeutet
Spezialisierung schlägt Generalisierung
TRM ist kein Allzweck-LLM. Es wurde gezielt auf strukturierte Reasoning-Aufgaben trainiert: Logik-Puzzles, Labyrinthe, visuelle Mustererkennung. Diese Fokussierung ermöglicht die extreme Effizienz.
Für KMUs bedeutet das: Statt teurer API-Calls an GPT-4 für eine spezifische, wiederkehrende Aufgabe kann ein kleines Modell für die exakte Domäne trainiert werden — und läuft auf eigener Hardware, ohne Cloud-Abhängigkeit.
Open Source und lokal lauffähig
Samsung hat TRM vollständig unter MIT-Lizenz veröffentlicht. Kein Abo, keine API-Kosten, keine Vendor-Abhängigkeit.
Ein 7-Millionen-Parameter-Modell passt auf:
- Moderne Laptops (16 GB RAM ausreichend)
- Edge-Devices (NVIDIA Jetson, ~800 EUR)
- Interne Server ohne GPU-Cluster
Für regulierte Branchen — Medizin, Finanzen, Produktion — bedeutet das: DSGVO-Compliance ohne Kompromisse, weil keine Daten das Unternehmen verlassen.
Wo TRM-Prinzipien heute anwendbar sind
TRM glänzt bei Problemen mit klarer Struktur und Logik. Nicht geeignet: offene Textgenerierung, kreatives Schreiben, allgemeines Wissens-QA.
Gut geeignet für KMU-Anwendungen:
| Use Case | Beschreibung |
|---|---|
| Routenoptimierung | Liefertouren, Wartungs-Routen |
| Produktkonfiguration | Komplexe Regelwerke, Custom-Produkte |
| Qualitätskontrolle | Visuelle Inspektion mit definierten Fehlermustern |
| Scheduling | Schichtplanung, Ressourcen-Allokation |
| Compliance-Checks | Regelbasierte Validierung (z.B. Vertragsklauseln) |
Prüffrage: Kann ein Mensch die Aufgabe durch logisches Schlussfolgern in unter fünf Minuten lösen? Wenn ja, ist TRM-Architektur wahrscheinlich geeignet.
Trainingskosten: Was wirklich anfällt
TRM wurde nicht auf Milliarden von Web-Texten trainiert. Das Trainings-Setup:
- Hardware: 4× NVIDIA H100 (80GB)
- Dauer: ~3 Tage
- Geschätzte Kosten: unter $500
Basis-Datensätze (klein, aber hochwertig):
- ARC-AGI-1: 800 Aufgaben plus 160 ähnliche
- Aggressive Augmentation (1.000-fach): Farbpermutationen, Rotationen, regelkonforme Variationen
- Effektiv: ~1 Million Trainingssamples aus wenigen Hundert Ausgangsdaten
Zum Vergleich: Llama 2 nutzte 2 Billionen Tokens. TRM verwendet damit ~0,000002% der Trainingsdaten.
Für KMU-Projekte adaptiert:
Option Cloud GPU (für den Start):
- Anbieter: Lambda Labs, RunPod, vast.ai
- Hardware: 1–2× NVIDIA L40S
- Kosten: 20–50 EUR für 24–72 Stunden
Voraussetzungen: ML-Engineer mit PyTorch-Grundkenntnissen, 500–1.500 domänenspezifische Beispieldaten.
Was sich im Markt verändert
Die KI-Industrie folgte seit 2018 der Annahme: Mehr Parameter = bessere Leistung. TRM zerstört diese Annahme für spezifische Domänen.
Alexia Jolicoeur-Martineau (Autorin): "Die Idee, dass man sich auf massive Foundation Models verlassen muss, die für Millionen Dollar von großen Konzernen trainiert werden, um bei schwierigen Aufgaben erfolgreich zu sein, ist eine Falle."
Für DACH-Unternehmen mit ESG-Zielen kommt noch ein weiterer Aspekt hinzu: Kleine Modelle sind nicht nur günstiger, sondern auch nachhaltiger. Training von TRM verbraucht ~120 kWh. GPT-3 Training: ~552 Tonnen CO₂.
2026: Was seitdem passiert ist — die SLM-Welle
Seit dem TRM-Paper vom Oktober 2025 hat sich das Bild in zwei Richtungen ausdifferenziert:
Erstens: Die Giganten haben beim offenen Reasoning aufgeholt. Was Ende 2025 noch eine Domäne war, in der ein 7-Millionen-Parameter-Modell mithalten konnte, beherrschen die Frontier-Modelle 2026 souverän — GPT-5.5 liegt auf ARC-AGI-2 bei 85 %, über Menschenniveau. Für allgemeines, offenes Reasoning ist ein spezialisiertes Mini-Modell nicht mehr die bessere Wahl.
Zweitens: Die TRM-Idee selbst ist aus dem Puzzle-Labor in die Praxis gewandert. Tab-TRM (Januar 2026) überträgt die rekursive Mini-Architektur auf Tabellendaten und Versicherungs-Pricing; weitere Arbeiten kombinieren sie mit Mamba-2-Attention oder autoregressiver Generierung. Aus der Kuriosität ist eine Forschungslinie geworden — und der On-Device-Zweig wächst parallel:
Microsoft Phi-4 mini (3,8 Mrd. Parameter, Ende 2025): Schlägt deutlich größere Modelle bei Reasoning- und Coding-Tasks. Optimiert für On-Device-Deployment. Prinzip: Hochwertige Trainingsdaten statt rohe Parameterzahl.
Google Gemini Nano: In Android-Geräten integriert — läuft vollständig on-device ohne Cloud-Verbindung. Sprachsteuerung, Foto-Analyse, Text-Zusammenfassungen direkt auf dem Gerät.
Apple On-Device Intelligence: Apple Intelligence auf iPhones und Macs verwendet 3-Mrd.-Parameter-Modelle lokal. Für Medizin, Recht und Finanzen bedeutet das: Verarbeitung sensibler Daten ohne Cloud-Risiko.
Was das für KMUs bedeutet: Das TRM-Prinzip — spezialisiert statt generell, rekursiv statt linear, effizient statt groß — ist kein akademisches Kuriositätenkabinett mehr. Es ist der Leitfaden für KMU-KI in 2026:
- Definiere genau, was dein spezifisches Problem ist
- Prüfe, ob ein kleines spezialisiertes Modell das Problem löst
- Setze es lokal ein, wenn Datenschutz relevant ist
- Skaliere erst dann, wenn das Problem wirklich Frontier-Modell-Qualität braucht
Die meisten Prozesse in DACH-KMUs brauchen kein GPT-5.5. Sie brauchen ein kleines, gut trainiertes Modell für eine spezifische Aufgabe.
Häufige Fragen
Für welche Unternehmensgrößen lohnt sich das? Ab einem Team mit einem erfahrenen ML-Engineer und klar definierten, strukturierten Prozessen. Unter diesen Voraussetzungen ist der Aufwand für ein Domänen-Modell in 4–8 Wochen abgeschlossen.
Was unterscheidet TRM von fein-abgestimmten LLMs? Fein-abgestimmte LLMs (Fine-Tuning) bleiben in ihrer Grundarchitektur generative Sprachmodelle. TRM ist von Grund auf für rekursives Reasoning konzipiert — ein architektonisch anderer Ansatz, der bei strukturierten Logik-Aufgaben überlegen ist.
Ist TRM DSGVO-konform einsetzbar? Ja — wenn es on-premise oder auf eigener Infrastruktur läuft, verlassen keine Daten das Unternehmen. Das ist einer der wesentlichen Vorteile gegenüber Cloud-API-basierten Lösungen.
Brauche ich viele Trainingsdaten? Nein. TRM beweist: 1.000 hochwertige, domänenspezifische Beispiele schlagen 1 Million mittelmäßige. Die Augmentation generiert den Rest.
Quellen & Weiterführende Links
- Samsung TRM Paper: Less is More — Recursive Reasoning with Tiny Networks (arXiv:2510.04871)
- Samsung SAIL Montreal: TinyRecursiveModels GitHub Repository
- ARC Prize Leaderboard — offizielle Benchmark-Rangliste
- Microsoft Phi-4: Offizielles Technical Report
- Google Gemini Nano: Android Developer Docs
- Apple Intelligence Foundation Models Tech Report 2025
- EDPB: AI Privacy Risks & Mitigations in LLMs (April 2025)
- Carbon Emissions and Large Neural Network Training — Google/UC Berkeley
ARC Prize: ARC-AGI-2 Leaderboard — aktuelle Frontier-Scores (Stand Juni 2026)
Sudoku-Bench / Logical Intelligence: General-LLMs vs. spezialisierte Solver auf strukturierten Puzzles (Februar 2026)
Tab-TRM: Tiny Recursive Model für Tabellendaten und Versicherungs-Pricing (arXiv:2601.07675, Januar 2026)
Weiterführend: KI-Modell TCO-Guide: Wann lohnen sich Frontier-Modelle vs. spezialisierte Alternativen? →
Mehr zum Thema "KI-Tools & Modelle im Vergleich"
- KI-Tools für KMU 2026: Welche Werkzeuge und Modelle wirklich zählen — Pillar-Übersicht
- GPT vs. Claude 2026: Welches KI-Modell passt zu welchem Unternehmensprozess? — GPT-5.5 oder Claude Opus 4.8? 1 Million Token Kontext und Reasoning-Benchmarks im Vergleich — ein Entscheidungsguide für DACH-Unternehmen.…
- Warum derselbe Prompt bei ChatGPT, Claude und Gemini völlig unterschiedliche Ergebnisse liefert — ChatGPT, Claude und Gemini liefern auf denselben Prompt andere Ergebnisse. Modell-spezifische Prompting-Techniken für mehr Output — mit Bes…
- KI-Bilder generieren 2026: 87,5% günstiger — was das für DACH-Unternehmen bedeutet — KI-Bildgenerierung 2026: 87% günstiger mit Gemini Flash Image. Modellrechnung für 100.000 Bilder/Jahr und was das für DACH-Unternehmen bede…




