Anleitung · 7 Schritte · 3 Wochen

Wie automatisiere ich Kundenanfragen?

Schritt-für-Schritt-Anleitung für die Triage von Kundenanfragen mit Outlook + n8n + Claude oder GPT. 7 konkrete Schritte. Timeline: 3 Wochen. Investition ab €8.000. Live-Genauigkeit bei OptimusFlow-Cases: 95-97 %.

Erstgespräch anfragen

Lösungs-Übersicht

Tool-Stack im Überblick

Empfohlener Stack für DACH-KMU

Outlook 365 + Microsoft Graph API

Mail-Quelle, Auto-Reply

n8n self-hosted (Hetzner EU)

Workflow-Engine, DSGVO-konform

Claude API oder GPT-4 API

Klassifizierung + Entitäten-Extraktion

Pipedrive oder HubSpot

Lead-Ziel + CRM-Synchronisation

Microsoft Teams oder Slack

Eskalations- und Benachrichtigungs-Kanal

Postgres oder n8n-Storage

Audit-Logs für DSGVO und Monitoring

7 Schritte

Schritt-für-Schritt: Kundenanfragen automatisieren

01
Anfrage-Quellen inventarisieren
Ziel: Verstehen, wo überall Anfragen reinkommen — und in welcher Form.
Bevor du Automation baust, brauchst du eine ehrliche Liste aller Kanäle. Typische Quellen bei DACH-KMU: Outlook-Inbox(en) (oft mehrere — info@, kontakt@, vertrieb@), Website-Kontaktformulare, WhatsApp-Business-Account, LinkedIn-DMs, Telefonnotizen, gelegentlich Faxe (Kanzleien, Behörden).
Erfasse pro Kanal: durchschnittliche Anfragen/Woche, typische Bearbeitungszeit, wer aktuell zuständig ist, ob Anfragen DSGVO-sensitiv sind (PII, Vertragsdaten). Diese Liste wird die Grundlage für Step 2 und definiert den Scope deiner ersten Automation.
Dauer: 1-2 Werktage
Tools: Outlook · WhatsApp Business · LinkedIn
02
Klassifizierungs-Kategorien festlegen
Ziel: Definieren, in welche Buckets Anfragen sortiert werden müssen, damit Routing möglich wird.
Schau dir 100 echte Anfragen der letzten 4 Wochen an und gruppiere sie. Typisches Set: (1) Neukundenanfrage, (2) Bestandskunden-Support, (3) Angebotsanfrage konkret, (4) allgemeine Info-Anfrage, (5) Rechnungsfrage, (6) Beschwerde/Eskalation, (7) Spam/irrelevant.
Pro Kategorie definierst du: Welche Person/Abteilung übernimmt? Welche SLA gilt (Antwort innerhalb 4 h, 1 Werktag, 3 Werktage)? Welche Standard-Antwort-Vorlage existiert bereits? Diese Mapping wird in Schritt 5 zum Routing-Tree.
Dauer: 1 Werktag
Tools: Excel oder Notion für Mapping-Tabelle
03
Tool-Stack entscheiden
Ziel: Entscheiden, mit welchen Bausteinen du die Automation aufbaust — DSGVO-konform, EU-hosted, kein Vendor-Lock-in.
Empfohlener Stack für DACH-KMU: Outlook 365 (Mail-Quelle) + n8n self-hosted auf Hetzner Wien oder Falkenstein (Workflow-Engine) + Claude API von Anthropic oder GPT-4 API von OpenAI (Klassifizierung) + Pipedrive (CRM-Ziel) + Microsoft Teams oder Slack (Eskalations-Channel).
Warum n8n self-hosted statt Make oder Zapier: Daten verlassen die EU nicht, du zahlst keine Per-Execution-Credits, du behältst die volle Kontrolle über Workflow-Logik. Vergleichsdetails siehe /vergleich/n8n-vs-make. Microsoft Teams + Outlook stellst du via Microsoft Graph API an, nicht via Email-Forwarding-Tricks.
Dauer: 2-3 Werktage Setup
Tools: n8n self-hosted · Hetzner Wien/Falkenstein · Claude API oder GPT-4 · Pipedrive · Microsoft Graph API
04
Klassifizierungs-Prompt entwickeln und testen
Ziel: LLM beibringen, eingehende Mails zuverlässig in die Kategorien aus Schritt 2 zu sortieren.
Der Prompt enthält: Liste der Kategorien aus Schritt 2 mit konkreten Beispielen je Kategorie, Anweisung Output als strukturiertes JSON zu liefern (category + confidence + extracted_entities), Edge-Case-Anweisungen (Mehrfach-Kategorien, mehrsprachige Anfragen, signature-Block ignorieren).
Teste den Prompt mit den 100 echten Anfragen aus Schritt 2. Ziel: ≥90 % Treffergenauigkeit bei high-confidence (>0.85) Klassifizierungen. Bei eecs-green und der Vergaberecht-Kanzlei (referenz-cases) liegt die Live-Genauigkeit aktuell bei 95-97 %. Bei <90 % schärfst du den Prompt nach oder reduzierst Kategorien.
Dauer: 2-3 Werktage Iteration
Tools: Claude oder GPT Playground für Iteration · JSON-Schema-Validator
05
Routing-Workflow in n8n bauen
Ziel: End-to-End-Workflow von Mail-Eingang bis Routing-Aktion implementieren.
Workflow-Struktur in n8n: (a) Microsoft Outlook Trigger Node lauscht auf neue Mails, (b) HTTP Request Node ruft Claude oder GPT API mit dem Klassifizierungs-Prompt, (c) Switch Node routet basierend auf category, (d) je Branch eine Aktion: Pipedrive Lead anlegen + Slack/Teams-Notification + ggf. Auto-Reply mit Empfangsbestätigung, (e) Fallback-Branch für low-confidence-Fälle → manuelle Triage-Inbox.
Wichtig: Logging-Node, der jeden Workflow-Run mit Input + Output + Confidence in eine Postgres-DB oder n8n-internen Workflow-Storage schreibt. Das brauchst du für (1) DSGVO-Audit-Trail, (2) Prompt-Verbesserung in Schritt 7, (3) Monitoring der Live-Genauigkeit.
Dauer: 3-5 Werktage Build + Test
Tools: n8n Editor · Microsoft Outlook Node · HTTP Request Node · Switch Node · Pipedrive Node · Slack/Teams Node
06
Shadow-Mode und Live-Rollout
Ziel: Workflow risikoarm einführen — erst beobachten, dann scharf schalten.
Shadow-Mode (Woche 1 live): Workflow läuft auf jede neue Mail, schreibt Klassifizierung ins Log, sendet KEINE automatischen Aktionen. Das Team bearbeitet weiter manuell. Du vergleichst LLM-Klassifizierung vs. manuelle Bearbeitung — Differenzen sind echte Schwachstellen, nicht Theorie.
Live-Rollout (Woche 2-3): Bei ≥90 % Match-Rate aktivierst du erst die niedrigrisiko-Aktionen (Notification an Team, Auto-Reply mit Bestätigung). Routing in Pipedrive folgt in Woche 3, wenn das Team Vertrauen aufgebaut hat. Eskalations-Mails (Beschwerde, Vertragskündigung) bleiben in der manuellen Triage-Inbox — automatische Aktionen hier wären Reputations-Risiko.
Dauer: Woche 1: Shadow · Woche 2-3: Stufenweise Live
Tools: n8n Workflow-Versionierung · Diff-Report Excel oder Notion
07
Monitoring und kontinuierliche Verbesserung
Ziel: Sicherstellen, dass die Genauigkeit über Zeit nicht erodiert und neue Anfragen-Typen erkannt werden.
Wöchentliches 15-Minuten-Review: Wie viele Mails wurden klassifiziert? Welche Kategorien dominieren? Wie viele low-confidence Cases? Hat sich die Match-Rate vs. Shadow-Baseline verändert? Niedrige Match-Rate → meist neuer Anfrage-Typ, der nicht im Original-Prompt war.
Monatlicher Prompt-Refresh: Neue Edge-Cases aus dem Log integrierst du in den Klassifizierungs-Prompt. Bei der Vergaberecht-Kanzlei wird der Prompt alle 2 Monate angepasst — Vergabe-Ausschreibungen sind saisonal verschieden formuliert. Klassifizierungs-Genauigkeit bleibt dadurch konstant bei 95-97 %.
Dauer: Laufend: 1 h/Woche · 4 h/Monat
Tools: n8n Workflow-Stats · Log-Aggregation (Postgres oder ELK) · Prompt-Versionskontrolle

Typische Fallstricke

Was bei DACH-KMU-Projekten schief geht

Den Spam-Filter outsourcen wollen

LLMs sind teuer pro Anfrage (€0,005-0,02 pro Klassifizierung). Spam erstmal durch deinen Standard-Spam-Filter (Microsoft Defender, ProofPoint) abfangen. Erst die übrig gebliebenen, ernsten Anfragen kosten LLM-Klassifizierung. Sonst bezahlst du LLM-Credits für offensichtliche Casino-Spam-Mails.

Zu früh automatische Reply-Aktionen aktivieren

Auto-Replies sind das Gesicht deines Unternehmens. Falsche Auto-Reply bei einer Vertragskündigung oder einer kritischen Anfrage ist Reputations-Schaden, der über Jahre nachhängt. Shadow-Mode Woche 1 + Stufenweise Aktivierung sind nicht-verhandelbar.

PII-Daten im Klassifizierungs-Prompt hinterlassen

DSGVO-Risiko: Wenn du den vollen Mail-Body inkl. PII (Name, Adresse, Vertragsnummer, Kontodaten) an OpenAI oder Anthropic schickst, brauchst du DPA + DSFA dokumentiert. Pseudonymisierungs-Schritt vor LLM-Call (Email-Domain raus, Namen durch [PERSON_A] ersetzen) reduziert Risiko massiv.

Vendor-Lock-in via Make oder Zapier

Make.com und Zapier sind schnell für PoC, aber die Workflow-Logik liegt dort und kann nicht exportiert werden. Bei 50+ Workflows oder Multi-Country-Setup wird der monatliche Credit-Verbrauch teurer als ein self-hosted n8n auf Hetzner. Migrations-Aufwand nachträglich ist erheblich.

FAQ

Häufige Fragen zur Kundenanfragen-Automatisierung

Wie lange dauert die Implementierung von Kundenanfragen-Automatisierung?

Bei klar definiertem Scope (1-2 Inbox-Quellen + 5-7 Kategorien) sind 3 Wochen realistisch: Woche 1 Setup + Prompt-Entwicklung, Woche 2 Shadow-Mode + Tuning, Woche 3 stufenweise Live-Aktivierung. Bei 5+ Quellen oder Mehrsprachigkeit eher 5-6 Wochen. Konkretere Schätzung im Erstgespräch oder via Strategic Roadmap (€2.000 Festpreis).

Was kostet die Implementierung konkret?

Customer Inquiry Management bei OptimusFlow startet bei €8.000 (1 Quelle, 5-7 Kategorien, Routing zu Pipedrive + Teams-Notifications). Komplexere Setups (Multi-Quelle, Multi-Sprachen, Custom-CRM) bis €20.000+ scope-priced. Laufende Kosten danach: ~€80-200/Monat für n8n-Hosting + LLM-API-Credits.

Welche Klassifizierungs-Genauigkeit ist realistisch erreichbar?

Bei sauberer Prompt-Entwicklung und gut definierten Kategorien: 90-97 %. Live-Werte aus OptimusFlow-Projekten: Vergaberecht-Kanzlei 95-97 % (500 Mails/Woche), eecs-green Energie-Beratung 93-95 %. Unter 90 % Genauigkeit deutet meist auf zu viele oder zu ähnliche Kategorien hin — Re-Mapping in Schritt 2 nötig.

Ist diese Automatisierung DSGVO-konform machbar?

Ja — wenn drei Punkte sauber sind: (1) Self-hosted n8n auf EU-Server (Hetzner Wien oder Falkenstein), (2) Auftragsverarbeitungsvertrag mit Anthropic oder OpenAI unterzeichnet, (3) Pseudonymisierungs-Schritt vor LLM-Call dokumentiert. Die Strategic Roadmap (€2.000) liefert die fördertaugliche DSGVO-Dokumentation mit.

Brauche ich technisches Personal im Haus, um das zu betreiben?

Nein, aber jemand mit Prozess-Verständnis (Office Manager, Operations Lead) muss verfügbar sein für die 15-Min-Wochen-Reviews und Prompt-Refresh-Termine. n8n-Workflow-Wartung übernimmt OptimusFlow im Service-Level-Agreement, falls gewünscht. Komplettes Hands-off ist möglich, kostet aber etwa €300-500/Monat.

Kann ich Claude oder GPT lokal selbst hosten statt API-Calls zu schicken?

Theoretisch ja (z. B. via Ollama mit Llama 3.1 70B), praktisch lohnt es bei <10.000 Mails/Monat selten — Klassifizierungs-Qualität von kleinen Open-Models liegt eher bei 75-85 % vs. 90-97 % bei Frontier-Modellen. Lokale Modelle werden interessant ab ~50.000 Mails/Monat oder bei Sektoren mit Hard-No auf externe LLM-Calls. Details unter /vergleich/lokale-ki-modelle-vs-cloud.

Was passiert, wenn das LLM falsch klassifiziert?

Drei Sicherheitsnetze in der Architektur: (1) Confidence-Threshold (low-confidence-Cases gehen automatisch in manuelle Triage-Inbox, nicht in automatisches Routing), (2) Logging jeder Klassifizierung mit Quervergleich zur manuellen Bearbeitung in den ersten 2 Wochen, (3) Wöchentliches Review mit Möglichkeit zum Rollback einzelner Routing-Regeln. Kein silent failure.

Was ist der Unterschied zur Lösung mit HubSpot oder Salesforce-Native-AI?

HubSpot AI und Salesforce Einstein funktionieren gut innerhalb ihres Ecosystems, sind aber an die jeweilige Plattform gebunden und schwierig auf bestehende Outlook-First-Workflows aufzusetzen, wie sie in DACH-KMU verbreitet sind. Der hier beschriebene Stack arbeitet Tool-agnostisch auf existierender Infrastruktur — keine Plattform-Migration nötig.

Service-Übersicht

Customer Inquiry Management

Lösungs-Übersicht statt How-To-Tiefe

Tool-Vergleich

n8n vs. Make

Warum self-hosted für DACH-KMU oft sinnvoller ist

Pricing

KI-Beratung Kosten DACH

Festpreise und Förderungen für KMU

Architektur

Lokal vs. Cloud-LLM

Wann Self-Hosting der Modelle Sinn ergibt

Lieber gemeinsam bauen als selbst durchgehen?

30 Min. Erstgespräch — wir klären, welche Anfrage-Quellen prioritär automatisiert werden. Strategic Roadmap (€2.000 Festpreis, aws-förderbar) liefert die konkrete 3-Wochen-Spec.