Grundlagen10 Min. Lesezeit1’988 Woerter
Central Entity: AI Automation

AI Automation im Gesundheitswesen — Praxis und Potenzial

Einleitung: Der Unterschied zwischen OK und Großartig liegt in der Prompt-Qualität

Eine Automation läuft zu 40% schneller mit einer besseren Prompt. Das ist nicht Hyperbole, das ist messbare Realität.

Der Unterschied zwischen einem Prompt, der 70% Accuracy hat, und einem mit 95% Accuracy ist oft nicht der LLM-Model (beide nutzen GPT-4). Der Unterschied ist die Prompt-Qualität.

Diese Seite erklärt, wie man Prompts so schreibt, dass sie:

  1. Konsistent sind (gleiche Input = gleiche Output jedes Mal)
  2. Zuverlässig sind (hohe Accuracy mit minimalen Fehlern)
  3. Effizient sind (schnell zum richtigen Ergebnis)
  4. Testbar sind (messbare Qualität)

Diese Fähigkeit trennt "experimentelle KI-Spielereien" von "Production-ready Automation" ab.


Was ist Prompt Engineering im Automation-Kontext?

Definition: Die Kunstfertigkeit, LLMs für zuverlässige, automatisierte Aufgaben einzuspannen

Prompt Engineering ist NICHT:

  • "Einfach eine Frage an ChatGPT stellen"
  • "Ausprobieren bis was funktioniert"
  • "Jedes Mal neu schreiben je nach Mood des LLM"

Prompt Engineering IST:
  • Systematisch, Regeln-basiert, wiederholbar
  • Strukturiert nach bewährten Mustern
  • Mit Fallback-Szenarien für Edge Cases
  • Getestet gegen echte Daten

Warum ist das wichtig für Automation?

Manuelle Prozesse können tolerant sein: "Normalerweise funktioniert das, wenn nicht, frage ich einen Mensch."

Automation kann nicht tolerant sein: "Wenn das manchmal nicht funktioniert, ist das eine fehlerhafte Automation."

Mit gutem Prompt Engineering können Sie 95%+ Reliabilität erreichen. Mit schlechtem Prompt Engineering sind Sie stuck bei 70-80%.

Wirtschaftlicher Impact:

  • Schlechter Prompt → 20-30% Manual Review nötig → hohe Kosten
  • Guter Prompt → 5% Manual Review nötig → massiv günstiger
  • ROI-Unterschied: 5-10x


Die Anatomie eines guten Prompts

Ein guter Automation-Prompt hat typischerweise diese Komponenten:

1. Role/Persona

Definiere, in welcher Rolle der LLM handelt.

Schwach: "Schreibe eine E-Mail"
Stark: "Du bist ein Senior-Kundenservice-Manager mit 10 Jahren Erfahrung. Du schreibst Antworten auf Kundenreklamationen, die profesionell, emphatisch und lösungsorientiert sind."

Warum wichtig: Der LLM passt seinen Ton und Niveau an die Rolle an.

2. Context

Gib genug Hintergrund, damit der LLM die Situation versteht.

Schwach: "Analysiere diese E-Mail"
Stark: "Du erhältst Customer-Support-E-Mails. Jede E-Mail ist von einem Kunden, der ein Problem mit unserem Produkt hat. Deine Aufgabe ist, das Problem zu klassifizieren (billing, technical, complaint, feature request) und eine Routing-Empfehlung zu geben."

Warum wichtig: Context reduziert Mehrdeutigkeit.

3. Task/Goal

Klar, was das Ziel ist.

Schwach: "Mach was mit dem Text"
Stark: "Extrahiere aus der E-Mail: (1) das Kundenproblem in einem Satz, (2) die Kontaktmethode (Email, Phone, Chat), (3) die Dringlichkeit (High/Medium/Low)"

Warum wichtig: Klare Tasks haben klare Outputs.

4. Format-Spezifikation

Sage genau, wie das Output aussehen soll.

Schwach: "Gib die Ergebnisse"
Stark: "Antworte im folgenden JSON-Format:

{
"problem": "...",
"contact_method": "...",
"urgency": "..."
}
"

Warum wichtig: Strukturierte Output ist einfach zu parsen und zu integrieren.

5. Beispiele (Few-Shot)

Gib 1-3 Beispiele von guten Outputs.

Beispiel:
"Beispiel 1:
E-Mail: 'Ich habe zwei Lizenzen gekauft, aber sie sind nicht in meinem Account. Helft mir bitte!'
Output:
{
'problem': 'Gekaufte Lizenzen sind nicht im Account',
'contact_method': 'Email',
'urgency': 'High'
}"

Warum wichtig: Few-Shot Learning erhöht Accuracy um 20-40%.

6. Constraints/Guardrails

Definiere Limits und Regeln.

Beispiel:
"Wichtig:

  • Antworte NUR mit validem JSON, nichts sonst
  • Wenn das Problem unklar ist, setze 'urgency' auf 'Low'
  • Benutze nur deutsche Klassifikationen, nie englisch"

Warum wichtig: Constraints vermeiden unerwünschte Outputs.


Prompt Engineering Best Practices

Die 7 Golden Rules:

1. Spezifität über Allgemeinheit

Je spezifischer der Prompt, desto besser die Outputs.

Schwach: "Schreibe einen guten Antwortsatz"
Stark: "Schreibe einen Antwortsatz, der: (1) das Problem zusammenfasst, (2) Verständnis zeigt, (3) eine konkrete Lösungszeitlinie gibt"

2. Beispiele sind dein Freund

Zeige dem LLM, was du erwartest, nicht nur erzähle es.

Tipp: 3-5 Beispiele für komplexe Tasks sind Standard.

  • Leichte Tasks (Klassifikation): 1-2 Beispiele
  • Mittlere Tasks (Analyse): 3 Beispiele
  • Komplexe Tasks (Synthese): 5+ Beispiele

3. Test gegen echte Daten


Prompts funktionieren oft anders mit echten Daten als mit erfundenen Test-Daten.

Prozess:

  1. Prompt schreiben
  2. Mit 50 echten Beispielen testen
  3. Error-Cases identifizieren
  4. Prompt anpassen
  5. Nochmal mit 50 echten Beispielen testen

4. Iterative Optimierung


Kein Prompt ist beim Ersten Mal perfect.

Prozess:

  1. v1.0: Basis-Prompt schreiben
  2. Test: 50 Beispiele durchlaufen
  3. Analyse: Wo fehlt es?
  4. Iteration: Prompt anpassen
  5. Wiederhole

Typische Iterationen: 3-5 bis Production-Ready

5. Fehler-Handling einplanen

Was wenn der LLM einen Fehler macht?

Strategien:

  • Retry mit leicht anderem Prompt
  • Fall-Back auf einfachere Klassifikation
  • Eskaliere zu Human Review

Beispiel:
"Wenn du unsicher bist (Confidence < 70%), antworte statt mit einer Klassifikation mit: {'error': 'uncertain', 'reason': '...'}"

6. Temperatur & Parameter richtig setzen

LLM-Parameter beeinflussen Output.
  • Temperature 0: Deterministisch, zuverlässig (für Automation)
  • Temperature 0.7: Kreativ (für brainstorming)
  • Top-P 0.9: Balanciert
Für Automation: Temperature 0 oder 0.3 (zuverlässig > kreativ)

7. Dokumentiere deine Prompts

Produktions-Prompts sind kritischer Code, nicht Wegwerf-Text.

Dokumentation sollte enthalten:

  • Use Case (wofür ist dieser Prompt?)
  • Versionshistorie (was hat sich geändert?)
  • Known Limitations (wo funktioniert der Prompt nicht?)
  • Test Results (Accuracy auf Test-Set)
  • Fallback-Strategien


Chain-of-Thought Prompting — Komplexität meistern

Was ist Chain-of-Thought (CoT)?

Statt den LLM direkt zur Antwort zu führen, lässt du ihn schrittweise denken. Das erhöht die Accuracy bei komplexen Tasks um 25-40%.

Beispiel ohne CoT:
Prompt: "Eine Rechnung hat 3 Positionen: 50 CHF, 200 CHF, 150 CHF. Die Steuern sind 7.7%. Was ist der Gesamtbetrag?"
Output (oft falsch): "403.5 CHF"

Beispiel mit CoT:
Prompt: "Berechne Schritt für Schritt:

  1. Addiere alle Positionen
  2. Berechne Steuern auf die Summe
  3. Addiere Steuern zur Summe
Eine Rechnung hat 3 Positionen: 50 CHF, 200 CHF, 150 CHF. Die Steuern sind 7.7%. Was ist der Gesamtbetrag?"

Output (meist richtig): "
Schritt 1: 50 + 200 + 150 = 400 CHF
Schritt 2: 400 * 0.077 = 30.8 CHF
Schritt 3: 400 + 30.8 = 430.8 CHF
Gesamtbetrag: 430.8 CHF"

Warum funktioniert CoT?

  • LLMs sind besser beim Schritt-für-Schritt Denken
  • Fehler in frühen Schritten sind sichtbar und korrigierbar
  • Final-Output ist transparenter

Wann CoT nutzen?
  • Mathematische Berechnungen
  • Multi-Step Logic
  • Komplexe Klassifikation (viele Kriterien)
  • Entscheidungsfindung mit mehreren Faktoren

Wann nicht nötig?
  • Simple Klassifikation (A oder B)
  • Kurze Text-Extraktion
  • Ja/Nein Fragen


Prompt-Fehler und wie man sie vermeidet

Die 10 häufigsten Prompt-Fehler (und wie man sie behebt):

1. Prompt ist zu vage

Falsch: "Schreibe einen guten Text" Richtig: "Schreibe einen Business-Brief an einen Kunden, der eine Rechnung bezahlt hat. Der Brief sollte Dank ausdrücken und die Geschäftsbeziehung werben. Länge: 3-4 Absätze, Ton: professionell aber warm"

2. Format-Spezifikation fehlt

Falsch: "Gib die Ergebnisse" Richtig: "Antworte im JSON-Format: {\"result\": \"...\", \"confidence\": ...}"

3. Keine Beispiele

Falsch: "Klassifiziere diese Tickets" Richtig: "[Gib 3 Beispiele von Tickets + erwartete Klassifikation]"

4. Zu lange Prompts

Problem: LLMs haben schwer mit Prompts > 1000 Wörter Lösung: Kürzen, wichtigste Infos zuerst, Details in Kontext-System-Message

5. Mehrdeutige Anforderungen

Falsch: "Analysiere diese Daten" Richtig: "Identifiziere Top 3 Trends in den Daten, sortiert nach Impact. Format: Bullet Points"

6. Keine Fallback-Strategie für Fehler

Problem: LLM macht Fehler, Automation bricht Lösung: "Wenn du unsicher bist, gib {\"error\": \"uncertain\"} statt falsche Antwort zurück"

7. Prompt passt nicht zum Model

Falsch: GPT-3.5 Prompt für GPT-4 nutzen (umgekehrt ok) Richtig: Prompts an Model-Fähigkeiten anpassen (GPT-4 kann komplexere Logic, GPT-3.5 braucht mehr Examples)

8. Temperature nicht beachten

Falsch: Temperature 1.0 für kritische Automation (zu viel Variabilität) Richtig: Temperature 0-0.3 für Automation (deterministische Outputs)

9. Keine Versionierung

Falsch: Prompt ändert sich ständig, keine Dokumentation Richtig: v1.0, v1.1, v1.2 mit Changelog dokumentieren

10. Prompts nicht getestet vor Production

Falsch: "Sieht gut aus, geh live" Richtig: 50-100 Test-Fälle durchlaufen, Accuracy messen, erst dann live

Systematisches Prompt Testing & Optimierung

Der Test-Prozess:

Phase 1: Vorbereitung

  • Test-Datensatz vorbereiten (50-100 echte Beispiele)
  • Expected Outputs definieren (Ground Truth)
  • Metriken definieren (Accuracy, Precision, Recall, je nach Task)

Phase 2: Initiales Testing

  • Prompt v1.0 gegen alle Test-Fälle laufen lassen
  • Accuracy berechnen
  • Error-Cases analysieren ("Wann funktioniert es nicht?")

Phase 3: Iteration

  • Auf Basis von Errors Prompt anpassen
  • Vermutung: "Wenn ich X ändere, werden Y% besser"
  • Nächster Test: v2.0 gegen die gleichen Test-Fälle

Phase 4: Validierung

  • Wenn Accuracy akzeptabel (>90% für Production), mehr Test-Daten
  • Neuer Test-Datensatz (weitere 100 ungesehene Beispiele)
  • Final-Metriken messen
Metriken-Beispiele:

Task: E-Mail Klassifikation (Billing, Technical, Complaint)

  • Accuracy: % richtig klassifiziert
  • Precision pro Klasse: Von 100 "Complaint"-Klassifikationen, wie viele sind wirklich Complaints?
  • Recall pro Klasse: Von 100 echten Complaints, wie viele erkennt der Prompt?

Akzeptable Thresholds:
  • Einfache Klassifikation: >85% Accuracy
  • Mittlere Aufgaben: >90% Accuracy
  • Kritische Aufgaben: >95% Accuracy

Vertiefen Sie Ihr Wissen:
>
- AI Automation Use Cases

Prompt Templates für häufige Automation-Aufgaben

Template 1: E-Mail Klassifikation

Du bist ein Kundensupport-Triage-System. Deine Aufgabe ist, eingehende E-Mails zu klassifizieren.

Kategorien:

  • "billing": Fragen zu Rechnungen, Zahlungen, Refunds
  • "technical": Problem mit dem Produkt, Bugs, Features
  • "complaint": Unzufriedenheit mit Service/Produkt
  • "feedback": Positive oder neutrale Vorschläge
  • "other": Nicht in obige Kategorien passend

Beispiele:
E-Mail: "Ich habe meine Lizenz nicht erhalten, obwohl ich bezahlt habe"
Kategorie: "billing"

E-Mail: "Die Software crasht wenn ich auf speichern klicke"
Kategorie: "technical"

Antworte nur mit der Kategorie (nicht erklären):
[HIER KOMMT DIE E-MAIL]
Kategorie:

Template 2: Daten-Extraktion

Du extrahierst Informationen aus Rechnungen.

Extrahiere folgende Felder:

  • Lieferant-Name
  • Rechnungs-Datum (Format: YYYY-MM-DD)
  • Gesamtbetrag (Zahl, z.B. 1234.56)
  • Steuersatz (%, z.B. 7.7)

Antworte im JSON-Format:
{
"vendor": "...",
"date": "...",
"amount": number,
"tax_rate": number
}

Rechnungs-Text:
[HIER KOMMT DIE RECHNUNG]

Template 3: Sentiment-Analyse mit CoT

Du analysierst Customer-Feedback. Nutze folgende Schritte:
  1. Identifiziere die Hauptaussage (positiv, negativ, neutral)
  2. Identifiziere spezifische Punkte (was ist gut/schlecht?)
  3. Bestimme Gesamt-Sentiment basierend auf Gewichtung
Antworte im Format: { "main_sentiment": "positive|negative|neutral", "specific_points": ["...", "..."], "reasoning": "...", "overall_score": -1.0 to 1.0 }

Feedback:
[HIER KOMMT DAS FEEDBACK]

Template 4: Entscheidungslogik

Du triffst Entscheidungen zu Rechnungs-Freigaben.

Regeln:

  • Betrag < 1000 CHF & no previous issues → Approve
  • Betrag > 1000 CHF → Manual Review
  • Vendor ist nicht auf Whitelist → Manual Review
  • Invoice ist älter als 30 Tage → Escalate

Antworte im Format:
{
"decision": "approve|manual_review|escalate",
"reasoning": "...",
"confidence": 0.0 to 1.0
}

Rechnung Details:
[DETAILS]


Handlungsplan: Prompts für Ihre Automation verfeinern

Der 4-Wochen-Optimierungs-Plan:

Woche 1: Baseline & Test-Datensatz

Aufgaben:

  • Dokumentieren Sie alle aktuellen Prompts (wie sieht Ihre aktuelle Automation aus?)
  • 50 echte Beispiele sammeln, Expected Outputs definieren
  • Baseline-Accuracy messen (wie gut funktioniert es jetzt?)

Output:
  • Liste der Prompts mit aktueller Accuracy
  • Test-Datensatz mit 50 Beispielen

Woche 2: Analyse & Hypothesen

Aufgaben:

  • Fehler analysieren (Wann funktioniert es nicht?)
  • Muster erkennen (z. B. "Fehler bei langen E-Mails" oder "Fehler bei Spezial-Kategorien")
  • Optimierungs-Hypothesen aufstellen (z. B. "Wenn ich Beispiele hinzufüge, steigt Accuracy um X%")

Output:
  • Fehler-Analyse Report
  • 3-5 Optimierungs-Hypothesen

Woche 3: Iteration & Testing

Aufgaben:

  • Prompt v2.0 schreiben (basierend auf Hypothesen)
  • Nochmal testen gegen Test-Datensatz
  • Accuracy vergleichen (v1.0 vs v2.0)
  • Erfolgreiche Änderungen beibehalten, fehlgeschlagene verwerfen

Output:
  • Optimierte Prompts (v2.0)
  • Vergleich-Report (Accuracy-Verbesserung)

Woche 4: Validierung & Dokumentation

Aufgaben:

  • Neue Test-Daten (weitere 50 ungesehene Beispiele) testen
  • Final Accuracy messen
  • Prompts dokumentieren (Version, Was geändert?, Limitations?)
  • Live-Rollout mit Monitoring

Output:
  • Dokumentierte, optimierte Prompts
  • Monitoring Dashboard (wie läuft die Automation?)


Zusammenfassung: Prompts sind Code, nicht Text

Gute Prompts sind wie guter Code: spezifisch, getestet, dokumentiert, versioniert.

Drei zentrale Erkenntnisse:

  1. Prompt-Qualität bestimmt Automation-Qualität: 30% Fehlerreduktion ist typisch bei guten Prompts
  2. Systematisches Testing ist kritisch: "Sieht gut aus" ist keine ausreichende QA für Production
  3. Iterative Optimierung funktioniert: 3-5 Iterationen sind normal bis Production-Ready

Nächste Schritte:
  1. Dokumentieren Sie Ihre aktuellen Prompts
  2. Sammeln Sie 50-100 Test-Beispiele
  3. Messen Sie aktuelle Accuracy (Baseline)
  4. Identifizieren Sie Top 3 Fehler-Pattern
  5. Optimieren Sie Prompts (Versioning, Testing, Documentation)
  6. Messen Sie verbesserte Accuracy
  7. Rollout mit Monitoring



Weiterführende Themen

Erdinc AI

Bereit fuer Ihre AI Automation Reise?

Von der Strategie bis zur Implementierung — Erdinc AI ist Ihr Partner fuer semantisch optimierte AI-Loesungen in der Schweiz.

OE

Oezden Erdinc

AI Architect for the Semantic Web

Spezialisiert auf Topical Authority, Semantic SEO und AI Automation. Hilft Schweizer KMU, das volle Potenzial von kuenstlicher Intelligenz zu nutzen.

Mehr ueber den Autor

Verwandte Artikel