RAG für Unternehmen: Retrieval-Augmented Generation erklärt

Q: Weiterführende Themen

- Prompt Engineering für AI Automation

Stellen Sie sich vor, Sie haben einen brillanten neuen Mitarbeiter eingestellt. Er ist eloquent, kann komplexe Zusammenhänge erklären und spricht mehrere Sprachen fliessend. Aber er kennt Ihr Unternehmen nicht. Er weiss nichts über Ihre Produkte, Ihre internen Prozesse oder Ihre Kundenhistorie. Genau das ist das Problem mit Large Language Models (LLMs) wie GPT-4 oder Claude: Sie sind unglaublich leistungsfähig, aber sie kennen Ihre Unternehmensdaten nicht.

Retrieval-Augmented Generation – kurz RAG – löst dieses Problem. RAG ist die Technologie, die LLMs mit Ihrem Unternehmenswissen verbindet. Und sie ist der Grund, warum immer mehr Schweizer Unternehmen KI-Assistenten aufbauen können, die nicht nur klug klingen, sondern tatsaechlich präzise und aktuelle Antworten auf Basis interner Daten liefern.

Was ist Retrieval-Augmented Generation (RAG)?

RAG ist ein Architekturmuster, das zwei Kernfähigkeiten kombiniert:

Retrieval (Abruf): Relevante Informationen werden aus einer Wissensdatenbank abgerufen
Augmented Generation (angereicherte Generierung): Diese Informationen werden dem LLM als Kontext übergeben, damit es präzise, faktenbasierte Antworten generiert

Das Problem ohne RAG

Ohne RAG hat ein LLM nur sein Trainingswissen – und das hat drei fundamentale Schwaechen:

Wissens-Cutoff: Das Modell kennt nur Daten bis zum Trainingsende. Aktuelle Informationen fehlen.
Halluzinationen: Wenn das Modell die Antwort nicht kennt, erfindet es eine – überzeugend, aber falsch.
Kein Unternehmenswissen: Interne Dokumente, Prozesse und Daten sind dem Modell unbekannt.

Die RAG-Lösung

RAG löst alle drei Probleme elegant:

Nutzer-Frage: "Was ist unsere Rückgaberichtlinie für Premium-Kunden?"
OHNE RAG:
LLM generiert allgemeine Antwort → Wahrscheinlich falsch oder generisch
MIT RAG:
Frage wird in Vektor umgewandelt
Vektordatenbank findet relevante Dokumente (z.B. "Rückgaberichtlinie_2026.pdf")
Relevante Textpassagen werden dem LLM als Kontext übergebenLLM generiert präzise Antwort basierend auf echten Unternehmensdaten

Das Ergebnis: Antworten, die korrekt, aktuell und auf Ihre spezifische Unternehmenssituation zugeschnitten sind.

RAG-Architektur im Detail

Eine RAG-Pipeline besteht aus zwei Hauptphasen: der Indexierung (Offline) und der Abfrage (Online).

Phase 1: Indexierung (Offline-Pipeline)

In dieser Phase werden Ihre Unternehmensdokumente für die späteren Abfragen vorbereitet:

Schritt 1: Datenquellen anbinden
Verbinden Sie Ihre Datenquellen – SharePoint, Confluence, Google Drive, CRM-Systeme, Datenbanken, PDFs, E-Mails. Eine gute RAG-Lösung kann mit verschiedensten Formaten umgehen.

Schritt 2: Chunking (Textsegmentierung)
Dokumente werden in sinnvolle Textabschnitte (Chunks) aufgeteilt. Die Chunking-Strategie ist entscheidend für die Qualität – dazu später mehr.

Schritt 3: Embedding-Generierung
Jeder Chunk wird durch ein Embedding-Modell in einen numerischen Vektor umgewandelt. Dieser Vektor repräsentiert die semantische Bedeutung des Textes.

Schritt 4: Speicherung in Vektordatenbank
Die Vektoren werden zusammen mit Metadaten (Quelle, Datum, Zugriffsrechte) in einer Vektordatenbank gespeichert.

Phase 2: Abfrage (Online-Pipeline)

Wenn ein Nutzer eine Frage stellt:

Schritt 1: Query Embedding
Die Nutzerfrage wird ebenfalls in einen Vektor umgewandelt.

Schritt 2: Ähnlichkeitssuche
Die Vektordatenbank findet die Chunks, deren Vektoren dem Query-Vektor am ähnlichsten sind (Cosine Similarity oder andere Distanzmetriken).

Schritt 3: Kontextaufbereitung
Die gefundenen Chunks werden als Kontext zusammengestellt und zusammen mit der Nutzerfrage an das LLM übergeben.

Schritt 4: Antwortgenerierung
Das LLM generiert eine Antwort basierend auf dem bereitgestellten Kontext und der urspruenglichen Frage.

Embedding-Modelle: Das Herzstück der semantischen Suche

Embedding-Modelle sind das Rückgrat jeder RAG-Architektur. Sie wandeln Text in dichte numerische Vektoren um, die semantische Ähnlichkeiten abbilden.

Wie Embeddings funktionieren

Stellen Sie sich vor, jedes Wort und jeder Satz erhält Koordinaten in einem hochdimensionalen Raum. Ähnliche Konzepte liegen nahe beieinander:

"Rechnung" und "Faktura" → nahe beieinander (semantisch ähnlich)
"Rechnung" und "Wetter" → weit voneinander entfernt

Moderne Embedding-Modelle arbeiten typischerweise mit 768 bis 3.072 Dimensionen und erfassen nuancierte semantische Beziehungen.

Auswahl des richtigen Embedding-Modells

Modell	Dimensionen	Stärke	Einsatz
OpenAI text-embedding-3-large	3.072	Beste Allround-Qualität	Enterprise, multilingual
OpenAI text-embedding-3-small	1.536	Gutes Preis-Leistungs-Verhältnis	Standard-Anwendungen
Cohere embed-v3	1.024	Starke mehrsprachige Performance	Multilingual, Deutsch
BGE-M3 (Open Source)	1.024	Multilingual, kostenlos	Self-hosted, Datenschutz
Jina Embeddings v3	1.024	Flexibel, multilingual	Forschung, spezialisiert

Für Schweizer Unternehmen besonders relevant: Wenn Datenschutz kritisch ist (z. B. bei Finanzdaten oder Patientendaten), sollten Open-Source-Modelle wie BGE-M3 in Betracht gezogen werden, die lokal gehostet werden können.

Wichtig: Multilingual-Fähigkeit

Schweizer Unternehmen arbeiten oft mit Dokumenten in Deutsch, Franzoesisch, Italienisch und Englisch. Wählen Sie ein Embedding-Modell mit starker multilingualer Performance, damit die semantische Suche sprachübergreifend funktioniert.

Vektordatenbanken: Wo das Wissen lebt

Vektordatenbanken sind spezialisierte Datenbanken, die für die Speicherung und schnelle Abfrage von Vektoren optimiert sind.

Die wichtigsten Vektordatenbanken im Vergleich

Datenbank	Typ	Stärke	Preis
Pinecone	Fully Managed	Einfachste Einrichtung, skalierbar	Ab CHF 70/Mo.
Weaviate	Open Source / Cloud	Hybrid-Suche, flexibel	Open Source / ab CHF 25/Mo.
Qdrant	Open Source / Cloud	Hohe Performance, Rust-basiert	Open Source / ab CHF 30/Mo.
ChromaDB	Open Source	Einfach, gut für Prototypen	Kostenlos
pgvector (PostgreSQL)	Extension	Integration in bestehende DB	Bestehende DB-Kosten

Entscheidungskriterien

Skalierbarkeit: Wie viele Dokumente müssen indexiert werden? Tausende oder Millionen?
Hosting: Cloud oder On-Premise? Für Schweizer Unternehmen mit Datenschutzanforderungen kann On-Premise wichtig sein.
Integration: Passt die Datenbank in Ihren bestehenden Tech-Stack?
Performance: Wie schnell müssen Abfragen beantwortet werden?
Kosten: Managed Services sind einfacher, aber teurer.

Empfehlung für den Einstieg: Für Prototypen und kleine Projekte reicht ChromaDB oder pgvector. Für Produktion empfehlen wir Pinecone (einfach) oder Weaviate (flexibel).

Chunking-Strategien: Die Kunst der Textaufbereitung

Die Art, wie Sie Ihre Dokumente in Chunks aufteilen, hat enormen Einfluss auf die RAG-Qualität. Zu kleine Chunks verlieren Kontext, zu grosse Chunks verwwaessern die Relevanz.

Gängige Chunking-Methoden

Fixed-Size Chunking
Teilt Text in gleichgrosse Stücke (z. B. 500 Tokens) mit Überlappung (z. B. 50 Tokens). Einfach, aber nicht ideal für strukturierte Dokumente.

Semantic Chunking
Nutzt NLP, um semantisch zusammenhängende Abschnitte zu identifizieren. Besser für die Qualität, aber rechenintensiver.

Document-Structure-Based Chunking
Nutzt die Dokumentenstruktur (Überschriften, Absätze, Listen) als natürliche Trennpunkte. Ideal für gut strukturierte Dokumente.

Recursive Chunking
Versucht zunächst grosse semantische Einheiten zu bilden und teilt dann nur auf, wenn diese zu gross sind. Guter Kompromiss aus Qualität und Einfachheit.

Best Practices für Chunking

Chunk-Grösse: 200-800 Tokens sind ein guter Ausgangspunkt
Überlappung: 10-20 % Überlappung verhindert, dass Kontext an Chunk-Grenzen verloren geht
Metadaten: Reichern Sie jeden Chunk mit Metadaten an (Dokumentname, Kapitel, Datum)
Testen: Es gibt keine universelle beste Strategie – testen Sie verschiedene Ansätze mit Ihren spezifischen Daten

RAG vs. Fine-Tuning: Wann was sinnvoll ist

Eine häufige Frage: Sollte man RAG verwenden oder das LLM auf den eigenen Daten fine-tunen?

Kriterium	RAG	Fine-Tuning
Datenaktualität	Immer aktuell (Daten werden live abgerufen)	Statisch (Stand des Trainings)
Kosten	Geringer (kein Modelltraining nötig)	Höher (GPU-Kosten für Training)
Implementierungszeit	Tage bis Wochen	Wochen bis Monate
Nachvollziehbarkeit	Hoch (Quellen zitierbar)	Niedrig (Black Box)
Datenvolumen	Unbegrenzt skalierbar	Durch Trainingsdaten begrenzt
Flexibilität	Hoch (neue Daten sofort verfügbar)	Niedrig (Retraining nötig)
Halluzinationen	Stark reduziert	Teilweise reduziert

Empfehlung: Für die meisten Unternehmensanwendungen ist RAG die bessere Wahl. Fine-Tuning lohnt sich nur, wenn das Modell einen spezifischen Schreibstil oder spezialisiertes Domaenenwissen erlernen soll, das sich selten ändert.

Optimal: In vielen Fällen ist eine Kombination aus RAG und leichtem Fine-Tuning die beste Lösung.

Vertiefen Sie Ihr Wissen:

- AI Agent Plattformen im Überblick
Was sind AI Agents
Agentic Workflows für Unternehmen
Multi-Agent-Systeme
AI Automation Fallstudien Schweiz
AI Agents vs Chatbots im Vergleich
LangChain vs CrewAI im Vergleich
Computer Use und Browser Automation
Voice AI und Sprachassistenten

Enterprise RAG: Anforderungen und Best Practices

Die Implementierung von RAG in einem Unternehmenskontext bringt zusätzliche Anforderungen mit sich, die über ein einfaches Proof-of-Concept hinausgehen.

Zugriffskontrollen und Berechtigungen

In einem Unternehmen darf nicht jeder Mitarbeiter auf alle Informationen zugreifen. Enterprise RAG muss die bestehenden Zugriffsrechte respektieren:

Document-Level Security: Nutzer sehen nur Ergebnisse aus Dokumenten, auf die sie Zugriff haben
Role-Based Access Control (RBAC): Verschiedene Rollen sehen verschiedene Datenquellen
Audit Logging: Jede Abfrage und jede zurückgegebene Quelle wird protokolliert

Datenqualität und -governance

Aktualität: Stellen Sie sicher, dass die Indexierung regelmaessig aktualisiert wird
Deduplizierung: Vermeiden Sie redundante Dokumente, die die Ergebnisqualität mindern
Metadaten-Enrichment: Reichern Sie Dokumente mit Metadaten an für besseres Filtering

Evaluation und Monitoring

Messen Sie die Qualität Ihres RAG-Systems kontinuierlich:

Retrieval-Qualität: Werden die richtigen Dokumente gefunden? (Recall, Precision)
Antwortqualität: Sind die generierten Antworten korrekt und hilfreich?
Latenz: Wie schnell erhält der Nutzer eine Antwort?
Nutzerzufriedenheit: Feedback-Mechanismen einbauen

Advanced RAG-Techniken

Für fortgeschrittene Implementierungen gibt es weitere Techniken:

Hybrid Search: Kombination aus semantischer Suche und Keyword-Suche für bessere Ergebnisse
Reranking: Ein separates Modell bewertet die Relevanz der gefundenen Chunks nochmals
Query Expansion: Die Nutzerfrage wird automatisch erweitert, um mehr relevante Ergebnisse zu finden
Agentic RAG: AI Agents entscheiden dynamisch, welche Datenquellen abgefragt werden

Implementierungsleitfaden: RAG in 5 Schritten

Schritt 1: Use Case definieren (Woche 1-2)

Identifizieren Sie einen konkreten Anwendungsfall mit klarem Mehrwert:

Interner Wissensassistent (HR-Richtlinien, IT-Support)
Kundenservice-Bot mit Produktwissen
Recherchetool für regulatorische Dokumente

Schritt 2: Daten vorbereiten (Woche 2-4)

Inventarisierung relevanter Datenquellen
Bereinigung und Strukturierung der Dokumente
Definition der Chunking-Strategie

Schritt 3: Tech-Stack wählen (Woche 3-4)

Embedding-Modell (z. B. OpenAI text-embedding-3-large)
Vektordatenbank (z. B. Pinecone oder Weaviate)
LLM (z. B. GPT-4o, Claude 3.5 Sonnet)
Orchestrierung (z. B. LangChain, LlamaIndex)

Schritt 4: Prototyp bauen und testen (Woche 4-8)

MVP implementieren
Testen mit realen Fragen und Dokumenten
Chunking und Retrieval-Parameter optimieren

Schritt 5: Produktion und Skalierung (Woche 8-16)

Deployment in Produktionsumgebung
Integration in bestehende Systeme
Monitoring und kontinuierliche Verbesserung

Typische Kosten für ein RAG-Projekt in der Schweiz:

Prototyp: CHF 15.000-40.000
Produktionsreifes System: CHF 50.000-150.000
Enterprise-Lösung: CHF 100.000-300.000+
Laufende Kosten: CHF 500-5.000/Monat (API-Kosten, Hosting)

FAQ: Häufig gestellte Fragen zu RAG

Ist RAG sicher genug für vertrauliche Unternehmensdaten?

Ja, RAG kann sehr sicher implementiert werden. Die Daten bleiben in Ihrer eigenen Infrastruktur (Vektordatenbank), und nur die relevanten Chunks werden an das LLM gesendet. Für maximale Sicherheit können Sie Open-Source-LLMs lokal hosten, sodass keine Daten das Unternehmen verlassen. Zusätzlich ermöglichen Zugriffskontrollen auf Dokumentenebene, dass Nutzer nur auf berechtigte Informationen zugreifen. Für Schweizer Unternehmen mit strengen Datenschutzanforderungen ist dies besonders relevant. Mehr zu Sicherheitsaspekten finden Sie in unserem AI Automation Guide.

Wie unterscheidet sich RAG von einer normalen Suchmaschine?

Der fundamentale Unterschied liegt in der Antwortgenerierung. Eine Suchmaschine liefert Links zu relevanten Dokumenten – der Nutzer muss selbst lesen und interpretieren. RAG hingegen liest die relevanten Passagen, versteht den Kontext und generiert eine natürlichsprachige Antwort mit Quellenangaben. Das spart enorm viel Zeit, besonders bei komplexen Fragen, die Informationen aus mehreren Dokumenten erfordern. RAG ist gewissermassen die Evolution von der Suche zur Antwort.

Kann RAG mit mehrsprachigen Dokumenten umgehen?

Ja, moderne Embedding-Modelle wie OpenAI text-embedding-3-large oder Cohere embed-v3 unterstützen Mehrsprachigkeit hervorragend. Das ist für Schweizer Unternehmen besonders wertvoll, da Dokumente oft in Deutsch, Franzoesisch, Italienisch und Englisch vorliegen. Eine Frage auf Deutsch kann Ergebnisse aus franzoesischen Dokumenten finden und die Antwort auf Deutsch generieren. Wichtig ist, bei der Auswahl des Embedding-Modells auf starke multilingual-Performance zu achten.

Wie schnell veralten die Daten in einem RAG-System?

Die Aktualität haengt von Ihrer Indexierungsstrategie ab. Im Gegensatz zu Fine-Tuning, wo Daten beim Training eingefroren werden, kann RAG kontinuierlich aktualisiert werden. Viele Unternehmen setzen auf inkrementelle Indexierung: Neue oder geänderte Dokumente werden automatisch innerhalb von Minuten bis Stunden in der Vektordatenbank aktualisiert. So stellen Sie sicher, dass Ihr RAG-System immer auf dem neuesten Stand ist. Weitere technische Details finden Sie in unserem AI Agents Guide.

Weiterführende Themen

Prompt Engineering für AI Automation