Cluster10 Min. Lesezeit1’910 WörterAktualisiert: März 2026Özden Erdinc
Central Entity: AI Automation
Teilen:

RAG für Unternehmen: Retrieval-Augmented Generation erklärt

Stellen Sie sich vor, Sie haben einen brillanten neuen Mitarbeiter eingestellt. Er ist eloquent, kann komplexe Zusammenhänge erklären und spricht mehrere Sprachen fliessend. Aber er kennt Ihr Unternehmen nicht. Er weiss nichts über Ihre Produkte, Ihre internen Prozesse oder Ihre Kundenhistorie. Genau das ist das Problem mit Large Language Models (LLMs) wie GPT-4 oder Claude: Sie sind unglaublich leistungsfähig, aber sie kennen Ihre Unternehmensdaten nicht.

Retrieval-Augmented Generation – kurz RAG – löst dieses Problem. RAG ist die Technologie, die LLMs mit Ihrem Unternehmenswissen verbindet. Und sie ist der Grund, warum immer mehr Schweizer Unternehmen KI-Assistenten aufbauen können, die nicht nur klug klingen, sondern tatsaechlich präzise und aktuelle Antworten auf Basis interner Daten liefern.

Was ist Retrieval-Augmented Generation (RAG)?

RAG ist ein Architekturmuster, das zwei Kernfähigkeiten kombiniert:

  1. Retrieval (Abruf): Relevante Informationen werden aus einer Wissensdatenbank abgerufen
  2. Augmented Generation (angereicherte Generierung): Diese Informationen werden dem LLM als Kontext übergeben, damit es präzise, faktenbasierte Antworten generiert

Das Problem ohne RAG

Ohne RAG hat ein LLM nur sein Trainingswissen – und das hat drei fundamentale Schwaechen:

  • Wissens-Cutoff: Das Modell kennt nur Daten bis zum Trainingsende. Aktuelle Informationen fehlen.
  • Halluzinationen: Wenn das Modell die Antwort nicht kennt, erfindet es eine – überzeugend, aber falsch.
  • Kein Unternehmenswissen: Interne Dokumente, Prozesse und Daten sind dem Modell unbekannt.

Die RAG-Lösung

RAG löst alle drei Probleme elegant:

Nutzer-Frage: "Was ist unsere Rückgaberichtlinie für Premium-Kunden?"

OHNE RAG:
LLM generiert allgemeine Antwort → Wahrscheinlich falsch oder generisch

MIT RAG:

  1. Frage wird in Vektor umgewandelt
  2. Vektordatenbank findet relevante Dokumente (z.B. "Rückgaberichtlinie_2026.pdf")
  3. Relevante Textpassagen werden dem LLM als Kontext übergeben
  4. LLM generiert präzise Antwort basierend auf echten Unternehmensdaten

Das Ergebnis: Antworten, die korrekt, aktuell und auf Ihre spezifische Unternehmenssituation zugeschnitten sind.

RAG-Architektur im Detail

Eine RAG-Pipeline besteht aus zwei Hauptphasen: der Indexierung (Offline) und der Abfrage (Online).

Phase 1: Indexierung (Offline-Pipeline)

In dieser Phase werden Ihre Unternehmensdokumente für die späteren Abfragen vorbereitet:

Schritt 1: Datenquellen anbinden
Verbinden Sie Ihre Datenquellen – SharePoint, Confluence, Google Drive, CRM-Systeme, Datenbanken, PDFs, E-Mails. Eine gute RAG-Lösung kann mit verschiedensten Formaten umgehen.

Schritt 2: Chunking (Textsegmentierung)
Dokumente werden in sinnvolle Textabschnitte (Chunks) aufgeteilt. Die Chunking-Strategie ist entscheidend für die Qualität – dazu später mehr.

Schritt 3: Embedding-Generierung
Jeder Chunk wird durch ein Embedding-Modell in einen numerischen Vektor umgewandelt. Dieser Vektor repräsentiert die semantische Bedeutung des Textes.

Schritt 4: Speicherung in Vektordatenbank
Die Vektoren werden zusammen mit Metadaten (Quelle, Datum, Zugriffsrechte) in einer Vektordatenbank gespeichert.

Phase 2: Abfrage (Online-Pipeline)

Wenn ein Nutzer eine Frage stellt:

Schritt 1: Query Embedding
Die Nutzerfrage wird ebenfalls in einen Vektor umgewandelt.

Schritt 2: Ähnlichkeitssuche
Die Vektordatenbank findet die Chunks, deren Vektoren dem Query-Vektor am ähnlichsten sind (Cosine Similarity oder andere Distanzmetriken).

Schritt 3: Kontextaufbereitung
Die gefundenen Chunks werden als Kontext zusammengestellt und zusammen mit der Nutzerfrage an das LLM übergeben.

Schritt 4: Antwortgenerierung
Das LLM generiert eine Antwort basierend auf dem bereitgestellten Kontext und der urspruenglichen Frage.

Embedding-Modelle: Das Herzstück der semantischen Suche

Embedding-Modelle sind das Rückgrat jeder RAG-Architektur. Sie wandeln Text in dichte numerische Vektoren um, die semantische Ähnlichkeiten abbilden.

Wie Embeddings funktionieren

Stellen Sie sich vor, jedes Wort und jeder Satz erhält Koordinaten in einem hochdimensionalen Raum. Ähnliche Konzepte liegen nahe beieinander:

  • "Rechnung" und "Faktura" → nahe beieinander (semantisch ähnlich)
  • "Rechnung" und "Wetter" → weit voneinander entfernt
Moderne Embedding-Modelle arbeiten typischerweise mit 768 bis 3.072 Dimensionen und erfassen nuancierte semantische Beziehungen.

Auswahl des richtigen Embedding-Modells

ModellDimensionenStärkeEinsatz
OpenAI text-embedding-3-large3.072Beste Allround-QualitätEnterprise, multilingual
OpenAI text-embedding-3-small1.536Gutes Preis-Leistungs-VerhältnisStandard-Anwendungen
Cohere embed-v31.024Starke mehrsprachige PerformanceMultilingual, Deutsch
BGE-M3 (Open Source)1.024Multilingual, kostenlosSelf-hosted, Datenschutz
Jina Embeddings v31.024Flexibel, multilingualForschung, spezialisiert
Für Schweizer Unternehmen besonders relevant: Wenn Datenschutz kritisch ist (z. B. bei Finanzdaten oder Patientendaten), sollten Open-Source-Modelle wie BGE-M3 in Betracht gezogen werden, die lokal gehostet werden können.

Wichtig: Multilingual-Fähigkeit

Schweizer Unternehmen arbeiten oft mit Dokumenten in Deutsch, Franzoesisch, Italienisch und Englisch. Wählen Sie ein Embedding-Modell mit starker multilingualer Performance, damit die semantische Suche sprachübergreifend funktioniert.

Vektordatenbanken: Wo das Wissen lebt

Vektordatenbanken sind spezialisierte Datenbanken, die für die Speicherung und schnelle Abfrage von Vektoren optimiert sind.

Die wichtigsten Vektordatenbanken im Vergleich

DatenbankTypStärkePreis
PineconeFully ManagedEinfachste Einrichtung, skalierbarAb CHF 70/Mo.
WeaviateOpen Source / CloudHybrid-Suche, flexibelOpen Source / ab CHF 25/Mo.
QdrantOpen Source / CloudHohe Performance, Rust-basiertOpen Source / ab CHF 30/Mo.
ChromaDBOpen SourceEinfach, gut für PrototypenKostenlos
pgvector (PostgreSQL)ExtensionIntegration in bestehende DBBestehende DB-Kosten

Entscheidungskriterien

  • Skalierbarkeit: Wie viele Dokumente müssen indexiert werden? Tausende oder Millionen?
  • Hosting: Cloud oder On-Premise? Für Schweizer Unternehmen mit Datenschutzanforderungen kann On-Premise wichtig sein.
  • Integration: Passt die Datenbank in Ihren bestehenden Tech-Stack?
  • Performance: Wie schnell müssen Abfragen beantwortet werden?
  • Kosten: Managed Services sind einfacher, aber teurer.
Empfehlung für den Einstieg: Für Prototypen und kleine Projekte reicht ChromaDB oder pgvector. Für Produktion empfehlen wir Pinecone (einfach) oder Weaviate (flexibel).

Chunking-Strategien: Die Kunst der Textaufbereitung

Die Art, wie Sie Ihre Dokumente in Chunks aufteilen, hat enormen Einfluss auf die RAG-Qualität. Zu kleine Chunks verlieren Kontext, zu grosse Chunks verwwaessern die Relevanz.

Gängige Chunking-Methoden

Fixed-Size Chunking
Teilt Text in gleichgrosse Stücke (z. B. 500 Tokens) mit Überlappung (z. B. 50 Tokens). Einfach, aber nicht ideal für strukturierte Dokumente.

Semantic Chunking
Nutzt NLP, um semantisch zusammenhängende Abschnitte zu identifizieren. Besser für die Qualität, aber rechenintensiver.

Document-Structure-Based Chunking
Nutzt die Dokumentenstruktur (Überschriften, Absätze, Listen) als natürliche Trennpunkte. Ideal für gut strukturierte Dokumente.

Recursive Chunking
Versucht zunächst grosse semantische Einheiten zu bilden und teilt dann nur auf, wenn diese zu gross sind. Guter Kompromiss aus Qualität und Einfachheit.

Best Practices für Chunking

  1. Chunk-Grösse: 200-800 Tokens sind ein guter Ausgangspunkt
  2. Überlappung: 10-20 % Überlappung verhindert, dass Kontext an Chunk-Grenzen verloren geht
  3. Metadaten: Reichern Sie jeden Chunk mit Metadaten an (Dokumentname, Kapitel, Datum)
  4. Testen: Es gibt keine universelle beste Strategie – testen Sie verschiedene Ansätze mit Ihren spezifischen Daten

RAG vs. Fine-Tuning: Wann was sinnvoll ist

Eine häufige Frage: Sollte man RAG verwenden oder das LLM auf den eigenen Daten fine-tunen?

KriteriumRAGFine-Tuning
DatenaktualitätImmer aktuell (Daten werden live abgerufen)Statisch (Stand des Trainings)
KostenGeringer (kein Modelltraining nötig)Höher (GPU-Kosten für Training)
ImplementierungszeitTage bis WochenWochen bis Monate
NachvollziehbarkeitHoch (Quellen zitierbar)Niedrig (Black Box)
DatenvolumenUnbegrenzt skalierbarDurch Trainingsdaten begrenzt
FlexibilitätHoch (neue Daten sofort verfügbar)Niedrig (Retraining nötig)
HalluzinationenStark reduziertTeilweise reduziert
Empfehlung: Für die meisten Unternehmensanwendungen ist RAG die bessere Wahl. Fine-Tuning lohnt sich nur, wenn das Modell einen spezifischen Schreibstil oder spezialisiertes Domaenenwissen erlernen soll, das sich selten ändert.

Optimal: In vielen Fällen ist eine Kombination aus RAG und leichtem Fine-Tuning die beste Lösung.

Vertiefen Sie Ihr Wissen:
>
- AI Agent Plattformen im Überblick

Enterprise RAG: Anforderungen und Best Practices

Die Implementierung von RAG in einem Unternehmenskontext bringt zusätzliche Anforderungen mit sich, die über ein einfaches Proof-of-Concept hinausgehen.

Zugriffskontrollen und Berechtigungen

In einem Unternehmen darf nicht jeder Mitarbeiter auf alle Informationen zugreifen. Enterprise RAG muss die bestehenden Zugriffsrechte respektieren:

  • Document-Level Security: Nutzer sehen nur Ergebnisse aus Dokumenten, auf die sie Zugriff haben
  • Role-Based Access Control (RBAC): Verschiedene Rollen sehen verschiedene Datenquellen
  • Audit Logging: Jede Abfrage und jede zurückgegebene Quelle wird protokolliert

Datenqualität und -governance

  • Aktualität: Stellen Sie sicher, dass die Indexierung regelmaessig aktualisiert wird
  • Deduplizierung: Vermeiden Sie redundante Dokumente, die die Ergebnisqualität mindern
  • Metadaten-Enrichment: Reichern Sie Dokumente mit Metadaten an für besseres Filtering

Evaluation und Monitoring

Messen Sie die Qualität Ihres RAG-Systems kontinuierlich:

  • Retrieval-Qualität: Werden die richtigen Dokumente gefunden? (Recall, Precision)
  • Antwortqualität: Sind die generierten Antworten korrekt und hilfreich?
  • Latenz: Wie schnell erhält der Nutzer eine Antwort?
  • Nutzerzufriedenheit: Feedback-Mechanismen einbauen

Advanced RAG-Techniken

Für fortgeschrittene Implementierungen gibt es weitere Techniken:

  • Hybrid Search: Kombination aus semantischer Suche und Keyword-Suche für bessere Ergebnisse
  • Reranking: Ein separates Modell bewertet die Relevanz der gefundenen Chunks nochmals
  • Query Expansion: Die Nutzerfrage wird automatisch erweitert, um mehr relevante Ergebnisse zu finden
  • Agentic RAG: AI Agents entscheiden dynamisch, welche Datenquellen abgefragt werden

Implementierungsleitfaden: RAG in 5 Schritten

Schritt 1: Use Case definieren (Woche 1-2)

Identifizieren Sie einen konkreten Anwendungsfall mit klarem Mehrwert:
  • Interner Wissensassistent (HR-Richtlinien, IT-Support)
  • Kundenservice-Bot mit Produktwissen
  • Recherchetool für regulatorische Dokumente

Schritt 2: Daten vorbereiten (Woche 2-4)

  • Inventarisierung relevanter Datenquellen
  • Bereinigung und Strukturierung der Dokumente
  • Definition der Chunking-Strategie

Schritt 3: Tech-Stack wählen (Woche 3-4)

  • Embedding-Modell (z. B. OpenAI text-embedding-3-large)
  • Vektordatenbank (z. B. Pinecone oder Weaviate)
  • LLM (z. B. GPT-4o, Claude 3.5 Sonnet)
  • Orchestrierung (z. B. LangChain, LlamaIndex)

Schritt 4: Prototyp bauen und testen (Woche 4-8)

  • MVP implementieren
  • Testen mit realen Fragen und Dokumenten
  • Chunking und Retrieval-Parameter optimieren

Schritt 5: Produktion und Skalierung (Woche 8-16)

  • Deployment in Produktionsumgebung
  • Integration in bestehende Systeme
  • Monitoring und kontinuierliche Verbesserung
Typische Kosten für ein RAG-Projekt in der Schweiz:
  • Prototyp: CHF 15.000-40.000
  • Produktionsreifes System: CHF 50.000-150.000
  • Enterprise-Lösung: CHF 100.000-300.000+
  • Laufende Kosten: CHF 500-5.000/Monat (API-Kosten, Hosting)

FAQ: Häufig gestellte Fragen zu RAG

Ist RAG sicher genug für vertrauliche Unternehmensdaten?

Ja, RAG kann sehr sicher implementiert werden. Die Daten bleiben in Ihrer eigenen Infrastruktur (Vektordatenbank), und nur die relevanten Chunks werden an das LLM gesendet. Für maximale Sicherheit können Sie Open-Source-LLMs lokal hosten, sodass keine Daten das Unternehmen verlassen. Zusätzlich ermöglichen Zugriffskontrollen auf Dokumentenebene, dass Nutzer nur auf berechtigte Informationen zugreifen. Für Schweizer Unternehmen mit strengen Datenschutzanforderungen ist dies besonders relevant. Mehr zu Sicherheitsaspekten finden Sie in unserem AI Automation Guide.

Wie unterscheidet sich RAG von einer normalen Suchmaschine?

Der fundamentale Unterschied liegt in der Antwortgenerierung. Eine Suchmaschine liefert Links zu relevanten Dokumenten – der Nutzer muss selbst lesen und interpretieren. RAG hingegen liest die relevanten Passagen, versteht den Kontext und generiert eine natürlichsprachige Antwort mit Quellenangaben. Das spart enorm viel Zeit, besonders bei komplexen Fragen, die Informationen aus mehreren Dokumenten erfordern. RAG ist gewissermassen die Evolution von der Suche zur Antwort.

Kann RAG mit mehrsprachigen Dokumenten umgehen?

Ja, moderne Embedding-Modelle wie OpenAI text-embedding-3-large oder Cohere embed-v3 unterstützen Mehrsprachigkeit hervorragend. Das ist für Schweizer Unternehmen besonders wertvoll, da Dokumente oft in Deutsch, Franzoesisch, Italienisch und Englisch vorliegen. Eine Frage auf Deutsch kann Ergebnisse aus franzoesischen Dokumenten finden und die Antwort auf Deutsch generieren. Wichtig ist, bei der Auswahl des Embedding-Modells auf starke multilingual-Performance zu achten.

Wie schnell veralten die Daten in einem RAG-System?

Die Aktualität haengt von Ihrer Indexierungsstrategie ab. Im Gegensatz zu Fine-Tuning, wo Daten beim Training eingefroren werden, kann RAG kontinuierlich aktualisiert werden. Viele Unternehmen setzen auf inkrementelle Indexierung: Neue oder geänderte Dokumente werden automatisch innerhalb von Minuten bis Stunden in der Vektordatenbank aktualisiert. So stellen Sie sicher, dass Ihr RAG-System immer auf dem neuesten Stand ist. Weitere technische Details finden Sie in unserem AI Agents Guide.



Weiterführende Themen

Erdinc AI

Bereit für Ihre AI Automation Reise?

Von der Strategie bis zur Implementierung — Erdinc AI ist Ihr Partner für semantisch optimierte AI-Lösungen in der Schweiz.

OE

Özden Erdinc

AI Architect for the Semantic Web

Spezialisiert auf Topical Authority, Semantic SEO und AI Automation. Hilft Schweizer KMU, das volle Potenzial von künstlicher Intelligenz zu nutzen.

Mehr über den Autor

Verwandte Artikel