Cluster10 Min. Lesezeit1’910 Woerter
Central Entity: AI Automation

RAG fuer Unternehmen: Retrieval-Augmented Generation erklaert

Stellen Sie sich vor, Sie haben einen brillanten neuen Mitarbeiter eingestellt. Er ist eloquent, kann komplexe Zusammenhaenge erklaeren und spricht mehrere Sprachen fliessend. Aber er kennt Ihr Unternehmen nicht. Er weiss nichts ueber Ihre Produkte, Ihre internen Prozesse oder Ihre Kundenhistorie. Genau das ist das Problem mit Large Language Models (LLMs) wie GPT-4 oder Claude: Sie sind unglaublich leistungsfaehig, aber sie kennen Ihre Unternehmensdaten nicht.

Retrieval-Augmented Generation – kurz RAG – loest dieses Problem. RAG ist die Technologie, die LLMs mit Ihrem Unternehmenswissen verbindet. Und sie ist der Grund, warum immer mehr Schweizer Unternehmen KI-Assistenten aufbauen koennen, die nicht nur klug klingen, sondern tatsaechlich praezise und aktuelle Antworten auf Basis interner Daten liefern.

Was ist Retrieval-Augmented Generation (RAG)?

RAG ist ein Architekturmuster, das zwei Kernfaehigkeiten kombiniert:

  1. Retrieval (Abruf): Relevante Informationen werden aus einer Wissensdatenbank abgerufen
  2. Augmented Generation (angereicherte Generierung): Diese Informationen werden dem LLM als Kontext uebergeben, damit es praezise, faktenbasierte Antworten generiert

Das Problem ohne RAG

Ohne RAG hat ein LLM nur sein Trainingswissen – und das hat drei fundamentale Schwaechen:

  • Wissens-Cutoff: Das Modell kennt nur Daten bis zum Trainingsende. Aktuelle Informationen fehlen.
  • Halluzinationen: Wenn das Modell die Antwort nicht kennt, erfindet es eine – ueberzeugend, aber falsch.
  • Kein Unternehmenswissen: Interne Dokumente, Prozesse und Daten sind dem Modell unbekannt.

Die RAG-Loesung

RAG loest alle drei Probleme elegant:

Nutzer-Frage: "Was ist unsere Rueckgaberichtlinie fuer Premium-Kunden?"

OHNE RAG:
LLM generiert allgemeine Antwort → Wahrscheinlich falsch oder generisch

MIT RAG:

  1. Frage wird in Vektor umgewandelt
  2. Vektordatenbank findet relevante Dokumente (z.B. "Rueckgaberichtlinie_2026.pdf")
  3. Relevante Textpassagen werden dem LLM als Kontext uebergeben
  4. LLM generiert praezise Antwort basierend auf echten Unternehmensdaten

Das Ergebnis: Antworten, die korrekt, aktuell und auf Ihre spezifische Unternehmenssituation zugeschnitten sind.

RAG-Architektur im Detail

Eine RAG-Pipeline besteht aus zwei Hauptphasen: der Indexierung (Offline) und der Abfrage (Online).

Phase 1: Indexierung (Offline-Pipeline)

In dieser Phase werden Ihre Unternehmensdokumente fuer die spaeteren Abfragen vorbereitet:

Schritt 1: Datenquellen anbinden
Verbinden Sie Ihre Datenquellen – SharePoint, Confluence, Google Drive, CRM-Systeme, Datenbanken, PDFs, E-Mails. Eine gute RAG-Loesung kann mit verschiedensten Formaten umgehen.

Schritt 2: Chunking (Textsegmentierung)
Dokumente werden in sinnvolle Textabschnitte (Chunks) aufgeteilt. Die Chunking-Strategie ist entscheidend fuer die Qualitaet – dazu spaeter mehr.

Schritt 3: Embedding-Generierung
Jeder Chunk wird durch ein Embedding-Modell in einen numerischen Vektor umgewandelt. Dieser Vektor repraesentiert die semantische Bedeutung des Textes.

Schritt 4: Speicherung in Vektordatenbank
Die Vektoren werden zusammen mit Metadaten (Quelle, Datum, Zugriffsrechte) in einer Vektordatenbank gespeichert.

Phase 2: Abfrage (Online-Pipeline)

Wenn ein Nutzer eine Frage stellt:

Schritt 1: Query Embedding
Die Nutzerfrage wird ebenfalls in einen Vektor umgewandelt.

Schritt 2: Aehnlichkeitssuche
Die Vektordatenbank findet die Chunks, deren Vektoren dem Query-Vektor am aehnlichsten sind (Cosine Similarity oder andere Distanzmetriken).

Schritt 3: Kontextaufbereitung
Die gefundenen Chunks werden als Kontext zusammengestellt und zusammen mit der Nutzerfrage an das LLM uebergeben.

Schritt 4: Antwortgenerierung
Das LLM generiert eine Antwort basierend auf dem bereitgestellten Kontext und der urspruenglichen Frage.

Embedding-Modelle: Das Herzstueck der semantischen Suche

Embedding-Modelle sind das Rueckgrat jeder RAG-Architektur. Sie wandeln Text in dichte numerische Vektoren um, die semantische Aehnlichkeiten abbilden.

Wie Embeddings funktionieren

Stellen Sie sich vor, jedes Wort und jeder Satz erhaelt Koordinaten in einem hochdimensionalen Raum. Aehnliche Konzepte liegen nahe beieinander:

  • "Rechnung" und "Faktura" → nahe beieinander (semantisch aehnlich)
  • "Rechnung" und "Wetter" → weit voneinander entfernt
Moderne Embedding-Modelle arbeiten typischerweise mit 768 bis 3.072 Dimensionen und erfassen nuancierte semantische Beziehungen.

Auswahl des richtigen Embedding-Modells

ModellDimensionenStaerkeEinsatz
OpenAI text-embedding-3-large3.072Beste Allround-QualitaetEnterprise, multilingual
OpenAI text-embedding-3-small1.536Gutes Preis-Leistungs-VerhaeltnisStandard-Anwendungen
Cohere embed-v31.024Starke mehrsprachige PerformanceMultilingual, Deutsch
BGE-M3 (Open Source)1.024Multilingual, kostenlosSelf-hosted, Datenschutz
Jina Embeddings v31.024Flexibel, multilingualForschung, spezialisiert
Fuer Schweizer Unternehmen besonders relevant: Wenn Datenschutz kritisch ist (z. B. bei Finanzdaten oder Patientendaten), sollten Open-Source-Modelle wie BGE-M3 in Betracht gezogen werden, die lokal gehostet werden koennen.

Wichtig: Multilingual-Faehigkeit

Schweizer Unternehmen arbeiten oft mit Dokumenten in Deutsch, Franzoesisch, Italienisch und Englisch. Waehlen Sie ein Embedding-Modell mit starker multilingualer Performance, damit die semantische Suche sprachuebergreifend funktioniert.

Vektordatenbanken: Wo das Wissen lebt

Vektordatenbanken sind spezialisierte Datenbanken, die fuer die Speicherung und schnelle Abfrage von Vektoren optimiert sind.

Die wichtigsten Vektordatenbanken im Vergleich

DatenbankTypStaerkePreis
PineconeFully ManagedEinfachste Einrichtung, skalierbarAb CHF 70/Mo.
WeaviateOpen Source / CloudHybrid-Suche, flexibelOpen Source / ab CHF 25/Mo.
QdrantOpen Source / CloudHohe Performance, Rust-basiertOpen Source / ab CHF 30/Mo.
ChromaDBOpen SourceEinfach, gut fuer PrototypenKostenlos
pgvector (PostgreSQL)ExtensionIntegration in bestehende DBBestehende DB-Kosten

Entscheidungskriterien

  • Skalierbarkeit: Wie viele Dokumente muessen indexiert werden? Tausende oder Millionen?
  • Hosting: Cloud oder On-Premise? Fuer Schweizer Unternehmen mit Datenschutzanforderungen kann On-Premise wichtig sein.
  • Integration: Passt die Datenbank in Ihren bestehenden Tech-Stack?
  • Performance: Wie schnell muessen Abfragen beantwortet werden?
  • Kosten: Managed Services sind einfacher, aber teurer.
Empfehlung fuer den Einstieg: Fuer Prototypen und kleine Projekte reicht ChromaDB oder pgvector. Fuer Produktion empfehlen wir Pinecone (einfach) oder Weaviate (flexibel).

Chunking-Strategien: Die Kunst der Textaufbereitung

Die Art, wie Sie Ihre Dokumente in Chunks aufteilen, hat enormen Einfluss auf die RAG-Qualitaet. Zu kleine Chunks verlieren Kontext, zu grosse Chunks verwwaessern die Relevanz.

Gaengige Chunking-Methoden

Fixed-Size Chunking
Teilt Text in gleichgrosse Stuecke (z. B. 500 Tokens) mit Ueberlappung (z. B. 50 Tokens). Einfach, aber nicht ideal fuer strukturierte Dokumente.

Semantic Chunking
Nutzt NLP, um semantisch zusammenhaengende Abschnitte zu identifizieren. Besser fuer die Qualitaet, aber rechenintensiver.

Document-Structure-Based Chunking
Nutzt die Dokumentenstruktur (Ueberschriften, Absaetze, Listen) als natuerliche Trennpunkte. Ideal fuer gut strukturierte Dokumente.

Recursive Chunking
Versucht zunaechst grosse semantische Einheiten zu bilden und teilt dann nur auf, wenn diese zu gross sind. Guter Kompromiss aus Qualitaet und Einfachheit.

Best Practices fuer Chunking

  1. Chunk-Groesse: 200-800 Tokens sind ein guter Ausgangspunkt
  2. Ueberlappung: 10-20 % Ueberlappung verhindert, dass Kontext an Chunk-Grenzen verloren geht
  3. Metadaten: Reichern Sie jeden Chunk mit Metadaten an (Dokumentname, Kapitel, Datum)
  4. Testen: Es gibt keine universelle beste Strategie – testen Sie verschiedene Ansaetze mit Ihren spezifischen Daten

RAG vs. Fine-Tuning: Wann was sinnvoll ist

Eine haeufige Frage: Sollte man RAG verwenden oder das LLM auf den eigenen Daten fine-tunen?

KriteriumRAGFine-Tuning
DatenaktualitaetImmer aktuell (Daten werden live abgerufen)Statisch (Stand des Trainings)
KostenGeringer (kein Modelltraining noetig)Hoeher (GPU-Kosten fuer Training)
ImplementierungszeitTage bis WochenWochen bis Monate
NachvollziehbarkeitHoch (Quellen zitierbar)Niedrig (Black Box)
DatenvolumenUnbegrenzt skalierbarDurch Trainingsdaten begrenzt
FlexibilitaetHoch (neue Daten sofort verfuegbar)Niedrig (Retraining noetig)
HalluzinationenStark reduziertTeilweise reduziert
Empfehlung: Fuer die meisten Unternehmensanwendungen ist RAG die bessere Wahl. Fine-Tuning lohnt sich nur, wenn das Modell einen spezifischen Schreibstil oder spezialisiertes Domaenenwissen erlernen soll, das sich selten aendert.

Optimal: In vielen Faellen ist eine Kombination aus RAG und leichtem Fine-Tuning die beste Loesung.

Vertiefen Sie Ihr Wissen:
>
- AI Agent Plattformen im Überblick

Enterprise RAG: Anforderungen und Best Practices

Die Implementierung von RAG in einem Unternehmenskontext bringt zusaetzliche Anforderungen mit sich, die ueber ein einfaches Proof-of-Concept hinausgehen.

Zugriffskontrollen und Berechtigungen

In einem Unternehmen darf nicht jeder Mitarbeiter auf alle Informationen zugreifen. Enterprise RAG muss die bestehenden Zugriffsrechte respektieren:

  • Document-Level Security: Nutzer sehen nur Ergebnisse aus Dokumenten, auf die sie Zugriff haben
  • Role-Based Access Control (RBAC): Verschiedene Rollen sehen verschiedene Datenquellen
  • Audit Logging: Jede Abfrage und jede zurueckgegebene Quelle wird protokolliert

Datenqualitaet und -governance

  • Aktualitaet: Stellen Sie sicher, dass die Indexierung regelmaessig aktualisiert wird
  • Deduplizierung: Vermeiden Sie redundante Dokumente, die die Ergebnisqualitaet mindern
  • Metadaten-Enrichment: Reichern Sie Dokumente mit Metadaten an fuer besseres Filtering

Evaluation und Monitoring

Messen Sie die Qualitaet Ihres RAG-Systems kontinuierlich:

  • Retrieval-Qualitaet: Werden die richtigen Dokumente gefunden? (Recall, Precision)
  • Antwortqualitaet: Sind die generierten Antworten korrekt und hilfreich?
  • Latenz: Wie schnell erhaelt der Nutzer eine Antwort?
  • Nutzerzufriedenheit: Feedback-Mechanismen einbauen

Advanced RAG-Techniken

Fuer fortgeschrittene Implementierungen gibt es weitere Techniken:

  • Hybrid Search: Kombination aus semantischer Suche und Keyword-Suche fuer bessere Ergebnisse
  • Reranking: Ein separates Modell bewertet die Relevanz der gefundenen Chunks nochmals
  • Query Expansion: Die Nutzerfrage wird automatisch erweitert, um mehr relevante Ergebnisse zu finden
  • Agentic RAG: AI Agents entscheiden dynamisch, welche Datenquellen abgefragt werden

Implementierungsleitfaden: RAG in 5 Schritten

Schritt 1: Use Case definieren (Woche 1-2)

Identifizieren Sie einen konkreten Anwendungsfall mit klarem Mehrwert:
  • Interner Wissensassistent (HR-Richtlinien, IT-Support)
  • Kundenservice-Bot mit Produktwissen
  • Recherchetool fuer regulatorische Dokumente

Schritt 2: Daten vorbereiten (Woche 2-4)

  • Inventarisierung relevanter Datenquellen
  • Bereinigung und Strukturierung der Dokumente
  • Definition der Chunking-Strategie

Schritt 3: Tech-Stack waehlen (Woche 3-4)

  • Embedding-Modell (z. B. OpenAI text-embedding-3-large)
  • Vektordatenbank (z. B. Pinecone oder Weaviate)
  • LLM (z. B. GPT-4o, Claude 3.5 Sonnet)
  • Orchestrierung (z. B. LangChain, LlamaIndex)

Schritt 4: Prototyp bauen und testen (Woche 4-8)

  • MVP implementieren
  • Testen mit realen Fragen und Dokumenten
  • Chunking und Retrieval-Parameter optimieren

Schritt 5: Produktion und Skalierung (Woche 8-16)

  • Deployment in Produktionsumgebung
  • Integration in bestehende Systeme
  • Monitoring und kontinuierliche Verbesserung
Typische Kosten fuer ein RAG-Projekt in der Schweiz:
  • Prototyp: CHF 15.000-40.000
  • Produktionsreifes System: CHF 50.000-150.000
  • Enterprise-Loesung: CHF 100.000-300.000+
  • Laufende Kosten: CHF 500-5.000/Monat (API-Kosten, Hosting)

FAQ: Haeufig gestellte Fragen zu RAG

Ist RAG sicher genug fuer vertrauliche Unternehmensdaten?

Ja, RAG kann sehr sicher implementiert werden. Die Daten bleiben in Ihrer eigenen Infrastruktur (Vektordatenbank), und nur die relevanten Chunks werden an das LLM gesendet. Fuer maximale Sicherheit koennen Sie Open-Source-LLMs lokal hosten, sodass keine Daten das Unternehmen verlassen. Zusaetzlich ermoeglichen Zugriffskontrollen auf Dokumentenebene, dass Nutzer nur auf berechtigte Informationen zugreifen. Fuer Schweizer Unternehmen mit strengen Datenschutzanforderungen ist dies besonders relevant. Mehr zu Sicherheitsaspekten finden Sie in unserem AI Automation Guide.

Wie unterscheidet sich RAG von einer normalen Suchmaschine?

Der fundamentale Unterschied liegt in der Antwortgenerierung. Eine Suchmaschine liefert Links zu relevanten Dokumenten – der Nutzer muss selbst lesen und interpretieren. RAG hingegen liest die relevanten Passagen, versteht den Kontext und generiert eine natuerlichsprachige Antwort mit Quellenangaben. Das spart enorm viel Zeit, besonders bei komplexen Fragen, die Informationen aus mehreren Dokumenten erfordern. RAG ist gewissermassen die Evolution von der Suche zur Antwort.

Kann RAG mit mehrsprachigen Dokumenten umgehen?

Ja, moderne Embedding-Modelle wie OpenAI text-embedding-3-large oder Cohere embed-v3 unterstuetzen Mehrsprachigkeit hervorragend. Das ist fuer Schweizer Unternehmen besonders wertvoll, da Dokumente oft in Deutsch, Franzoesisch, Italienisch und Englisch vorliegen. Eine Frage auf Deutsch kann Ergebnisse aus franzoesischen Dokumenten finden und die Antwort auf Deutsch generieren. Wichtig ist, bei der Auswahl des Embedding-Modells auf starke multilingual-Performance zu achten.

Wie schnell veralten die Daten in einem RAG-System?

Die Aktualitaet haengt von Ihrer Indexierungsstrategie ab. Im Gegensatz zu Fine-Tuning, wo Daten beim Training eingefroren werden, kann RAG kontinuierlich aktualisiert werden. Viele Unternehmen setzen auf inkrementelle Indexierung: Neue oder geaenderte Dokumente werden automatisch innerhalb von Minuten bis Stunden in der Vektordatenbank aktualisiert. So stellen Sie sicher, dass Ihr RAG-System immer auf dem neuesten Stand ist. Weitere technische Details finden Sie in unserem AI Agents Guide.



Weiterführende Themen

Erdinc AI

Bereit fuer Ihre AI Automation Reise?

Von der Strategie bis zur Implementierung — Erdinc AI ist Ihr Partner fuer semantisch optimierte AI-Loesungen in der Schweiz.

OE

Oezden Erdinc

AI Architect for the Semantic Web

Spezialisiert auf Topical Authority, Semantic SEO und AI Automation. Hilft Schweizer KMU, das volle Potenzial von kuenstlicher Intelligenz zu nutzen.

Mehr ueber den Autor

Verwandte Artikel