Glossar
Begriffe und Abkürzungen rund um AdriRAG einfach erklärt.
ACL
Access Control List. Eine Liste von Berechtigungen, die festlegt, welcher Benutzer auf welche Dokumente zugreifen darf.
Chunk
Ein kleiner Textabschnitt aus einem größeren Dokument, der einzeln indexiert und für die Suche verwendet wird.
Citation Validation
Die Prüfung, ob die vom LLM angegebenen Quellenverweise tatsächlich mit den bereitgestellten Dokumenten übereinstimmen.
Cosinus-Ähnlichkeit
Ein mathematisches Maß für die Ähnlichkeit zwischen zwei Vektoren, basierend auf dem Winkel zwischen ihnen.
Crawler
Ein Programm, das Webseiten oder andere Quellen (z.B. Confluence) automatisch durchsucht und Inhalte importiert.
Embedding
Die mathematische Umwandlung von Text in einen Vektor (Zahlenliste), der die semantische Bedeutung repräsentiert.
Guardrail
Sicherheitsmechanismen, die die Eingabe oder Ausgabe des Systems überwachen und ggf. blockieren oder anpassen.
Halluzination
Ein Phänomen, bei dem ein LLM Informationen generiert, die plausibel klingen, aber faktisch falsch oder nicht im Kontext enthalten sind.
HNSW
Hierarchical Navigable Small World. Ein effizienter Index-Algorithmus für die schnelle Vektorsuche.
Hybrid Search
Kombination aus Vektorsuche (semantisch) und klassischer Stichwortsuche (lexikalisch) für bessere Ergebnisse.
Ingestion
Der Prozess des Einlesens, Verarbeitens und Speicherns von Dokumenten in das System.
LLM
Large Language Model. Ein großes Sprachmodell (wie Google Gemini), das Text versteht und generiert.
MCP
Model Context Protocol. Ein Protokoll, das es dem LLM ermöglicht, sicher auf externe Tools und Datenquellen zuzugreifen.
MMR
Maximal Marginal Relevance. Ein Algorithmus zur Steigerung der Diversität in den Suchergebnissen, um Redundanz zu vermeiden.
OIDC
OpenID Connect. Ein Standard für die Authentifizierung von Benutzern (Single Sign-On).
pgvector
Eine Erweiterung für die PostgreSQL-Datenbank, die das effiziente Speichern und Durchsuchen von Vektoren ermöglicht.
PII
Personally Identifiable Information. Personenbezogene Daten wie Namen, E-Mail-Adressen oder Telefonnummern, die in AdriRAG zum Datenschutz automatisch maskiert werden.
Prompt Injection
Ein Angriffsversuch, bei dem versucht wird, das Verhalten des LLM durch spezielle Anweisungen in der Nutzeranfrage zu manipulieren.
RAG
Retrieval-Augmented Generation. Eine Technik, bei der ein Sprachmodell (LLM) mit Informationen aus externen Quellen (z.B. Dokumenten) angereichert wird, um präzisere Antworten zu geben.
Reranking
Ein Prozess nach der ersten Suche, bei dem die Ergebnisse anhand zusätzlicher Signale (Qualität, Aktualität) neu sortiert werden.
Semantic Search
Suche basierend auf der Bedeutung von Wörtern und Sätzen, anstatt nur auf exakten Stichworten.
SSRF
Server-Side Request Forgery. Eine Sicherheitslücke, die AdriRAG durch DNS-Validierung beim Crawling verhindert.
Token
Die kleinste Einheit von Text, die ein LLM verarbeitet (ca. 4 Zeichen oder 0.75 Wörter).
Trace
Eine detaillierte Aufzeichnung aller Schritte und Daten einer einzelnen RAG-Pipeline-Ausführung.
U-Shape Prompt Assembly
Eine Technik zur Anordnung von Kontext-Chunks, bei der die wichtigsten Informationen an den Anfang und das Ende des Prompts gestellt werden.
Vector
Eine Liste von Zahlen (z.B. 768 Dimensionen), die die Position eines Textes im semantischen Raum beschreibt.