Wissensdatenbank

Glossar

Begriffe und Abkürzungen rund um AdriRAG einfach erklärt.

Sicherheit

ACL

Access Control List. Eine Liste von Berechtigungen, die festlegt, welcher Benutzer auf welche Dokumente zugreifen darf.

Datenverarbeitung

Chunk

Ein kleiner Textabschnitt aus einem größeren Dokument, der einzeln indexiert und für die Suche verwendet wird.

Sicherheit

Citation Validation

Die Prüfung, ob die vom LLM angegebenen Quellenverweise tatsächlich mit den bereitgestellten Dokumenten übereinstimmen.

KI-Technik

Cosinus-Ähnlichkeit

Ein mathematisches Maß für die Ähnlichkeit zwischen zwei Vektoren, basierend auf dem Winkel zwischen ihnen.

Datenverarbeitung

Crawler

Ein Programm, das Webseiten oder andere Quellen (z.B. Confluence) automatisch durchsucht und Inhalte importiert.

KI-Technik

Embedding

Die mathematische Umwandlung von Text in einen Vektor (Zahlenliste), der die semantische Bedeutung repräsentiert.

Sicherheit

Guardrail

Sicherheitsmechanismen, die die Eingabe oder Ausgabe des Systems überwachen und ggf. blockieren oder anpassen.

KI-Technik

Halluzination

Ein Phänomen, bei dem ein LLM Informationen generiert, die plausibel klingen, aber faktisch falsch oder nicht im Kontext enthalten sind.

KI-Technik

HNSW

Hierarchical Navigable Small World. Ein effizienter Index-Algorithmus für die schnelle Vektorsuche.

Architektur

Hybrid Search

Kombination aus Vektorsuche (semantisch) und klassischer Stichwortsuche (lexikalisch) für bessere Ergebnisse.

Datenverarbeitung

Ingestion

Der Prozess des Einlesens, Verarbeitens und Speicherns von Dokumenten in das System.

KI-Technik

LLM

Large Language Model. Ein großes Sprachmodell (wie Google Gemini), das Text versteht und generiert.

Architektur

MCP

Model Context Protocol. Ein Protokoll, das es dem LLM ermöglicht, sicher auf externe Tools und Datenquellen zuzugreifen.

Architektur

MMR

Maximal Marginal Relevance. Ein Algorithmus zur Steigerung der Diversität in den Suchergebnissen, um Redundanz zu vermeiden.

Sicherheit

OIDC

OpenID Connect. Ein Standard für die Authentifizierung von Benutzern (Single Sign-On).

Datenbank

pgvector

Eine Erweiterung für die PostgreSQL-Datenbank, die das effiziente Speichern und Durchsuchen von Vektoren ermöglicht.

Sicherheit

PII

Personally Identifiable Information. Personenbezogene Daten wie Namen, E-Mail-Adressen oder Telefonnummern, die in AdriRAG zum Datenschutz automatisch maskiert werden.

Sicherheit

Prompt Injection

Ein Angriffsversuch, bei dem versucht wird, das Verhalten des LLM durch spezielle Anweisungen in der Nutzeranfrage zu manipulieren.

Architektur

RAG

Retrieval-Augmented Generation. Eine Technik, bei der ein Sprachmodell (LLM) mit Informationen aus externen Quellen (z.B. Dokumenten) angereichert wird, um präzisere Antworten zu geben.

Architektur

Reranking

Ein Prozess nach der ersten Suche, bei dem die Ergebnisse anhand zusätzlicher Signale (Qualität, Aktualität) neu sortiert werden.

KI-Technik

Semantic Search

Suche basierend auf der Bedeutung von Wörtern und Sätzen, anstatt nur auf exakten Stichworten.

Sicherheit

SSRF

Server-Side Request Forgery. Eine Sicherheitslücke, die AdriRAG durch DNS-Validierung beim Crawling verhindert.

KI-Technik

Token

Die kleinste Einheit von Text, die ein LLM verarbeitet (ca. 4 Zeichen oder 0.75 Wörter).

Monitoring

Trace

Eine detaillierte Aufzeichnung aller Schritte und Daten einer einzelnen RAG-Pipeline-Ausführung.

Architektur

U-Shape Prompt Assembly

Eine Technik zur Anordnung von Kontext-Chunks, bei der die wichtigsten Informationen an den Anfang und das Ende des Prompts gestellt werden.

KI-Technik

Vector

Eine Liste von Zahlen (z.B. 768 Dimensionen), die die Position eines Textes im semantischen Raum beschreibt.