Dokumentextraktion¶

Die Read-File-Komponente kann die Dateiverarbeitung an den KARLI-Dokumentextraktions-Dienst delegieren und so strukturierte Extraktion aus Dokumenten und Audio mittels spezialisierter Modelle ermöglichen.

Extraktions-Backend¶

Das Dropdown Extraction Backend der Komponente legt fest, wie Dateien verarbeitet werden:

Backend	Verhalten
`docling` (Standard)	Dateien werden lokal über die Upstream-Langflow-/Docling-Pipeline verarbeitet.
`karli`	Dateien werden an den KARLI-Extraktionsdienst gesendet, der strukturierte Inhalte zurückgibt.

Modellauswahl¶

Steht Extraction Backend auf karli, erscheint zusätzlich das Feld Model. Das Dropdown wird dynamisch vom KARLI-Provider befüllt — KARLI ist derzeit der einzige Anbieter von Datenextraktions-Modellen.

Unter Modelle → Datenextraktion findet sich die vollständige Modellliste samt akzeptierter Dateitypen. Die Komponente prüft die hochgeladene Datei vor dem Upload gegen den akzeptierten Typ des gewählten Modells (ein PDF an das Whisper-Modell zu schicken, liefert z. B. einen Fehler statt eines Uploads).

Authentifizierung¶

Ist das karli-Backend gewählt, authentifizieren sich Extraktions-Requests mit folgender Priorität:

JWT (bei aktiver Karli-Studio-Session) — gesendet als Authorization: Bearer <token>.
KARLI_API_KEY (aus Komponentenattribut, Provider-Variablen oder der Umgebungsvariable KARLI_API_KEY) — gesendet als X-API-Key: <key>.
Fehler — sind weder JWT noch Key verfügbar, wird ein ValueError ausgelöst mit dem Hinweis, KARLI_API_KEY zu konfigurieren oder über Karli Studio zuzugreifen.

Info

KARLI_API_KEY ist nur relevant beim direkten Zugriff auf die Agentlab-API ohne Karli-Studio-Session. Studio-Nutzer müssen dieses Feld nicht konfigurieren. Siehe die Model-Provider-Übersicht für Details zu den Zugangsdaten.

Ablauf¶

Ist die Extraktion aktiviert, sendet die Komponente einen Multipart-POST an {KARLI_BASE_URL}/data-extraction/extract. Das Formularfeld extractorModel trägt das gewählte Modell (gemappt auf seinen KARLI-Identifier), der File-Part enthält das Dokument. Der Dienst liefert eine JSON-Antwort, deren segments zu einem Text zusammengefügt werden — Segmente mit title erscheinen als ## <title>-Markdown-Überschriften.

flowchart LR
    Upload["Datei-Upload"] --> RF["Read File"]
    RF --> KES["KARLI-Extraktionsdienst"]
    KES --> Out["Strukturierte Ausgabe"]

Der Output nach unten ist ein Data mit:

Feld	Beschreibung
`file_path`	Ursprünglicher lokaler Pfad der hochgeladenen Datei.
`exported_content`	Der zusammengesetzte Text (mit `## <title>`-Überschriften pro Segment).
`export_format`	Für dieses Backend stets `KARLI`.
`task_id`	Die Task-ID des KARLI-Extraktionsauftrags — nützlich für Tracing.
`model`	Der Identifier des verwendeten Modells.

Zusammenfassung der Einstellungen¶

Einstellung	Beschreibung
Extraction Backend	`docling` (lokal) oder `karli` (KARLI-Dienst).
Model	Nur sichtbar, wenn das `karli`-Backend aktiv ist.