Zum Inhalt

Datenextraktion

KARLI-gehostete Datenextraktions-Modelle verwandeln hochgeladene Dateien in strukturierten Text, den nachgelagerte Komponenten konsumieren können. Ausgewählt werden sie in der Read File-Komponente, wenn deren Extraction Backend auf karli steht.

KARLI ist derzeit der einzige Anbieter in dieser Modellkategorie.

Verfügbare Modelle

Modell Akzeptiert Hinweise
karli/default-data-extraction Beliebig KARLI-verwalteter Standard; wählt einen geeigneten Extraktor aus.
docling-project/docling Dokumente Docling, serverseitig bei KARLI ausgeführt.
datalab-to/marker Dokumente Marker.
opendatalab/MinerU Dokumente MinerU.
karli/multimodal-data-extraction Dokumente Multimodale Hybrid-Pipeline.
openai/whisper-large-v3 Audio Audio-Transkription via Whisper.

Die Read-File-Komponente prüft die hochgeladene Datei vor dem Upload gegen den akzeptierten Typ des gewählten Modells — ein PDF an das Whisper-Modell zu schicken, liefert z. B. einen Fehler statt eines Uploads.

Request-Aufbau

Beim Versand einer Datei sendet die Komponente einen Multipart-POST an {KARLI_BASE_URL}/data-extraction/extract:

  • Das Formularfeld extractorModel trägt das gewählte Modell (gemappt auf seinen KARLI-Identifier).
  • Der File-Part trägt das Dokument bzw. die Audiodatei.
  • Authorization: Bearer <JWT> verwendet das vom KARLI-Proxy eingefügte Session-JWT.

Die Antwort ist ein JSON-Objekt, dessen segments zu einer einzigen Text-Payload zusammengefügt werden; Segmente mit title erscheinen als ## <title>-Markdown-Überschriften.

Unter Dokumentextraktion steht, wie die Read-File-Komponente diese Modelle praktisch einsetzt — inklusive der Data-Struktur am Ausgang.