Datenextraktion¶
KARLI-gehostete Datenextraktions-Modelle verwandeln hochgeladene Dateien in strukturierten Text, den nachgelagerte Komponenten konsumieren können. Ausgewählt werden sie in der Read File-Komponente, wenn deren Extraction Backend auf karli steht.
KARLI ist derzeit der einzige Anbieter in dieser Modellkategorie.
Verfügbare Modelle¶
| Modell | Akzeptiert | Hinweise |
|---|---|---|
karli/default-data-extraction |
Beliebig | KARLI-verwalteter Standard; wählt einen geeigneten Extraktor aus. |
docling-project/docling |
Dokumente | Docling, serverseitig bei KARLI ausgeführt. |
datalab-to/marker |
Dokumente | Marker. |
opendatalab/MinerU |
Dokumente | MinerU. |
karli/multimodal-data-extraction |
Dokumente | Multimodale Hybrid-Pipeline. |
openai/whisper-large-v3 |
Audio | Audio-Transkription via Whisper. |
Die Read-File-Komponente prüft die hochgeladene Datei vor dem Upload gegen den akzeptierten Typ des gewählten Modells — ein PDF an das Whisper-Modell zu schicken, liefert z. B. einen Fehler statt eines Uploads.
Request-Aufbau¶
Beim Versand einer Datei sendet die Komponente einen Multipart-POST an {KARLI_BASE_URL}/data-extraction/extract:
- Das Formularfeld
extractorModelträgt das gewählte Modell (gemappt auf seinen KARLI-Identifier). - Der File-Part trägt das Dokument bzw. die Audiodatei.
Authorization: Bearer <JWT>verwendet das vom KARLI-Proxy eingefügte Session-JWT.
Die Antwort ist ein JSON-Objekt, dessen segments zu einer einzigen Text-Payload zusammengefügt werden; Segmente mit title erscheinen als ## <title>-Markdown-Überschriften.
Unter Dokumentextraktion steht, wie die Read-File-Komponente diese Modelle praktisch einsetzt — inklusive der Data-Struktur am Ausgang.