MAIA Tabellenreferenz

Technische Erklärung zur Funktionsweise von MAIA mit Tabellen in hochgeladenen Dokumenten/verbundenen Integrationen.

Zuletzt aktualisiert Vor 5 Monaten

Übersicht

MAIA verarbeitet Tabellen je nach Ihren Dokumentanalyseeinstellungen und dem Dateiformat unterschiedlich. In dieser Referenz wird erläutert, wie die Erkennung, Speicherung und das Abrufen von Tabellen funktionieren.

Unterstützte Dateiformate

Wir unterstützen Tabellen in allen verfügbaren Formaten, insbesondere:

  • PDF-Dateien: Vollständige Tabellenerkennung, einschließlich gescannter/bildbasierter Tabellen

  • DOCX-, PPTX-Dateien: Native Erkennung der Tabellenstruktur

  • TXT-Dateien: Markdown-Tabellenformat wird unterstützt

  • CSV-Dateien: Auf Anfrage verfügbar (wenden Sie sich an Ihren Kundenbetreuer)

Analysemodi

Premium-Modus (Erweiterte Analyse)

  • Tabellenerkennung: Verwendet Dokument-KI, die das Seitenlayout „sieht“

  • Funktionen: Erkennt Tabellen in gescannten PDFs, behält die Zeilen-/Spaltenstruktur bei, erfasst die Position auf der Seite

  • Speicherung: Jede Tabelle wird als strukturiertes Element mit Markdown-Formatierung gespeichert

Standardmodus

  • Tabellenerkennung: Nur Textverarbeitung

  • Einschränkungen: Tabellen werden nicht als strukturierte Daten erkannt, gescannte Tabellen werden vollständig übersehen

Wie Tabellen verarbeitet werden

Erkennung und Speicherung

  1. Jede erkannte Tabelle wird zu einem einzelnen Tabellenelement mit Metadaten (Anzahl der Zeilen/Spalten, Seitenposition). Wir wissen, wie eine „ganze Tabelle aussieht“.

  2. Der Inhalt wird als Markdown-Tabellenzeichenfolge für die Darstellung und Suche gespeichert. Alles wird in eine txt-Datei umgewandelt (mehrdimensionale Tabellen sind nicht möglich).

  3. Einzelne Zellen werden separat gespeichert, aber die Suche verwendet Markdown-Text.

  4. Text innerhalb von Tabellen wird nicht als normale Absätze dupliziert.

  5. Tabellenbeschriftungen (z. B. „Tabelle 4.1”) werden separat vom Tabelleninhalt gespeichert. Dasselbe gilt für andere Objekte, Texte und Absätze, die die Tabelle umgeben.

Einbettungsverhalten

  • Tabellen werden für die Suchskalierung in token-große Teile aufgeteilt. Das bedeutet, dass wir einen kleineren Teil davon abrufen können, wenn dies sinnvoll ist.

  • Alle Teile verweisen auf dasselbe Quelltabellenelement.

  • Mehrseitige Tabellen können als separate Tabellen pro Seitensegment angezeigt werden.