Skip to main content

xSuite Interface Windows Prism 5.x – Online-Hilfe

Eingabeformat "Pdf"

Dieses Eingabeformat ermöglicht die Auftrennung einer mehrseitigen PDF-Datei in mehrere Einzeldateien. Die Auftrennung erfolgt anhand bestimmter Merkmale des seitenweise ausgewerteten Textinhalts der PDF-Datei. Bei der Auftrennung werden nur native Inhalte der PDF-Datei berücksichtigt. Texte aus eingebundenen Bilddaten, für die eine OCR-Verarbeitung erforderlich ist, werden nicht berücksichtigt.

Eigenschaft

Beschreibung

InputFormat[].SplitMode

Definition des Trennmodus

Der Trennmodus legt fest, wie die Seiten zu identifizieren sind, bei denen eine Auftrennung in eine neue Teildatei erfolgt. Beim Trennen wird das Ursprungsdokument verworfen und stattdessen für jede Teildatei eine Kopie von diesem generiert. Dieser Kopie wird die Teildatei als weitere Anlage hinzugefügt.

Das Dokument und die Anlage erhalten den Namenszusatz .splitN, wobei N eine laufende Nummer darstellt.

Folgende Modi sind verfügbar:

  • None: keine Trennung (Standardwert)

  • FixedPageNo: Trennung in Dateien fester Seitenzahl

  • StartKey: Start einer neuen Datei bei jeder Seite, die einen Schlüsselbegriff enthält

  • EndKey: Start einer neuen Datei hinter jeder Seite, die einen Schlüsselbegriff enthält, d.h. der Begriff befindet sich auf der jeweils letzten Seite

  • RepeatKey: Zusammenfassung aller aufeinanderfolgender Seiten, die einen identischen Schlüsselbegriff enthalten, zu jeweils einer Datei

Für den Modus FixedPageNo ist die gewünschte Seitenanzahl in der Eigenschaft .SplitValue[] als Textwert anzugeben. Für die Modi StartKey und EndKey sind in der Eigenschaft .SplitValue[] ein oder mehrere alternative Schlüsselbegriffe zu definieren, die auf einer Seite enthalten sein müssen, um die Trennbedingung zu erfüllen.

Im Modus RepeatKey hat die Eigenschaft .SplitValue[] keine Relevanz, weil nicht nach festen Begriffen gesucht wird. Stattdessen wird dynamisch ein Begriff extrahiert, der an einer bestimmten Position steht, und mit dem gleichen Begriff auf der vorigen Seite verglichen. Wenn sich der Begriff verändert hat, beginnt eine neue Datei. Ein Begriff, der auf einer Seite nicht gefunden wird, wird dabei nicht als gültiges Trennkriterium betrachtet.

Zur Definition des zu extrahierenden Wertes im Modus RepeatKey wird die Eigenschaft .SplitFieldDef genutzt. Optional kann diese Eigenschaft auch für StartKey und EndKey verwendet werden, um die Suche nach dem .SplitValue[] auf eine bestimmte Seitenposition oder einen Seitenbereich einzugrenzen, anstatt standardmäßig über die gesamte Seite zu suchen.

InputFormat[].SplitFieldDef(*)

Definition des Extraktionsbereiches im Modus RepeatKey und optional in den Modi StartKey und EndKey

Hier muss die gleiche Syntax verwendet werden wie für den PDF-Indexdatenleser (siehe Indexdatenleser "Pdf"). Ein Seitenbereich muss nicht angegeben werden, weil die Auswertung im vorliegenden Kontext implizit für jede Seite durchgeführt wird.

InputFormat[].SplitValue[](*)

Definition eine oder mehrerer Suchbegriffe im Modus StartKey und EndKey sowie Definition der numerischen Seitenanzahl im Modus FixedPageNo

Achtung: Die Seitenzahl für den Modus FixedPageNo muss hier als Textwert in Anführungszeichen angegeben werden. Wenn die Seitenzahl nicht als Textwert angegeben wird, ist die Definition nicht gültig.

Die Suchbegriffe können Wildcard-Ausdrücke (mit Platzhaltern *, ? und #) oder reguläre Ausdrücke (in /-Zeichen eingebettet) sein. Die Suche nach einem solchen Ausdruck findet über den gesamten zusammengesetzten Seiteninhalt statt, d.h. nicht pro Textfragment, aus denen sich eine PDF-Seite aufbaut. Dadurch kann mit einem Ausdruck über mehrere Fragmente zugleich gesucht werden. Somit kann jedoch z. B. nicht nach dem Wert Rechnung eines Einzelfragments gesucht werden, sondern nur nach *Rechnung*, weil dieser Begriff im Kontext der Gesamtseite in vorangehenden und nachfolgenden Text eingebettet ist.

InputFormat[].Tolerance

Toleranzbereich in Millimetern

Der Toleranzbereich legt fest, wie weit die Koordinaten eines Textfragments von einem gegebenen Wert abweichen dürfen, um dennoch mit diesem Wert als übereinstimmend betrachtet zu werden.

Standardwert: 1