Unbabel unterstützt die Übersetzung einer großen Anzahl von Dateiformaten. Verschiedene Formate haben unterschiedliche Strukturen, Regeln und Eigenschaften, die unterschiedliche Anforderungen schaffen, wenn es darum geht, auszuwählen, welche Inhalte übersetzt werden müssen und welche nicht. Dies geschieht über Filterkonfigurationen. Diese Konfigurationen helfen der Übersetzungs-Pipeline auch dabei, eine Datei zu liefern, die das Format der Ausgangssprache respektiert und diesem ähnelt.

Diese Konfigurationen verhalten sich je nach Dateityp, der übersetzt wird, und seiner Komplexität unterschiedlich. Während bei einfacheren Dateien wie reinen Textdateien (txt) meistens der vollständige Textinhalt extrahiert (d. h. für die Übersetzung ausgewählt), übersetzt und geliefert wird, unterliegen Formate wie docx oder xlsx komplexeren Regeln. Das Verständnis dieser Regeln garantiert, dass Sie eine Datei übersetzen können, die ordnungsgemäß formatiert ist, und dass Sie die vollständige Kontrolle über den Inhalt haben, der während der Übersetzung geändert wird. Mit den Konfigurationseigenschaften können Sie die Ausgangsdatei auch so bearbeiten, wie Sie es für zweckmäßig halten – zum Beispiel das Übersetzen bestimmter (geschützter) Inhalte verhindern.

Unten listen wir alle unterstützten Dateiformate und die Eigenschaften ihrer Standardfilterkonfigurationen auf. Wenn weitere Informationen verfügbar sind, klicken Sie auf den Dateiformatnamen, um zusätzliche Informationen anzuzeigen.

Hinweis: Wenn ein Format Platzhalter unterstützt, lassen sich diese in keiner Weise (durch Stil, Farbe oder andere Änderungen) formatieren.

Unterstützte Dateiformate

CSV ("Comma Separated Values", durch Komma getrennte Werte)

Hinweis: Weitere Informationen zum CSV-Filter finden Sie in diesem Artikel.

Der Filter extrahiert alle Tabellendaten aus allen Spalten. Generische Platzhalter sind wie eingebettetes HTML auch geschützt.

Technische Informationen:

Feld-Trennzeichen ist das Komma ‘,’
Textqualifizierer ist das doppelte Anführungszeichen “”
csv-Escaping-Modus – dupliziert den Qualifizierer
schließt Qualifizierer aus dem extrahierten Text aus
schließt führende/nachlaufende Leerzeichen aus dem extrahierten Text aus
fügt der Ausgabe bei Bedarf Qualifizierer hinzu
Extraktionsmodus - extrahiert Tabellendaten
Tabelleneigenschaften - Werte beginnen in Zeile 1 (keine Spalte mit Namen)
extrahiert Daten aus allen Spalten
die Anzahl der Spalten wird durch Werte definiert (kann in verschiedenen Zeilen variieren)
ermöglicht das Entfernen von führenden/nachlaufenden Leerzeichen und Tabulatoren
wandelt \t, \n, \\ und \uXXXX in Zeichen um
trennt Zeilen mit Zeilenumbrüchen (\n)
enthält okf_html@FP-subfilter-default
schützt generische Platzhalter

DITA (Darwin Information Typing Architecture)

Der Filter akzeptiert nur wohlgeformte XML-Dokumente (die sich an bestimmte DITA-Syntaxregeln halten). Generische Platzhalter sind geschützt.

Technische Informationen:

geht davon aus, dass das Dokument wohlgeformt ist
bewahrt den Leerraum
verwendet codeFinder zum Schutz generischer Platzhalter

DITAMAP (Darwin Information Typing Architecture Map)

Der Filter akzeptiert nur wohlgeformte Dokumente (die bestimmte Syntaxregeln einhalten).

Technische Informationen:

geht davon aus, dass das Dokument wohlgeformt ist
listet Elemente und Attribute für die Übersetzung auf

DOCM (Microsoft Word)

Der Filter extrahiert alles außer Dokumenteigenschaften, Kommentaren und grafischen Metadaten. Er akzeptiert automatisch Revisionen, wenn sie im Dokument vorhanden sind.

Technische Informationen:

extrahiert keine Dokumenteigenschaften und Kommentare
übersetzt Kopf- und Fußzeilen
schließt grafische Metadaten aus
akzeptiert automatisch Überarbeitungen und extrahiert deren Inhalte
enthält Stile und Highlights

DOCX (Microsoft Word)

Der Filter extrahiert alles außer Dokumenteigenschaften, Kommentaren und grafischen Metadaten.

extrahiert Kopf- und Fußzeilen
schließt grafische Metadaten aus
beinhaltet HTML-Subfilter

DTD (Document Type Definition XML)

Der Filter ist für die Verarbeitung von XML-DTD vorgesehen, die übersetzbare Textentitätsdeklarationen enthalten.

HTML/HTM (HyperText Markup Language)

Der Filter extrahiert alle Inhalte aus der Datei, aber Tags werden nicht übersetzt. Generische Platzhalter sind geschützt. Inhalte innerhalb eines <pre>Elements sind von der Übersetzung ausgeschlossen.</pre>

Technische Informationen:

schützt generische Platzhalter
schließt Inhalte innerhalb von <pre>Elementen aus</pre>

ICML (InCopy Markup Language)

Der Filter extrahiert alle Inhalte aus der Datei.

Technische Informationen:

extrahiert Master-Spreads
vereinfacht Inline-Codes wo möglich
verwendet codeFinder für den Tag-Schutz

IDML (InDesign Markup Language)

Der Filter extrahiert den gesamten Inhalt der Datei, mit Ausnahme von XML-Strukturen.

Technische Informationen:

hebt die Markierung von XML-Strukturen nicht auf (der Filter kann die Tags nicht zurücksetzen, sondern dies muss in einem manuellen DTP-Prozess erfolgen, was je nach Dateigröße ein Problem sein kann)
extrahiert Master-Spreads

JSON (JavaScript Object Notation)

Der Filter extrahiert alle Werte. Eingebettetes HTML und generische Platzhalter sind geschützt.

Technische Informationen:

extrahiert alle Schlüssel/Stringpaare
extrahiert Strings ohne zugehörigen Schlüssel
verwendet Schlüssel als resname
hat einen HTML-Subfilter, der sich mit eingebettetem HTML befasst und generische Platzhalter schützt

Markdown/MD (Markdown)

Der Filter extrahiert alle Inhalte aus der Datei. Eingebettetes HTML und generische Platzhalter sind geschützt, mit Ausnahme von Platzhaltern vom Typ #company und [checkout_date], da # und [...] Teil der Markdown-Syntax sind.

Technische Informationen:

übersetzt eingezäunte Code-Blöcke
übersetzt Inline-Code-Blöcke
übersetzt YAML-Metadaten-Header
übersetzt den Alt-Text von Bildern
Platzhalter sind als Inline-Codes geschützt. Bei dieser Konfiguration sind Platzhalter vom Typ #company und [checkout_date] nicht geschützt, da # und [...] Teil der Markdown-Syntax sind.
verwendet die standardmäßige eingebettete HTML-Filterkonfiguration, die auf den Markdown-Filter zugeschnitten ist (kein HTML-Unterfilter erforderlich)

MIF (Adobe FrameMaker Interchange Format)

Der Filter extrahiert Variablen, Indexmarkierungen, Textkörperseiten und Masterseiten.

Technische Informationen:

extrahiert Variablen
extrahiert Indexmarkierungen
extrahiert Textkörperseiten
extrahiert Masterseiten
Inline-Code-Schutz für Schriftarten

MQXLIFF (XML Localization Interchange File Format)

Der Filter extrahiert alle Inhalte aus der Datei. Generische Platzhalter sind geschützt.

Technische Informationen:

fügt das Attribut der Zielsprache hinzu, wenn es nicht vorhanden ist
segmentiert nur, wenn der Eingabetext segmentiert ist
enthält ITS-Markup
balanciert Codes
verwendet einen benutzerdefinierten XML-Stream-Parser
schützt generische Platzhalter

MXLIFF (XML Localization Interchange File Format)

Der Filter extrahiert alle Inhalte aus der Datei. Generische Platzhalter sind geschützt.

Technische Informationen:

fügt das Attribut der Zielsprache hinzu, wenn es nicht vorhanden ist
segmentiert nur, wenn der Eingabetext segmentiert ist
enthält ITS-Markup
balanciert Codes
verwendet einen benutzerdefinierten XML-Stream-Parser
legt fertige Segmente als translate="no" fest
schützt generische Platzhalter

ODP (OpenDocument (Ver 2) Presentation)

Der Filter extrahiert alles aus der Datei. Alle verschiedenen eingebetteten Dateien werden vom Filter als Unterdokumente behandelt. Das bedeutet zum Beispiel, dass bei der Darstellung in XLIFF ein einzelnes ODT, das in ein einzelnes XLIFF-Dokument extrahiert wird, aus drei <file>XLIFF-Elementen besteht: einem für content.xml, einem für style.xml und einem für meta.xml. Beachten Sie, dass sehr oft nur content.xml extrahierten Text enthält.</file>

Technische Informationen:

extrahiert alles

ODS (OpenDocument (Ver 2) Spreadsheet)

Technische Informationen:

extrahiert alles

ODT (OpenDocument (Ver 2) Text Document)

Technische Informationen:

extrahiert alles

OTS (OpenDocument (Ver 2) Spreadsheet)

Technische Informationen:

extrahiert alles

PO (Portable Object)

Der Filter behandelt die Datei als zweisprachig – er extrahiert den Inhalt von „msgid“ und setzt die Übersetzung in „msgstr“. Generische Platzhalter sind geschützt.

Technische Informationen:

extrahiert keine Dokumenteigenschaften und Kommentare
extrahiert Master
ignoriert Platzhaltertext in Masters

PDF (Portable Document Format)

Es gibt vier Standard-Filterkonfigurationen zur Bearbeitung von PDF-Dateien, die je nach Format der erstellten Zieldatei variieren. Es ist möglich, in PDF, TXT, DOCX oder PPTX zu übersetzen. Weitere Informationen dazu finden Sie unten. Detailliertere Informationen zur direkten Übersetzung von PDFs finden Sie in diesem Artikel.

Technische Informationen:

PDF zu PDF

Extrahiert und übersetzt alle Hauptinhalte, einschließlich Tabellen, Kopf- und Fußzeilen sowie Textformatierungen (fett, kursiv, unterstrichen)
Ausgeschlossen sind Dokumenteigenschaften, Kommentare und grafische Metadaten.
Layout, Bilder, Stile (z. B. fett, kursiv) und interaktive Elemente bleiben nicht erhalten.
Wenn die Originaldatei Überarbeitungen enthält, werden diese automatisch übernommen und in die Ausgabe einbezogen.
Das Layout kann sich aufgrund der Textexpansion verschieben.
Schriftarten werden durch Standardwerte ersetzt.
Hyperlinks und andere interaktive Elemente werden möglicherweise nicht beibehalten.

PDF zu TXT

Der gesamte Text wird extrahiert, einschließlich Kopf- und Fußzeilen.
Entfernt alle Formatierungstags.
Layout, Bilder, Stile (z. B. fett, kursiv) und interaktive Elemente bleiben nicht erhalten.
Kann aufgrund mehrerer Ebenen die Textreihenfolge bei komplexeren Dokumenten möglicherweise nicht beibehalten.
Nur reiner Text wird extrahiert – visuelle Struktur und Design gehen verloren.

PDF zu DOCX

Die Stile wie fett, kursiv und unterstrichen werden beibehalten.
Überarbeitungen werden automatisch übernommen.
Kopf- und Fußzeilen werden übersetzt.
Die resultierende DOCX-Datei ist bearbeitbar.
Das Layout kann sich aufgrund der Textexpansion verschieben.
Schriftarten werden durch Standardwerte ersetzt.
Hyperlinks und andere interaktive Elemente werden möglicherweise nicht beibehalten.

PDF zu PPTX

Alle Inhalte werden extrahiert und konvertiert.
Das Layout und die visuelle Struktur bleiben im Allgemeinen gut erhalten.
Die resultierende PPTX-Datei ist bearbeitbar.
Schriftarten werden oft durch Standardeinstellungen ersetzt.
Textstile wie fett, kursiv und Farben können in komplexen Dokumenten möglicherweise nicht beibehalten werden.
Bei der Textexpansion kann es zu Layoutverschiebungen oder überlappenden Inhalten kommen.

POTM (Microsoft PowerPoint)