Unbabel unterstützt die Übersetzung einer großen Anzahl von Dateiformaten. Verschiedene Formate haben unterschiedliche Strukturen, Regeln und Eigenschaften, die unterschiedliche Anforderungen schaffen, wenn es darum geht, auszuwählen, welche Inhalte übersetzt werden müssen und welche nicht. Dies geschieht über Filterkonfigurationen. Diese Konfigurationen helfen der Übersetzungs-Pipeline auch dabei, eine Datei zu liefern, die das Format der Ausgangssprache respektiert und diesem ähnelt.
Diese Konfigurationen verhalten sich je nach Dateityp, der übersetzt wird, und seiner Komplexität unterschiedlich. Während bei einfacheren Dateien wie reinen Textdateien (txt) meistens der vollständige Textinhalt extrahiert (d. h. für die Übersetzung ausgewählt), übersetzt und geliefert wird, unterliegen Formate wie docx oder xlsx komplexeren Regeln. Das Verständnis dieser Regeln garantiert, dass Sie eine Datei übersetzen können, die ordnungsgemäß formatiert ist, und dass Sie die vollständige Kontrolle über den Inhalt haben, der während der Übersetzung geändert wird. Mit den Konfigurationseigenschaften können Sie die Ausgangsdatei auch so bearbeiten, wie Sie es für zweckmäßig halten – zum Beispiel das Übersetzen bestimmter (geschützter) Inhalte verhindern.
Unten listen wir alle unterstützten Dateiformate und die Eigenschaften ihrer Standardfilterkonfigurationen auf. Wenn weitere Informationen verfügbar sind, klicken Sie auf den Dateiformatnamen, um zusätzliche Informationen anzuzeigen.
Unterstützte Dateiformate
Technische Informationen:
- Feld-Trennzeichen ist das Komma ‘,’
- Textqualifizierer ist das doppelte Anführungszeichen “”
- csv-Escaping-Modus – dupliziert den Qualifizierer
- schließt Qualifizierer aus dem extrahierten Text aus
- schließt führende/nachlaufende Leerzeichen aus dem extrahierten Text aus
- fügt der Ausgabe bei Bedarf Qualifizierer hinzu
- Extraktionsmodus - extrahiert Tabellendaten
- Tabelleneigenschaften - Werte beginnen in Zeile 1 (keine Spalte mit Namen)
- extrahiert Daten aus allen Spalten
- die Anzahl der Spalten wird durch Werte definiert (kann in verschiedenen Zeilen variieren)
- ermöglicht das Entfernen von führenden/nachlaufenden Leerzeichen und Tabulatoren
- wandelt \t, \n, \\ und \uXXXX in Zeichen um
- trennt Zeilen mit Zeilenumbrüchen (\n)
- enthält okf_html@FP-subfilter-default
- schützt generische Platzhalter
- geht davon aus, dass das Dokument wohlgeformt ist
- bewahrt den Leerraum
- verwendet codeFinder zum Schutz generischer Platzhalter
- geht davon aus, dass das Dokument wohlgeformt ist
- listet Elemente und Attribute für die Übersetzung auf
- extrahiert keine Dokumenteigenschaften und Kommentare
- übersetzt Kopf- und Fußzeilen
- schließt grafische Metadaten aus
- akzeptiert automatisch Überarbeitungen und extrahiert deren Inhalte
- enthält Stile und Highlights
- extrahiert Kopf- und Fußzeilen
- schließt grafische Metadaten aus
- beinhaltet HTML-Subfilter
- schützt generische Platzhalter
- schließt Inhalte innerhalb von <pre>Elementen aus</pre>
- extrahiert Master-Spreads
- vereinfacht Inline-Codes wo möglich
- verwendet codeFinder für den Tag-Schutz
- hebt die Markierung von XML-Strukturen nicht auf (der Filter kann die Tags nicht zurücksetzen, sondern dies muss in einem manuellen DTP-Prozess erfolgen, was je nach Dateigröße ein Problem sein kann)
- extrahiert Master-Spreads
- extrahiert alle Schlüssel/Stringpaare
- extrahiert Strings ohne zugehörigen Schlüssel
- verwendet Schlüssel als resname
- hat einen HTML-Subfilter, der sich mit eingebettetem HTML befasst und generische Platzhalter schützt
- übersetzt eingezäunte Code-Blöcke
- übersetzt Inline-Code-Blöcke
- übersetzt YAML-Metadaten-Header
- übersetzt den Alt-Text von Bildern
- Platzhalter sind als Inline-Codes geschützt. Bei dieser Konfiguration sind Platzhalter vom Typ #company und [checkout_date] nicht geschützt, da # und [...] Teil der Markdown-Syntax sind.
- verwendet die standardmäßige eingebettete HTML-Filterkonfiguration, die auf den Markdown-Filter zugeschnitten ist (kein HTML-Unterfilter erforderlich)
- extrahiert Variablen
- extrahiert Indexmarkierungen
- extrahiert Textkörperseiten
- extrahiert Masterseiten
- Inline-Code-Schutz für Schriftarten
- fügt das Attribut der Zielsprache hinzu, wenn es nicht vorhanden ist
- segmentiert nur, wenn der Eingabetext segmentiert ist
- enthält ITS-Markup
- balanciert Codes
- verwendet einen benutzerdefinierten XML-Stream-Parser
- schützt generische Platzhalter
- fügt das Attribut der Zielsprache hinzu, wenn es nicht vorhanden ist
- segmentiert nur, wenn der Eingabetext segmentiert ist
- enthält ITS-Markup
- balanciert Codes
- verwendet einen benutzerdefinierten XML-Stream-Parser
- legt fertige Segmente als translate="no" fest
- schützt generische Platzhalter
- extrahiert alles
- extrahiert alles
- extrahiert alles
- extrahiert alles
- extrahiert keine Dokumenteigenschaften und Kommentare
- extrahiert Master
- ignoriert Platzhaltertext in Masters
- Extrahiert und übersetzt alle Hauptinhalte, einschließlich Tabellen, Kopf- und Fußzeilen sowie Textformatierungen (fett, kursiv, unterstrichen)
- Ausgeschlossen sind Dokumenteigenschaften, Kommentare und grafische Metadaten.
- Layout, Bilder, Stile (z. B. fett, kursiv) und interaktive Elemente bleiben nicht erhalten.
- Wenn die Originaldatei Überarbeitungen enthält, werden diese automatisch übernommen und in die Ausgabe einbezogen.
- Das Layout kann sich aufgrund der Textexpansion verschieben.
- Schriftarten werden durch Standardwerte ersetzt.
- Hyperlinks und andere interaktive Elemente werden möglicherweise nicht beibehalten.
- Der gesamte Text wird extrahiert, einschließlich Kopf- und Fußzeilen.
- Entfernt alle Formatierungstags.
- Layout, Bilder, Stile (z. B. fett, kursiv) und interaktive Elemente bleiben nicht erhalten.
- Kann aufgrund mehrerer Ebenen die Textreihenfolge bei komplexeren Dokumenten möglicherweise nicht beibehalten.
- Nur reiner Text wird extrahiert – visuelle Struktur und Design gehen verloren.
- Die Stile wie fett, kursiv und unterstrichen werden beibehalten.
- Überarbeitungen werden automatisch übernommen.
- Kopf- und Fußzeilen werden übersetzt.
- Die resultierende DOCX-Datei ist bearbeitbar.
- Das Layout kann sich aufgrund der Textexpansion verschieben.
- Schriftarten werden durch Standardwerte ersetzt.
- Hyperlinks und andere interaktive Elemente werden möglicherweise nicht beibehalten.
- Alle Inhalte werden extrahiert und konvertiert.
- Das Layout und die visuelle Struktur bleiben im Allgemeinen gut erhalten.
- Die resultierende PPTX-Datei ist bearbeitbar.
- Schriftarten werden oft durch Standardeinstellungen ersetzt.
- Textstile wie fett, kursiv und Farben können in komplexen Dokumenten möglicherweise nicht beibehalten werden.
- Bei der Textexpansion kann es zu Layoutverschiebungen oder überlappenden Inhalten kommen.
- extrahiert keine Dokumenteigenschaften und Kommentare
- extrahiert Master
- ignoriert Platzhaltertext in Mastern
- extrahiert keine Dokumenteigenschaften und Kommentare
- extrahiert Master
- ignoriert Platzhaltertext in Mastern
- extrahiert keine Dokumenteigenschaften und Kommentare
- extrahiert Master
- ignoriert Platzhaltertext in Mastern
- extrahiert keine Dokumenteigenschaften und Kommentare
- extrahiert Master
- ignoriert Platzhaltertext in Mastern
- extrahiert keine Dokumenteigenschaften und Kommentare
- extrahiert Master
- ignoriert Platzhaltertext in Mastern
- extrahiert keine Dokumenteigenschaften und Kommentare
- extrahiert Master
- ignoriert Platzhaltertext in Mastern
- verwendet Lokalisierungsanweisungen, wenn sie vorhanden sind
- extrahiert Elemente außerhalb des Geltungsbereichs von Lokalisierungsanweisungen.
- extrahiert Kommentare zu Notiz-Eigenschaften
- wandelt \n und \t in Zeilenumbruch und Tabulator um
- CodeFinder kümmert sich um die Platzhalter (ein HTML-Subfilter behandelt das eingebettete HTML)
- kein Escape erweiterter Zeichen (\uHHH-Notation)
- extrahiert standardmäßig //data[not(@type) und not(starts-with(@name, '>'))]/value und //data[@name='$this.Text']/value
- extrahiert als Notizen //data[not(@type) und not(beginnt-mit(@name, '>') oder starts-with(@name, '$'))]/value
- ein HTML-Subfilter befasst sich mit Platzhaltern und eingebettetem HTML
Technische Informationen:
- verwendet einen SDLXLIFF-Schreiber
- fügt das Attribut target-language hinzu, wenn es nicht vorhanden ist
- behält standardmäßig Leerzeichen bei
- überspringt Seg-Quellen ohne markierte Segmente
- segmentiert nur, wenn die eingegebene Texteinheit segmentiert ist
- enthält ITS-Markup
- balanciert Codes
- verwendet einen benutzerdefinierten XML-Stream-Parser
- legt fertige Segmente als translate="no" fest
- schützt generische Platzhalter
- ein Regex-Filter verarbeitet die .srt-Datei, während der HTML-Subfilter sich mit eingebettetem HTML befasst und generische Platzhalter schützt
- die Zeitcodes werden nicht als Notizen hinzugefügt, da wir bei der Verwendung von Regex-Filter + HTML-Subfilter eine Einschränkung festgestellt haben
- enthält keine Notizen (eine Einschränkung, die wir bei der Verwendung von Regex-Filter + HTML-Subfilter festgestellt haben)
- extrahiert den Inhalt der Ausgangssprachgruppe
- bewahrt Leerzeichen
- Optionen für reguläre Ausdrücke: Punkt entspricht auch einem Zeilenumbruch + Mehrzeiler
- verwendet Lokalisierungsanweisungen, wenn sie vorhanden sind.
- extrahiert Elemente außerhalb des Geltungsbereichs von Lokalisierungsanweisungen.
- Escapezeichen verwenden Backslash
- MIME-Typ für das Dokument: text/plain
- schützt generische Platzhalter und eingebettetes HTML
- extrahiert für die Übersetzung /plist/dict/dict/string and /plist/dict/dict/dict/string
- extrahiert keine Strings mit den Schlüsseln NSStringFormatSpecTypeKey und NSStringFormatValueTypeKey
- schützt generische Platzhalter
- fasst alle Dokumententeile in einem Skelett zusammen
- überspringt ungültige TUs
- erstellt das Segment, wenn segtype 'sentence' ist oder nicht definiert ist
- String zur Abgrenzung von Eigenschaftswerten bei doppelten Eigenschaften: ','
- extrahiert Text nach Zeilen
- wandelt \t, \n, \\ und \uXXXX in Zeichen um
- trennt Zeilen mit Zeilenumbrüchen (\n)
- schützt generische Platzhalter
- verwendet den Standardfilter okp_openxml
- enthält HTML-Unterfilter
- bietet keine speziellen Optionen für Visio
- fügt das Attribut der Zielsprache hinzu, wenn es nicht vorhanden ist
- segmentiert nur, wenn der Eingabetext segmentiert ist
- enthält ITS-Markup
- balanciert Codes
- verwendet einen benutzerdefinierten XML-Stream-Parser
- legt fertige Segmente als translate="no" fest
- schützt generische Platzhalter
- extrahiert keine Dokumenteigenschaften und Kommentare
- extrahiert keine ausgeblendeten Zeilen oder Spalten
- extrahiert keine Tabellennamen
- extrahiert keine Diagrammdaten
- extrahiert keine Zeichnungen
- Der HTML-Subfilter befasst sich mit eingebettetem HTML und schützt generische Platzhalter.
- extrahiert weder ausgeblendete Zeilen noch Spalten
- extrahiert keine Tabellennamen
- extrahiert keine Diagrammdaten
- extrahiert keine Zeichnungen
- eingebettetes HTML und generische Platzhalter sind geschützt
- extrahiert weder ausgeblendete Zeilen noch Spalten
- extrahiert keine Tabellennamen
- extrahiert keine Diagrammdaten
- extrahiert keine Zeichnungen
- beinhaltet HTML-Subfilter
- akzeptiert nur gültiges, formatgetreues XML
-
schützt HTML nur in CDATA
-
schützt keine Platzhalter
- bewahrt Leerzeichen
- extrahiert isolierte Strings
- extrahiert alle Paare
- verwendet Schlüssel als Name
- verwendet den vollständigen Schlüsselpfad
- verwendet codeFinder nicht
- Der HTML-Subfilter befasst sich mit Platzhaltern und eingebettetem HTML.
- extrahiert den Inhalt der Ausgangssprache mittels Regex
- bewahrt Leerzeichen
- Regex-Optionen: Punkt entspricht auch einem Zeilenumbruch + Mehrzeiler
- verwendet Lokalisierungsanweisungen, wenn sie vorhanden sind.
- extrahiert Elemente außerhalb des Geltungsbereichs von Lokalisierungsanweisungen.
- Anfang/Ende des Strings: ""
- Escapezeichen verwenden Backslash-Prefix
- MIME-Typ: text/plain
- Der HTML-Subfilter befasst sich mit Platzhaltern und eingebettetem HTML.
- Feldbegrenzer - Tabulator '\t'
- Extraktionsmodus - extrahiert Tabellendaten
- Tabelleneigenschaften - Werte beginnen in Zeile 1 (keine Spalte mit Namen)
- extrahiert Daten aus allen Spalten
- die Anzahl der Spalten wird durch Werte definiert (kann in verschiedenen Zeilen variieren)
- ermöglicht das Entfernen von führenden/nachlaufenden Leerzeichen und Tabulatoren
- wandelt \t, \n, \\ und \uXXXX in Zeichen um
- trennt Zeilen mit Zeilenumbrüchen (\n)
- schützt generische Platzhalter
Was sind generische Platzhalter?
Generische Platzhalter sind Zeichenkombinationen, die sicherstellen, dass der Text in Ihrem Dokument nicht für die Übersetzung ausgewählt, sondern so wie in der Ausgangssprache geliefert wird und in der Übersetzung an der richtigen und syntaktisch korrekten Stelle steht. Wenn ein Filter diese Platzhalter verarbeiten kann, werden wir dies in der obigen Beschreibung erwähnen. Wenn es Ausnahmen gibt, werden diese in den technischen Informationen angegeben.
Die Liste der Platzhalter, die mit der Standardfilterkonfiguration verwendet werden sollen, lautet:
| Platzhaltermuster | Beispiel |
| {placeholder} |
Hallo {first_name}, vielen Dank für Ihre Kontaktaufnahme. |
| ${placeholder} | Dies wird an ${package_destination} gesendet. |
| $((placeholder)) | Ihr Gutscheincode lautet $((bonus_code)). |
| {{placeholder}} |
Sehr geehrte/r Frau/Herr {{contact.name}}, |
| %#@placeholder@ | Bitte senden Sie dies bis zum %#@end_date@. |
| @PLACEHOLDER | Ihre Sendung @PACKAGE_ID ist angekommen. (erfordert Großschreibung) |
| #placeholder |
Bitte kontaktieren Sie uns in der Abteilung #department_name. (funktioniert nicht mit diakritischen Zeichen) |
| %%placeholder%% | Holen Sie sich Ihr/e/n %%product.name%% noch heute! |
| %placeholder | Klicken Sie auf %site.element für %action.1 |
Standard- vs. benutzerdefinierte Filter und File Engineering Services
Standardfilter stehen allen Unbabel-Kunden zur Verfügung, die gerade mit der Übersetzung von Projekten begonnen haben. Einige Dateien haben jedoch möglicherweise Anforderungen, die von der Standardkonfiguration nicht abgedeckt werden. In diesem Fall können wir die Datei entweder außerhalb der Standardkonfiguration bearbeiten (dies geschieht normalerweise, wenn es sich um eine einmalige Übersetzung handelt), indem wir einen File Engineering Service erwerben, oder einen benutzerdefinierten Filter erstellen, der speziell auf die Dateianforderungen für die aktuelle und zukünftige Übersetzungen zugeschnitten ist.
Filterkonfigurationen außerhalb der Standardkonfiguration suchen nach einer bestimmten Dateistruktur, da sie maßgeschneidert sind, um bestimmten Dateilayouts oder Inhaltsverteilungen zu entsprechen. Daher ist es wichtig, dass Sie sicherstellen, dass die zu übersetzende Datei für die ausgewählte Konfiguration geeignet ist.