Beschreibung
CSV-Dateien (Comma-separated Values) sind Textdateien mit Trennzeichen, bei denen die Werte in der Regel durch ein Komma getrennt werden. Jede Zeile der Datei ist ein Datensatz. Jeder Datensatz besteht aus einem oder mehreren Feldern (oder Spalten), die durch Kommas getrennt sind.
CSV-Dateien werden verwendet, um strukturierte Informationen in einer einfachen, leicht lesbaren Form zu speichern und zu übertragen.
Unbabel-Filter-Spezifikationen
Bei der Bearbeitung einer CSV-Datei legt der Unbabel-Filter nach bestimmten Regeln fest, welche Inhalte zu übersetzen und welche auszulassen sind. Die Grundlagen sind in diesem Bild dargestellt:
Nachfolgend finden Sie die wichtigsten Regeln des Filters:
- Kommas - und nur Kommas - werden als Trennzeichen zwischen Spalten angenommen, es sei denn, sie werden in Anführungszeichen "" maskiert.
- Anführungszeichen "" werden verwendet, um den Text als einzelne(s) Spalte/Feld zu kennzeichnen.
- Wir erkennen, extrahieren und übersetzen Inhalte aus allen Spalten und Zeilen.
- Leerzeichen bleiben in der Datei erhalten, werden aber gekürzt, wenn die Datei von den meisten Softwareprogrammen geteilt oder gelesen wird.
- Zeilenumbrüche werden bei der Übersetzung nicht beibehalten, der gesamte Text wird in dieselbe Zeile verschoben.
- \t und \n können verwendet werden.
- \\ werden als Zeichen und \uXXXX als UTF-8 kodierte Zeichen behandelt.
Funktionale Platzhalter
Die folgenden Befehle fungieren als Platzhalter und verhindern, dass der darin enthaltene Inhalt übersetzt wird. Platzhalter und ihr jeweiliger Text werden den Redakteuren angezeigt, wenn die Spalte/das Feld mehr Inhalt enthält, können aber nicht geändert werden. Sie können jedoch innerhalb des Satzes verschoben werden, um eine Korrektur der Syntax zu ermöglichen.
Wenn ein Feld nur einen Platzhalter enthält, wird es weder angezeigt noch übersetzt.
Die folgenden Zeichenkombinationen können als Platzhalter verwendet werden (Großschreibung ist erforderlich, wenn vorhanden):
{placeholder} |
${placeholder} |
$((placeholder)) |
{{placeholder}} |
%#@placeholder@ |
@PLACEHOLDER |
#placeholder |
%%placeholder%% |
%placeholder |
HTML-Verarbeitung
Alle Inhalte, die von einfachen spitzen Klammern umgeben sind, werden vom Filter als HTML betrachtet und aus allen Schritten der Übersetzung entfernt. Bsp.: Ich <b>sende</b> dies zur Übersetzung -> Ich sende dies zur Übersetzung.
Bewährte Praktiken
- Vermeiden Sie die Verwendung von <>, außer in HTML. Dadurch wird sowohl unserem MT-Modell als auch den menschlichen Redakteuren der Inhalt innerhalb der Klammern entzogen, was die Übersetzung beeinträchtigen würde.
- Achten Sie darauf, dass Sie die richtigen Bezeichner verwenden, um Inhalte zu schützen, die nicht in verschiedene Spalten aufgeteilt werden sollen.
- Wenn Sie einen Satz mit einem Komma maskieren und Ihre Bezeichner nicht am Anfang und am Ende des Feldes stehen, wird das Komma das Feld in zwei Felder aufteilen. Bsp.: Dies ist eine "seltsame, doch wahre" Aussage steht für zwei Felder -> Dies ist eine seltsame und doch wahre Aussage. Wenn Sie möchten, dass es als ein einzelnes Feld betrachtet wird, senden Sie stattdessen "Dies ist eine "seltsame, doch wahre" Aussage".
- Einige Softwareprogramme maskieren den Inhalt bei der Erstellung einer CSV-Datei erneut. Microsoft Excel beispielsweise maskiert den Inhalt zwischen Kommas und dann noch einmal am Anfang und am Ende der Zelle, d. h. es wird dreifach maskiert, wenn Anführungszeichen verwendet werden.
- Die ausgegebene CSV-Datei behält die Anzahl der Leerzeichen in der Ausgangssprache bei. Wenn sie jedoch von bestimmten Programmen gelesen wird, werden die Leerzeichen gekürzt: Alle Leerzeichen am Ende oder am Anfang einer Spalte werden entfernt und mehrere aufeinander folgende Leerzeichen innerhalb eines bestimmten Textes werden auf 1 gekürzt.
Laden Sie den Anhang herunter, um eine Vorlage für eine gültige CSV-Datei zu erhalten.