Die DGT-TM-Ausgabe 2014 nutzen

Wie in diesem Blog schon mehrfach erwähnt, ist das öffentlich zugängliche DGT-TM-Korpus eine wertvolle Datenquelle für Übersetzer*innen, die lokal mit praktisch jedem CAT-Tool genutzt werden kann. Mit der Ausgabe 2014 wurden diesem Korpus neue Inhalte hinzugefügt – in der Sprachrichtung Englisch-Deutsch beispielsweise 499 844 TUs. Wo kann ich diese TM-Dateien herunterladen? Wo erhalte ich das zur TM-Erstellung notwendige Extraktionsprogramm? Wie kann ich die TUs in der gewünschten Sprachrichtung extrahieren? Wie kann ich die im TM enthaltenen Dubletten entfernen? Was muss ich als Wordfast-Nutzerin beachten, um bei der Konvertierung der TMX-Datei(en) in das TXT-Format die Celex-Nummern-Angabe in den einzelnen TUs zu erhalten (und warum sind die Celex-Nummern wichtig)? Und was ist überhaupt nochmal dieses DGT-TM? Diese Fragen sollen im folgenden Blog-Artikel beantwortet werden, der eine aktualisierte Fassung meines Artikels zur DGT-TM-2013-Ausgabe ist.

Was ist das DGT-TM?

Das DGT-TM ist ein Fundus von Textsegmenten (Sätzen), der durch das Alignment von Texten des Acquis communautaire in den 24 Amtssprachen der EU gewonnen wurde. Die Übersetzungseinheiten (TUs) dieses Übersetzungsspeichers stammen aus einem großen gemeinsamen TM der Generaldirektion Übersetzung im europäischen Informationssystem Euramis (European Advanced Multilingual Information System). Das DGT-TM beinhaltet die meisten, aber nicht alle Dokumente des Acquis communautaire sowie einige zusätzliche Dokumente, die nicht zum gemeinschaftlichen Besitzstand gehören. Aus Vereinfachungsgründen wurde bei der Extraktion Englisch als Ausgangssprache gewählt.

Die Reihenfolge der TUs in den extrahierten Dateien des DGT-TM entspricht nicht unbedingt der textlichen Reihenfolge in den zugrundeliegenden Dokumenten. Redundanzen von Textsegmenten (wie beispielsweise „Artikel 1“) sind in einem derartigen Textkorpus dabei nicht zu vermeiden. Die TUs sind mit einem Hinweis auf das Rechtsdokument, aus dem sie stammen, in Form einer Dokumentennummer gekennzeichnet. Dieses Kürzel entspricht der Dokumentennummer, die auch in der EUR-Lex-Datenbank verwendet wird [sogenannte Celex-Nummer]. Es ist jedoch zu beachten, dass die zugrundeliegenden Dokumente bei der Extraktion der Übersetzungseinheiten teilweise bearbeitet wurden und die Originaldokumente daher nicht aus den Einzel-TUs rekonstruiert werden können. (Siehe auch meinen Blog-Artikel DGT-TM-2011 veröffentlicht – mehrsprachiges EU-Rechtstextekorpus im TMX-Format frei verfügbar)

Selbstverständlich übernimmt die DGT für Qualität und Inhalt des alignten Korpus keine Verantwortung – ausführliche Informationen bietet der Abschnitt „Conditions for Use“ auf der JRC-Seite zum DGT-TM.

Die Dateien des DGT-TM-2014-Korpus herunterladen

Die DGT-TM-2014-Ausgabe, die im TMX-Format in sieben gezippten Dateipaketen vorliegt, erweitert das bereits zuvor veröffentlichte DGT-TM-Korpus um alignte EU-Texte ganz überwiegend aus 2013. In geringerem Umfang liefert die 2014er Ausgabe auch frühere Dokumente nach, die bisher noch nicht alignt zur Verfügung standen. Zu einem kleinen Teil enthält sie auch schon Texte, die erst 2014 veröffentlicht wurden. Wer nachsehen möchte, welche einzelnen EU-Dokumente in den vier DGT-TM-Paketen von 2007, 2011, 2012, 2013 und 2014 enthalten sind, kann in den ZIP-Dateienlisten in der folgenden Tabelle nachsehen. Ansonsten enthält auch jedes der sieben ZIP-Pakete des DGT-TM-2014 eine kleine Textdatei (file_list.txt), die für jede ZIP-Datei genau auflistet, welche EU-Dokumente in welchen Sprachen alignt sind und wie viele TUs jedes EU-Dokument in den einzelnen Zielsprachen umfasst.

DGT-TM-AusgabenInhalt der einzelnen ZIP-Dateien (Auflistung der enthaltenen EU-Dokumente)
Stand:30. Juni 2015
DGT-TM-Ausgabe von 2007ZIP-Dateienliste 2007
DGT-TM-Ausgabe von 2011ZIP-Dateienliste 2011
DGT-TM-Ausgabe von 2012ZIP-Dateienliste 2012
DGT-TM-Ausgabe von 2013ZIP-Dateienliste 2013
DGT-TM-Ausgabe von 2014ZIP-Dateienliste 2014
DGT-TM-Ausgabe von 2015ZIP-Dateienliste 2015

Die sieben Dateien des DGT-TM-2014-Pakets können von der JRC-Seite heruntergeladen werden. Auf dieser Seite sind auch die Dateien des DGT-TM-2011-, -2012- und -2013-Korpus zu finden, während die „alten“ Dateien des DGT-TM-2007-Korpus weiterhin auf der Seite http://optima.jrc.it/Acquis/DGT_TU_1.0/data/ bereitgehalten werden.

Die Texte der verschiedenen Sprachen sind über die einzelnen ZIP-Dateien verteilt, so dass für den Erhalt des gesamten Paralleltextkorpus alle Dateien herunterzuladen sind. Natürlich ist es grundsätzlich auch möglich, nur einen Teil der ZIP-Dateien herunterzuladen – man erhält dann ein entsprechend eingeschränktes Paralleltextkorpus.

Statistische Daten zum DGT-TM-2014-Korpus bietet die in Vol_2013_1.zip enthaltene Datei stats2014.txt, die für alle Sprachenkombinationen die jeweilige Gesamtzahl der TUs angibt. Wer zusätzlich auch Zahlen zu den vorangegangenen Ausgaben 2011, 2012 und 2013 sucht, kann in der Datei 2014-2011_DGT-TM_Bilingual-Stats.pdf nachsehen, die ebenfalls in Vol_2013_1.zip enthalten ist. Noch umfangreichere Informationen (auch zu Wörter- und Zeichenzahlen der Ausgaben 2007, 2011, 2012, 2013 und 2014) stellt das JRC in der Datei DGT-TM_Statistics.pdf bereit.

Das Extraktionsprogramm TMXtract herunterladen und zum Laufen bringen

Für die TMX-Erstellung ist das Extraktionsprogramm TMXtract nötig. Das JRC empfiehlt das Java-Tool TMXtract.jar, das sowohl auf Windows-Systemen als auch auf anderen Betriebssystemen läuft. Hierfür ist jeweils das Java Runtime Environment (ab Version 1.5) erforderlich.

TMXtract auf Nicht-Windows-Betriebssystemen

Auf einem Nicht-Windows-Betriebssystem wird die Java-Datei TMXtract.jar von der Befehlszeile aus mit folgendem Befehl gestartet:

java -jar TMXtract.jar <Ausgangssprachenkürzel> <Zielsprachenkürzel> <Zieldatei> <Ausgangsdatei(en)>

Auch auf Windows-Systemen lässt sich TMXtract.jar über die Eingabeaufforderung ausführen. Hier ein Screenshot:

TMXtract auf Windows-Betriebssystemen

Auf einem Windows-System erscheint nach einem Doppelklick auf TMXtract.jar die grafische Benutzeroberfläche dieses Java-Tools (auf die im folgenden Abschnitt noch näher eingegangen wird):

Selten kann es vorkommen sich, dass sich die grafische Benutzeroberfläche nach einem Doppelklick auf TMXtract.jar nicht öffnet. In einem solchen Fall ist die Reparatur der gestörten Programmverknüpfung mit dem „JAR“-Dateityp erforderlich. Gute Dienste leistet hier das Progrämmchen Jarfix von Johann N. Löfflmann, das entweder unter www.heise.de oder direkt von Jarfix-Website heruntergeladen werden kann.

Wer sich nicht mit Java herumschlagen möchte, kann auf einem Windows-PC das Extraktionsprogramm TMXtract auch in Form einer EXE-Datei und einer zugehörigen dynamischen Bibliothek (DLL-Datei) nutzen. Dabei ist es günstig, die EXE-Datei (TMXtract.exe) und die DLL-Datei (swt-win32-3218.dll) auf dem eigenen PC in demselben Verzeichnis abzulegen. Nach einem Doppelklick auf TMXtract.exe erscheint dann ebenfalls eine grafische Benutzeroberfläche (die der oben abgebildeten ähnelt). Der Nachteil der Nutzung der EXE-Datei ist die deutlich langsamere Geschwindigkeit des Extraktionsprozesses.

TMX-Auszüge in der gewünschten Sprachrichtung erstellen

TMXtract arbeitet unmittelbar mit den ZIP-Dateien, die den DGT-TM-Korpus enthalten, so dass diese Dateien vorher nicht entzippt werden müssen.

Die Generaldirektion Übersetzung wählte zwar bei der Erstellung des DGT-TM-Korpus aus Vereinfachungsgründen Englisch als Ausgangssprache, doch bedeutet das nicht, dass bei Extraktion nur Englisch als Ausgangssprache in Frage käme. Vielmehr kann mit TMXtract jedes beliebige EU-Sprachenpaar für die Extraktion festgelegt werden.

Die grafische Benutzeroberfläche der Windows-Version von TMXtract ist derzeit (Version 1.2) in den Sprachen Deutsch, Englisch und Französisch verfügbar (über Datei > GUI Sprache bzw. File > GUI language bzw. Fichiers > Langue d’interface). Über diese Oberfläche können die Einstellungen für den Extraktionsprozess komfortabel vorgenommen werden:

  1. Ich öffne das Extraktionsprogramm durch einen Doppelklick auf TMXtract.jar.
  2. Ich klicke auf die Schaltfläche Quelldateien auswählen und gebe die gewünschte(n) Datei(en) an (z.B. Vol_2013_1.zip etc.).
  3. Ich klicke auf Zieldatei angeben (das Ergebnis wird immer in einer Datei gespeichert, egal ob die TUs aus einer oder mehreren Quelldateien extrahiert werden).
  4. Ich wähle Quellsprache und Zielsprache.
  5. Ich klicke auf die Schaltfläche Ausführen.

Bei Schritt 2 ist es eventuell ratsam, die ZIP-Dateien nicht alle in einem Rutsch, sondern einzeln zu konvertieren, da ansonsten die Zieldatei je nach Sprachenpaar sehr groß werden kann (Einzelheiten zum zu erwartenden TM-Umfang können einer der Statistikdateien entnommen werden).

Nach der Extraktion kann ich dann die resultierende(n) TMX-Datei(en) in praktisch jedes Translation-Memory-Tool (Wordfast, SDL Trados, Déjà Vu, MemoQ usw.) importieren und dort weiterverwenden (vorzugsweise über die Konkordanzsuche).

Dubletten entfernen

Die einzelnen Jahresausgaben des DGT-TM-Korpus enthalten relativ viele Doppelungen, innerhalb des DGT-TM-2012-Korpus sind es beispielsweise insgesamt gut 74 000 Dubletten (von insgesamt rund 285 000 TUs). Es ist eine Überlegung wert, auf diese Duplikate zu verzichten und sie vorab auszusortieren.

Ein zuverlässiges Werkzeug für diese Aufgabe ist Olifant, das ich im Artikel Wie man eine TMX-Datei lesen kann schon einmal vorgestellt habe.
Mit Olifant lassen sich die mit TMXtract erstellten TMX-Dateien öffnen – das sieht dann beispielsweise so aus:

Doppelte TUs kann ich nun wie folgt eliminieren:

  1. Mit Strg+E (oder Entries > Flag Entries) öffne ich das Filterauswahlfenster:
  2. Ich klicke Duplicate Source and Target (case sensitive) an und bestätige mit OK.
    Das Original des Doppeleintrags soll dabei nicht gekennzeichnet werden (siehe dünne rote Linie im Screenshot)!
  3. Ich klicke auf das „Set Filter For Flagged Entries“-Icon (im Screenshot violett markiert):

    (Alternativ könnte ich auch über View > Set Filter For Flagged Entries gehen.)
  4. Mit Strg+A markiere ich alle gefilterten Einträge.
  5. Ich lösche alle markierten Einträge mit der Entf-Taste.
  6. Ich deaktiviere den Filter mit F5 oder klicke stattdessen auf das „Use Filter (F5)“-Icon (im Screenshot hellgrün markiert):
  7. Ich speichere die Datei (entweder mit Strg+S unter dem ursprünglichen Namen oder aber über File > Save As… unter einem neuen Namen).

Dubletten lieber nicht entfernen?

Dubletten lassen sich, wie soeben beschrieben, leicht entfernen. Aber sollte ich sie auch entfernen? Es kommt darauf, was ich mit dem TM vorhabe.

Wenn ich als DGT-TM als riesigen Fundus für Fachterminologie betrachte und es mir eher egal ist, aus welcher Richtlinie oder Verordnung der EU mein Konkordanzfundstück nun genau stammt, lohnt es sich wahrscheinlich die Dubletten zu entfernen. Denn so kann ich das DGT-TM-2012-Korpus immerhin um rund ein Viertel verschlanken.

Wenn ich dagegen EU-spezifische Texte übersetze und an der genauen Fundstelle meiner Konkordanzsuchergebnisse interessiert bin, sollte ich die Dubletten nicht löschen. Denn jede TU des DGT-TM weist auch die Celex-Nummer als Zusatzinformation auf, mit der ich bekanntlich das EU-Dokument im Volltext aufrufen kann (siehe folgenden Exkurs, den ich erstmalig auf meiner Website www.webjohn.de veröffentlicht habe).

Exkurs: Die Dokumentennummern der EUR-Lex-Datenbank

Alle Rechtsakte der Europäischen Union sind in der EUR-Lex-Datenbank öffentlich abrufbar (unter http://eur-lex.europa.eu). In dieser Datenbank ist jeder Rechtsakt mit einer Dokumentennummer (auch „Celex-Nummer“ genannt) gekennzeichnet, die aus einer Reihe von Zahlen und Buchstaben besteht. Anhand dieser Dokumentennummer lässt sich jeder Rechtsakt sowohl im systematischen Verzeichnis als auch im chronologischen Register von EUR-Lex auffinden (am schnellsten durch Eingabe der Celex-Nummer auf der Seite http://eur-lex.europa.eu/RECH_celex.do eur-lex.europa.eu/homepage.html).

Die Struktur der Dokumentennummer soll anhand einer typischen 10-stelligen Dokumentennummer erläutert werden.
Beispiel:

3 1999 R 0026
Rechtsbereich Jahreszahl Dokumenttyp Nummer des Rechtsakts
abgeleitetes Gemeinschaftsrecht Jahr des Erlasses bzw. der Veröffentlichung des Rechtsakts Verordnung Verordnung Nr. 0026 des betreffenden Jahres

Die erste Zahl ist die Bereichsnummer: Sie gibt an, in welchen Bereich des Celex-Systems der betreffende Rechtsakt einzuordnen ist. Die vier folgenden Ziffern geben das Erlass- bzw. Veröffentlichungsjahr an. Der darauffolgende Buchstabe (manchmal auch mehrere Buchstaben) ist der Code für den Dokumenttyp, der die Rechtsform des Akts ausweist. Abschließend folgt noch die fortlaufende Nummer des Rechtsaktes im jeweiligen Jahr.

Bereichsnummern (Auszug):

Bereich 1 Verträge: primäres Gemeinschaftsrecht (Verträge zur Gründung der Europäischen Gemeinschaften, Verträge zu ihrer Änderung oder Ergänzung sowie Verträge über den Beitritt neuer Mitgliedstaaten)
Bereich 2 Internationale Abkommen: aus den Außenbeziehungen der Europäischen Gemeinschaften (oder den von den Mitgliedstaaten geschlossenen Verträgen, sofern sie die Außenbeziehungen der Gemeinschaften betreffen) hervorgegangenes Recht
Bereich 3 Rechtsvorschriften: abgeleitetes, also sekundäres Gemeinschaftsrecht
Bereich 4 Komplementärrecht (Beschlüsse der im Rat vereinigten Vertreter der Regierungen der Mitgliedstaaten, zwischen den Mitgliedstaaten in Anwendung der Vertragsbestimmungen geschlossene Völkerrechtsabkommen, zwischen den Mitgliedstaaten geschlossene internationale Übereinkünfte)
Bereich 5 Gesetzgebungsvorarbeiten (Vorschläge der Kommission, Stellungnahmen, Initiativanträge und Entschließungen des Europaparlaments, Stellungnahmen des Wirtschafts- und Sozialausschusses, Programme, Berichte und Mitteilungen der Kommission etc.)
Bereich 7 Nationale Durchführungsmaßnahmen (Umsetzungen der Richtlinien in nationales Recht)
Bereich 9 Parlamentarische Anfragen
Bereich 0 Konsolidierte Dokumente

Dokumenttypen für die Bereiche 2 bis 5 (Auszug):

A Übereinkünfte, Stellungnahmen
B Haushalt
D Rechtsakte von durch internationale Übereinkünfte geschaffenen Organen (im Bereich 2) bzw. Beschlüsse (im Bereich 3 und 4)
DC Sonstige Dokumente der Kommission (Grünbücher, Weißbücher, Mitteilungen, Berichte etc.)
K EGKS-Empfehlungen
L Richtlinien
PC Legislativvorschläge der Kommission
R Verordnungen
S Allgemeine EGKS-Entscheidungen
X Sonstige Rechtsakte und Dokumente

Weiterführende Hinweise finden sich unter den Fachinformationen der Bibliothek der Universität Konstanz und auf der EUR-Lex-Website unter Arten von Dokumenten in EUR-Lex.

TMX-Dateien in Wordfast-TMs umwandeln

Ein praktisches Freeware-Tool zur Umwandlung von Translation Memories vom TMX-Format ins TXT-Format (und umgekehrt) ist Wf2Tmx.exe.

Die folgende Schritt-für-Schritt-Anleitung zeigt detailliert, wie die mit TMXtract erstellten TMX-Dateien unter Beibehaltung der Celex-Nummer in das Wordfast-eigene TXT-Format konvertiert werden können.

  1. Die Datei Wf2Tmx_1-0-11-41.zip auf den PC herunterladen.
  2. Wf2Tmx_1-0-11-41.zip entpacken und dabei die Datei Wf2Tmx.exe in den Ordner extrahieren, in dem bereits die zu konvertierenden TMX-Dateien liegen.
  3. Die mit TMXtract erstellte(n) TMX-Datei(en) sicherheitshalber mit einem Text-Editor vorbereiten: alle Vorkommen von type="Txt::Doc. No." durch type="DocNo" ersetzen.
  4. Den Windows Explorer aufrufen und für den Ordner, in dem die zu konvertierenden TMX-Dateien und Wf2Tmx.exe abgelegt sind, das Kontextmenü mit Umschalt+Rechtsklick aufrufen:
  5. Den Kontextmenübefehl Eingabeaufforderung hier öffnen anklicken.
  6. Daraufhin erscheint ein Befehlszeilenfenster, in dem der folgende Befehl einzugeben ist:
    Wf2Tmx prop_type="DocNo" <dateiname.tmx>
  7. Fertig – die von Wf2Tmx.exe erzeugte TXT-Datei enthält nun für jede einzelne TU die Celex-Nummer.

Hinterlassen Sie einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.