Die DGT-TM-Ausgabe 2015 nutzen

Wie in diesem Blog schon mehrfach erwähnt, ist das öffentlich zugängliche DGT-TM-Korpus eine wertvolle Datenquelle für Übersetzer*innen, die lokal mit praktisch jedem CAT-Tool genutzt werden kann. Mit der Ausgabe 2015 wurden diesem Korpus neue Inhalte hinzugefügt – in der Sprachrichtung Englisch-Deutsch beispielsweise 202 634 TUs. Wo kann ich diese TM-Dateien herunterladen? Wo erhalte ich das zur TM-Erstellung notwendige Extraktionsprogramm? Wie kann ich die TUs in der gewünschten Sprachrichtung extrahieren? Wie kann ich die im TM enthaltenen Dubletten entfernen? Was muss ich als Wordfast-Nutzerin beachten, um bei der Konvertierung der TMX-Datei(en) in das TXT-Format die Celex-Nummern-Angabe in den einzelnen TUs zu erhalten (und warum sind die Celex-Nummern wichtig)? Und was ist überhaupt nochmal dieses DGT-TM? Diese Fragen sollen im folgenden Blog-Artikel beantwortet werden, der eine aktualisierte Fassung meines Artikels zur DGT-TM-2014-Ausgabe ist.

Was ist das DGT-TM?

Das DGT-TM ist ein Fundus von Textsegmenten (Sätzen), der durch das Alignment von Texten des Acquis communautaire in den 24 Amtssprachen der EU gewonnen wurde. Die Übersetzungseinheiten (TUs) dieses Übersetzungsspeichers stammen aus einem großen gemeinsamen TM der Generaldirektion Übersetzung im europäischen Informationssystem Euramis (European Advanced Multilingual Information System). Das DGT-TM beinhaltet die meisten, aber nicht alle Dokumente des Acquis communautaire sowie einige zusätzliche Dokumente, die nicht zum gemeinschaftlichen Besitzstand gehören. Aus Vereinfachungsgründen wurde bei der Extraktion Englisch als Ausgangssprache gewählt.

Die Reihenfolge der TUs in den extrahierten Dateien des DGT-TM entspricht nicht unbedingt der textlichen Reihenfolge in den zugrundeliegenden Dokumenten. Redundanzen von Textsegmenten (wie beispielsweise „Artikel 1“) sind in einem derartigen Textkorpus dabei nicht zu vermeiden. Die TUs sind mit einem Hinweis auf das Rechtsdokument, aus dem sie stammen, in Form einer Dokumentennummer gekennzeichnet. Dieses Kürzel entspricht der Dokumentennummer, die auch in der EUR-Lex-Datenbank verwendet wird [sogenannte Celex-Nummer]. Es ist jedoch zu beachten, dass die zugrundeliegenden Dokumente bei der Extraktion der Übersetzungseinheiten teilweise bearbeitet wurden und die Originaldokumente daher nicht aus den Einzel-TUs rekonstruiert werden können. Interessante Einzelheiten zum DGT-TM und anderen mehrsprachigen Textkorpora der EU enthält der Ende 2014 veröffentlichte Artikel An overview of the European Union’s highly multilingual parallel corpora von Ralf Steinberger, Mohamed Ebrahim, Alexandros Poulis, Manuel Carrasco-Benitez, Patrick Schlüter, Marek Przybyszewski und Signe Gilbro.

Selbstverständlich übernimmt die DGT für Qualität und Inhalt des alignten Korpus keine Verantwortung – ausführliche Informationen bietet der Abschnitt „Conditions for Use“ auf der JRC-Seite zum DGT-TM.

Die Dateien des DGT-TM-2015-Korpus herunterladen

Die DGT-TM-2015-Ausgabe, die im TMX-Format in sieben gezippten Dateipaketen vorliegt, erweitert das bereits zuvor veröffentlichte DGT-TM-Korpus um alignte EU-Texte überwiegend aus 2014 und 2015. In geringerem Umfang liefert die 2015er Ausgabe auch frühere Dokumente nach, die bisher noch nicht alignt zur Verfügung standen, eines sogar aus 1996. Wer nachsehen möchte, welche einzelnen EU-Dokumente in den vier DGT-TM-Paketen von 2007, 2011, 2012, 2013, 2014 und 2015 enthalten sind, kann in den ZIP-Dateienlisten in der folgenden Tabelle nachsehen. Ansonsten enthält auch jedes der drei ZIP-Pakete des DGT-TM-2015 eine kleine Textdatei (file_list.txt), die für jede ZIP-Datei genau auflistet, welche EU-Dokumente in welchen Sprachen alignt sind und wie viele TUs jedes EU-Dokument in den einzelnen Zielsprachen umfasst.

DGT-TM-AusgabenInhalt der einzelnen ZIP-Dateien (Auflistung der enthaltenen EU-Dokumente)
Stand:30. Juni 2015
DGT-TM-Ausgabe von 2007ZIP-Dateienliste 2007
DGT-TM-Ausgabe von 2011ZIP-Dateienliste 2011
DGT-TM-Ausgabe von 2012ZIP-Dateienliste 2012
DGT-TM-Ausgabe von 2013ZIP-Dateienliste 2013
DGT-TM-Ausgabe von 2014ZIP-Dateienliste 2014
DGT-TM-Ausgabe von 2015ZIP-Dateienliste 2015

Die drei Dateien des DGT-TM-2015-Pakets können von der JRC-Seite heruntergeladen werden. Auf dieser Seite sind auch die Dateien des DGT-TM-2011er, -2012er, -2013er und -2014er Korpus zu finden, während die „alten“ Dateien des DGT-TM-2007-Korpus weiterhin auf der Seite http://optima.jrc.it/Acquis/DGT_TU_1.0/data/ bereitgehalten werden.

Die Texte der verschiedenen Sprachen sind über die einzelnen ZIP-Dateien verteilt, so dass für den Erhalt des gesamten Paralleltextkorpus alle Dateien herunterzuladen sind. Natürlich ist es grundsätzlich auch möglich, nur einen Teil der ZIP-Dateien herunterzuladen – man erhält dann ein entsprechend eingeschränktes Paralleltextkorpus.

Statistische Daten zum DGT-TM-2015-Korpus bietet die in Vol_2014_1.zip enthaltene Datei stats2015.txt, die für alle Sprachenkombinationen die jeweilige Gesamtzahl der TUs angibt. Wer zusätzlich auch Zahlen zu den vorangegangenen Ausgaben 2007, 2011, 2012, 2013 und 2014 sucht, kann in der Datei DGT-TM_Statistics.pdf nachsehen. Diese Datei enthält für die einzelnen Ausgaben nicht nur die Anzahl der TUs, sondern auch die Wörter- und Zeilenzahlen für jede Sprachrichtung.

Das Extraktionsprogramm TMXtract herunterladen und zum Laufen bringen

Für die TMX-Erstellung ist das Extraktionsprogramm TMXtract nötig. Das JRC empfiehlt das Java-Tool TMXtract.jar, das sowohl auf Windows-Systemen als auch auf anderen Betriebssystemen läuft. Hierfür ist jeweils das Java Runtime Environment (ab Version 1.5) erforderlich.

TMXtract auf Nicht-Windows-Betriebssystemen

Auf einem Nicht-Windows-Betriebssystem wird die Java-Datei TMXtract.jar von der Befehlszeile aus mit folgendem Befehl gestartet:

java -jar TMXtract.jar <Ausgangssprachenkürzel> <Zielsprachenkürzel> <Zieldatei> <Ausgangsdatei(en)>

Auch auf Windows-Systemen lässt sich TMXtract.jar über die Eingabeaufforderung ausführen. Hier ein Screenshot:

TMXtract auf Windows-Betriebssystemen

Auf einem Windows-System erscheint nach einem Doppelklick auf TMXtract.jar die grafische Benutzeroberfläche dieses Java-Tools (auf die im folgenden Abschnitt noch näher eingegangen wird):

Selten kann es vorkommen, dass sich die grafische Benutzeroberfläche nach einem Doppelklick auf TMXtract.jar nicht öffnet. In einem solchen Fall ist die Reparatur der gestörten Programmverknüpfung mit dem „JAR“-Dateityp erforderlich. Gute Dienste leistet hier das Progrämmchen Jarfix von Johann N. Löfflmann, das entweder unter www.heise.de oder direkt von Jarfix-Website heruntergeladen werden kann.

Wer sich nicht mit Java herumschlagen möchte, kann auf einem Windows-PC das Extraktionsprogramm TMXtract auch in Form einer EXE-Datei und einer zugehörigen dynamischen Bibliothek (DLL-Datei) nutzen. Dabei ist es günstig, die EXE-Datei (TMXtract.exe) und die DLL-Datei (swt-win32-3218.dll) auf dem eigenen PC in demselben Verzeichnis abzulegen. Nach einem Doppelklick auf TMXtract.exe erscheint dann ebenfalls eine grafische Benutzeroberfläche (die der oben abgebildeten ähnelt). Der Nachteil der Nutzung der EXE-Datei ist die deutlich langsamere Geschwindigkeit des Extraktionsprozesses. Nachtrag vom 02.07.2015: Außerdem können mit dem Tool TMXtract.exe die Sprachen Irisch (GA) und Kroatisch (HR) nicht extrahiert werden (siehe Patrick Schlüters Kommentar).

TMX-Auszüge in der gewünschten Sprachrichtung erstellen

TMXtract arbeitet unmittelbar mit den ZIP-Dateien, die den DGT-TM-Korpus enthalten, so dass diese Dateien vorher nicht entzippt werden müssen.

Die Generaldirektion Übersetzung wählte zwar bei der Erstellung des DGT-TM-Korpus aus Vereinfachungsgründen Englisch als Ausgangssprache, doch bedeutet das nicht, dass bei Extraktion nur Englisch als Ausgangssprache in Frage käme. Vielmehr kann mit TMXtract jedes beliebige EU-Sprachenpaar für die Extraktion festgelegt werden.

Die grafische Benutzeroberfläche der Windows-Version von TMXtract ist derzeit (Version 1.2) in den Sprachen Deutsch, Englisch und Französisch verfügbar (über Datei > GUI Sprache bzw. File > GUI language bzw. Fichiers > Langue d’interface). Über diese Oberfläche können die Einstellungen für den Extraktionsprozess komfortabel vorgenommen werden:

  1. Ich öffne das Extraktionsprogramm durch einen Doppelklick auf TMXtract.jar.
  2. Ich klicke auf die Schaltfläche Quelldateien auswählen und gebe die gewünschte(n) Datei(en) an (z.B. Vol_2013_1.zip etc.).
  3. Ich klicke auf Zieldatei angeben (das Ergebnis wird immer in einer Datei gespeichert, egal ob die TUs aus einer oder mehreren Quelldateien extrahiert werden).
  4. Ich wähle Quellsprache und Zielsprache.
  5. Ich klicke auf die Schaltfläche Ausführen.

Bei Schritt 2 ist es eventuell ratsam, die ZIP-Dateien nicht alle in einem Rutsch, sondern einzeln zu konvertieren, da ansonsten die Zieldatei je nach Sprachenpaar sehr groß werden kann (Einzelheiten zum zu erwartenden TM-Umfang können einer der Statistikdateien entnommen werden).

Nach der Extraktion kann ich dann die resultierende(n) TMX-Datei(en) in praktisch jedes Translation-Memory-Tool (Wordfast, SDL Trados, Déjà Vu, MemoQ usw.) importieren und dort weiterverwenden (vorzugsweise über die Konkordanzsuche).

Dubletten entfernen

Die einzelnen Jahresausgaben des DGT-TM-Korpus enthalten relativ viele Doppelungen, innerhalb des DGT-TM-2012-Korpus sind es beispielsweise insgesamt gut 74 000 Dubletten (von insgesamt rund 285 000 TUs). Es ist eine Überlegung wert, auf diese Duplikate zu verzichten und sie vorab auszusortieren.

Ein zuverlässiges Werkzeug für diese Aufgabe ist Olifant, das ich im Artikel Wie man eine TMX-Datei lesen kann schon einmal vorgestellt habe.
Mit Olifant lassen sich die mit TMXtract erstellten TMX-Dateien öffnen – das sieht dann beispielsweise so aus:

Doppelte TUs kann ich nun wie folgt eliminieren:

  1. Mit Strg+E (oder Entries > Flag Entries) öffne ich das Filterauswahlfenster:
  2. Ich klicke Duplicate Source and Target (case sensitive) an und bestätige mit OK.
    Das Original des Doppeleintrags soll dabei nicht gekennzeichnet werden (siehe dünne rote Linie im Screenshot)!
  3. Ich klicke auf das „Set Filter For Flagged Entries“-Icon (im Screenshot violett markiert):

    (Alternativ könnte ich auch über View > Set Filter For Flagged Entries gehen.)
  4. Mit Strg+A markiere ich alle gefilterten Einträge.
  5. Ich lösche alle markierten Einträge mit der Entf-Taste.
  6. Ich deaktiviere den Filter mit F5 oder klicke stattdessen auf das „Use Filter (F5)“-Icon (im Screenshot hellgrün markiert):
  7. Ich speichere die Datei (entweder mit Strg+S unter dem ursprünglichen Namen oder aber über File > Save As… unter einem neuen Namen).

Dubletten lieber nicht entfernen?

Dubletten lassen sich, wie soeben beschrieben, leicht entfernen. Aber sollte ich sie auch entfernen? Es kommt darauf an, was ich mit dem TM vorhabe.

Wenn ich als DGT-TM als riesigen Fundus für Fachterminologie betrachte und es mir eher egal ist, aus welcher Richtlinie oder Verordnung der EU mein Konkordanzfundstück nun genau stammt, lohnt es sich wahrscheinlich die Dubletten zu entfernen. Denn so kann ich das DGT-TM-2012-Korpus immerhin um rund ein Viertel verschlanken.

Wenn ich dagegen EU-spezifische Texte übersetze und an der genauen Fundstelle meiner Konkordanzsuchergebnisse interessiert bin, sollte ich die Dubletten nicht löschen. Denn jede TU des DGT-TM weist auch die Celex-Nummer als Zusatzinformation auf, mit der ich bekanntlich das EU-Dokument im Volltext aufrufen kann (siehe folgenden Exkurs, den ich erstmalig auf meiner Website www.webjohn.de veröffentlicht habe).

Exkurs: Die Dokumentennummern der EUR-Lex-Datenbank

Alle Rechtsakte der Europäischen Union sind in der EUR-Lex-Datenbank öffentlich abrufbar (unter http://eur-lex.europa.eu). In dieser Datenbank ist jeder Rechtsakt mit einer Dokumentennummer (auch „Celex-Nummer“ genannt) gekennzeichnet, die aus einer Reihe von Zahlen und Buchstaben besteht. Anhand dieser Dokumentennummer lässt sich jeder Rechtsakt sowohl im systematischen Verzeichnis als auch im chronologischen Register von EUR-Lex auffinden (am schnellsten durch Eingabe der Celex-Nummer auf der Seite eur-lex.europa.eu/homepage.html).

Die Struktur der Dokumentennummer soll anhand einer typischen 10-stelligen Dokumentennummer erläutert werden.
Beispiel:

3 1999 R 0026
Rechtsbereich Jahreszahl Dokumenttyp Nummer des Rechtsakts
abgeleitetes Gemeinschaftsrecht Jahr des Erlasses bzw. der Veröffentlichung des Rechtsakts Verordnung Verordnung Nr. 0026 des betreffenden Jahres

Die erste Zahl ist die Bereichsnummer: Sie gibt an, in welchen Bereich des Celex-Systems der betreffende Rechtsakt einzuordnen ist. Die vier folgenden Ziffern geben das Erlass- bzw. Veröffentlichungsjahr an. Der darauffolgende Buchstabe (manchmal auch mehrere Buchstaben) ist der Code für den Dokumenttyp, der die Rechtsform des Akts ausweist. Abschließend folgt noch die fortlaufende Nummer des Rechtsaktes im jeweiligen Jahr.

Bereichsnummern (Auszug):

Bereich 1 Verträge: primäres Gemeinschaftsrecht (Verträge zur Gründung der Europäischen Gemeinschaften, Verträge zu ihrer Änderung oder Ergänzung sowie Verträge über den Beitritt neuer Mitgliedstaaten)
Bereich 2 Internationale Abkommen: aus den Außenbeziehungen der Europäischen Gemeinschaften (oder den von den Mitgliedstaaten geschlossenen Verträgen, sofern sie die Außenbeziehungen der Gemeinschaften betreffen) hervorgegangenes Recht
Bereich 3 Rechtsvorschriften: abgeleitetes, also sekundäres Gemeinschaftsrecht
Bereich 4 Komplementärrecht (Beschlüsse der im Rat vereinigten Vertreter der Regierungen der Mitgliedstaaten, zwischen den Mitgliedstaaten in Anwendung der Vertragsbestimmungen geschlossene Völkerrechtsabkommen, zwischen den Mitgliedstaaten geschlossene internationale Übereinkünfte)
Bereich 5 Gesetzgebungsvorarbeiten (Vorschläge der Kommission, Stellungnahmen, Initiativanträge und Entschließungen des Europaparlaments, Stellungnahmen des Wirtschafts- und Sozialausschusses, Programme, Berichte und Mitteilungen der Kommission etc.)
Bereich 7 Nationale Durchführungsmaßnahmen (Umsetzungen der Richtlinien in nationales Recht)
Bereich 9 Parlamentarische Anfragen
Bereich 0 Konsolidierte Dokumente

Dokumenttypen für die Bereiche 2 bis 5 (Auszug):

A Übereinkünfte, Stellungnahmen
B Haushalt
D Rechtsakte von durch internationale Übereinkünfte geschaffenen Organen (im Bereich 2) bzw. Beschlüsse (im Bereich 3 und 4)
DC Sonstige Dokumente der Kommission (Grünbücher, Weißbücher, Mitteilungen, Berichte etc.)
K EGKS-Empfehlungen
L Richtlinien
PC Legislativvorschläge der Kommission
R Verordnungen
S Allgemeine EGKS-Entscheidungen
X Sonstige Rechtsakte und Dokumente

Weiterführende Hinweise finden sich unter den Fachinformationen der Bibliothek der Universität Konstanz und auf der EUR-Lex-Website unter Arten von Dokumenten in EUR-Lex oder als Kurzfassung unter Wie ist eine Celex-Nummer aufgebaut? im Fragen-und-Antworten-Bereich.

TMX-Dateien in Wordfast-TMs umwandeln

Ein praktisches Freeware-Tool zur Umwandlung von Translation Memories vom TMX-Format ins TXT-Format (und umgekehrt) ist Wf2Tmx.exe.

Die folgende Schritt-für-Schritt-Anleitung zeigt detailliert, wie die mit TMXtract erstellten TMX-Dateien unter Beibehaltung der Celex-Nummer in das Wordfast-eigene TXT-Format konvertiert werden können.

  1. Die Datei Wf2Tmx_1-0-11-41.zip auf den PC herunterladen.
  2. Wf2Tmx_1-0-11-41.zip entpacken und dabei die Datei Wf2Tmx.exe in den Ordner extrahieren, in dem bereits die zu konvertierenden TMX-Dateien liegen.
  3. Die mit TMXtract erstellte(n) TMX-Datei(en) sicherheitshalber mit einem Text-Editor vorbereiten: alle Vorkommen von type="Txt::Doc. No." durch type="DocNo" ersetzen.
  4. Den Windows Explorer aufrufen und für den Ordner, in dem die zu konvertierenden TMX-Dateien und Wf2Tmx.exe abgelegt sind, das Kontextmenü mit Umschalt+Rechtsklick aufrufen:
  5. Den Kontextmenübefehl Eingabeaufforderung hier öffnen anklicken.
  6. Daraufhin erscheint ein Befehlszeilenfenster, in dem der folgende Befehl einzugeben ist:
    Wf2Tmx prop_type="DocNo" <dateiname.tmx>
  7. Fertig – die von Wf2Tmx.exe erzeugte TXT-Datei enthält nun für jede einzelne TU die Celex-Nummer.

7 Kommentare

  1. LJ (Beitragsautor)

    Hallo Eulalia,

    auf die Schnelle fallen mir zwei Wege ein: entweder du machst mit TMXtract einen neuen Extrakt für die Sprachrichtung YY-XX (das geht relativ fix) oder du bindest die TMX-Datei(en) in dein CAT-Tool ein und drehst dort einfach die Sprachrichtung um (diese Möglichkeit sollten alle gängigen CAT-Tools bieten).

    Viel Erfolg!

    1. LJ (Beitragsautor)

      Und eine dritte Möglichkeit ist natürlich die Nutzung von Olifant, dort ist der Im- und Export in der gewünschten Sprachrichtung sehr komfortabel möglich.

  2. Eulalia

    Hallo,

    wenn ich ein TM XX-YY extrahiere, kann ich das dann auch als TM für YY-XX brauchen oder muss ich das je einzeln extrahieren?

    Besten Dank

  3. Pingback: New DGT TM release | indie.ana words

  4. Pingback: (CAT) - Die DGT-TM-Ausgabe 2015 nutzen | Elisab...

  5. Patrick Schlüter

    Guten Tag,

    zum Programm TMXtract.exe sollte auch erwähnt werden, dass es sich um eine alte Version des Programms handelt, die mit DGT-TM-2007 ausgeliefert worden ist. Dies hat zur Folge, dass weder Irisch (GA) noch Kroatisch (HR) von dieser Version bearbeitet werden können, da diese Sprachen zu der Zeit noch nicht im Corpus vorhanden waren.

    Vielen Dank für diese ausführliche und gute Erklärung

    Patrick Schlüter
    European Commission
    DGT.R.3.2-Euramis Development

    1. LJ (Beitragsautor)

      Hallo Patrick, vielen Dank für deinen wichtigen Hinweis! Ich habe die Textstelle im Artikel entsprechend ergänzt.

Der Kommentarbereich ist geschlossen.