DGT-TM-2011 veröffentlicht – mehrsprachiges EU-Rechtstextekorpus im TMX-Format frei verfügbar

Im November 2007 machte die Generaldirektion Übersetzung der Europäischen Kommission (kurz DGT) ein mehrsprachiges Translation Memory (TM) mit dem „Acquis communautaire“ – also dem gemeinschaftlichen Besitzstand des EU-Rechts – öffentlich zugänglich. Es enthält amtliche EU-Texte, die bis Ende 2006 erschienen sind. Im April 2012 wurde nun eine neue DGT-TM-Version veröffentlicht (im Folgenden „DGT-TM-2011“ genannt), die zusätzliche Texte aus dem Zeitraum 2004 bis 2010 beinhaltet. Über das Internet hat jeder Interessierte Zugriff auf diesen Übersetzungsspeicher in 22 Amtssprachen der Europäischen Union.

dgtlogo

DGT-TM – das Translation Memory der Generaldirektion Übersetzung der Europäischen Kommission

Das DGT-TM ist ein Fundus von Textsegmenten (Sätzen), der durch das Alignment von Texten des Acquis communautaire in 22 Amtssprachen der EU gewonnen wurde. Die Übersetzungseinheiten (TUs – Translation Units) dieses Übersetzungsspeichers stammen aus einem großen gemeinsamen TM der Generaldirektion Übersetzung im europäischen Informationssystem Euramis (European Advanced Multilingual Information System). Das DGT-TM beinhaltet die meisten, aber nicht alle Dokumente des Acquis communautaire sowie einige zusätzliche Dokumente, die nicht zum gemeinschaftlichen Besitzstand gehören. Aus Vereinfachungsgründen wurde bei der Extraktion Englisch als Ausgangssprache gewählt.

Die Reihenfolge der TUs in den extrahierten Dateien des DGT-TM entspricht nicht unbedingt der textlichen Reihenfolge in den zugrundeliegenden Dokumenten. Redundanzen von Textsegmenten (wie beispielsweise „Artikel 1“) sind in einem derartigen Textkorpus dabei nicht zu vermeiden. Die TUs sind mit einem Hinweis auf das Rechtsdokument, aus dem sie stammen, in Form einer Dokumentennummer gekennzeichnet. Dieses Kürzel entspricht der Dokumentennummer, die auch in der EUR-Lex-Datenbank verwendet wird. Es ist jedoch zu beachten, dass die zugrundeliegenden Dokumente bei der Extraktion der Übersetzungseinheiten teilweise bearbeitet wurden und die Originaldokumente daher nicht aus den Einzel-TUs rekonstruiert werden können.

Das DGT-TM-2011 liegt im TMX-Format in 25 Dateipaketen vor. Diese Satzarchive können zur Erstellung von zweisprachigen Paralleltextkorpora (TMs) herangezogen werden (Näheres unter Zweisprachige TMX-Auszüge erstellen). Das DGT-TM enthält keine Hinweise auf die Ausgangssprache der enthaltenen Dokumente bzw. Sätze – in vielen Fällen ist jedoch davon auszugehen, dass die Originale auf Englisch verfasst und dann in die anderen Sprachen übersetzt wurden. Verständlicherweise übernimmt die DGT keinerlei Verantwortung für Qualität und Inhalt des TMs.

Ausführliche Informationen enthält die Veröffentlichung DGT-TM: A freely Available Translation Memory in 22 Languages.

Datenaufbereitung

Vor dem Alignment wurden die Dokumente aufbereitet. Dabei wurden beispielsweise überflüssige Leerschritte und Abschnittswechsel gelöscht. Auch Zeilen, die nur Zahlen, Klammern, Satzzeichen u.ä. enthielten, oder Fuß- und Endnoten, die lediglich die Fundstelle im Amtsblatt angaben, wurden entfernt (Einzelheiten zu den Veränderungen siehe langtech.jrc.it). Durch diese und weitere Korrekturen wurden die dem Alignment unterzogenen Dokumente verändert, so dass der Inhalt des DGT-TM nicht mehr unbedingt mit den Originaldokumenten übereinstimmt.

Das Alignment erfolgte nach den Segmentierungsregeln der Generaldirektion Übersetzung der Europäischen Kommission. Als Zusatzinformation der einzelnen TUs wurde bei der Extraktion nur die EUR-Lex-Dokumentennummer beibehalten, aus der sich weitere Informationen wie z.B. Jahr und Dokumenttyp ablesen lassen (Näheres siehe „Die Dokumentennummern der EUR-Lex-Datenbank“ auf www.webjohn.de).

Download des DGT-TM

Das DGT-TM-2011-Paket umfasst 25 ZIP-Dateien (Vol_2004_1.zip bis Vol_2010_4.zip), die jeweils höchstens 100 MB groß sind. Jede ZIP-Datei enthält Hunderte von TMX-Dateien mit der EUR-Lex-Dokumentennummer des zugrundeliegenden Rechtsaktes als Namen und eine Dateiliste im TXT-Format mit Angaben zu den Sprachen, in denen die jeweiligen Dokumente verfügbar sind.

Die ZIP-Dateien des DGT-TM-2011-Paktes können von der JRC-Seite heruntergeladen werden – die „alten“ Dateien des DGT-TM-2007-Korpus werden auf der Seite http://optima.jrc.it/Acquis/DGT_TU_1.0/data/ weiterhin bereitgehalten. Für die TMX-Erstellung im gewünschten Sprachenpaar ist das Extraktionsprogramm TMXtract notwendig, das unter wt.jrc.it/lt/Acquis/DGT_TU_1.0/ExtractionTool/TMXtract.exe zum Download bereitsteht. Der Benutzer muss die heruntergeladenen ZIP-Dateien nicht selbst entpacken, da das Extraktionsprogramm auf die Daten in diesen Dateien direkt zugreift. Die Texte der verschiedenen Sprachen sind über die einzelnen ZIP-Dateien verteilt, so dass für den Erhalt des gesamten Paralleltextkorpus alle Dateien heruntergeladen werden müssen. Grundsätzlich ist es jedoch auch möglich, nur einen Teil der ZIP-Dateien herunterzuladen – man erhält dann ein entsprechend eingeschränktes Paralleltextkorpus.

Das Extraktionsprogramm ist ebenfalls auf den eigenen Rechner herunterzuladen. Es muss im gleichen Verzeichnis wie die angesprochenen ZIP-Dateien gespeichert werden. Das Extraktionsprogramm ist in zwei verschiedenen Versionen verfügbar – einer Version mit grafischer Benutzeroberfläche für das Betriebssystem Windows („TMXtract“) und einer maschinenunabhängigen Version als Java-Bytecode (zur Ausführung ist die Java Runtime Environment ab Version 1.4 erforderlich). Das unter Windows lauffähige Extraktionsprogramm umfasst zwei Dateien: eine Programm-Datei und eine Dynamische Bibliothek (DLL-Datei).

Zweisprachige TMX-Auszüge erstellen

Aus Vereinfachungsgründen wurde bei der Erstellung des DGT-TM Englisch als Ausgangssprache gewählt. Benutzer können jedoch mit dem Extraktionsprogramm TMXtract (für Windows) jedes beliebige Sprachenpaar für die Extraktion festlegen. Die Auszugserstellung ist einfach und umfasst die folgenden Schritte:

  1. Kopieren Sie die ZIP-Dateien, das Extraktionsprogramm TMXtract (EXE-Datei) und die Datei swt-win32-3218.dll auf Ihren PC, und zwar alle in dasselbe Verzeichnis.
  2. Öffnen Sie TMXtract.
  3. Klicken Sie auf die Schaltfläche Quelldateien auswählen und geben Sie die gewünschte(n) Datei(en) an (Vol_2004_1.zip etc.)
  4. Klicken Sie auf Zieldatei angeben (das Ergebnis wird immer in einer Datei gespeichert).
  5. Wählen Sie Quellsprache und Zielsprache.
  6. Klicken sie auf die Schaltfläche Ausführen.

Bei Schritt 3 ist es eventuell ratsam, die ZIP-Dateien einzeln konvertieren zu lassen, da ansonsten die Zieldatei je nach Sprachenpaar sehr groß werden kann (Anhaltswerte zum zu erwartenden Gesamtumfang bietet die JRC-Statistik).

Nach der Extraktion ist es dann möglich, die resultierende(n) TMX-Datei(en) in praktisch jedes Translation-Memory-Tool (Wordfast, SDL Trados, Déjà Vu, MemoQ usw.) zu importieren und dort weiterzuverwenden (Empfehlung für Wordfast-Nutzer: umgewandelte DGT-TM-2007-Auszüge gibt es auf www.wissenschadetnicht.eu). Diese TM-Dateien stellen für professionelle ÜbersetzerInnen einen riesigen terminologischen Fundus dar, der über die Konkordanzsuche des jeweiligen CAT-Tools genutzt werden kann.

Bitte beachten Sie auch die aktuelleren Artikel zum DGT-TM in diesem Blog.

1 Kommentar

  1. Bettina Winterfeld

    Warum kommentiert hier eigentlich niemand und sagt mal, was für tolle Arbeit du hier machst? Lauter interessante und gut recherchierte Artikel, die ich immer gern lese.

    Antworten

Hinterlassen Sie einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.