Das DGT-TM des Acquis communautaire

Das DGT-TM-Korpus

Mehrsprachiger EU-Rechtstextekorpus im TMX-Format frei verfügbar

Im November 2007 machte die Generaldirektion Übersetzung der Europäischen Kommission (kurz DGT) ein mehrsprachiges Translation Memory (TM) mit dem „Acquis communautaire“ – also dem gemeinschaftlichen Besitzstand des EU-Rechts – erstmalig öffentlich zugänglich. Es enthält amtliche EU-Texte, die bis Ende 2006 erschienen sind. In den Folgejahren erschienen weitere DGT-TM-Versionen („DGT-TM-2011“, „DGT-TM-2012“, „DGT-TM-2013“, „DGT-TM-2014“ und „DGT-TM-2015“), die zusätzliche Texte aus dem Zeitraum 2004 bis 2015 beinhalten (Einzelheiten hier). Über das Internet hat jeder Interessierte Zugriff auf diesen Übersetzungsspeicher in den 24 Amtssprachen der Europäischen Union.

Hintergrund

Bereits im Mai 2006 hatte die Gemeinsame Forschungsstelle (Joint Research Centre – JRC) der Europäischen Kommission einen mehrsprachigen Paralleltextkorpus des Acquis communautaire als „JRC-Acquis“ frei zugänglich gemacht – für die 231 Sprachenpaare, die sich aus der Kombination von damals 22 Amtssprachen der EU ergaben. Bei der bisher letzten Ausgabe von 2014 ist dieser Umfang auf 24 Amtssprachen und 276 Sprachepaare angewachsen.

Der Ausgangspunkt dieser Datenfreigabe ist das allgemeine Bemühen der Europäischen Kommission um die Förderung der Sprachenvielfalt und die einfache Nutzbarkeit von Kommissionsinformationen. Dahinter steht die politische Vorgabe, dass das Gemeinschaftsrecht in den Amtssprachen aller Mitgliedstaaten veröffentlicht werden muss, da es in innerstaatliches Recht eingeht und von allen europäischen Bürgerinnen und Bürgern zu beachten ist. Folglich müssen die Bürger – und die nationalen Gerichte – die Rechtsvorschriften in ihrer eigenen Sprache lesen und verstehen können. Auch in der Vorbereitung neuer Rechtsakte muss auf allen Ebenen – auf europäischer, nationaler und lokaler Ebene – über die jeweiligen Vorschläge beraten werden, und jeder in der Union hat das Recht, in der Amtssprache seiner Wahl zu dieser Diskussion beizutragen.

Der Acquis communautaire ist der „gemeinschaftliche Besitzstand“ des EU-Rechts und umfasst alle Rechtsakte, die für die Mitgliedstaaten der EU verbindlich sind (Europäisches Recht). Zu diesen Rechtsakten gehören Verträge, Verordnungen, Richtlinien und Entscheidungen der Organe der EU und die Entscheidungen des Europäischen Gerichtshofes. Da der Acquis communautaire von jedem Staat, der der EU beitritt, in seinem kompletten Umfang übernommen werden muss, liegt dieser EU-Rechtstextebestand in den mittlerweile 24 Amtssprachen der Europäischen Union vor: Bulgarisch, Dänisch, Deutsch, Englisch, Estnisch, Finnisch, Französisch, Griechisch, Irisch, Italienisch, Kroatisch, Lettisch, Litauisch, Maltesisch, Niederländisch, Polnisch, Portugiesisch, Rumänisch Schwedisch, Slowakisch, Slowenisch, Spanisch, Tschechisch und Ungarisch. Ins Irische als 24. Amtsprache der EU wurde der Acquis communautaire nur in Teilen übersetzt, so dass dieses Teilkorpus weniger umfangreich ist.

dgtlogo

DGT-TM – das Translation Memory der Generaldirektion Übersetzung der Europäischen Kommission

Das DGT-TM ist ein Fundus von Textsegmenten (Sätzen), der durch das Alignment von Texten des Acquis communautaire in 24 Amtssprachen der EU gewonnen wurde. Die Übersetzungseinheiten (TUs – Translation Units) dieses Übersetzungsspeichers stammen aus einem großen gemeinsamen TM der Generaldirektion Übersetzung im europäischen Informationssystem Euramis (European Advanced Multilingual Information System). Das DGT-TM beinhaltet die meisten, aber nicht alle Dokumente des Acquis communautaire sowie einige zusätzliche Dokumente, die nicht zum gemeinschaftlichen Besitzstand gehören. Aus Vereinfachungsgründen wurde bei der Extraktion Englisch als Ausgangssprache gewählt.

Die Reihenfolge der TUs in den extrahierten Dateien des DGT-TM entspricht nicht unbedingt der textlichen Reihenfolge in den zugrundeliegenden Dokumenten. Redundanzen von Textsegmenten (wie beispielsweise „Artikel 1“) sind in einem derartigen Textkorpus dabei nicht zu vermeiden. Die TUs sind mit einem Hinweis auf das Rechtsdokument, aus dem sie stammen, in Form einer Dokumentennummer gekennzeichnet. Dieses Kürzel entspricht der Dokumentennummer, die auch in der EUR-Lex-Datenbank verwendet wird. Es ist jedoch zu beachten, dass die zugrundeliegenden Dokumente bei der Extraktion der Übersetzungseinheiten teilweise bearbeitet wurden und die Originaldokumente daher nicht aus den Einzel-TUs rekonstruiert werden können.

Die einzelnen DGT-TM-Pakete liegen im TMX-Format vor. Diese Satzarchive können zur Erstellung von zweisprachigen Paralleltextkorpora (TMs) herangezogen werden (Näheres unter Zweisprachige TMX-Auszüge erstellen). Das DGT-TM enthält keine Hinweise auf die Ausgangssprache der enthaltenen Dokumente bzw. Sätze – in vielen Fällen ist jedoch davon auszugehen, dass die Originale auf Englisch verfasst und dann in die anderen Sprachen übersetzt wurden. Verständlicherweise übernimmt die DGT keinerlei Verantwortung für Qualität und Inhalt des TMs.

Ausführliche Informationen enthalten die Veröffentlichungen Release 2014 of DGT-TM (parallel corpus in 24 languages) und DGT-TM: A freely Available Translation Memory in 22 Languages.

Datenaufbereitung

Vor dem Alignment wurden die Dokumente aufbereitet. Dabei wurden beispielsweise überflüssige Leerschritte und Abschnittswechsel gelöscht. Auch Zeilen, die nur Zahlen, Klammern, Satzzeichen u.ä. enthielten, oder Fuß- und Endnoten, die lediglich die Fundstelle im Amtsblatt angaben, wurden entfernt (Einzelheiten zu den Veränderungen siehe langtech.jrc.it). Durch diese und weitere Korrekturen wurden die dem Alignment unterzogenen Dokumente verändert, so dass der Inhalt des DGT-TM nicht mehr unbedingt mit den Originaldokumenten übereinstimmt.

Das Alignment erfolgte nach den Segmentierungsregeln der Generaldirektion Übersetzung der Europäischen Kommission. Als Zusatzinformation der einzelnen TUs wurde bei der Extraktion nur die EUR-Lex-Dokumentennummer beibehalten, aus der sich weitere Informationen wie z.B. Jahr und Dokumenttyp ablesen lassen (Näheres unter „Die Dokumentennummern der EUR-Lex-Datenbank“).

Unterschiede zwischen DGT-TM und JRC-Acquis

Die beiden Textkorpora sind einander recht ähnlich, da beide auf dem Acquis communautaire basieren, sie sind jedoch nicht identisch. Die Textbestände DGT-TM und JRC-Acquis unterscheiden sich vor allem in folgenden Punkten:

  • Zwar haben großenteils dieselben Dokumente Eingang in die Textbestände gefunden, diese unterscheiden sich teilweise jedoch aufgrund der unterschiedlichen Art der Textkorpuserfassung. Kein Textbestand entspricht exakt dem Acquis communautaire: Bei der Erstellung des JRC-Acquis galten recht weiche Kriterien (Erfassung aller Dokumente, die in mindestens zehn Sprachen – davon mindestens drei „neuen“ EU-Sprachen – verfügbar waren), so dass der JRC-Acquis umfangreicher ist.
  • Das DGT-TM ist eine Sammlung von Übersetzungseinheiten, aus denen sich der jeweilige Volltext nicht reproduzieren lässt. Der JRC-Acquis ist dagegen vor allem eine Sammlung von Volltexten mit Zusatzinformationen zum Alignment der einzelnen Sätze.
  • Das DGT-TM-2007 ist in großen Teilen mit dem Euramis-Alignmenteditor manuell nachkorrigiert worden, während das DGT-TM-2011 durch das automatische Alignment von Texten gewonnen wurde. Auch beim JRC-Acquis wurde auf die manuelle Nachkorrektur verzichtet. Hier wurden jedoch EuroVoc-Klassifikationen nachträglich manuell zugeordnet.
  • Bei der Bereinigung und Vorbereitung der Texte für das Alignment wurden unterschiedliche Verfahren und Instrumente eingesetzt.

Download des DGT-TM und Erstellung zweisprachiger TMX-Auszüge

Die DGT-TM-Pakete umfassen jeweils mehrere ZIP-Dateien. Jede ZIP-Datei enthält Hunderte von TMX-Dateien mit der EUR-Lex-Dokumentennummer des zugrundeliegenden Rechtsaktes als Namen und eine Dateiliste im TXT-Format mit Angaben zu den Sprachen, in denen die jeweiligen Dokumente verfügbar sind.

Die ZIP-Dateien der einzelnen DGT-TM-Pakte ab der Ausgabe 2011 können von der JRC-Seite heruntergeladen werden – die „alten“ Dateien des DGT-TM-2007-Korpus werden auf der Seite http://optima.jrc.it/Acquis/DGT_TU_1.0/data/ weiterhin bereitgehalten. Für die TMX-Erstellung im gewünschten Sprachenpaar ist ein ebenfalls kostenlos verfügbares Extraktionsprogramm notwendig.

Einzelheiten zum Download der ZIP-Pakete und zum aktuellen Extraktionstools sind im Ü-wie-Übersetzen-Blog in den Artikeln zur jeweiligen DGT-TM-Jahresausgabe angegeben.

Exkurs: Die Dokumentennummern der EUR-Lex-Datenbank

Alle Rechtsakte der Europäischen Union sind in der EUR-Lex-Datenbank öffentlich abrufbar (unter http://eur-lex.europa.eu). In dieser Datenbank ist jeder Rechtsakt mit einer Dokumentennummer (auch „Celex-Nummer“ genannt) gekennzeichnet, die aus einer Reihe von Zahlen und Buchstaben besteht. Anhand dieser Dokumentennummer lässt sich jeder Rechtsakt sowohl im systematischen Verzeichnis als auch im chronologischen Register von EUR-Lex auffinden (am schnellsten durch Eingabe der Celex-Nummer auf der Seite eur-lex.europa.eu/homepage.html).

Die Struktur der Dokumentennummer soll anhand einer typischen 10-stelligen Dokumentennummer erläutert werden.

Beispiel:

3 1999 R 0026
Rechtsbereich Jahreszahl Dokumenttyp Nummer des Rechtsakts
abgeleitetes Gemeinschaftsrecht Jahr des Erlasses bzw. der Veröffentlichung des Rechtsakts Verordnung Verordnung Nr. 0026 des betreffenden Jahres

Die erste Zahl ist die Bereichsnummer: Sie gibt an, in welchen Bereich des Celex-Systems der betreffende Rechtsakt einzuordnen ist. Die vier folgenden Ziffern geben das Erlass- bzw. Veröffentlichungsjahr an. Der darauffolgende Buchstabe (manchmal auch mehrere Buchstaben) ist der Code für den Dokumenttyp, der die Rechtsform des Akts ausweist. Abschließend folgt noch die fortlaufende Nummer des Rechtsaktes im jeweiligen Jahr.

Bereichsnummern (Auszug):
Bereich 1 Verträge: primäres Gemeinschaftsrecht (Verträge zur Gründung der Europäischen Gemeinschaften, Verträge zu ihrer Änderung oder Ergänzung sowie Verträge über den Beitritt neuer Mitgliedstaaten)
Bereich 2 Internationale Abkommen: aus den Außenbeziehungen der Europäischen Gemeinschaften (oder den von den Mitgliedstaaten geschlossenen Verträgen, sofern sie die Außenbeziehungen der Gemeinschaften betreffen) hervorgegangenes Recht
Bereich 3 Rechtsvorschriften: abgeleitetes, also sekundäres Gemeinschaftsrecht
Bereich 4 Komplementärrecht (Beschlüsse der im Rat vereinigten Vertreter der Regierungen der Mitgliedstaaten, zwischen den Mitgliedstaaten in Anwendung der Vertragsbestimmungen geschlossene Völkerrechtsabkommen, zwischen den Mitgliedstaaten geschlossene internationale Übereinkünfte)
Bereich 5 Gesetzgebungsvorarbeiten (Vorschläge der Kommission, Stellungnahmen, Initiativanträge und Entschließungen des Europaparlaments, Stellungnahmen des Wirtschafts- und Sozialausschusses, Programme, Berichte und Mitteilungen der Kommission etc.)
Bereich 6 Rechtsprechung
Bereich 7 Nationale Durchführungsmaßnahmen (Umsetzungen der Richtlinien in nationales Recht)
Bereich 9 Parlamentarische Anfragen
Bereich 0 Konsolidierte Dokumente
Dokumenttypen für die Bereiche 2 bis 5 (Auszug):
A Übereinkünfte, Stellungnahmen
B Haushalt
D Rechtsakte von durch internationale Übereinkünfte geschaffenen Organen (im Bereich 2) bzw. Beschlüsse (im Bereich 3 und 4)
DC Sonstige Dokumente der Kommission (Grünbücher, Weißbücher, Mitteilungen, Berichte usw.)
K EGKS-Empfehlungen
L Richtlinien
PC Legislativvorschläge der Kommission
R Verordnungen
S Allgemeine EGKS-Entscheidungen
X Sonstige Rechtsakte oder Dokumente

 

Weiterführende Hinweise finden sich auf der Website der Universität Konstanz und der EUR-Lex-Datenbank.

Anmerkung:

Die erste Druckausgabe dieses (hier gekürzten, aber auch nachträglich leicht aktualisierten) Artikels finden Sie in „FORUM“, der Verbandszeitschrift von ATICOM – die PDF-Ausgabe vom Juni 2008 ist auf der ATICOM-Website online abrufbar.

Alle Auskünfte nach bestem Wissen, aber ohne Gewähr.

Hinterlassen Sie einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.