Donnerstag, 11. September 2008

Kettentransformation für Maschinelle Übersetzung

QIAO Yi


Kettentransformation für Maschinelle Übersetzung

(Referat anläßlich der zusätzlichen interdisziplinären Hochqualifikation SLIT an der Universität /GH Paderborn)

Es ist uns bekannt, daß bei der Maschinellen Übersetzung (MÜ) drei Hauptvorgänge vorhanden sind, nämlich Analyse (A), Transformation (T) und Synthese (S). Darunter könnte die Transformation ganz alleine oder in Verbindung mit Analyse bzw. Synthese durchgeführt werden. Bei uns ist der Hauptanlaß der MÜ die Übertragung verschiedener Fremddsprachen ins Chinesische. Deshalb ist das da übliche benutzte Verfahren die relative Analyse mit der unabhängigen Synthese (AT* S). Nach dem Algorithmus des Systems TMFC enthält die relative Analyse die Parsings von Maschinewörterbüchern und Grammatikreglungsparsern. Die Aufgabe der Synthese ist Wiederanpassung der Wortfolge für die Zielsprache.
Der Algorithmus des Systems besteht aus 6 Unterprogrammen. Bei den Lexikalparsings gibt es drei darunter, d.h.

1) Parsing durch das Hauptmaschinewörterbuch mit Trennung der morphologischen Endungen;
2) Parsing durch das Untermaschinewörterbuch der Fügungen, Wendungen bzw. Idiome;
c) Parsings durch die Untermaschinewörterbücher von Homonymen, Polynymen und Syntagmen.


Bei den Grammatikparsings sind verfügbar die folgenden drei Unterprogrammen:

1) Verarbeitung von Verben, Interpunktionen und Konjunktionen;
2) Verarbeitung der Substantive;
3) Analyse der Syntax.

Die Synthese der Zielsprache ist so durchgeführt, indem die Wortfolge anhand einer Intersprache angepaßt wird.
Bei der MÜ gibt es drei Phasen der Kettentransformationen. Nach den Nachschlagen der Maschinewörterbücher entsteht die primäre Zeichenkette, die die Oberflächestruktur der Ausgangsprache darstellt. Die intermediäre Zeichenkette baut sich auf der grammatischen Analyse auf, indem jede Wortgruppe ein Transformationskonstituent bekommt zur Darstellung der Tiefstruktur. Die Konsequenz der Transformationen bei der Synthese ist die Terminalkette, deren Wortfolge schon tauglich für die Ausgabe der Zielsprache ist. Dies wird beim Generierungsbaum dargestellt.
Der Kern des Systems ist die kontrastive Anaylse (AT), dadurch die Transformationskonstituenten von der Ausgangsprache zur Zielsprache ausgerechnet werden. Wiederanpassung der Wortfolge ist die Hauptaufgabe der MÜ. Vier Aspekte bestehen im Transformationskonstituent eines Syntagmas, nämlich:

1) Die Änderung der Wortfolge;
2) Das Zusammensein der Präposition;
3) Die Rolle der Syntax;
4) Die Ebene der Valenz.

Das Ganze der Transformationskonstituenten eines Satzes wird als Intersprache des Satzes genannt.
Jedes Syntagma (Wortgruppe) wird durch die Sequenznummer des Zentralwortes bezeichnet, das in den Klammern zum Kettenzusammenziehen steht. Auf der Basis der Umwandlung der Satzkette wird der Transformationsbaum konstruiert. Schließlich besteht die zusammengezogene Satzkette aus nur drei Teilen: das Subjekt, das Prädikat und das Objekt. Anhand der Ästen der Terminalkette kann man den Generierungsbaum konstruieren. Das Verfahren der Synthese wird durch die Baumknoten mit Etiketten bezeichnet. Die Ästen sind tatsächlich die semantischen Bestandteile der Zielsprache in der richtigen Kettensreihenfolge.

Eine weitere Diskussion

1) Eine Übersicht über die Maschinelle Übersetzung

Die Maschinelle Übersetzung ist ein Anwendungsbereich der EDV und ein interdisziplinärer Forschungsbereich zwischen Linguistik und Informatik.
MÜ - eine Übersetzung von Texten aus einer natürlichen Sprache in eine andere durch den Computer - gehört zu den schwierigsten Bereichen der modernen Sprachwissenschaft und Künstlicher Intelligenz.

Am Institut der Linguistik der Chinesischen Akademie der Sozialwissenschaften hat der Author ein MÜ- System TMFC (Traduction à la Machine du Français en Chinois) entwickelt. Dieses System übersetzt automatisch anhand programierten Computers 100 französische fortlaufende Sätze ins Chinesische. Der Text beziet sich auf Astronomie.

2) Worüber muß die MÜ verfügen?

Die MÜ, die vergleichbar mit den menschlichen Übersetzern ist, muß ebenfalls über die Wortinventare und die grammatischen Regelungssysteme in Ausgangs-. und Zielsprachen verfügen. Diese werden jeweils als Maschinwörterbuch und maschinelle Grammatik genannt.
Jedes System der MÜ hat eigenen Algorithmus mit entsprechendem linguistischem Modell. Bei dem System TMFC spielen die linguistischen Doktrine Valenz- und Dependenzgrammtik von Tesnière und Transformationsgrammatik von Noam Chomsky eine wichtige Rolle. Das linguistische Modell des Systems baut sich auf Kettentransformation auf.
Selbstverständlich benötigt MÜ Programmierung des Computers, die dem gewissen Algorithmus nach die Parsings des Übersetzungsvorgangs steuern muß.


3) Wieviele Parsings gibt es beim System TMFC?

Bei der MÜ sind 3 Hauptverfahren vorhanden, nämlich Analyse (A), Transformation (T) und Synthese (S). Wenn die Transformation in Verbindung mit Analyse durchgeführt wird, heißt das System der MÜ relative Analyse und unabhängige Synthese (AT*S). Das ist der Fall des Systems TMFC, das den Text aus Französisch ins Chinesische automatisch übersetzen kann.
Nach dem Algorithmus des Systems TMFC beziet sich die relative Analyse auf 6 Parsings anhand maschineller Wörterbücher (I) und maschineller Grammatik(II), jeweils 3 Parsers:

I. Lexikalische Pasers:
a) Verarbeitung der morphologischen Endungen;
b) Parsing durchs Untermaschinewörterbuch der Fügungen und Wendungen;
c) Parsings durch die Untermaschinewörterbücher der Homonyme, Polynyme und Syntagmen.

II Syntaktische Parsers:
a) Verarbeitung der Verben, Interpunktionen und Konjunktionen;
b) Verarbeitung der Substantive;
c) Parsing der Syntax.

Die 2 Parsings der Synthese beziehen sich auf Wiederanpassung der Wortfolge für die Zielsprache. Sie werden innerhalb der zusätzlichen Ebenen B & C sowie der unmittelbaren Ebenen A eines Satzes durchgeführt.

Insgesamt gibt es 8 Parsings beim System TMFC.


4) Was für eine Rolle spielt das Maschinewörterbuch?

Das Hauptmaschinewörterbuch enthält zahlreiche statische Informationen für die Übersetzungen, z.B. Wortklasse, semantische Faktoren, Genus, Valenz, Tansformationsparameter, Anschluß zu den Unterwörterbüchern, u.s.w. Beim Parsing der getrennten morphologischen Endungen kann man noch die zusätzlichen dynamischen Informationen der Wörter kriegen, z.B.verschiedene Inflextionsinformationen.
Es gibt vier Untermaschinewörterbücher, d.h. Unterwörterbuch der Fügungen und Wendungen, und Unterwörterbücher jeweis von Homonymen, Polynymen und Syntagmen. Wenn ein französisches Wort lexikalisch mehrdeutig ist, soll es weiterhin durch Parsing im Polysemwörterbuch eindeutig gemacht werden.

5) Was ist der Schwerpunkt der Kettentransformation?

Ein Satz ist eine Zeichenkette. Beim System TMFC sind verfügbar 3 Kettenzustände mit entsprechenden Kettentransformationen.
1) Nach der lexikalischen Parsing anhand der Maschinenwörterbücher entsteht die primäre Kette, die die Oberflächestruktur der Ausgangsprache darstellt. Bei dieser Kette ist die lexikalische Ambiguität bereits beseitigt worden.
2) Auf dem syntaktischen Parsings baut sich die intermediäre Kette auf, indem jedes Syntagma ein Transformationskonstituent bekommt zur Darstellung der Tiefstruktur. Bei dieser Kette ist syntaktische Ambiguität bereits beseitigt.
3) Die Konsequenz der Transformationen bei der Synthese zeigt die Terminalkette, deren Wortfolge bereits der Zielsprache anpaßt. Die Terminalkette stellt die Oberflächestruktur der Zielsprache dar.

Der Schwerpunkt der Kettentransformation basiert auf die Umwandlung von der intermediären Kette zur Terminalkette durch die kontrastiven Parsings anhand der Dependenzgrammatik. Diese Umwandlung ist eine wessentliche Transformation von der Ausgangsprache zur Zielsprache.


6) Wie sieht ein Transformationsbaum aus?

Transformationsbaum präsentiert die Durchführung der Anweisungen nach den Transformationskonstituenten. Wie gesagt, nach dem syntaktischen Parsing wird dieKonstruktion der Satzkette zusammengezogen. Dadurch steht die intermediäre Kette zur Verfügung. Die intermediäre Kette besteht aus verschiedenen Syntagmen, z.B. GN (groupe du nom), GV (groupe du verbe) u.s.w. Für jede Funktionsgruppe bezeichnet ein Transformations-konstituent über die Dependenzbeziehungen, die Valenzwert, die Satzebene sowie die Kontrast- und Transformationsanweisungen für die Wiederanpassung der Wortfolge der Zielsprache. Beim Transformationsbaum bestehen die Anweisungen der Kettentransformation von Tiefstruktur zur Oberflächestruktur. Beispielsweise soll das folgende französische präpositionale Argument nach vorne gestellt werden im Syntagma: problèmes particuliers posés par les principales planètes falls Übersetzung ins Chinesische: P3+GN5=20GP 20GP+GN4=19GN4 u.s.w. Das Ergebnis ist vergleichbar mit der deutschen Übersetzung: von dem großen Planeten gestellte besondere Probleme.
Auf diese Weise wird die Wortfolge total geändert. In diesem Sinne bietet der Transformationsbaum das Vorfahren der Umwandlung von der intermediären Kette zur Terminalkette eines Satzes an..
Die Resultat der Synthese präsentiert der Generierungsbaum. Mit den Ästen der Terminalkette kann man einfach den Generierungsbaum aufbauen. An den Knoten stehen verschiedene Etiketten, die das Ergebnis der Synthese der Zielsprache darstellen, z.B. "19GN4". Bei der Synthse werden dieTransformationsanweisungen durchgeführt.. Mit der Ausführung der Transformationen anhand des Transformationsbaums ist der Generierungsbaum bereits verfügbar. Dadurch kann man ohne Schwierigkeit die Ausgabe der Zielsprache schaffen.

Was für eine Programierungssprache ist beim System TMFC eingesetzt?

Die Programierungssprache beim Prototype System TMFC ist COBOL. Es gibt insgesamt 12 Parsings der Programme mit ca. 7000 Anweisungen, dadurch weden 100 Sätze automatisch aus dem Französischen ins Chinesische übersetzt. Der damals benutzte Computer war der Großrechner Univac 1100 von den USA.
Für die lexikalischen Parsings haben wir vier Programmen: Aufbau und Nachschlage des Haupt- und idiomatikmaschinewörterbuchs. Für die Analyse der Ambiguität und der Syntax haben wir sechs Programmen: Homonyme & Polynyme; Verben, Interpunktionen & Konjunktionen; Substantive; Dependenz & Valenz; Syntaktische Analyse; und Synthese. Außerdem gibt es noch zwei Programmen für den Ausdruck der Verarbeitungsdokumente und die Ausgabe der Zielsprache. Selbstverständlich sind die notwendigen Sprachedaten, darauf die Programme sich auswirken, unentbehrlich.
Die Maschinewörterbuch ist eine Indexdatei. Die Wörtersind in der Stammform alphabetischangeordnet. Nachschlagen im Wörterbuch baut sich auf den Algorithmus von "Zweiteilung und Endungstrennung" auf.
Bei den Parsingprogrammen kommen viele Unterprogramme vor, die verschiedene fundamentale Rollen der Textverarbeitung spielen können, z.B. Abtastung über einen bestimmten Kettensumfang, Wortnehmen nach links bzw. nach rechts, Wortnummer angeben, Worteinfügen von links bzw. von rechts, und Wiederanpassung der Wortfolge.

Kettentransformation der TMFC mit einem Beispielssatz

1) Ein französischer Satz in seinem ursprünglichen Wortfolge. Eingabe der Ausgangsprache:

La1 particularité2 la3 plus4 remarquable5 de6 la7 planète8 est9 le10 système11 d'12 anneaux13 plats14 l'15 entourant16 dans17 la18 plan19 de20 l'21 équateur22 .23

2) Das Hauptmaschinewörterbuch gibt die fundamentalen lexikalischen Informationen an, noch vorhanden ist die Ambiguität der Wortklassen:

R/D1 N2 R/D3 (F)4 A5 D/P6 R/D7 N8 V9 D10 [N11 D/P12 N13 A14] R/D15 V16 P17 R/D18 N19 D/P20 R/D21 N22 .23

Darunter D= Artikel, R= Pronome, N= Substantiv, F=Adverb, A= Adjektiv, P=Präposition, V=Verb; R/D entweder Pronome oder Artikel; (F)=Mehrdeutigkeit, z.B. plus ist vergleichbar mit more oder most im Englischen; [...] Idiome bzw. Fügungen.

3) Nach dem Parsing der Untermaschinewörterbücher wird die vollständige primäre Satzkette verfügbar:

D1 N2 D3 F4 A5 P6 D7 N8 V9 D10 N(11) R15 V16 P17 D18 N19 P20 D21 N22 .23

4) Nach dem syntaktischen Parsing zieht die Kettenstruktur zusammen.Dadurch entsteht die intermediäre Satzkette. Jedes Syntagma wird durch einen Transformationskonstituent und einer Ziffer des Zentralwortes bezeichnet:

GN1 P1 GN2 GV GN3 R V-ant P2 GN4 P3 GN5 .
(2) 6 (8) 9 ((11)) 15 16 17 (19) 20 (22)
SA LPMB Präd OA ROB LMC LPEB LPMB

5) Die weitere Transformation und Zusammenziehen der Satzkette bei der Synthese:

* P3 + GN5 = (20)GP
* (20)GP + GN4 = ((19))GN4
* P2 + ((19))GN4 = (17)GP
* (17)GP + V-ant = (16)V-ant
* (16)V-ant + R = ((16))V-ant
* ((16))V-ant +GN3 = (((11)))GN3
* P1 + GN2 = (6)GP
* (6)GP + GN1 = ((2)) GN1

6) Der Transformationsbaum

7) Der Generierungsbaum

8) Mit den Syntagmen der intermediären Satzkelle kann man den Satz der Zielsprache synthetisieren. Dadurch entsteht die Terminalkette, deren Wortfolge bereits ganz geändert ist:

{ P1 GN2 Gn1 Gv P2 P3 Gn5 Gn4 V-ant R Gn3 .}

9) Anhand der Wort-für-Wort-Übertragung von der Terminalkette kann man endlich die Zielsprache ausgeben:

F: de la planète # la la plus remarquable particularité est dans
C: gai xíngxing de zuì xianzùde tèzheng shì zài
D: des Planeten die auffallendeste Eigenschaft ist entlang

F: de l' équateur # le plan entourant l' # le [système d'anneaux plats]
C: chìdào de píngmiàn huánrào ta de guanghuán-xìtong
D: der Äquators- Ebene umkreisender ihn Lichtring

Zielsprache: Gai xíngxing de zuì xianzùde tèzheng shì zài chìdào de píngmiàn huánrào ta de guanghuán xìtong.
( Die auffallendeste Eigenschaft des Planeten ist der Lichtring, der ihn der Äquatorsebene entlang umkreist. bzw. Die auffallendeste Eigenschaft des Planeten ist der ihn der Äquatorsebene entlang umkreisender Lichtring.)

Labels:

0 Kommentare:

Kommentar veröffentlichen

Abonnieren Kommentare zum Post [Atom]

<< Startseite