Vorlesunggskript 01

Sprachdaten

In der Computerlinguistik ist Programmieren eine zentrale Fertigkeit. Wer anwendungsorientiert arbeitet, will Programme erstellen, die Benutzern, Firmen und Organisationen helfen – zum Beispiel Programme zur automatischen Übersetzung, digitale Assistenten oder Systeme, die strukturierte Informationen aus Text extrahieren. Wer theoretisch arbeitet, will mehr darüber herausfinden, wie menschliche Sprache funktioniert, und benutzt Computer, um zu diesem Zweck Daten zu analysieren. In diesem Fall muss man programmieren, um die benötigten Informationen aus den Daten zu extrahieren und dem Computer zu sagen, welche Analysen genau er durchführen soll.

Welche Art von Computerlinguistik Sie auch betreiben, ein nicht unerheblicher Teil Ihrer Arbeit wird daraus bestehen, Programme zu schreiben, die Sprachdaten verarbeiten. Sprachdaten gibt es in vielen Formen. „Rohdaten“ können zum Beispiel Audiodateien mit Aufzeichnungen gesprochener Sprache oder Textdateien mit geschriebener Sprache sein.

Eine Audiodatei mit gesprochener Sprache. Quelle: EXMARaLDA Demo Corpus 1.0
A defunct Russian communications satellite has smashed into a U.S. satellite in
orbit, creating a possible risk to the International Space Station.
U.S. officials say this is the first time two whole satellites ever crashed
into each other in space.
They collided Tuesday about 780 kilometers above Siberia, creating a huge
explosion with many pieces of debris.
The U.S. space agency, NASA, said the floating satellite parts create a small
risk to the International Space Station, which flies at a lower orbit than
where the collision took place.
But NASA says it will be weeks before the full magnitude of the collision is
known.
Scientists say there are thousands of pieces of space junk orbiting the Earth,
including old satellites and burned-out rocket boosters.
Eine Textdatei mit geschriebener Sprache. Quelle: Voice of America

Neben Rohdaten spielen annotierte Daten eine wichtige Rolle. Das sind Rohdaten mit Zusatzinformationen (Annotationen), die von Linguisten in oft mühsamer Arbeit hinzugefügt worden sind. Aufzeichnungen gesprochener Sprache können z.B. mit Transkriptionen annotiert sein, also mit Verschriftlichungen des Gesagten. Morphosyntaktische Annotation gibt die Wortart jedes Wortes an, so wie auch Kasus, Genus, Numerus und andere grammatische Eigenschaften. Syntaktische Annotation gibt die Struktur von Sätzen und die grammatischen Beziehungen zwischen Wörtern an. Es gibt viele Arten von semantischer Annotation. Sie kann zum Beispiel die Bedeutung potenziell mehrdeutiger Wörter angeben oder ob ein Text positiv oder negativ über seinen Gegenstand spricht. Das sind nur einige wenige Beispiele der vielen Arten von Annotation, mit denen in der Linguistik und in der Computerlinguistik gearbeitet wird.

<tier id="TIE0" speaker="SPK0" category="v" type="t" display-name="MOD [v]">
  <event start="T1" end="T2">• •</event>
  <event start="T2" end="T3">((nefes alır))</event>
  <event start="T3" end="T4">Buyrun efendim.</event>
  <event start="T4" end="T5">İyi günler.</event>
  <event start="T7" end="T8">
I bugün bizim telefonlara sadece bayanlar bağalanıyor dikkatimi çekiyor.
</event>
“Score” view of transcribed speech
Auszug aus Transkription gesprochener Sprache im XML-Format (oben) und als „Partitur“ visualisiert (unten). Quelle: EXMARaLDA Demo Corpus 1.0
#BOS 1 1 985275570 1
Mögen                   VMFIN   3.Pl.Pres.Konj  HD      508
Puristen                NN      Masc.Nom.Pl.*   NK      505
aller                   PIDAT   *.Gen.Pl        NK      500
Musikbereiche           NN      Masc.Gen.Pl.*   NK      500
auch                    ADV     --              MO      508
die                     ART     Def.Fem.Akk.Sg  NK      501
Nase                    NN      Fem.Akk.Sg.*    NK      501
rümpfen                 VVINF   --              HD      506
,                       $,      --              --      0
die                     ART     Def.Fem.Nom.Sg  NK      507
Zukunft                 NN      Fem.Nom.Sg.*    NK      507
der                     ART     Def.Fem.Gen.Sg  NK      502
Musik                   NN      Fem.Gen.Sg.*    NK      502
liegt                   VVFIN   3.Sg.Pres.Ind   HD      509
für                     APPR    Akk             AC      503
viele                   PIDAT   *.Akk.Pl        NK      503
junge                   ADJA    Pos.*.Akk.Pl.St NK      503
Komponisten             NN      Masc.Akk.Pl.*   NK      503
im                      APPRART Dat.Masc        AC      504
Crossover-Stil          NN      Masc.Dat.Sg.*   NK      504
.                       $.      --              --      0
#500                    NP      --              GR      505
#501                    NP      --              OA      506
#502                    NP      --              GR      507
#503                    PP      --              MO      509
#504                    PP      --              MO      509
#505                    NP      --              SB      508
#506                    VP      --              OC      508
#507                    NP      --              SB      509
#508                    S       --              MO      509
#509                    S       --              --      0
#EOS 1
Text mit morphosyntaktischer Annotation in der zweiten und dritten Spalte. Quelle: NEGRA Korpus
( (S (NP (NP Pierre Vinken) , (NP (NP 61 years) (ADJP old)) ,) will (VP join (NP the board) (PP as (NP a nonexecutive director))) (NP Nov. 29)) .) ( (S (NP Mr. Vinken) (VP is (NP chairman (PP of (NP (NP Elsevier N.V.) , (NP the Dutch publishing group)))))) .) 
Text mit syntaktischer Annotation. Quelle: Penn Treebank (Marcus et al. 1993)
0	I hate Harry Potter.
0	Brokeback Mountain was boring.
0	by the way, the Da Vinci Code sucked, just letting you know...
1	Love luv lubb the Da Vinci Code!
1	I love the Harry Potter series if you can count that as " a " book, also Catcher In the Tye, Jane Eyre, The Virgin Suicides, yeah...
1	Brokeback Mountain was an AWESOME movie.
Als positiv/negativ annotierte Bewertungen. Quelle: Kaggle/University of Michigan

Neben rohen und annotierten Sprachdaten gibt es auch lexikalische Datenbanken. Diese enthalten Informationen über Wörter, wie zum Beispiel ihre Orthographie, Aussprache, Häufigkeit, Flexion, Herkunft, Bedeutungen, Verwendungsbeispiele, Übersetzungen etc.

war	sein	VAFIN	22753539
zum	zum	APPRART	21446033
zu	zu	APPR	21134020.5941173
noch	noch	ADV	21036396.8294204
einer	eine	ART	20786224.0699501
einem	eine	ART	20520277.821509
einen	eine	ART	19680377.0224296
über	über	APPR	19296975.3210329
wurde	werden	VAFIN	19178955
werden	werden	VAINF	18432868.8409182
Auszug aus einer lexikalischen Datenbank. Für jede Wortform sind die Grundform, die Wortart und Informationen zur Häufigkeit angegeben. Quelle: DeReWo

Wenn Sie in der Computerlinguistik Programme schreiben, ist deren Aufgabe oft, Daten einzulesen, Teile herauszufiltern, die für Ihr aktuelles Problem keine Rolle spielen, und die verbleibenden Teile in einem neuen Format ausgeben oder Berechnungen damit durchführen, die helfen, Ihr Problem zu lösen. Aber was ist eigentlich ein Programm? Und welche Arten von Programmen können wir unterscheiden?