Vorlesunggskript 01
Sprachdaten
In der Computerlinguistik ist Programmieren eine zentrale Fertigkeit. Wer anwendungsorientiert arbeitet, will Programme erstellen, die Benutzern, Firmen und Organisationen helfen – zum Beispiel Programme zur automatischen Übersetzung, digitale Assistenten oder Systeme, die strukturierte Informationen aus Text extrahieren. Wer theoretisch arbeitet, will mehr darüber herausfinden, wie menschliche Sprache funktioniert, und benutzt Computer, um zu diesem Zweck Daten zu analysieren. In diesem Fall muss man programmieren, um die benötigten Informationen aus den Daten zu extrahieren und dem Computer zu sagen, welche Analysen genau er durchführen soll.
Welche Art von Computerlinguistik Sie auch betreiben, ein nicht unerheblicher Teil Ihrer Arbeit wird daraus bestehen, Programme zu schreiben, die Sprachdaten verarbeiten. Sprachdaten gibt es in vielen Formen. „Rohdaten“ können zum Beispiel Audiodateien mit Aufzeichnungen gesprochener Sprache oder Textdateien mit geschriebener Sprache sein.
A defunct Russian communications satellite has smashed into a U.S. satellite in orbit, creating a possible risk to the International Space Station. U.S. officials say this is the first time two whole satellites ever crashed into each other in space. They collided Tuesday about 780 kilometers above Siberia, creating a huge explosion with many pieces of debris. The U.S. space agency, NASA, said the floating satellite parts create a small risk to the International Space Station, which flies at a lower orbit than where the collision took place. But NASA says it will be weeks before the full magnitude of the collision is known. Scientists say there are thousands of pieces of space junk orbiting the Earth, including old satellites and burned-out rocket boosters.
Neben Rohdaten spielen annotierte Daten eine wichtige Rolle. Das sind Rohdaten mit Zusatzinformationen (Annotationen), die von Linguisten in oft mühsamer Arbeit hinzugefügt worden sind. Aufzeichnungen gesprochener Sprache können z.B. mit Transkriptionen annotiert sein, also mit Verschriftlichungen des Gesagten. Morphosyntaktische Annotation gibt die Wortart jedes Wortes an, so wie auch Kasus, Genus, Numerus und andere grammatische Eigenschaften. Syntaktische Annotation gibt die Struktur von Sätzen und die grammatischen Beziehungen zwischen Wörtern an. Es gibt viele Arten von semantischer Annotation. Sie kann zum Beispiel die Bedeutung potenziell mehrdeutiger Wörter angeben oder ob ein Text positiv oder negativ über seinen Gegenstand spricht. Das sind nur einige wenige Beispiele der vielen Arten von Annotation, mit denen in der Linguistik und in der Computerlinguistik gearbeitet wird.
<tier id="TIE0" speaker="SPK0" category="v" type="t" display-name="MOD [v]">
<event start="T1" end="T2">• •</event>
<event start="T2" end="T3">((nefes alır))</event>
<event start="T3" end="T4">Buyrun efendim.</event>
<event start="T4" end="T5">İyi günler.</event>
<event start="T7" end="T8">
I bugün bizim telefonlara sadece bayanlar bağalanıyor dikkatimi çekiyor.
</event>

#BOS 1 1 985275570 1 Mögen VMFIN 3.Pl.Pres.Konj HD 508 Puristen NN Masc.Nom.Pl.* NK 505 aller PIDAT *.Gen.Pl NK 500 Musikbereiche NN Masc.Gen.Pl.* NK 500 auch ADV -- MO 508 die ART Def.Fem.Akk.Sg NK 501 Nase NN Fem.Akk.Sg.* NK 501 rümpfen VVINF -- HD 506 , $, -- -- 0 die ART Def.Fem.Nom.Sg NK 507 Zukunft NN Fem.Nom.Sg.* NK 507 der ART Def.Fem.Gen.Sg NK 502 Musik NN Fem.Gen.Sg.* NK 502 liegt VVFIN 3.Sg.Pres.Ind HD 509 für APPR Akk AC 503 viele PIDAT *.Akk.Pl NK 503 junge ADJA Pos.*.Akk.Pl.St NK 503 Komponisten NN Masc.Akk.Pl.* NK 503 im APPRART Dat.Masc AC 504 Crossover-Stil NN Masc.Dat.Sg.* NK 504 . $. -- -- 0 #500 NP -- GR 505 #501 NP -- OA 506 #502 NP -- GR 507 #503 PP -- MO 509 #504 PP -- MO 509 #505 NP -- SB 508 #506 VP -- OC 508 #507 NP -- SB 509 #508 S -- MO 509 #509 S -- -- 0 #EOS 1
( (S (NP (NP Pierre Vinken) , (NP (NP 61 years) (ADJP old)) ,) will (VP join (NP the board) (PP as (NP a nonexecutive director))) (NP Nov. 29)) .) ( (S (NP Mr. Vinken) (VP is (NP chairman (PP of (NP (NP Elsevier N.V.) , (NP the Dutch publishing group)))))) .)
0 I hate Harry Potter. 0 Brokeback Mountain was boring. 0 by the way, the Da Vinci Code sucked, just letting you know... 1 Love luv lubb the Da Vinci Code! 1 I love the Harry Potter series if you can count that as " a " book, also Catcher In the Tye, Jane Eyre, The Virgin Suicides, yeah... 1 Brokeback Mountain was an AWESOME movie.
Neben rohen und annotierten Sprachdaten gibt es auch lexikalische Datenbanken. Diese enthalten Informationen über Wörter, wie zum Beispiel ihre Orthographie, Aussprache, Häufigkeit, Flexion, Herkunft, Bedeutungen, Verwendungsbeispiele, Übersetzungen etc.
war sein VAFIN 22753539 zum zum APPRART 21446033 zu zu APPR 21134020.5941173 noch noch ADV 21036396.8294204 einer eine ART 20786224.0699501 einem eine ART 20520277.821509 einen eine ART 19680377.0224296 über über APPR 19296975.3210329 wurde werden VAFIN 19178955 werden werden VAINF 18432868.8409182
Wenn Sie in der Computerlinguistik Programme schreiben, ist deren Aufgabe oft, Daten einzulesen, Teile herauszufiltern, die für Ihr aktuelles Problem keine Rolle spielen, und die verbleibenden Teile in einem neuen Format ausgeben oder Berechnungen damit durchführen, die helfen, Ihr Problem zu lösen. Aber was ist eigentlich ein Programm? Und welche Arten von Programmen können wir unterscheiden?