Übungsaufgaben 02
Simple Sprachdatenverarbeitung auf der Kommandozeile
Übungsaufgabe 02.01: Einen weiteren Text analysieren
Laden Sie von der Website Project Gutenberg einen weiteren englischsprachigen Roman herunter (im Format „Plain Text UTF-8“) und zählen Sie mit Hilfe der Unix-Programmierumgebung dessen Wörter, Zeichen und Zeilen. Erstellen Sie auch eine Wortfrequenzliste dieses Romans.
Übungsaufgabe 02.02: Wortfrequenzlisten ohne Stopwords
Sie haben sicher festgestellt, dass in allen analysierten Texten die häufigsten Wörter ungefähr dieselben sind: Funktionswörter wie the, and usw. Interessanter wird es, wenn wir diese sehr häufigen Wörter, die sogenannten Stopwörter, von vornherein von der Analyse ausschließen – also so tun, als wären sie im Roman nicht vorhanden.
Ihre Aufgabe: Erstellen Sie Wortfrequenzlisten von Pride and Prejudice und Moby Dick, aber diesmal ohne Stopwörter.
Hier können Sie eine Liste englischer Stopwörter als Textdatei herunterladen.
Tipp: Verwenden Sie egrep
, um die Stopwörter aus den Texten
herauszufiltern. Kombinieren Sie dazu die Optionen -x
,
-f
und -v
(siehe Vorlesungsskript 05).
Die Datei mit den Stopwörtern können Sie als eine Liste von Mustern betrachten.
Überlegen Sie: An welcher Stelle müssen Sie das egrep
-Kommando
in die Pipeline einfügen?
Was sind nun die häufigsten Wörter und Pride and Prejudice und in Moby Dick?
Übungsaufgabe 02.03: Häufigkeit einer Wortform unabhängig von Groß- und Kleinschreibung
Laden sie die Wort+Lemma+POS-Frequenzliste des IDS herunter und bauen Sie eine Pipeline, die die Gesamthäufigkeit der Wortform der berechnet – unabhängig davon, mit welcher Wortart und auch unabhängig von der Groß- und Kleinschreibung. Beachten Sie, dass der, Der und DER getrennte Einträge auf der Liste haben und Sie diese also zusammenzählen müssen.