Übungsaufgaben 02

Simple Sprachdatenverarbeitung auf der Kommandozeile

Übungsaufgabe 02.01: Einen weiteren Text analysieren

Laden Sie von der Website Project Gutenberg einen weiteren englischsprachigen Roman herunter (im Format „Plain Text UTF-8“) und zählen Sie mit Hilfe der Unix-Programmierumgebung dessen Wörter, Zeichen und Zeilen. Erstellen Sie auch eine Wortfrequenzliste dieses Romans.

Übungsaufgabe 02.02: Wortfrequenzlisten ohne Stopwords

Sie haben sicher festgestellt, dass in allen analysierten Texten die häufigsten Wörter ungefähr dieselben sind: Funktionswörter wie the, and usw. Interessanter wird es, wenn wir diese sehr häufigen Wörter, die sogenannten Stopwörter, von vornherein von der Analyse ausschließen – also so tun, als wären sie im Roman nicht vorhanden.

Ihre Aufgabe: Erstellen Sie Wortfrequenzlisten von Pride and Prejudice und Moby Dick, aber diesmal ohne Stopwörter.

Hier können Sie eine Liste englischer Stopwörter als Textdatei herunterladen.

Tipp: Verwenden Sie egrep, um die Stopwörter aus den Texten herauszufiltern. Kombinieren Sie dazu die Optionen -x, -f und -v (siehe Vorlesungsskript 05). Die Datei mit den Stopwörtern können Sie als eine Liste von Mustern betrachten.

Überlegen Sie: An welcher Stelle müssen Sie das egrep-Kommando in die Pipeline einfügen?

Was sind nun die häufigsten Wörter und Pride and Prejudice und in Moby Dick?

Übungsaufgabe 02.03: Häufigkeit einer Wortform unabhängig von Groß- und Kleinschreibung

Laden sie die Wort+Lemma+POS-Frequenzliste des IDS herunter und bauen Sie eine Pipeline, die die Gesamthäufigkeit der Wortform der berechnet – unabhängig davon, mit welcher Wortart und auch unabhängig von der Groß- und Kleinschreibung. Beachten Sie, dass der, Der und DER getrennte Einträge auf der Liste haben und Sie diese also zusammenzählen müssen.