Erstellung eines Korpus

Tagged:  •    •    •    •  

Ziel dieser Arbeit war es ein Korpus zu erstellen, das aus mindestens 100.000 Wörtern besteht. Dazu wurden in einem Zeitraum von ca. drei Wochen Texte aus den Online-Ausgaben verschiedener deutscher Zeitungen gesammelt. Diese Auswahl erhebt nicht den Anspruch, repräsentativ für die deutsche Sprache zu sein. Das Korpus besteht aus 163 Texten, die aus neun verschiedenen Medien ausgewählt wurden. Die Gesamtzahl der Wörter betrug zunächst 102.801.

Das folgende Diagramm zeigt wie der relative Anteil der verschiedenen Medien an der Gesamtzahl der Wörter des Korpus ist.

Relativer Anteil der einzelnen Medien

Der Gesamttext wurde mit Hilfe des Konkordanzprogramms Monopro in eine Wortliste umgewandelt, die nach der Häufigkeit der Wörter sortiert wurde. Nach einer groben Durchsicht dieser Liste fiel auf, dass einige Sonderzeichen (z.B. Anführungszeichen) im Text für falsche Zählungen der Wörter sorgten. So tauchte in der Liste z.B. das mit der dazugehörigen Häufigkeitszahl auf. Aus diesem Grund wurden die Zeichen nachträglich entfernt und einige weitere Korrekturen im Text vorgenommen. Eine Überschrift wie beispielsweise U S W A H L wurde in US WAHL geändert. Es kann nicht ausgeschlossen werden, dass sich noch weitere Fehlerquellen im Text befinden. Nach der Korrektur beträgt die Anzahl der Wörter 101.844. Diese Zahl wurde mit der Funktion Wörter zählen des Texteditors UltraEdit ermittelt. Monopro scheint anders zu zählen und kommt auf eine Anzahl von 102.328 Wörtern. Anhand der von Monopro ermittelten Zahl wurden dann auch die relativen Häufigkeiten der Wörter berechnet.

Das nächste Diagramm zeigt welches die 20 häufigsten Wörter des Korpus sind, und wie ihr relativer Anteil am Gesamttext ist:

Die 20 häufigsten Wörter

Im Korpus kommen 22.049 verschiedene Wörter vor, dazu zählen auch Zahlen und Eigennamen. Es gibt allerdings nur 7756 Wörter, die häufiger als einmal und 4654 Wörter, die häufiger als zweimal vorkommen.

Das Korpus kann hier als gezippte Textdatei heruntergeladen werden.

Post new comment

The content of this field is kept private and will not be shown publicly.
  • Web page addresses and e-mail addresses turn into links automatically.
  • Allowed HTML tags: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd> <p> <br>

More information about formatting options