Verwendete Prozesskette - Leipzig Corpora Collection

Informationen zur verwendeten Prozesskette

Die standardisierte Prozesskette zur Korpuserstellung enthält die folgenden Schritte:

Webcrawling
Entfernen von HTML (bzw. XML für Wikipedia)
Dokumentenbasierte Sprachidentifikation
Satzsegmentierung
Entfernung von Satzdubletten
Musterbasierte Satzsäuberung
Satzbasierte Sprachidentifikation
Korpuserstellung
- Tokenisierung und Wortindizierung
- Worthäufigkeitsberechnung
- Berechnung von Wortkookkurrenzen
Optionale Nachbearbeitung (abhängig von der Verfügbarkeit der entsprechenden Werkzeuge)
- POS-Tagging: Zuordnung von Wörtern zu ihrer Wortart
- Lemmatisierung
- Erkennung und Entfernung von Quasi-Dubletten von Sätzen
- Wortähnlichkeit basierend auf Kookkurrenzen
- Wortähnlichkeit basierend auf Stringähnlichkeit (Levenshtein)

Mehr Details finden Sie in unseren Veröffentlichungen.