Zur Hauptseite der Dokumentation
Informationen zur verwendeten Prozesskette
Die standardisierte Prozesskette zur Korpuserstellung enthält die folgenden Schritte:
- Webcrawling
- Entfernen von HTML (bzw. XML für Wikipedia)
- Dokumentenbasierte Sprachidentifikation
- Satzsegmentierung
- Entfernung von Satzdubletten
- Musterbasierte Satzsäuberung
- Satzbasierte Sprachidentifikation
- Korpuserstellung
- Tokenisierung und Wortindizierung
- Worthäufigkeitsberechnung
- Berechnung von Wortkookkurrenzen
- Optionale Nachbearbeitung (abhängig von der Verfügbarkeit der entsprechenden Werkzeuge)
- POS-Tagging: Zuordnung von Wörtern zu ihrer Wortart
- Lemmatisierung
- Erkennung und Entfernung von Quasi-Dubletten von Sätzen
- Wortähnlichkeit basierend auf Kookkurrenzen
- Wortähnlichkeit basierend auf Stringähnlichkeit (Levenshtein)
Mehr Details finden Sie in unseren
Veröffentlichungen.
Zur Hauptseite der Dokumentation