Dokumentation - Deutscher Wortschatz / Leipzig Corpora Collection

Über das Projekt Deutscher Wortschatz und die Leipzig Corpora Collection

Kurzbeschreibung

Das Projekt Deutscher Wortschatz stellt seit Mitte der 1990er Jahre Informationen zur Deutschen Sprache online zur Verfügung. Dazu werden regelmäßig (meist jährlich) frei verfügbare Dokumente im Internet gesammelt und aufbereitet. Das Ergebnis ist ein korpusbasiertes Wörterbuch, in dem zu jedem Wort eine Seite mit statistischen Angaben, Beispielsätzen und Links zu verwandten Wörtern aufgerufen werden kann. Durch die Menge der zugrundliegenden Daten von mehreren hundert Millionen Sätzen finden sich Angaben für fast alle Wörter. Das Angebot zählt damit zu den umfangreichsten Informationssystemen zur deutschen Sprache.

Im Laufe der Zeit wurde das Angebot unter dem Namen Leipzig Corpora Collection auf immer mehr Sprachen erweitert. Mittlerweile liegen vergleichbare Daten für mehr als 250 Sprachen vor, die online abgefragt werden können. Für viele dieser Sprachen handelt es sich um die größten frei verfügbaren Datenmengen.

Für die Anzeige wurde jeweils das größte Einzelkorpus voreingestellt, für viele Sprachen sind auch andere Korpora auswählbar. Auswahlkriterien sind:

Sprache (manchmal zusätzlich mit Herkunftsland, z.B. "deu-ch" für deutschsprachige Texte aus der Schweiz)
Genre (derzeit: Zeitungstext, zufällig ausgewählte Webtexte und Texte aus Wikipedia)
Jahr des Downloads

Da für verschiedene Anwendungen auch kleinere Korpora ausreichen, wurden zusätzlich sogenannte Normgrößenkorpora bestehend aus jeweils 10.000, 30.000, 100.000, 300.000 und 1.000.000 zufällig ausgewählten Sätzen erzeugt. Diese stehen zum Download unter den hier aufgeführten Nutzungsbedingungen zur freien Verfügung.

Über das Projekt Deutscher Wortschatz und die Leipzig Corpora Collection

Kurzbeschreibung

Weitere Informationen