Zur Hauptseite der Dokumentation
Veröffentlichungen
Zitieren des Projektes Deutscher Wortschatz / Leipzig Corpora Collection
Zum Zitieren des Gesamtprojektes nutzen Sie bitte die folgende Veröffentlichung:
- Dirk Goldhahn, Thomas Eckart und Uwe Quasthoff (2012): Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages. In: Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12), 2012 (Download).
Eine Publikation in deutscher Sprache zum Projekt
Deutscher Wortschatz ist:
- Uwe Quasthoff und Matthias Richter (2005): Projekt Deutscher Wortschatz, Babylonia 3-2005, p. 33-35 (Download).
Zitieren eines konkreten Korpus
Falls Sie ein konkretes Korpus zitieren möchten, nutzen Sie bitte die folgende Form:
- Leipzig Corpora Collection (JAHR): KORPUS_BESCHREIBUNGSTEXT. Leipzig Corpora Collection. Dataset. URL.
Zum Beispiel für das Korpus
deu_newscrawl_2011:
- Leipzig Corpora Collection (2011): German newspaper corpus based on material crawled in 2011. Leipzig Corpora Collection. Dataset. https://corpora.uni-leipzig.de?corpusId=deu_newscrawl_2011.
Häufigkeitswörterbücher
Die Buchreihe
Frequency Dictionaries – Häufigkeitswörterbücher wird vom
Leipziger Universitätsverlag veröffentlicht. Die verschiedenen Wörterbücher folgen dabei immer dem gleichen Schema:
- Das Häufigkeitswörterbuch basiert auf der Wortliste des größten verfügbaren Korpus der jeweiligen Sprache.
- Ein Kapitel zur Sprachstatistik enthält Informationen zum verwendeten Alphabet, Häufigkeitsverteilungen von Vokalen und Konsonanten, Silben und Wortlängen, Textabdeckung, etc.
- Häufigste Wörter sortiert nach ihrem Rang: die häufigsten 1.000 Wörter in gedruckter Form sowie die häufigsten 1.000.000 Wörter auf der beiliegenden CD
- Häufigste Wörter alphabetisch sortiert: die häufigsten 10.000 Wörter in gedruckter Form sowie die die häufigsten 1.000.000 Wörter auf der beiliegenden CD
- Die auf der CD bereit gestellten Wortlisten werden unter der Creative Commons Lizenz CC-BY 3.0 zur Verfügung gestellt.
Derzeit sind die folgenden Häufigkeitswörterbücher veröffentlicht. Weitere Informationen finden Sie auch auf der
Verlagsseite.
- Vol. 1: Frequency Dictionary German (2011)
- Vol. 2: Frequency Dictionary English (2012)
- Vol. 3: Frequency Dictionary Icelandic (2012)
- Vol. 4: Frequency Dictionary French (2013)
- Vol. 5: Frequency Dictionary Hungarian (2013)
- Vol. 6: Frequency Dictionary Esperanto (2014)
- Vol. 7: Frequency Dictionary Indonesian (2015)
- Vol. 8: Frequency Dictionary Ukrainian (2016)
- Vol. 9: Frequency Dictionary Russian (2017)
- Vol. 10: Frequency Dictionary Vietnamese (2018)
- Vol. 11: Frequency Dictionary Czech (2018)
- Vol. 12: Frequency Dictionary Georgian (2018)
- Vol. 13: Frequency Dictionary Afrikaans (2019)
- Vol. 14: Frequency Dictionary Zulu (2020)
- Vol. 15: Frequency Dictionary Danish (2021)
Liste von Veröffentlichungen (Auswahl)
- Biemann, Chris; Bordag, Stefan; Heyer, Gerhard; Quasthoff, Uwe und Wolff, Christian (2004): Language-independent Methods for Compiling Monolingual Lexical Data. In: Proceedings of CicLING 2004, Seoul, Korea and Springer LNCS 2945, pp. 215-228, Springer Verlag Berlin Heidelberg (Download).
- Biemann, Chris; Heyer, Gerhard; Quasthoff, Uwe und Richter, Matthias (2007): The Leipzig Corpora Collection – Monolingual corpora of standard size. In: Proceedings of Corpus Linguistics 2007, Birmingham, UK, 2007.
- Bosch, Sonja; Eckart, Thomas; Klimek, Bettina; Goldhahn, Dirk und Quasthoff, Uwe (2018): Preparation and Usage of Xhosa Lexicographical Data for a Multilingual, Federated Environment. In: Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki (Japan), 2018.
- Eckart, Thomas; Quasthoff, Uwe und Goldhahn, Dirk (2012): Language Statistics-Based Quality Assurance for Large Corpora. In: Proceedings of Asia Pacific Corpus Linguistics Conference 2012, Auckland, New Zealand, 2012.
- Eckart, Thomas und Quasthoff, Uwe (2010): Statistical Corpus and Language Comparison Using Comparable Corpora. In: Workshop on Building and Using Comparable Corpora, LREC, Malta, 2010.
- Goldhahn, Dirk; Eckart, Thomas und Quasthoff, Uwe (2012): Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages. In: Proceedings of the 8th Language Resources and Evaluation Conference (LREC) 2012.
- Hallsteinsdóttir, Erla; Eckart, Thomas; Biemann, Chris; Quasthoff, Uwe und Richter, Matthias (2007): Íslenskur Orðasjóður - Building a Large Icelandic Corpus. In: Proceedings of NODALIDA-07, Tartu, Estonia, 2007 (Download).
- Quasthoff, Uwe; Richter, Matthias und Biemann, Chris (2006): Corpus Portal for Search in Monolingual Corpora. In: Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC 2006), Genoa (Italy), 2006.
- Quasthoff, Uwe; Goldhahn, Dirk und Eckart, Thomas (2015): Building Large Resources for Text Mining: The Leipzig Corpora Collection. In: Text Mining - From Ontology Learning to Automated Text Processing Applications, Springer, 2015.
- Richter, Matthias; Quasthoff, Uwe; Hallsteinsdóttir, Erla und Biemann, Chris (2006): Exploiting the Leipzig Corpora Collection. In: Proceedings of IS-LTC'06, Ljubljana, Slovenia, 2006 (Download).
Zur Hauptseite der Dokumentation