Wissensrohstoff Text - Eine Einführung in das Text Mining

Der größte Teil des Weltwissens ist in digital verfügbaren Texten beschrieben. Diese Texte stellen einen bedeutsamen Wissensrohstoff dar, doch wie kann dieses Wissen extrahiert werden? Lernen Sie in dieser aktualisierten und erweiterten Neuauflage des ersten deutschen Lehrbuches zu diesem Thema, wie digitaler Text mit Hilfe von Text Mining aufbereitet, verarbeitet und in Anwendungen genutzt werden kann.

Die Autoren

Professor Dr. Chris Biemann ist wissenschaftlicher Leiter des House of Computing and Data Science, und leitet den Arbeitsbereich Sprachtechnologie im Fachbereich Informatik, beides an der Universität Hamburg.
Professor Dr. Gerhard Heyer leitete den Lehrstuhl für Automatische Sprachverarbeitung im Institut für Informatik an der Universität Leipzig.
Professor Dr. Uwe Quasthoff leitete das Projekt Deutscher Wortschatz am Lehrstuhl für Automatische Sprachverarbeitung an der Universität Leipzig.


Auf dieser Seite finden Sie verschiedene Ressourcen die im Buch verwendet bzw. referenziert werden. Dazu gehören die verwendeten Textdaten sowie die ASV Online Toolbox in der Sie Verfahren, die im Buch erklärt werden, direkt in Ihrem Browser ausprobieren können.

Daten

Deutsches Newskorpus (Deutschland) 2019, unterschiedliche Größen

Deutsches Webkorpus (Deutschland) 2019, unterschiedliche Größen

Weitere Downloadmöglichkeiten

Glossar

Glossar zum Buch

Das Glossar zum Buch "Wissensrohstoff Text" steht hier zum Download zur Verfügung.

Tools

ASV Online Toolbox

Die ASV Online Toolbox ist eine modulare Kollektion verschiedener Werkzeuge zur Auswertung geschriebener Sprache und erlaubt das Testen vieler dargestellter Verfahren direkt im Browser.

ASV Toolbox

Die ASV Toolbox ist eine Sammlung verschiedener Werkzeuge zur Auswertung geschriebener Sprache. Sie entstand an der Abteilung für Automatische Sprachverarbeitung und wird nicht mehr weiterentwickelt.

Download bei der Language Technology Group, Universität Hamburg: ASV Toolbox