Alle Wörter werden so aufgenommen und dargestellt, wie sie in den genutzten Dokumenten gefunden werden. Entsprechend können orthographische Fehler (z.B. "nähmlich" statt "nämlich"), Wörter in alter Rechtschreibung (z.B. "Schiffahrt") oder Mundart (z.B. "ick" oder "isch") in den Korpora enthalten sein. Die Nutzung zufällig ausgewählter Webseiten als Textquelle kann auch zur Aufnahme von Sätzen und Wörtern führen, die als rassistisch, sexistisch oder anderweitig problematisch angesehen werden können.
Darüber hinaus können auch Fehler durch unsere Verarbeitungskette entstehen (zum Beispiel Wortfragmente wie "tung", durch falsche Tokenisierung). In der Regel ist die Häufigkeit eines fehlerhaften Wortes jedoch viel geringer als die Häufigkeit der korrekten Version, außerdem sind bei Wörtern in alter Rechtschreibung häufig Verweise auf die aktuell gültige Schreibung angebracht. Falls Ihnen systematische Fehler auffallen, freuen wir uns natürlich über einen
Hinweis.