Zur Hauptseite der Dokumentation

Häufig gestellte Fragen (FAQ)

...zum Projekt Deutscher Wortschatz / Leipzig Corpora Collection

Das Projekt Deutscher Wortschatz (bzw. dessen internationale Ausprägung "Leipzig Corpora Collection") sammelt regelmäßig (meist jährlich) frei verfügbare Dokumente im Internet und bereitet diese auf. Das Ergebnis sind korpusbasierte Wörterbücher für über 250 Sprachen, in denen zu jedem Wort statistische Angaben, Beispielsätze und Links zu verwandten Wörtern enthalten sind. Das Angebot zählt zu den umfangreichsten Informationssystemen zur deutschen Sprache und stellt für viele weitere Sprachen die jeweils größten frei verfügbaren Datenmengen bereit.
Informationen zu Kontaktmöglichkeiten finden Sie unter Kontakt.
Unsere Datenschutzerklärung finden Sie hier.

...zu den Daten

Alle Wörter werden so aufgenommen und dargestellt, wie sie in den genutzten Dokumenten gefunden werden. Entsprechend können orthographische Fehler (z.B. "nähmlich" statt "nämlich"), Wörter in alter Rechtschreibung (z.B. "Schiffahrt") oder Mundart (z.B. "ick" oder "isch") in den Korpora enthalten sein. Die Nutzung zufällig ausgewählter Webseiten als Textquelle kann auch zur Aufnahme von Sätzen und Wörtern führen, die als rassistisch, sexistisch oder anderweitig problematisch angesehen werden können.

Darüber hinaus können auch Fehler durch unsere Verarbeitungskette entstehen (zum Beispiel Wortfragmente wie "tung", durch falsche Tokenisierung). In der Regel ist die Häufigkeit eines fehlerhaften Wortes jedoch viel geringer als die Häufigkeit der korrekten Version, außerdem sind bei Wörtern in alter Rechtschreibung häufig Verweise auf die aktuell gültige Schreibung angebracht. Falls Ihnen systematische Fehler auffallen, freuen wir uns natürlich über einen Hinweis.
Grundlage für die vom Projekt Deutscher Wortschatz bereitgestellten Korpora sind frei verfügbare Dokumente aus dem Internet, die weitgehend automatisch durch unsere Prozesskette aufbereitet werden. Falls in den zugrundeliegenden Dokumenten bestimmte Wortformen nicht gefunden werden können, sind sie entsprechend auch in unseren Korpora nicht auffindbar. Eine manuelle Selektion der Dokumente findet (abgesehen von domänenspezifischen Korpora) nicht statt.
Informationen zu den Downloadmöglichkeiten finden Sie hier.
Das Projekt Deutscher Wortschatz nutzt für die Erstellung von Korpora zum großen Teil Material aus dem Internet. Da dieses dem Urheberrecht unterliegt, wird jeder Text in seine Sätze zerlegt und durch zufällige Sortierung die ursprüngliche Textstruktur zerstört. Vollständige Dokumente liegen uns nach dieser Vorverarbeitung nicht mehr vor und können entsprechend nicht zur Verfügung gestellt werden.
Wir verwenden Korpusnamen die die wichtigsten Informationen zum verwendeten Textmaterial enthalten. Alle Korpusnamen haben dabei die folgende Struktur: SPRACHE_GENRE_ZEITANGABE
Dabei enthält
  • Sprache: Informationen zur verwendeten Sprache basierend auf ISO 639-3, optional erweitert mit Herkunftsangabe nach ISO 3166
  • Genre: Information zur Art des verwendeten Quellenmaterials, typische Werte hierfür sind "web", "wikipedia", "news" (Zeitungsmaterial, meist auf der Basis von RSS-Feeds) oder "newscrawl" (Zeitungsmaterial, gecrawlt von Webseiten)
  • Zeitangabe: Informationen zum Zeitraum in dem das Quellenmaterial erhoben wurde
Beispiele für Korpusnamen sind entsprechend:
  • deu_news_2011: Zeitungstexte in deutscher Sprache von 2011
  • deu-at_news_2011: Zeitungstext in deutscher Sprache aus Österreich von 2011
  • deu-at_web_2011-2014: Webtext in deutscher Sprache aus Österreich von 2011 bis 2014
  • deu_wikipedia_2014: Wikipedia-Texte in deutscher Sprache von 2014

...zum Korporaportal

Das Korporaportal unterstützt die Suche und Anzeige von Vollformen, d.h. flektierten Wortformen. Dies können sowohl einfache Wortformen (z.B. "Auto" oder "Autos"), aber auch Mehrworteinheiten (z.B. "Sri Lanka" oder "Los Angeles") sein. Die Menge indexierter Mehrworteinheiten ist dabei uneinheitlich und varierte insbesondere in Abhängigkeit von Sprache und Genre. Bei der Suche wird Groß-/Kleinschreibung grundsätzlich berücksichtigt. Gibt es zusätzlich Treffer in anderer Schreibweise, werden diese in einer Zeile "Siehe auch:" unter dem Stichwort angezeigt.

Das Korporaportal bietet darüber hinaus auch die Suche nach Wortformen durch Suchmuster. Dabei werden die Sonderzeichen '*' (alternativ '%') für eine beliebige Anzahl von Buchstaben und "?" (alternativ '_') für einzelne Buchstaben unterstützt. Zum Beispiel könnte die Anfrage "Au??ba*" in einem deutschsprachigen Korpus Wortformen wie "Autobahn", "Autobatterie" oder "Auerbachs Keller" finden. Die für ein Muster gefundenen Treffer werden auf einer gesonderten Seite, absteigend nach ihrer Häufigkeit im ausgewählten Korpus sortiert, aufgelistet.
In der Infobox oben rechts finden Sie Informationen zum ausgewählten Korpus. Dazu gehören die Anzahl der Sätze, die Anzahl der verschiedenen Wörter (Types) sowie die Anzahl der laufenden Wörter (Tokens).
Wir stellen diverse Informationen zur Häufigkeit eines Wortes zur Verfügung. Dazu gehören:
  • Anzahl: Zahl der Vorkommen des Wortes im gesamten Korpus. Dies ist eine absolute Anzahl und damit linear abhängig von der Korpusgröße.
  • Rang: Position des Wortes in der häufigkeitssortierten Liste aller Wörter. In vielen deutschsprachigen Korpora ist "der" das häufigste Wort und hat damit jeweils den Rang 1. Das zweithäufigste Wort (meist "die") erhält Rang 2 usw. Der Rang eines Wortes wächst nicht mit der Korpusgröße, kann sich aber (speziell im Falle seltenerer Wörter) für verschiedene Korpora erheblich unterscheiden.
  • Häufigkeitsklasse: Hier werden Wörter vergleichbarer Häufigkeit zu größeren Klassen zusammengefasst, so dass sich die Häufigkeitsklasse eines Wortes in verschiedenen Korpora kaum noch unterscheidet. Dazu wird die Häufigkeit des häufigsten Wortes durch die Häufigkeit des betrachteten Wortes dividiert und der Logarithmus zur Basis zwei dieses Quotienten auf die nächste ganze Zahl gerundet: Das häufigste Wort hat immer die Häufigkeitsklasse 0; ein Wort aus der Häufigkeitsklasse eins ist näherungsweise halb so häufig. Allgemein ist ein Wort der Häufigkeitsklasse n+1 etwa halb so häufig wie ein Wort aus der Häufigkeitsklasse n. In großen Korpora haben extrem seltene Wörter Häufigkeitsklassen größer als 20.
Für jedes Wort stellen wir Informationen zu dessen Häufigkeit im Korpus bereit. Details zu diesen Angaben finden Sie hier.

Die weiteren Angaben sind für viele, aber nicht für alle Wörter vorhanden. Sie wurden typischerweise mit automatischen Verfahren erzeugt und können deshalb in seltenen Fällen auch Fehler enthalten. Zu diesen Angaben gehören:
  • Für gebeugte Formen wird die Grundform ("Seminare" -> "Seminar") angegeben, umgekehrt werden zu einer Grundform die gebeugten Formen in der Reihenfolge Ihrer Häufigkeit angezeigt (z.B. für "Seminar": "Seminaren, Seminars, Seminare").
  • Für Wörter in Grundform wird die Wortart angegeben, bei Substantiven zusätzlich das grammatische Geschlecht.
  • Für zusammmengesetzte Wörter werden die jeweiligen Teile dargestellt (z.B. für "Bauamtsleiter": "Bau+Amt+Leiter").
  • Die Silbentrennung beschreibt die möglichen Trennstellen bei der Worttrennung am Zeilenende (z.B. "Bau|amts|lei|ter").
  • Die Beschreibungen sind aus dem jeweiligen Wikipedia-Eintrag extrahiert worden.
  • Die Synonyme sind eine Liste bedeutungsgleicher oder bedeutungsähnlicher Wörter.
In dem seit 1934 im Verlag De Gruyter erscheinenden Wörterbuch Dornseiff: Der deutsche Wortschatz nach Sachgruppen werden die Wörter nach inhaltlichen Kriterien in mittlerweile 22 Hauptgruppen und 970 Sachgruppen eingeteilt. Diese sind weiter in semantische Gruppen unterteilt.

Die achte Auflage des Wörterbuchs (erschienen im Jahr 2004) wurde mit Hilfe der Daten des Projekts Deutscher Wortschatz erstellt und wir erhielten vom Verlag De Gruyter die freundliche Erlaubnis, zu jedem Wort die Dornseiff-Sachgruppe sowie die dazugehörige vollständige semantische Gruppe anzuzeigen.
Da aus rechtlichen Gründen in unserer Vorverarbeitung die ursprünglichen Dokumentenstrukturen zerstört werden, liegen alle Beispielsätze in einer zufälligen Reihenfolge vor. Um besonders "typische" Beispiele zu bevorzugen, nutzen wir zur Sortierung der Sätze für die meisten Korpora eine angepasste Version des GDEX-Algorithmus ("Good Dictionary Examples in a Corpus"). Bevorzugt angezeigt werden kürzere Sätze einfacher grammatischer Struktur, möglichst ohne allzu seltene Wörter und mit wenig Zahlen und anderen Sonderzeichen. Weitere Details zum Algorithmus finden Sie hier.
Kookkurrenzen eines Wortes sind diejenigen Wörter, die statistisch auffällig mit dem Ausgangswort gemeinsam auftreten; und zwar als unmittelbarer linker Nachbar, als unmittelbarer rechter Nachbar bzw. gemeinsam im Satz. Die Relevanz des gemeinsamen Auftretens wird über ein Signifikanzmaß bestimmt und Kookkurrenzen entsprechend ihrer Signifikanzstärke geordnet. Im Projekt "Deutscher Wortschatz" wird als Signifikanzmaß das Log-Likelihood-Ratio verwendet und Paare mit geringer Signifikanz entfernt.
Die "Kookkurrenz-ähnlichen Formen" enthalten Wörter, die typischerweise in einem ähnlichen Satzumfeld wie das Eingabewort vorkommen. Die distributionelle Semantik geht davon aus, dass solche Wörter eine ähnliche Bedeutung haben.

Zur Berechnung der "Kookkurrenz-ähnlichen Formen" werden die Kookkurrenzen verschiedener Wörter verglichen. Eine große Übereinstimmung der Kookkurrenzmengen (berechnet mit dem Dice-Koeffizienten) spricht für eine häufige Austauschbarkeit der Wörter und damit für eine ähnliche Bedeutung. Die Anordnung erfolgt nach der Größe des berechneten Dice-Koeffizienten und setzt eine Mindestanzahl gemeinsamer Kookkurrenzen voraus.
Der Kookkurrenzgraph ist eine Visualisierung der Satzkookkurrenzen. Dabei wird für die signifikantesten Kookkurrenten des jeweiligen Eingabewortes untersucht ob zwischen ihnen paarweise ebenfalls eine signifikante Kookkurrenzrelation besteht. Ist dies der Fall werden beide Kookkurrenten in den Graph aufgenommen und sowohl untereinander als auch mit dem Eingabewort durch eine Kante verbunden. Die Signifikanz der konkreten Kookkurrenz wird dabei durch die Stärke der jeweiligen Kante dargestellt.
In der Fußzeile stehen rechts die verfügbaren Sprachen zur Auswahl. Die von Ihnen eingestellte Sprache wird in einem Cookie gespeichert und beim nächsten Mal wieder verwendet.

Zur Hauptseite der Dokumentation