Tutorial | IDS

Programmbereich Korpuslinguistik
Methoden der Korpusanalyse und -erschließung

Eine kurze Einführung in die Kookkurrenzanalyse und syntagmatische Muster

Programmbereich Korpuslinguistik
Institut für Deutsche Sprache
Postfach 10 16 21,
D-68016 Mannheim
email: korpuslinguistik@ids-mannheim.de
Erstveröffentlichung: 22. April 2004

Zitierhinweise

Bitte zitieren Sie dieses Dokument in der folgenden Form:

Rainer Perkuhn und Cyril Belica: Eine kurze Einführung in die Kookkurrenzanalyse und syntagmatische Muster. Institut für Deutsche Sprache, Mannheim. 2004. http://www-neu.ids-mannheim.de/kl/misc/tutorial.html

Falls Sie eine Referenz auf die hier beschriebene Kookkurrenzanalyse selber wünschen, wählen Sie bitte folgende Angabe:

Cyril Belica: Statistische Kollokationsanalyse und -clustering. Korpuslinguistische Analysemethode. Institut für Deutsche Sprache, Mannheim. 1995. http://corpora2.ids-mannheim.de/

Weiterführende Veröffentlichungen zu diesem Thema finden Sie über die jeweiligen persönlichen Webseiten der Mitarbeiter des Programmbereichs Korpuslinguistik. Bei Interesse können Sie aber auch gerne mit uns per Email unter der o.g. Adresse Kontakt aufnehmen.

Vorbemerkung

Stellen Sie sich vor, bei der Zubereitung eines Käsekuchens haben Sie 100 Rosinen in den Teig gegeben. Nachdem Sie drei Stücke, d.h. ungefähr ein Viertel, gegessen haben, sind Sie ganz enttäuscht, weil Sie erst 10 von den 100 Rosinen (nur ein Zehntel!) wieder entdeckt haben. Lässt Sie das nicht stutzig werden? Hätten es nicht ungefähr 25 Rosinen sein müssen? Na gut, mit einer leichten Abweichung (3 oder 5?) hätten Sie leben können. Aber nur 10? Andrerseits wären Sie sehr wahrscheinlich froh, aber genau so verwundert, wenn Sie deutlich mehr als 30 Rosinen in Ihrem Viertel gefunden hätten. Vielleicht hätten Sie vermutet, dass irgendeine magische Anziehungskraft dafür gesorgt hat, dass sich die Rosinen verstärkt in einem Bereich sammeln.

In dem Käsekuchen-Szenario mag die Anziehungskraft zunächst nicht nur magisch, sondern auch mystisch anmuten. Weniger mystisch wäre die Kraft aber sicherlich, wenn der Kuchen nicht vertikal sondern horizontal aufgeschnitten wird. Vorausgesetzt, der Teig wäre sehr flüssig gewesen, dann wäre die Schwerkraft eine sehr plausible Erklärung, warum im oberen Viertel deutlich weniger, im unteren Viertel deutlich geballt Rosinen zu finden sind.

Wörter verteilen sich leider nicht so in der Sprache wie Rosinen im Käsekuchen. Und “Aufschneiden” kann man die Sprache auf viele verschiedene Arten. Eine Erklärung für die mystische Anziehungskraft bei sprachlichen Phänomenen zu finden gestaltet sich sicher viel schwieriger als beim Käsekuchen

Unter Kookkurrenzanalyse (bisweilen auch Kollokationsanalyse genannt) versteht man verschiedene, auf mathematisch-statistischen Verfahren basierende Methoden zur Analyse von Korpora. Die hier beschriebene Methode wurde in den Jahren 1994 und 1995 von Cyril Belica konzipiert und steht seitdem den Linguisten auf der ganzen Welt über das COSMAS-System zur Verfügung, um die weltweit größte elektronische Sammlung deutschsprachiger Texte für die linguistische Forschung, das Deutsche Referenzkorpus, noch besser erschließen zu können.

Für die Kookkurrenzanalyse ist ein Stück aus dem Kuchen auszuschneiden, d.h. ein Ausschnitt aus den Korpora zu definieren. Die Analyse bewertet dann, wie wahrscheinlich oder unwahrscheinlich es ist, dass die Wörter in dem Ausschnitt zufälligerweise so oft in dem Ausschnitt vorkommen, wie sie vorkommen. Die Wörter, die auffällig öfter vertreten sind als erwartet, werden angezeigt. Es ist dann die Aufgabe einer weitergehenden Interpretation zu ergründen, welche Anziehungskraft zu diesem Befund geführt hat. Die Auswahl des Korpusausschnitts kann im Prinzip nach ganz verschiedenen Kriterien erfolgen: Texte einer bestimmten Zeit, aus einer bestimmten Region, von einem bestimmten Autor oder zu einem bestimmten Thema. Normalerweise geschieht dies aber über Korpusauswahl, Suche nach einem bestimmten Wort bzw. einer Wortform und Kontextdefinition. Für die folgenden Beschreibungen gehen wir von dieser Variante aus. Für die Interpretation liegt es dann nahe, von einer Kohäsion in Bezug auf das Auswahlkriterium, bei einer Suche von einer Affinität zu dem Suchbegriff auszugehen …

Die Kookkurrenzanalyse ist kein einzelnes, starres Verfahren, vielmehr eröffnet sie eine ganze Bandbreite von Möglichkeiten. So wie es verschiedene Phänomene in der Sprache gibt, die untersuchenswert sind, so gibt es unterschiedliche Arten, Kookkurrenzanfragen zu formulieren. Nach der Korpusauswahl und der Suchanfrage ist der zu analysierende Kontext zu definieren und es sind die Werte verschiedener Parameter festzulegen. Für den Kontext und die Parameter werden Standardwerte vorgeschlagen, die sich bereits für viele Fragestellungen bewährt haben.

Wir empfehlen, Analysen zunächst mit diesen Standardwerten durchzuführen. Mit ein wenig Erfahrung lohnt es sich dann sicher, ein wenig zu “experimentieren” und die Werte einzelner Parameter zu variieren. Diese kleine Tutorial ist eher technisch gehalten und soll dazu dienen, das Verständnis dafür zu fördern, welche Auswirkung es auf die Analyse hat, wenn der Wert eines Parameters verändert wird.

Kurz zusammengefasst:

Die Kookkurrenzanalyse ermöglicht das Aufdecken von signifikanten Regelmäßigkeiten bei der Verwendung von Wortkombinationen.
“Signifikanz” hängt vom betrachteten Korpus und den eingestellten Parametern ab!
Interpretation ist Aufgabe des Menschen!

Annahmen

gewisse Vertrautheit mit COSMAS
- insbesondere Suchanfragen
- Kookkurrenzanalyse bereits ausprobiert
Schwerpunkte
- nach abgeschlossener Suche
- Parameter der Kookkurrenzanfrage

Suchanfrage

Ausgangspunkt für die Kookkurrenzanalyse sind die vereinigten Kontexte aller Trefferobjekte einer Suchanfrage. Nach Korpusauswahl bzw. virtueller Zusammenstellung ist zunächst eine Suchanfrage zu formulieren. Bei deren Formulierung ist darauf zu achten, dass die Wortform[en], die Gegenstand der Untersuchung sein soll[en], den eindeutigen Kern des Trefferobjektes ausmachen (Position 0 in der Tabelle unten). Dies gilt trivialerweise für die Suche nach einer bestimmten Wortform oder nach den Wortformen, denen dieselbe Grundform (oder derselbe reguläre Ausdruck) zugrundeliegt. Bei komplexeren Suchanfragen (Verknüpfung über Abstandsoperatoren, logische Operatoren o.ä.) ist dies nicht garantiert: der Kern kann von Treffer zu Treffer verschieden sein. Daraus ergibt sich, dass die Kontexte der Trefferobjekte sehr uneinheitlich sein und dass deren Analyse zu Ergebnissen führen können, deren Aussagekraft nicht abschätzbar ist.

Generell gilt, dass die Anzahl der Treffer nicht zu klein sein darf, damit die statistischen Analysen verlässliche Aussagen liefern können.

Suchergebnis zu der Wortform “Stücken”

Für die Erläuterungen im weiteren Verlauf sei angenommen, dass nach der Wortform “Stücken” gesucht wurde (im Folgenden abstrakt als w000 bezeichnet). Folgende Tabelle illustriert zeilenweise das Suchergebnis anhand dreier (strukturell prototypischer) Vertreter.

Position:	-10	-9	-8	-7	-6	-5	-4	-3	-2	-1	0	1	2	3	4	5	6	7	8	9	10
Wortform	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	Stücken	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx
	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxx.	xxxx	xxxx	xxxx	Stücken	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx
	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	Stücken	xxxx	xxxx	xxxx	xxx.	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx

Kookkurrenzanfrage

Für eine Kookkurrenzanfrage können verschiedene Parameter eingestellt werden. Einige der Parameter legen den zu analysierenden Kontext fest, andere Parameter steuern die Vorgehensweise bei der Analyse. Schließlich gibt es Parameter, die sich auf die Darstellung der Ergebnisse auswirken.

[Die Eingabemaske für die Parameter kann in der aktuellen COSMAS Version (zzt. COSMAS II) in der Darstellung leicht von der hier gezeigten abweichen, die Parameter und die Eingabemöglichkeiten stehen aber unter jeder Version gleichermaßen zur Verfügung.]

KA erste Parameter

zunächst wird die Größe des zu analysierenden Kontextes gewählt (ein Standardwert wäre 5 links und 5 rechts)
dann ist zu entscheiden, ob Satzgrenzen berücksichtigt werden sollen oder nicht

Verändern Sie die Werte in folgendem Formular und klicken Sie irgendwohin (nur nicht auf “zurücksetzen”), um die Auswirkung auf den zu analysierenden Kontext in der Tabelle unten anschaulich nachvollziehen zu können. Die durchgestrichenen Elemente stellen ignorierte Funktionswörter dar, s. Punkt Funktionswörter.

COSMAS-Kollokationsanalyse Analyseparameter
zu analysierender Kontext		Wörter links	Zuverlässigkeit
		Wörter rechts	Granularität
		höchstens 1 Satz	Clusterzuordnung
		Autofokus
Lemmatisierung	verwenden		LLR-Wert	anzeigen
Funktionswörter	ignorieren		Alle Parameter auf Standardwerte

Position:	-10	-9	-8	-7	-6	-5	-4	-3	-2	-1	0	1	2	3	4	5	6	7	8	9	10
Wortform	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	yyyy	xxxx	xxxx	yyyy	Stücken	yyyy	xxxx	yyyy	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx
	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxx.	xxxx	yyyy	xxxx	Stücken	xxxx	yyyy	xxxx	xxxx	yyyy	xxxx	xxxx	xxxx	xxxx	xxxx
	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx	yyyy	xxxx	xxxx	Stücken	yyyy	xxxx	xxxx	yyy.	xxxx	xxxx	xxxx	xxxx	xxxx	xxxx

KA Vorgehensweise

jedes der im definierten Kontext eines Trefferobjekts enthaltenen (blauen) Wörter wird gezählt
die ermittelte Anzahl wird verglichen mit dem Wert, der zu erwarten wäre (wenn das Wort zufälligerweise im Kontext des Bezugswortes wäre)

als Ergebnis wird das log-likelihood-ratio (LLR) als Maßzahl für die Abweichung des normalen Verhaltens vom beobachteten festgehalten

[bei bekannter Gesamthäufigkeit f des gesuchten Bezugswortes w000 im Gesamtkorpus mit dem Umfang z.B. K = 4 * 10¹⁰ und diesem Umfang der Stichprobe T = Kontextbreite * Anzahl Treffer (letztere = f, eventuell durch 10⁵ systembedingt nach oben beschränkt)]

Wortform \ Häufigkeit	in Treffermenge	im Gesamtkorpus	log-likelihood-ratio (x_ _ _,y_ _ _,T,K)
w001	x001	y001	z001
w002	x002	y002	z002
w003	x003	y003	z003
…	…	…	…
w999	x999	y999	z999

Im einfachsten Fall einer Bigramm-Analyse (d.h. fester Zweiwortfolgen) der Struktur w000, w_ _ _ (alternativ: andersherum) ist die Kontextbreite = 1, somit T = f, d.h. dass folgende Werte den Feldern einer Kontigenztabelle zugeordnet werden können:
- x_ _ _ = h(w000, w_ _ _), d.h. Häufigkeit der Wortkombination
- f = h(w000), d.h. Häufigkeit des ersten Wortes (hier: des Gesuchten)
- y_ _ _ = h(w_ _ _), d.h. Häufigkeit des zweiten Wortes (hier: des zu prüfenden Partnerwortes)
- K = Korpusgröße
Mit diesen Werten kann das Maß mit diesem Online-Rechner selbst ausprobiert werden.

Lemmatisierung

bei eingeschalteter Lemmatisierung werden die Wortformen nicht einzeln ausgewertet, sondern alle Wortformen, die auf dasselbe Lemma zurückgeführt werden können, werden zusammen ausgewertet

dieser Schritt wird nur für die Wortformen in dem Kontext des Bezugswortes angewandt, nicht für das Bezugswort selbst! Ob dieses als Wortform oder Lemma gehandhabt werden soll, entscheiden Sie bereits bei der Formulierung der Suchanfrage

Wortformmenge \ Häufigkeit	in Treffermenge	im Gesamtkorpus	log-likelihood-ratio (xl_ _ _,yl_ _ _,T,K)
wl001.1 ∪ wl001.2 ∪ …	xl001 = xl001.1 + xl001.2 + …	yl001 = yl001.1 + y001.2 + …	zl001
wl002.1 ∪ wl002.2 ∪ …	xl002 = xl002.1 + xl002.2 + …	yl002 = yl002.1 + y002.2 + …	zl002
wl003.1	xl003 = xl003.1	yl003 = yl003.1	zl003
…	…	…	…
wl999.1	xl999 = xl999.1	yl999 = yl999.1	zl999

alle Wortformen wl00x.i, die in der Treffermenge vorhanden sind und die als Formen desselben Lemmas wl00x gedeutet werden, werden zu einer Menge zusammengefasst, ihre Häufigkeiten in der Treffermenge und im Gesamtkorpus zusammengezählt
der LLR-Wert wird ausgehend von diesen kumulierten Häufigkeiten berechnet
- [dies kann manchmal nützlich sein, ist meistens aber eher ungünstig, da viele Wortverbindungen relativ starr sind und nicht in allen Flexionsformen zusammen auftreten; - sobald eine im Gesamtkorpus sehr häufige Wortform (großes yl00x.i) auch nur minimal in der Treffermenge vertreten ist (kleines xl00x.i), steigt für diese starren Verbindungen bei eingeschalteter Lemmatisierung die Anzahl der “Gegenbeispiele” (∑ yl00x._ - ∑ xl00x._), so dass sie nicht mehr als signifikant erkannt werden können (kleineres zl00x)]

Funktionswörter

Funktionswörter kommen sehr häufig in der Sprache und somit auch in den Korpora vor
in vielen Fällen sind sie auch sehr stark in den Treffermengen vertreten und verdrängen dadurch evtl. andere (interessantere?) Partner
werden Funktionswörter mit in die Analyse einbezogen, können syntaktische Phänomene interessantere Erkenntnisse überdecken
für manche Wortverbindungen sind aber gerade die Funktionswörter von Bedeutung
- [geplant ist mittelfristig, eine hierarchisch gegliederte Liste anzubieten, aus der einzelne Klassen an- oder abwählbar sind, vorläufig kann nur empfohlen werden, zunächst in der Analyse auf Funktionswörter zu verzichten und diese erst später miteinzubeziehen, wenn bereits erste Erkenntnisse über das Verhalten des untersuchten Wortes vorliegen]

Zuverlässigkeit

inwieweit die Abweichung “beobachtet vs. normal” als relevant eingestuft werden soll, kann in drei Abstufungen vorgegeben werden

hoch: nur starke Abweichungen sind relevant
- [findet wenige Kookkurrenzpartner, aber diese zuverlässig, ignoriert aber evtl. interessante Kandidaten, z.B. zufällig aufgrund Korpusauswahl und -komposition]
normal: mittlere Abweichungen sind relevant
analytisch: schwache Abweichungen sind relevant
- [findet viele Kookkurrenzpartner, aber diese evtl. unzuverlässig, kann u.U. auch schlechte Kandidaten mit erfassen]

Wortform nach LLR-Rang	log-likelihood-ratio	als primärer Partner berücksichtigt bei Zuverlässigkeit =
w_{Rang(1, [z001-z999])}	z001'	hoch	normal	analytisch
w_{Rang(2, [z001-z999])}	z002'
w_{Rang(3, [z001-z999])}	z003'
…	…
…	…	ignoriert
…	…
…	…		ignoriert
…	…
…	…			ignoriert
w_{Rang(999, [z001-z999])}	z999'			ignoriert

Primärer Kookkurrenzpartner

durch dieses Verfahren wird der erste (primäre) Kookkurrenzpartner gefunden, z.B. “aus” bei “Stücken”
die Abweichung wird als LLR-Wert (früher Γ) angezeigt und bezieht sich auf diesen ersten ermittelten Kookkurrenzpartner (!)
die Gesamtheit der Umgebungen des Kookkurrenzpartners ist Ausgangspunkt für sich nun wiederholende Schritte

Kookkurrenzpartner n. Stufe

erneut wird ermittelt, ob ein Wort häufiger (in der Umgebung von Bezugswort und bisher ermittelter Partner) vorkommt als erwartet (gezählt und verglichen)
ist dies der Fall, wird das Wort als Kookkurrenzpartner der nächsten Stufe festgehalten (ohne LLR-Wert)
dies wiederholt sich in der Breite für alle Kookkurrenzpartner und in der Tiefe, bis keine weiteren Kookkurrenzpartner ermittelt werden können
- [im nächsten Schritt z.B., ob Wörter in der Nähe von “frei” und “Stücken” überdurchschittlich häufig vorkommen]
als Kandidaten für Kookkurrenzpartner n. Stufe werden nur Wörter berücksichtigt, die bereits als primärer Kookkurrenzpartner ermittelt wurden

komplett sieht die berechnete Information so aus:

Bezugswort

Wortform nach LLR-Rang

log-likelihood-ratio

Partner n. Stufe

wwww

w_{Rang(1, [z001-z999])}

z001'

w_1.1	w_1.1.1	w_1.1.1.1
	w_1.1.2	w_1.1.2.1
		w_1.1.2.2
	w_1.1.3
w_1.2	w_1.2.1	w_1.2.1.1
		w_1.2.1.2
	w_1.2.2
w_1.3
…

w_{Rang(2, [z001-z999])}

z002'

w_2.1	w_2.1.1	w_2.1.1.1
		w_2.1.1.2
	w_2.1.2
	w_2.1.3	w_2.1.3.1
	w_2.1.4	w_2.1.4.1
		w_2.1.4.2
	w_2.1.5
w_2.2
…

w_{Rang(3, [z001-z999])}

z003'

…

Beispiel:

Bezugswort

Wortform nach LLR-Rang

log-likelihood-ratio

Partner n. Stufe

Stücken

frei

9458

nachfolgen	jung	Frau
jung	Frau
verlassen
ganz
…

…

zeilenweise Darstellung:

Bezugswort: Stücken

BelegNr. (ab Nr. + Anzahl)			LLR	Partner	Häufigkeit
1	+	42	9458	frei nachfolgen jung Frau	42
43	+	1	9458	frei jung Frau	1
44	+	6	9458	frei jung	6
50	+	11	9458	frei Frau	11
61	+	18	9458	frei verlassen	18
79	+	24	9458	frei ganz	24
103	+	675	9458	frei	675
…			…	…	…

Granularität

die Granularität gibt an, wie viele der nach einem neuen Maß sortierten Kookkurrenzpartner als möglicher Kandidat eines Kookkurrenzpartners n. Stufe in Frage kommen (das Maß ist hierbei eine Kombination von LLR und MI (mutual information)

fein betrachtet die meisten (alle, die unter einem internen Schwellwert liegen)
- [zielt auf Wortverbindungen]
mittel betrachtet weniger (alle, die unter dem Schwellwert - p % liegen)
grob betrachtet nochmals weniger (nochmals - p %)
sehr grob betrachtet am wenigsten (nochmals - p %)
- [zielt auf Schlagwörter]

Wortform nach LLR-/MI-Rang	log-likelihood-ratio	als Partner n. Stufe berücksichtigt bei Granularität =
w_{Rang(1, [z001-z999])}	z001'	sehr grob	grob	mittel	fein
w_{Rang(2, [z001-z999])}	z002'
w_{Rang(3, [z001-z999])}	z003'
…	…
…	…	ignoriert
…	…
…	…		ignoriert
…	…
…	…			ignoriert
…	…
…	…				ignoriert
w_{Rang(999, [z001-z999])}	z999'				ignoriert

Zuordnung der Belege

Belege (Treffer) können entweder eindeutig oder mehrfach zugeordnet werden

[im Bsp. ist Zeile 2 beschrieben durch die Wörter “frei”, “jung” und “Frau”, Zeile 1 zusätzlich durch das Wort “nachfolgen”; ein Beleg, der nur “nachfolgen” nicht enthält, kann nur Zeile 2, ein Beleg, der alle vier Wörter enthält, kann im Prinzip beiden zugeordnet werden; bei eindeutig werden Belege der genauesten Beschreibung zugeordnet, also nur Zeile 1, bei mehrfach werden die Belege jeder, auch der allgemeineren Beschreibung zugeordnet; mehrfach ist zwar zeilenweise genauer, der Nutzer muss aber bedenken, dass genauere Beschreibungen mit erfasst sind, eindeutig ist spezifischer, der Nutzer muss ggf. selber summieren]

eindeutig		KWICs	mehrfach
Cluster: frei jung Frau nachfolgen	←	satz1 (frei, jung, Frau, nachfolgen) satz2 (frei, jung, Frau, nachfolgen) satz3 (frei, jung, Frau, nachfolgen) satz4 (frei, jung, Frau) satz5 (frei, jung, Frau)	→	Cluster: frei jung Frau nachfolgen
satz1 (frei, jung, Frau, nachfolgen) satz2 (frei, jung, Frau, nachfolgen) satz3 (frei, jung, Frau, nachfolgen)	←		→	satz1 (frei, jung, Frau, nachfolgen) satz2 (frei, jung, Frau, nachfolgen) satz3 (frei, jung, Frau, nachfolgen)
Cluster: frei jung Frau	←		→	Cluster: frei jung Frau
satz4 (frei, jung, Frau) satz5 (frei, jung, Frau)	←		→	satz1 (frei, jung, Frau, nachfolgen) satz2 (frei, jung, Frau, nachfolgen) satz3 (frei, jung, Frau, nachfolgen) satz4 (frei, jung, Frau) satz5 (frei, jung, Frau)

Je nach Wahl der Zuordnung wird eine unterschiedliche Anzahl Textstellen pro Cluster ermittelt. Sofern die Zuordnungsmehrdeutigkeit sich lediglich auf ein Cluster-Teilhierarchie bezieht, können die Werte additiv oder subtraktiv aufeinander bezogen werden: "brutto" bei eindeutig ist die Summe aller darüberliegenden, längeren Partnerwortfolgen; "netto" bei mehrfach entspricht für jede Hierachie-Ebene dem Wert minus der unmittelbar darüberliegenden Ebene der längeren Partnerwortfolgen.

Autofocus

ohne Autofocus wird der gesamte eingestellte Kontext starr betrachtet, mit Autofocus werden alle möglichen Unterkontexte innerhalb des vorgegebenen Kontextes ausgewertet und es wird derjenige ausgewählt, der den höchsten LLR-Wert aufweist

Grenze des Subkontextes links \ rechts	r	…	y	…	0	…	…	…	l
l	LLR_[l,r]	…	LLR_[l,y]	…	LLR_[l,0]	…	…	…	LLR_[l,l]
…	…	…	…	…	…	…	…	…
x	LLR_[x,r]	…	LLR_[x,y]	…	LLR_[x,0]	…	…
…	…	…	…	…	…	…
0	LLR_[0,r]	…	LLR_[0,y]	…	LLR_[0,0]
…	…	…	…	…
…	…	…	…
…	…	…
r	LLR_[r,r]

LLR_AF[i.j]=MAX_i,j(LLR[i,j]), d.h., ist der maximale LLR-Wert in dieser Dreiecksmatrix etwa in dem Feld (x,y), wird dieser LLR-Wert und der Fokus [x,y] angegeben.

[Autofocus kann Wortverbindungen aufdecken, die bei festem Kontext außer acht gelassen werden, Bsp. 10.000 Treffer, Kontext 5/5, der betrachtete Ausschnitt umfasst 100.000 Wörter, taucht ein Wort nun z.B. 500mal auf, kann dies evtl. nicht signifikant sein, steht dieses Wort aber stets eine Position links vom Trefferobjekt - etwa ADJ N -, reicht Kontext 1/0, d.h. 10.000 Wörter und dann sind 500 Vorkommen eines Wortes sicher eher signifikant, Autofocus wählt diesen Kontext automatisch]

zeilenweise Darstellung:

Bezugswort: Stücken

BelegNr. (ab Nr. + Anzahl)			Fokus	LLR	Partner	Häufigkeit
1	+	42	[-1,-1]	9458	frei nachfolgen jung Frau	42
43	+	1	[-1,-1]	9458	frei jung Frau	1
44	+	6	[-1,-1]	9458	frei jung	6
50	+	11	[-1,-1]	9458	frei Frau	11
61	+	18	[-1,-1]	9458	frei verlassen	18
79	+	24	[-1,-1]	9458	frei ganz	24
103	+	675	[-1,-1]	9458	frei	675
…			…	…	…	…

Anmerkung

Für jede erkannte Folge von auffälligen Partnerwörtern w₁ w₂ … w_n gilt natürlich, dass auch jede Anfangsteilfolge w₁ w₂ … w_x, x < n, eine auffällige Folge von Partnerwörtern ist. Bei der mehrfachen Zuordnung von Belegen werden auch alle Teilfolgen dargestellt, bei der eindeutigen Zuordnung der Belege werden nur die Teilfolgen dargestellt, für die die Menge von Belegen nicht-leer ist.

Syntagmatische Muster

wird nur ermittelt, wenn die Lemmatisierung der Partnerwörter deaktiviert ist!
für die Angabe des syntagmatischen Musters werden keine (!) tiefergehenden statistischen Auswertungen vorgenommen, es werden lediglich die Häufigkeiten innerhalb der Treffermenge ausgewertet
das syntagmatische Muster beschreibt
- relative Reihenfolge der Clusterelemente (Bezugswort und Kookkurrenzpartner) - jeweils in einer bestimmten Ausprägung (nicht-lemmatisierte Wortformen)
- unbestimmte Füllung der Lücken bzw. bestimmte Füllung der Lücken mit Grad der Bestimmtheit

schematisches Beispiel: xxx% wort1 wort2 wort3 wort4 wort5

die Clusterelemente sind blau angegeben
die vorangestellte Prozentzahl gibt an, wie ausgeprägt die angegebene relative Reihenfolge dieser Elemente ist
- die Farbe, in der die Prozentzahl dargestellt wird, wird in 5 Stufen abgeschwächt
  (schwarz = 100%,
  sehr dunkles grau = 80 - 99%,
  dunkles grau = 60 - 79%,
  grau = 40 - 69%,
  helles grau = 0 - 39%)

die restlichen Angaben beschreiben, ob es Lücken zwischen den Clusterelementen gibt, und wenn ja, wie diese gefüllt sind

wort1	eine einzige Wf füllt Lücke
wort0 wort1	Folge von Wf füllt Lücke
wortx \| worty	verschiedene Wf füllen Lücke
[ wortx ]	Lücke ist nicht immer vorhanden
. . .	kein Füller tritt auffällig oft auf

es wird bei den Häufigkeitsangaben nicht berücksichtigt, wie oft eine Wortform überhaupt in den Korpora vorkommt, seltene Wortformen werden dadurch benachteiligt, häufige haben dadurch einen leichten Vorteil (z.B. Funktionswörter)
analog zur vorangestellten Prozentangabe drücken die Graustufen bei den Wortformen aus, wie oft diese die Lücken füllen
- wort1
- wort3
- wort5
- die eckigen Klammern für die “Optionalität” übernehmen das schwächste Grau des darin enthaltenen Ausdrucks

Grammatik für das Pattern

pattern	=	( clusterElem \| filler )+
filler	=	complexFiller
complexFiller	=	complexFiller complexFiller
	\|	complexFiller '\|' complexFiller
	\|	'[' complexFiller ']'
	\|	simpleFiller
simpleFiller	=	'. . .'
	\|	<wortform>
clusterElem	=	<wortform>

Zurück zur Projektseite

Kontakt:: korpuslinguistik@ids-mannheim.de

Programmbereich Korpuslinguistik Methoden der Korpusanalyse und -erschließung

Eine kurze Einführung in die Kookkurrenzanalyse und syntagmatische Muster

Zitierhinweise

Vorbemerkung

Annahmen

Suchanfrage

Suchergebnis zu der Wortform “Stücken”

Kookkurrenzanfrage

KA erste Parameter

KA Vorgehensweise

Lemmatisierung

Funktionswörter

Zuverlässigkeit

Primärer Kookkurrenzpartner

Kookkurrenzpartner n. Stufe

Granularität

Zuordnung der Belege

Autofocus

Anmerkung

Syntagmatische Muster

schematisches Beispiel: xxx% wort1 wort2 wort3 wort4 wort5

Programmbereich Korpuslinguistik
Methoden der Korpusanalyse und -erschließung