Wortbedeutungsdisambiguierung - Centrum für Informations

Transcription

Wortbedeutungsdisambiguierung - Centrum für Informations
Wortbedeutungsdisambiguierung
Proseminar: „Statistische Methoden in der Sprachverarbeitung“
Dozent: Stefan Langer
LMU München
Centrum für Informations- und Sprachverarbeitung
Sommersemester 2003
Referenten: Michaela Geierhos, Christian Seidel, Oyundavaa Radnaa, Ilona Nowak
02.06.2003
1. Allgemeines
ƒ
Ambiguität (Mehrdeutigkeit)
Lexikalischen Einheiten können mehrere Bedeutungen zugeordnet werden.
ƒ
Wortbedeutung
- lexikalische Wortbedeutung, z. B. The early bird catches he worm. (Morgenstund’ hat Gold
im Mund.) Someone bites the dust. (Jemand beisst ins Gras.)
- strukturelle bzw. syntaktische Wortbedeutung, z. B. Mary saw the man with the telescope.
ƒ
Ziel der Disambiguierung
Festlegung der Bedeutung eines ambigen Wortes in einem bestimmten Kontext.
ƒ
Label
Markierung eines Wortes in einem bestimmten Kontext mit seiner Bedeutung.
ƒ
Thesaurus
Eine Art Wörterbuch. Genauer: Eine systematisch geordnete Sammlung von Wörtern eines
bestimmten (Fach-)Bereichs.
ƒ
Notation bei der Disambiguierungstheorie
w
s1, ..., sk, ..., sK
c1, ..., ci, ..., cI
v1, ..., vj, ..., vJ
ein ambiges Wort
die verschiedenen Bedeutungen des ambigen Wortes w
die verschiedenen Kontexte von w in einem Korpus
verschiedene Wörter, die aus dem Kontext von w entnommen
wurden , da sie für die Disambiguierung am geeignetsten sind
2. Supervised Disambiguation
Voraussetzung:
Es liegt bereits ein disambiguierter Trainings-Korpus vor, in dem die ambigen Wörter
gekennzeichnet (gelabelt) wurden - d.h. jedem Wort w wird ein Label sk zugeordnet.
Ziel:
Die auf das Trainings-Korpus abgestimmte Maschine sollte auch neue ambige Wörter
erkennen, und unter Berücksichtigung des Kontextes disambiguieren können.
1
Wortbedeutungsdisambiguierung
2.1 Klassifizierung nach Bayes
Hierfür wird das ambige Wort w in einem sehr weit gefassten Kontext nach Wörtern, die
bestimmte Informationen tragen, durchsucht. Mit dieser Information muss die Maschine die
Kombinationen evaluieren, und somit die Bedeutung des Wortes feststellen. Zur
Disambiguierung wird die Bayes-Entscheidungsregel angewandt:
-
Nimm die Bedeutung s' von w an, wenn P(s'|c) > P(sk|c) für sk ≠ s' gilt.
Berechnung der Bedeutung s’ eines Wortes w mit der Bayes-Regel:
s' = arg max P(c|sk)P(sk) = arg max P(c|sk)P(sk)
sk
sk
P(c)
Gale et al. gehen von einem Spezialfall der Bayes-Entscheidungsregel aus:
Einfache Bayes-Annahme:
P(c|sk) = P({ vj| vj in c}| sk)
Hierbei wird die strukturierte und lineare Ordnung der Wörter im Kontext ignoriert, und man geht
vom so genannten „bag of words“ (dem Sack voller Wörter) aus, wobei die Wörter unabhängig
von einander sind. Diese Annahme ist im Wesentlichen eher realitätsfremd und stark
vereinfachend.
Bsp:
Das Wort "Gewerkschaftsvorsitzender" tritt viel häufiger in Kontexten auf, in denen auch das
Wort "DBG" enthalten ist, als in Kontexten, in denen das Wort "Blume" vorkommt.
Trotz seiner zahlreichen Mängel arbeitet dieses Model ziemlich effektiv. Man muss nur darauf
achten, dass das Kontext-Fenster, in dem die Bedeutung eines Wortes evaluiert werden soll,
nicht zu groß gewählt wird.
Berechnung der Bedeutung von s’ mit der Einfachen Bayes-Entscheidungsregel:
Entscheide dich für die Bedeutung s' , wenn s' = arg max sk [log P(sk) + ∑vj in c logP(vj | sk )]
Bsp: engl. drug
Bedeutung
medication
illegal substance
Schlüsselbegriffe
prices, prescription, patent, increase, consumer, pharmaceutical
abuse, paraphernalia, illicit, alcohol, cocaine, traffickers
2.2 Informationstheoretische Annäherung
Vorgehensweise:
Ein einzelnes Merkmal soll im Kontext gefunden werden, das zuverlässig die Bedeutung
des ambigen Wortes anzeigt. Hiefür müssen die Werte der Wörter, die diese Merkmale
haben, nach der Bedeutung, die sie kodieren, in verschiedene Kategorien eingeordnet
werden.
Bsp.: nach Brown et al., 1991
ambiges Wort
Indikator
Bsp.: Wert -> Bedeutung
prendre
Objekt
vouloir
Tempus
cent
Wort, das links vom
mesure -> to take
décision -> to make
present -> to want
conditional -> to like
per -> %
2
Wortbedeutungsdisambiguierung
ambiges Wort
Indikator
Bsp.: Wert -> Bedeutung
ambigen Wort steht
number -> c. [Geldmünze]
Um diese Annäherung berechnen zu können, verwendet man in der Regel den Flip-FlopAlgorithmus.
3. Lexikonbasierte Disambiguierung
Voraussetzung:
Es steht kein gelabelter (annotierter) Korpus zur Verfügung.
Bedeutung
tree
burned stuff
s1
s2
Definition
a tree of the olive family
the solid residue left when combustible material is burned
3.1 Disambiguierung basierend auf Bedeutungsdefinitionen (nach Lesk, 1986)
Basis für die Disambiguierung ist hier ein Lexikon, das Aufschluss über die Bedeutungen der
entsprechenden Wörter geben soll.
Bsp.: engl. ash (dt. Esche/Asche):
Treffer (scores)
s2
1
0
s1
0
1
Kontext
This cigar burns slowly and creates a stiff ash.
The ash is one of the last trees to come into leaf.
Algorithmus:
comment:
Given: context c
for all senses sk of w do
{
score (sk) = overlap (Dk,Uvj
}
end
choose s' s.t. s' = arg maxsk
Dk
Evj
-
in cEvj)
score (sk)
Menge der Lexikondefinitionen aller unterschiedlichen Bedeutungen des ambigen
Wortes.
Menge der Lexikondefinitionen der Worte vj, die im Kontext des ambigen Wortes
vorkommen.
Algorithmus erzielt nur mittelmäßige Ergebnisse (50-70% Erfolgsquote)
Verbesserungsvorschläge nach Lesk:
ƒ Mehrere Text-Durchläufe des Algorithmus sind nötig.
ƒ Ersetzung von Uvj in c Evj durch die Wörter, die für die Disambiguierung am
„geeignetsten“ erscheinen.
ƒ Kombination von lexikonbasierter und Thesaurus-basierter Disambiguierung.
3
Wortbedeutungsdisambiguierung
3.2 Thesaurus-basierte Disambiguierung (nach Yarowski, 1992)
In einem Thesaurus bestimmen die semantischen Kategorien der Wörter die semantische
Kategorie des Kontexts als Ganzes. Aufgrund dieser Kategorisierung wird im Anschluss daran
auf die Bedeutung des ambigen Wortes geschlossen.
Bsp: Ergebnisse des Yarowski Algorithmus:
Wort
bass
star
interest
Bedeutung
musical senses
fish
space object
celebrity
curiosity
advantage
financial
share
Kategorie
music
animal, insect
universe
entertainer
reasoning
injustice
debt
property
Genauigkeit
99,00%
100,00%
96,00%
95,00%
88,00%
34,00%
90,00%
38,00%
Mögliche Probleme:
ƒ
ƒ
ƒ
Je ähnlicher sich die Kategorien sind, denen ein Wort zugeordnet werden kann, desto
schlechter wird die Trefferquote für das Ergebnis. (z. B. interest)
Wenn eine bestimmte Bedeutung mehreren Kategorien zugeordnet werden kann, arbeitet
der Algorithmus auch ungenauer. Im obigen Beispiel ist „advantage“ eine Bedeutung von
„interest“ (wie in „self-interest“). Da „self-interest nicht nur in der Finanzwelt, der
Unterhaltungsbranche oder im Musikgeschäft auftreten kann, ist es schwer bzw. fast
unmöglich ihm genau eine Kategorie zuzuordnen.
Ist das Wörterbuch bzw. der Thesaurus nicht auf dem neuesten Stand oder weist Lücken
auf, schleichen sich schnell Fehler ein. Z.B. ist Navratilova ein guter Hinweis dafür, dass es
um Sport geht, hat man aber einen veralteten Thesaurus als Grundlage, wird das der
Algorithmus kaum herausfinden. Das gleiche gilt für die Maus – einmal als Säugetier und
einmal als elektronisches Computerzubehör.
3.3 Disambiguierung basierend auf Übersetzungen in einem bilingualen Korpus
Voraussetzung:
Wichtig ist hier die Unterscheidung zwischen „first language“ (die im Korpus zu
ambiguierende Sprache) und „second language“ (der Zielsprache).
Bsp.: engl. interest
Definition
Übersetzung
Englische Kollokation
Übersetzung
Bedeutung Nr. 1
legal share
Beteiligung
acquire an interest
Beteiligung erwerben
Bedeutung Nr.2
attention, concern
Interesse
show interest
Interesse zeigen
Vorgehensweise:
ƒ
„interest“ hat im deutschen zwei unterschiedliche, häufig auftretende Übersetzungen –
4
Wortbedeutungsdisambiguierung
ƒ
ƒ
Beteiligung und Interesse.
Wichtig ist es die Kollokationen von „interest“ zu berücksichtigen, nur so erkennt man
wie dieses Assoziationspaar von der englischen Sprache analog in die Deutsche
übersetzt werden kann. (siehe obiges Beispiel)
Somit wird der Algorithmus erkennen, dass beispielsweise „interest“ im Satzteil „showed
interest“ nur in der Bedeutung von „attention, concern“ vorliegen kann.
3.4 Eine Bedeutung pro Diskurs, eine Bedeutung pro Kollokation
3.4.1 Eine Bedeutung pro Diskurs
ƒ
ƒ
Es wir davon ausgegangen, dass die Bedeutung eines Zielwortes innerhalb eines
Textes oder Kapitels etc. konstant bleibt, d.h. Bank wird wohl kaum in gleichen Text als
Geldinstitut und als Sitzgelegenheit vorkommen.
Nun wird jedes Vorkommen des ambigen Wortes nicht mehr gesondert betrachtet,
sondern die erste Bedeutung dieses Wortes wird auf alle weiteren Vorkommen im Text
angewandt.
3.4.2 Eine Bedeutung pro Kollokation
ƒ
ƒ
ƒ
ƒ
Die im Kontext des zu untersuchendes Wortes liegenden Wörter geben relativ gute
Hinweise darauf, welche Bedeutung das ambige Wort hier hat.
Nur ist noch darauf zu achten, wo genau sich die Kontextwörter befinden, denn die
Disambiguierung ist abhängig von der Entfernung, Reihenfolge und den syntaktischen
Beziehungen dieser Kontextwörter in Relation zum ambigen Wort.
Auch hier wird die am häufigsten ermittelte Bedeutung dieses Wortes auf alle weiteren
Vorkommen im Text angewandt.
Vor allem bei kurzen Texten wird dieses Verfahren genutzt, da es hier die höchste
Trefferquote hat.
4. Unsupervised Disambiguation
Voraussetzung:
Tritt in Aktion, wenn keine Hinweise auf die Bedeutungen der Wörter vorliegen, da weder
lexikalische Quellen, noch ein Trainings-Set oder Kollokationssequenzen zur Verfügung
stehen.
(Allerdings ist eine reine „unsupervised Disambiguation“ in der Praxis nicht möglich!)
Vorgehensweise:
ƒ
ƒ
ƒ
ƒ
Die Kontexte, in denen ein ambiges Wort steht werden in Gruppen (Kluster) eingeteilt
Unterschiede werden zwischen diesen einzelnen Gruppen dennoch gemacht, auch
ohne, dass sie markiert wurden.
Ein gängiges Verfahren hierfür ist die „context-group discrimination“, ein bestimmter
Algorithmus.
Anwendung hierbei findet auch häufig der EM-Algorithmus.
Vorteile:
ƒ
Unterschiede zwischen den einzelnen gebräuchlichen Bedeutungen sind viel feiner als
5
Wortbedeutungsdisambiguierung
ƒ
in einem Lexikon.
Für Information-Retrieval-Systeme ist dies eine wichtige Anwendung.
Mögliche Probleme:
ƒ
Diese Methode erlaubt es nicht seltene Bedeutungen eines Wortes und Bedeutungen,
die nur in wenigen Kollokationen auftreten, zu isolieren, d.h. sie sind überaus schwer zu
lokalisieren.
ƒ
„suit“ mit der Bedeutung von „to be appropriate for“ (geeignet sein, passend sein), wie in
„This suits me fine.“ wird mit hoher Wahrscheinlichkeit nicht gefunden.
5. Welche Bedeutung hat ein Wort?
Mittlerweile gibt es verschiedene Experimente, um herauszufinden, welche Bedeutungen der
Durchschnittsmensch, bestimmten ambigen Wörtern zuordnen würde:
ƒ
ƒ
Versuchspersonen sollen Kontexte ambiger Wörter in Gruppen einteilen.(Clustern)
Versuchspersonen sollen ambige Wörter in einem Korpus markieren, der auf
lexikalischen Definitionen gestützt ist.
Mögliche Probleme:
ƒ
ƒ
ƒ
ƒ
ƒ
Unklar ist noch, wie sicher und korrekt die Versuchspersonen den Gebrauch der Wörter
und ihrer Bedeutungen im aktuellen Sprachverständnis und in der Sprachproduktion
angeben.
Die Einteilung der Versuchspersonen ist beliebig, deshalb ist nicht eindeutig zu sagen,
ob diese Versuchmethoden in ihrer Reinform geeignet sind.
Die Übereinstimmungen der Versuchspersonen beim Clustern sind sehr niedrig.
Die Übereinstimmung bei der Markierung ist sehr hoch, wenn es viele ambige Worte mit
einer schiefen Verteilung gibt (skewed distribution), d.h. ein und dieselbe Bedeutung
wird bei den häufigsten Vorkommen eines Wortes verwendet.
Viele Wörter mit der größten Abweichungsquote sind hoch frequente Wörter.
Co-Aktivation:
Mehrere Bedeutungen eines ambigen Wortes werden in ein und demselben Kontext simultan
gebraucht.
ƒ
ƒ
ƒ
ƒ
Hohe Abweichungsquote
Häufige simultane Verwendungen in der Alltagssprache
Z.B. For better or worse, this would bring competition to the licensed trade.
('the act of X' versus 'the people doing X')
Fast alle Wörter können auch als Eigennamen auftreten!
Z.B. Brown, Bush, Army, usw.
Quelle: Christopher D. Manning & Hinrich Schütze : Foundations of Statistical Natural Language
Processing. MIT Press. Cambridge (USA). 1999. Kapitel 7. pp. 229-263
6