Informationsextraktion (IE)

Transcription

Informationsextraktion (IE)
Informationsextraktion (IE)
• Automatische Identifikation von Instanzen
einer bestimmten Klasse von Ereignissen
oder Beziehungen aus Texten in
natürlicher Sprache
• Der semantische Umfang von
Instanzen/Beziehungen ist beschränkt
(Domänenabhängigkeit)
• Extraktion der relevanten Argumentwerte
des Ereignisses oder der Beziehung in
vordefinierte Schablonen (Templates)
1
Informationsextraktion:
Beispiel
Dr. Herrmann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus
dem Amt. Der 65jährige tritt
seinen wohlverdienten
Ruhestand an. Als seine
Nachfolgerin wurde Sabine
Klinger benannt. Ebenfalls
neu besetzt wurde die
Stelle des Musikdirektors.
Anneliese Häfner folgt
Christian Meindl nach.
• Gesuchte Information:
Nachfolge von
Leitungsfunktionen in
Institutionen.
• Schablone:
[ PersonOut
PersonIn
Position
Organisation
Time ]
Informationsextraktion:
Beispiel
Dr. Herrmann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus
dem Amt. Der 65jährige tritt
seinen wohlverdienten
Ruhestand an. Als seine
Nachfolgerin wurde Sabine
Klinger benannt. Ebenfalls
neu besetzt wurde die
Stelle des Musikdirektors.
Anneliese Häfner folgt
Christian Meindl nach.
• Ergebnis1:
[PersonOut
Dr.Hermann Wirth
PersonIn Sabine
Klinger Position Leiter
Organisation
MHS
München Time
heute
]
2
Informationsextraktion:
Beispiel
Dr. Herrmann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus
dem Amt. Der 65jährige tritt
seinen wohlverdienten
Ruhestand an. Als seine
Nachfolgerin wurde Sabine
Klinger benannt. Ebenfalls
neu besetzt wurde die
Stelle des Musikdirektors.
Anneliese Häfner folgt
Christian Meindl nach.
• Ergebnis2:
[PersonOut
Christian Meindl
PersonIn Anneliese
Häfner Position
Musikdirektor
Organisation
MHS
München Time
]
Informationsextraktion
Historische Entwicklung
1980s von Hand erstellte lexikalisch-semantische Muster
(FRUMP, satellite reports, patient discharge
summaries...)
1987 1st MUC (Message Understanding Conference);
Domäne: naval sightings
1889 2nd MUC; Domäne: naval sightings
1991 3rd MUC; Domäne: terrorist acts
– Der Sieger (SRI) verwendet partial parsing
1992 4th MUC; Domäne: terrorist acts
1993 5th MUC; Domäne: joint ventures/electronic circuit
fabrication
– Die besten Systeme erreichen 40% R, 50% P (Menschen im
Bereich 60-80%)
– Lehnert et al.: erstmalig wird bootstrapping verwendet.
3
Informationsextraktion
Historische Entwicklung (2)
1995 6th MUC; Domäne: labour unit contract
negotiations/changes in corporate executive
management personnel
– Ziel: Portabilität und tieferes Verständnis zu fördern.
– Aufgeteilt in verschiedene Aufgaben:
•
•
•
•
NE: Named Entity
CO: Coreference
TE: Template Element
ST: Scenario Templates
1995: IE zum Erstellen von Zusammenfassungen (Radev &
McKeown)
1998: 7th MUC; Domäne: satellite rocket launch events
– Mikheev et al., hybride Methoden für NE
2003: CoNLL NE recognition task; ähnliche Trainingsdaten
wie MUC
MUC - Ablauf
• Teilnehmer erhalten eine Beschreibung des Szenarios
und einen Trainings-Corpus (eine
Dokumentensammlung und die Templates die daraus
extrahiert werden sollen)
• 1-6 Monate Zeit, um Systeme an neues Szenario zu
adaptieren
• NIST Analysten befüllen manuell die Templates des
Test-Corpus („answer key“)
• Test-Corpus bereitgestellt; Systeme werden intern
getestet
• Automatischer Vergleich der vom System gelieferten
Ergebnisse mit answer keys
• Bewertung: Precision und Recall
• Teilnehmer präsentieren im Frühling nach dem Bewerb
ein Papier bei der Konferenz
• Demonstrieren die Performanz des Systems anhand
vordefinierter „walk through“ Beispiele
4
Beispieltext (MUC-3)
TST-1-MUC3-0080
BOGOTA, 3 APR 90 (INRAVISION TELEVISION CADENA 1)
- [REPORT] [JORGE ALONSO SIERRA VALENCIA] [TEXT]
LIBERAL SENATOR FEDERICO ESTRADA VELEZ WAS
KIDNAPPED ON 3 APRIL AT THE CORNER OF 60TH AND
48TH STREETS IN WESTERN MEDELLIN, ONLY 100 METERS
FROM A METROPOLITAN POLICE CAI [IMMEDIATE
ATTENTION CENTER]. THE ANTIOQUIA DEPARTMENT
LIBERAL PARTY LEADER HAD LEFT HIS HOUSE WITHOUT
ANY BODYGUARDS ONLY MINUTES EARLIER. AS HE WAITED
FOR THE TRAFFIC LIGHT TO CHANGE, THREE HEAVILY
ARMED MEN FORCED HIM TO GET OUT OF HIS CAR AND
INTO A BLUE RENAULT.
HOURS LATER, THROUGH ANONYMOUS TELEPHONE CALLS TO
THE METROPOLITAN POLICE AND TO THE MEDIA, THE
EXTRADITABLES CLAIMED RESPONSIBILITY FOR THE
KIDNAPPING. IN THE CALLS, THEY ANNOUNCED THAT THEY
WILL RELEASE THE SENATOR WITH A NEW MESSAGE FOR
THE NATIONAL GOVERNMENT. LAST WEEK, FEDERICO
ESTRADA HAD REJECTED TALKS BETWEEN THE GOVERNMENT
AND THE DRUG TRAFFICKERS.
Beispiel eines Template (MUC-3)
1.
2.
3.
4.
5.
6.
7.
8.
MESSAGE ID
TEMPLATE
DATE OF INCIDENT
TYPE OF INCIDENT
CATEGORY OF INCIDENT
PERPETRATOR: ID OF INDIV(S) .
PERPETRATOR: ID OF ORG(S) .
PERPETRATOR: CONFIDENCE
EXTRADITABLES“
9. PHYSICAL TARGET: ID(S)
10. PHYSICAL TARGET: TOTAL NUM
11. PHYSICAL TARGET: TYPE(S)
12. HUMAN TARGET: ID(S)
TST1-MUC3-0080
ID 1
03 APR 90
KIDNAPPING
TERRORIST ACT
„THREE HEAVILY ARMED MEN“
„THE EXTRADITABLES“
CLAIMED OR ADMITTED: „THE
13. HUMAN TARGET:
14. HUMAN TARGET: TYPE(S)
„FEDERICO
15. TARGET: FOREIGN NATION(S)
16. INSTRUMENT: TYPE(S)
17. LOCATION OF INCIDENT COLOMBIA:
18. EFFECT ON PHYSICAL TARGETS
19. EFFECT ON HUMAN TARGETS
*
*
*
„FEDERICO ESTRADA VELEZ“
(„LIBERAL SENATOR“)
TOTAL NUM 1
GOVERNMENT OFFICIAL:
ESTRADA VELEZ“
*
MEDELLIN (CITY)
*
*
5
Beispieltext (MUC-5)
<DOC>
<DOCNO> 0592 </DOCNO>
<DD> NOVEMBER 24, 1989, FRIDAY </DD>
<SO>Copyright (c) 1989 Jiji Press Ltd.;</SO>
<TXT>
BRIDGESTONE SPORTS CO. SAID FRIDAY IT HAS SET UP A JOINT VENTURE IN
TAIWAN WITH A LOCAL CONCERN AND A JAPANESE TRADING HOUSE TO
PRODUCE GOLF CLUBS TO BE SHIPPED TO JAPAN.
THE JOINT VENTURE, BRIDGESTONE SPORTS TAIWAN CO., CAPITALIZED AT 20
MILLION NEW TAIWAN DOLLARS, WILL START PRODUCTION IN JANUARY 1990
WITH PRODUCTION OF 20,000 IRON AND .METAL WOOD. CLUBS A MONTH. THE
MONTHLY OUTPUT WILL BE LATER RAISED TO 55,000 UNITS, BRIDGESTON
SPORTS OFFICIALS SAID.
THE NEW COMPANY, BASED IN KAOHSIUNG, SOUTHERN TAIWAN, IS OWNED 75
PCT BY BRIDGESTONE SPORTS, 15 PCT BY UNION PRECISION CASTING CO. OF
TAIWAN AND THE REMAINDER BY TAGA CO., A COMPANY ACTIVE IN TRADING
WITH TAIWAN, THE OFFICIALS SAID.
BRIDGESTONE SPORTS HAS SO FAR BEEN ENTRUSTING PRODUCTION OF
GOLF CLUBS PARTS WITH UNION PRECISION CASTING AND OTHER TAIWAN
COMPANIES.
WITH THE ESTABLISHMENT OF THE TAIWAN UNIT, THE JAPANESE SPORTS
GOODS MAKER PLANS TO INCREASE PRODUCTION OF LUXURY CLUBS IN
JAPAN.
</TXT>
</DOC>
Beispiel eines Template (MUC-5)
<TEMPLATE-0592-1> :=
Doc Nr: 0592
Doc Date: 241189
Document Source: „Jiji Press Ltd.“
Content: <TIE UP RELATIONSHIP-0592-1>
<TIE_UP_RELATIONSHIP-0592-1>:=
Tie-up Status: EXISTING
Entity: <ENTITY-0592-1>
<ENTITY-0592-2>
<ENTITY-0592-3>
Joint Venture Co:<ENTITY-0592-4>
Ownership: <OWNERSHIP-0592-1>
Activity:<ACTIVITY-0592-1>
<ENTITY-0592-1>:=
Name: BRIDGESTONE SPORTS CO
Aliases : „BRIDGESTONE SPORTS“ „BRIDGESTON
SPORTS“
Nationality: Japan (COUNTRY)
Type: COMPANY
Entity Relationship:<ENTITY RELATIONSHIP-0592-1>
<ENTITY-0592-2>:=
Name : UNION PRECISION CASTING CO
Aliases: „UNION PRECISION CASTING“
„BRIDGESTON SPORTS“
Location: Taiwan (COUNTRY)
Nationality : Taiwan (COUNTRY)
Type : COMPANY
Entity Relationship :<ENTITY RELATIONSHIP-0592-1>
<ENTITY-0592-3>:=
Name : TAGA CO
Nationality : Japan (COUNTRY)
<ENTITY-0592-4>:=
Name : BRIDGESTONE SPORTS TAIWAN CO
Aliases : „UNION PRECISION CASTING“
„BRIDGESTON SPORTS“
Location: „KAOHSIUNG“ (UNKNOWN) Taiwan
(COUNTRY)
Type : COMPANY
Entity Relationship :<ENTITY RELATIONSHIP-0592-1>
<INDUSTRY-0592-1>:=
Industry-type: PRODUCTION
Product/Service: (CODE 39 „20,000 IRON AND 'METAL
WOOD‘ [CLUBS]“)
<ENTITY RELATIONSHIP-0592-1>:=
Entity1: <ENTITY-0592-1>
<ENTITY-0592-2>
<ENTITY-0592-3>
Entity2: <ENTITY-0592-4>
Rel Of Entity2 To Entity1: CHILD
Status: CURRENT
<ACTIVITY-0592-1>:=
Industry: <INDUSTRY-0592-1>
Activity-site: (Taiwan (COUNTRY) <ENTITY-0592-4>)
START TIME: <TIME-0592-1>
<TIME-0592-1>:=
During: 0190
<OWNERSHIP-0592-1>:=
Owned: <ENTITY-0592-4>
Total-capitalization: 20000000 TWD
Ownership-%: (<ENTITY-0592-3> 10)
(<ENTITY-0592-2> 15)
(<ENTITY-0592-1> 75)
6
3 Generationen von IE-Systemen
• Manuell erstellte Systeme – Knowledge Engineering
[1980s – ]
– Regeln manuell erstellt
– Benötigen Experten, die sowohl das Sytem als auch die Domäne
verstehen.
– Iterativer guess-test-tweak-repeat Zyklus
• Automatische, trainierbare Regel-Extraktions-Systeme
[1990s – ]
– Regeln werden automatisch entdeckt, indem man vordefi-nierte
Templates verwendet – setzt Methoden wie ILP ein
– Erfordern große, annotierte Corpora (der Aufwand wird nur
verschoben!)
• Statistische, generative Modelle [1997 – ]
– Man dekodiert das statistische Modell um herauszufinden,
welche Teile des Texts relevant waren – Verwendung von HMMs
oder statistischen Parsern
– Das Lernen ist üblicherweise überwacht; u.U patriell nicht
überwacht.
Eine typische IE Architektur
• Lokale Textanalyse
– Lexikalische Analyse
– Namenserkennung
– Partielle Syntaktische Analyse
– Szenario Pattern Matching
• Diskursanalyse
– Koreferenzanalyse
– Inferenzkomponente
• Templategenerierung
7
Verarbeitungsbeispiel
• Text:
Sam Schwartz retired as executive vice
president of the famous hot dog manufacturer,
Hupplewhite Inc. He will be succeeded by Harry
Himmelfarb.
• Namenserkennung:
Sam Schwartz (person) retired as executive vice
president of the famous hot dog manufacturer,
Hupplewhite Inc (organisation). He will be
succeeded by Harry Himmelfarb (person).
Verarbeitungsbeispiel (2)
• Partielle syntaktische Analyse:
[np: e1 Sam Schwartz (person)] [vg retired] as [np: e2
executive vice president] of [np: e3 the famous hot dog
manufacturer], [np:e4 Hupplewhite Inc (organisation)].
[np: e5 He] [vg will be succeeded] by [np: e6 Harry
Himmelfarb (person)].
e1 type: person name: Sam Schwartz
e2 type: position value: executive vice president
e3 type: manufacturer
e4 type: company name: Hupplewhite Inc.
e5 type: person
e6 type: person name: Harry Himmelfarb
8
Verarbeitungsbeispiel (3)
• Scenario Pattern Matching:
e2 type: position
value: executive vice president company:e3
e7 leave-job person: e1 position: e2
e8 succeed person1: e6 person2: e5
• Koreferenzanalyse
e5 = e1
e3 = e4
• Inferenz:
e9 start-job person: e6 position e2
Verarbeitungsbeispiel (4)
• Templategenerierung:
EVENT: leave job
PERSON: Sam Schwartz
POSITION: executive vice president
COMPANY: Hupplewhite Inc.
EVENT: start job
PERSON: Harry Himmelfarb
POSITION: executive vice president
COMPANY: Hupplewhite Inc.
9
Named Entity Recognition
• Bei der MUC-6 definierte Typen von NE:
– ENAMEX (type= person, organisation, location)
– TIMEX (type= time, date)
– NUMEX (type= money, percent)
• Die Verwendung von Gazetteers (= Liste von
Namen eines bestimmten Typs, z.B. Länder,
Nachnamen, Flüsse) ist erlaubt.
• ENAMEX ist schwieriger, weil mehr vom
Kontext abhängig als TIMEX und NUMEX:
– Ist Granada eine COMPANY oder eine LOCATION?
– Ist Washington eine PERSON oder eine LOCATION?
– Ist Arthur Anderson eine PERSON oder eine
ORGANISATION?
Named Entity Recognition:
Ansätze
• NE markup with subtypes:
<ENAMEX TYPE='PERSON'>Flavel Donne</ENAMEX>
is an analyst with <ENAMEX TYPE='ORGANIZATION'>
General Trends</ENAMEX>, which has been based in
<ENAMEX TYPE='LOCATION'>Little
Spring</ENAMEX> since <TIMEX TYPE='DATE'>July
1998</TIMEX>.
• Viele Systeme verwenden manuell erstellte reguläre
Ausdrücke als Muster:
– Regeln für Titel, Bezeichnungen, Postfixe, etc.
– Gazetteers mit üblichen Namen
– Acronyme: Hewlett Packard Inc. → HP
• MUSTER: „president of <company>“ selektiert
executive vice president of Hupplewhite
10
Named Entity Recognition:
Gazetteers – Personennamen
• Gazetteer für volle Personennamen weder möglich noch
sinnvoll, da Vornamen und Nachnamen auch getrennt
auftreten.
• Gazetteer für Nachnamen wenig sinnvoll:
– Eine nahezu unendliche Menge von möglichen Namen:
Nachnamen sind produktiv (in den USA etwa 1.500.000
Nachnamen)
– Überlappen mit Nomina/Adjektiven/Verben (z.B. Schmied,
Köhler, Schuster, Schwarz, Berg)
– Überlappen mit Vornamen
• Gazetteer für Vornamen sinnvoll, aber auch hier
Problemfälle:
– Überraschende Vielfalt, etwa Beispiel aus MUC-7: Llennel
Evangelista.
– Auch Vornamen sind produktiv, z.B. Moonunit Zappa, Apple
Paltrow . . .
Named Entity Recognition:
Gazetteers – Namensambiguität
• Ambiguität im Typ eines Namens: Columbia (Organization) vs.
(British) Columbia (Location) vs. Columbia (Space shuttle)
• Firmennamen enthalten oft Nomina/Adjektiva/Verben (Next, Boots,
Thinking Machines. . . ) und treten in verschiedenen Variationen auf
(Peter Stuyvesant vs. Stuyvesant)
• Probleme mit Koordination und linker Grenze:
– Eine oder zwei Einheiten: „China International Trust and Investment
Corp invests $2m in. . . ?“
– Unbekanntes Wort am Beginn eines potentiellen Namens: daei oder
nicht?
Suspended Ceilings Inc vs Yesterday Ceilings Inc
Mason, Daily and Partners vs. Unfortunately, Daily and Partners
• Experimente zeigen: Einfache Gazetteeers bringen gute Ergebnisse
für Ortsnamen (90%P/80%R) aber nicht für Personen und
Organisationen (80%P/50%R)
11
Kaskadierte Namenserkennung
Mikheev et al. (1998)
• Kaskadiertes Sytem, das regelbasierte Schritte
mit probabilistic partial matching kombiniert
• Verwende maschinell gelernte Information um
den Typ eines Namens festzulegen
• Verwende die interne Struktur von Namen zur
Entscheidungsfindung
• Triff zuerst Entscheidungen hoher Präzision
• Triff Entscheidungen, die unsicher sind erst
nachdem die gesamte Evidenz vorliegt.
• Annahme: Jeder Name kann pro Diskurs
(Artikel) genau einem Typ zugeordnet werden.
– Ausser es gibt explizite Information im Text, die
gegen diese Hypothese spricht
Mikheev et al. (1998):
Beispiele für „sure fire rules“
Rule
Assign
Example
Xxxx+ is? a? JJ* PROF .
Xxxx+ is? a? JJ* REL
.
Xxxx+ himself
Xxxx+, DD+ ,
share in Xxxx+
Xxxx+ Inc.
PROF (of|at|with) Xxxx+
Xxxx+ (region|area)
PERS
.
PERS
.
PERS
PERS
ORG
ORG
ORG
LOC
Yuri Gromov, a former director
John White is beloved brother
White himself
White, 33,
shares in Trinity Motors
Hummingbird Inc.
director of Trinity Motors
Beribidjan area
PROF – Stellung, REL – Verwandtschaftsbeziehung, DD – Ziffern,
JJ – Adjektive, Xxxx – ein kapitalisiertes Wort
12
Mikheev et al. (1998):
Parameter des ML-Modells
• Externe (kontextuelle) Merkmale
– Position im Satz (satzinitial)
– Wort (Phrase) existiert (kleingeschrieben) im Lexikon
– Word (Phrase) tritt im Dokument (kleingeschrieben)
auf
• Interne (phrasale) Merkmale
– Wort (Phrase) enthält nicht-alphabetische Zeichen
– Anzahl an Wörtern, aus denen Phrase besteht
– Suffix, Prefix
– Adjektiv das auf „an“ or „ese“ endet + Root
des Adjektivs in Gazetteer enthalten
Mikheev et al. (1998):
Algorithmus
1. Wende Regelset 1 an („Sure fire“ Regeln) => fix als Name
des entsprechenden Typs annotieren
2. Auswahl jeweils einer Variante durch ML-Komponente
(probabilistic partial match)
– Finde alle zu diesem Zeitpunkt markierten Namen
– Generiere alle potentiell möglichen Substrings dieser
Namen => kennzeichne als mögliche Namen des
gegebenen Typs
- Adam Kluver Ltd => Adam Kluver, Adam Ltd, Kluver Ltd
– Ein auf einem entsprechenden Korpus trainiertes
Maximum Entropy Modell liefert zu jedem potentiellen
Namen die Wahrscheinlichkiet, dass es sich tatsächlich
um einen Namen handelt.
13
Mikheev et al. (1998):
Algorithmus (2)
3. Wende Regelset 2 an (Relaxed rules)
– Markiere alles, was als PERSON in Frage kommt (unter
Berücksichtigung von Grammatikregeln und Gazetteer)
– Entscheidung über Koordination: Sind Teile unabhängig
verwendet worden? Falls nicht, nimm Koordination an.
– Entscheidung über potentielle Modifikatoren am Satzanfang
(Unfortunately, . . . , Suspended Ceiling Contractors Ltd.)
– Genitiv-Ambiguität auflösen: Murdoch's News Corp
4. Wende ML-Komponente an (auf neue Varianten)
– Namen, die schon in detaillierterer Form erkannt wurden (White
falls James White schon an anderer Stelle erkannt)
– Bei Koordination sind üblicherweise beide Namen vom gleichen
Typ (erkannte bei der MUC-7 als einziges System „Un7ited
States and Russia“)
5. Namenserkennung im in der Überschrift (alle Wörter im
Titel kapitalisiert). Eigenes ML-Modell nötig, das auf
Überschriften trainiert wurde.
Mikheev et al. (1998):
Beispieltext
MURDOCH SATELLITE CRASH UNDER FBI INVESTIGATION
London and Tomsk. The crash of Rupert Murdoch Inc's news satellite yesterday is
now under investigation by Murdoch and by the Sibirian state police. Clarity J.
White, vice president of Hot Start, the company which produced the satellite's
ignition system, yesterday stated that her company considered human failure the
most likely cause of the crash. Investigator Robin Black, 33, who investigates the
crash for the FBI, recently arrived by train at the crash site in the Tomsk region.
Neither White nor Black were availablefor comment today; Murdoch have
announced a press conference for tomorrow.
14
Mikheev et al. (1998):
Beispiel nach Schritt 1
MURDOCH SATELLITE CRASH UNDER FBI INVESTIGATION
London and Tomsk. The crash of Rupert Murdoch Inc's(ORG) news satellite
yesterday is now under investigation by Murdoch and by the Sibirian state police.
Clarity J. White, vice president of Hot Start(ORG), the company which produced
the satellite's ignition system, yesterday stated that her company considered human
failure the most likely cause of the crash. Investigator Robin Black(PERSON), 33,
who investigates the crash for the FBI, recently arrived by train at the crash site in
the Tomsk(LOC) region. Neither White nor Black were availablefor comment
today; Murdoch have announced a press conference for tomorrow.
Blaue Instanzen: in dieser Runde neu erzeugt
• Alle Instanzen durch „sure fire“ Regeln erzeugt.
• Der exakte Umfang der Namen ist noch nicht
geklärt: Investigator Robin Black? Robin Black?
Black?
Beispiel nach Schritt 2
(partieller Vergleich)
MURDOCH SATELLITE CRASH UNDER FBI INVESTIGATION
London and Tomsk(LOC?). The crash of Rupert Murdoch Inc(ORG)'s news
satellite yesterday is now under investigation by Murdoch(ORG?) and by the
Sibirian state police. Clarity J. White, vice president of Hot Start(ORG), the
company which produced the satellite's ignition system, yesterday stated that her
company considered human failure the most likely cause of the crash. Investigator
Robin Black(PERSON?), 33, who investigates the crash for the FBI, recently
arrived by train at the crash site in the Tomsk(LOC) region. Neither White nor
Black(PERSON?) were availablefor comment today; Murdoch(ORG?) have
announced a press conference for tomorrow.
Grüne Instanzen: stammen aus früheren Runden
Alle Instanzen aus der letzten Runde sowie ihre
Substrings werden jetzt hypothetisiert und durch
ML-Teil überprüft
15
Beispiel nach Schritt 2
(probabilistischer Vergleich)
MURDOCH SATELLITE CRASH UNDER FBI INVESTIGATION
London and Tomsk(LOCD). The crash of Rupert Murdoch Inc(ORG)'s news
satellite yesterday is now under investigation by Murdoch(ORGD) and by the
Sibirian state police. Clarity J. White, vice president of Hot Start(ORG), the
company which produced the satellite's ignition system, yesterday stated that her
company considered human failure the most likely cause of the crash. Investigator
Robin Black(PERSOND), 33, who investigates the crash for the FBI, recently
arrived by train at the crash site in the Tomsk(LOC) region. Neither White nor
Black(PERSOND) were availablefor comment today; Murdoch(ORGD) have
announced a press conference for tomorrow.
• ML-Komponente hat einige Instanzen
bestätigt (Robin Black) und andere
verworfen (Investigator Robin Black)
Mikheev et al. (1998):
Beispiel nach Schritt 3
MURDOCH SATELLITE CRASH UNDER FBI INVESTIGATION
London(LOC?) and Tomsk(LOC). The crash of Rupert Murdoch Inc(ORG)'s news
satellite yesterday is now under investigation by Murdoch(ORG) and by the
Sibirian state police. Clarity J. White(PERSON?), vice president of Hot
Start(ORG), the company which produced the satellite's ignition system, yesterday
stated that her company considered human failure the most likely cause of the
crash. Investigator Robin Black(PERSON), 33, who investigates the crash for the
FBI, recently arrived by train at the crash site in the Tomsk(LOC) region. Neither
White(PERSON?) nor Black(PERSON) were availablefor comment today;
Murdoch(ORG) have announced a press conference for tomorrow.
• Alles als Möglichkeit markiert, was von
der Form her Name sein könnte
16
Mikheev et al. (1998):
Beispiel nach Schritt 4
MURDOCH SATELLITE CRASH UNDER FBI INVESTIGATION
London(LOCD) and Tomsk(LOC). The crash of Rupert Murdoch Inc(ORG)'s
news satellite yesterday is now under investigation by Murdoch(ORG) and by the
Sibirian state police. Clarity J. White(PERSOND), vice president of Hot
Start(ORG), the company which produced the satellite's ignition system, yesterday
stated that her company considered human failure the most likely cause of the
crash. Investigator Robin Black(PERSON), 33, who investigates the crash for the
FBI, recently arrived by train at the crash site in the Tomsk(LOC) region. Neither
White(PERSOND) nor Black(PERSON) were availablefor comment today;
Murdoch(ORG) have announced a press conference for tomorrow.
• ML-Komponente hat einige Instanzen bestätigt
und andere verworfen
• Fehlender Schritt: unterschiedliche
Segmentierung und ML-Komponente für
Titelzeile (alles kapitalisiert, andere Syntax)
Mikheev et al. (1998):
Resultate bei der MUC-7
• Bestes System und statistisch signifikant
unterschiedliche Resultate gegenüber dem
Zweiten.
• Systemdesign zielt auf hohe Präzision in allen
Stufen ab; Erhöhung des Recall je nach
Möglichkeit.
• Gazetteers verbessern die Performanz, das
System liefert für Personen und Organisationen
aber auch ohne Gazetteer gute Ergebnisse:
– ORG:
P86/R85
– PERSON: P90/R95
– LOC:
P46/R59
17
Mikheev et al. (1998):
Resultate nach Einzelschritten
1 Sure fire rules
ORG
PERSON LOC
R
P R
P R
P
42 98 40 99 36 96
2 Partial Match 1
75
98 80
99 69
93
3 Relaxed Rules
83
96 90
98 86
93
4 Partial Match 2
5 Title Assignment
85
91
96 93
95 95
97 88
97 95
93
93
18