Informationsextraktion (IE)
Transcription
Informationsextraktion (IE)
Informationsextraktion (IE) • Automatische Identifikation von Instanzen einer bestimmten Klasse von Ereignissen oder Beziehungen aus Texten in natürlicher Sprache • Der semantische Umfang von Instanzen/Beziehungen ist beschränkt (Domänenabhängigkeit) • Extraktion der relevanten Argumentwerte des Ereignisses oder der Beziehung in vordefinierte Schablonen (Templates) 1 Informationsextraktion: Beispiel Dr. Herrmann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus dem Amt. Der 65jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu besetzt wurde die Stelle des Musikdirektors. Anneliese Häfner folgt Christian Meindl nach. • Gesuchte Information: Nachfolge von Leitungsfunktionen in Institutionen. • Schablone: [ PersonOut PersonIn Position Organisation Time ] Informationsextraktion: Beispiel Dr. Herrmann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus dem Amt. Der 65jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu besetzt wurde die Stelle des Musikdirektors. Anneliese Häfner folgt Christian Meindl nach. • Ergebnis1: [PersonOut Dr.Hermann Wirth PersonIn Sabine Klinger Position Leiter Organisation MHS München Time heute ] 2 Informationsextraktion: Beispiel Dr. Herrmann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus dem Amt. Der 65jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu besetzt wurde die Stelle des Musikdirektors. Anneliese Häfner folgt Christian Meindl nach. • Ergebnis2: [PersonOut Christian Meindl PersonIn Anneliese Häfner Position Musikdirektor Organisation MHS München Time ] Informationsextraktion Historische Entwicklung 1980s von Hand erstellte lexikalisch-semantische Muster (FRUMP, satellite reports, patient discharge summaries...) 1987 1st MUC (Message Understanding Conference); Domäne: naval sightings 1889 2nd MUC; Domäne: naval sightings 1991 3rd MUC; Domäne: terrorist acts – Der Sieger (SRI) verwendet partial parsing 1992 4th MUC; Domäne: terrorist acts 1993 5th MUC; Domäne: joint ventures/electronic circuit fabrication – Die besten Systeme erreichen 40% R, 50% P (Menschen im Bereich 60-80%) – Lehnert et al.: erstmalig wird bootstrapping verwendet. 3 Informationsextraktion Historische Entwicklung (2) 1995 6th MUC; Domäne: labour unit contract negotiations/changes in corporate executive management personnel – Ziel: Portabilität und tieferes Verständnis zu fördern. – Aufgeteilt in verschiedene Aufgaben: • • • • NE: Named Entity CO: Coreference TE: Template Element ST: Scenario Templates 1995: IE zum Erstellen von Zusammenfassungen (Radev & McKeown) 1998: 7th MUC; Domäne: satellite rocket launch events – Mikheev et al., hybride Methoden für NE 2003: CoNLL NE recognition task; ähnliche Trainingsdaten wie MUC MUC - Ablauf • Teilnehmer erhalten eine Beschreibung des Szenarios und einen Trainings-Corpus (eine Dokumentensammlung und die Templates die daraus extrahiert werden sollen) • 1-6 Monate Zeit, um Systeme an neues Szenario zu adaptieren • NIST Analysten befüllen manuell die Templates des Test-Corpus („answer key“) • Test-Corpus bereitgestellt; Systeme werden intern getestet • Automatischer Vergleich der vom System gelieferten Ergebnisse mit answer keys • Bewertung: Precision und Recall • Teilnehmer präsentieren im Frühling nach dem Bewerb ein Papier bei der Konferenz • Demonstrieren die Performanz des Systems anhand vordefinierter „walk through“ Beispiele 4 Beispieltext (MUC-3) TST-1-MUC3-0080 BOGOTA, 3 APR 90 (INRAVISION TELEVISION CADENA 1) - [REPORT] [JORGE ALONSO SIERRA VALENCIA] [TEXT] LIBERAL SENATOR FEDERICO ESTRADA VELEZ WAS KIDNAPPED ON 3 APRIL AT THE CORNER OF 60TH AND 48TH STREETS IN WESTERN MEDELLIN, ONLY 100 METERS FROM A METROPOLITAN POLICE CAI [IMMEDIATE ATTENTION CENTER]. THE ANTIOQUIA DEPARTMENT LIBERAL PARTY LEADER HAD LEFT HIS HOUSE WITHOUT ANY BODYGUARDS ONLY MINUTES EARLIER. AS HE WAITED FOR THE TRAFFIC LIGHT TO CHANGE, THREE HEAVILY ARMED MEN FORCED HIM TO GET OUT OF HIS CAR AND INTO A BLUE RENAULT. HOURS LATER, THROUGH ANONYMOUS TELEPHONE CALLS TO THE METROPOLITAN POLICE AND TO THE MEDIA, THE EXTRADITABLES CLAIMED RESPONSIBILITY FOR THE KIDNAPPING. IN THE CALLS, THEY ANNOUNCED THAT THEY WILL RELEASE THE SENATOR WITH A NEW MESSAGE FOR THE NATIONAL GOVERNMENT. LAST WEEK, FEDERICO ESTRADA HAD REJECTED TALKS BETWEEN THE GOVERNMENT AND THE DRUG TRAFFICKERS. Beispiel eines Template (MUC-3) 1. 2. 3. 4. 5. 6. 7. 8. MESSAGE ID TEMPLATE DATE OF INCIDENT TYPE OF INCIDENT CATEGORY OF INCIDENT PERPETRATOR: ID OF INDIV(S) . PERPETRATOR: ID OF ORG(S) . PERPETRATOR: CONFIDENCE EXTRADITABLES“ 9. PHYSICAL TARGET: ID(S) 10. PHYSICAL TARGET: TOTAL NUM 11. PHYSICAL TARGET: TYPE(S) 12. HUMAN TARGET: ID(S) TST1-MUC3-0080 ID 1 03 APR 90 KIDNAPPING TERRORIST ACT „THREE HEAVILY ARMED MEN“ „THE EXTRADITABLES“ CLAIMED OR ADMITTED: „THE 13. HUMAN TARGET: 14. HUMAN TARGET: TYPE(S) „FEDERICO 15. TARGET: FOREIGN NATION(S) 16. INSTRUMENT: TYPE(S) 17. LOCATION OF INCIDENT COLOMBIA: 18. EFFECT ON PHYSICAL TARGETS 19. EFFECT ON HUMAN TARGETS * * * „FEDERICO ESTRADA VELEZ“ („LIBERAL SENATOR“) TOTAL NUM 1 GOVERNMENT OFFICIAL: ESTRADA VELEZ“ * MEDELLIN (CITY) * * 5 Beispieltext (MUC-5) <DOC> <DOCNO> 0592 </DOCNO> <DD> NOVEMBER 24, 1989, FRIDAY </DD> <SO>Copyright (c) 1989 Jiji Press Ltd.;</SO> <TXT> BRIDGESTONE SPORTS CO. SAID FRIDAY IT HAS SET UP A JOINT VENTURE IN TAIWAN WITH A LOCAL CONCERN AND A JAPANESE TRADING HOUSE TO PRODUCE GOLF CLUBS TO BE SHIPPED TO JAPAN. THE JOINT VENTURE, BRIDGESTONE SPORTS TAIWAN CO., CAPITALIZED AT 20 MILLION NEW TAIWAN DOLLARS, WILL START PRODUCTION IN JANUARY 1990 WITH PRODUCTION OF 20,000 IRON AND .METAL WOOD. CLUBS A MONTH. THE MONTHLY OUTPUT WILL BE LATER RAISED TO 55,000 UNITS, BRIDGESTON SPORTS OFFICIALS SAID. THE NEW COMPANY, BASED IN KAOHSIUNG, SOUTHERN TAIWAN, IS OWNED 75 PCT BY BRIDGESTONE SPORTS, 15 PCT BY UNION PRECISION CASTING CO. OF TAIWAN AND THE REMAINDER BY TAGA CO., A COMPANY ACTIVE IN TRADING WITH TAIWAN, THE OFFICIALS SAID. BRIDGESTONE SPORTS HAS SO FAR BEEN ENTRUSTING PRODUCTION OF GOLF CLUBS PARTS WITH UNION PRECISION CASTING AND OTHER TAIWAN COMPANIES. WITH THE ESTABLISHMENT OF THE TAIWAN UNIT, THE JAPANESE SPORTS GOODS MAKER PLANS TO INCREASE PRODUCTION OF LUXURY CLUBS IN JAPAN. </TXT> </DOC> Beispiel eines Template (MUC-5) <TEMPLATE-0592-1> := Doc Nr: 0592 Doc Date: 241189 Document Source: „Jiji Press Ltd.“ Content: <TIE UP RELATIONSHIP-0592-1> <TIE_UP_RELATIONSHIP-0592-1>:= Tie-up Status: EXISTING Entity: <ENTITY-0592-1> <ENTITY-0592-2> <ENTITY-0592-3> Joint Venture Co:<ENTITY-0592-4> Ownership: <OWNERSHIP-0592-1> Activity:<ACTIVITY-0592-1> <ENTITY-0592-1>:= Name: BRIDGESTONE SPORTS CO Aliases : „BRIDGESTONE SPORTS“ „BRIDGESTON SPORTS“ Nationality: Japan (COUNTRY) Type: COMPANY Entity Relationship:<ENTITY RELATIONSHIP-0592-1> <ENTITY-0592-2>:= Name : UNION PRECISION CASTING CO Aliases: „UNION PRECISION CASTING“ „BRIDGESTON SPORTS“ Location: Taiwan (COUNTRY) Nationality : Taiwan (COUNTRY) Type : COMPANY Entity Relationship :<ENTITY RELATIONSHIP-0592-1> <ENTITY-0592-3>:= Name : TAGA CO Nationality : Japan (COUNTRY) <ENTITY-0592-4>:= Name : BRIDGESTONE SPORTS TAIWAN CO Aliases : „UNION PRECISION CASTING“ „BRIDGESTON SPORTS“ Location: „KAOHSIUNG“ (UNKNOWN) Taiwan (COUNTRY) Type : COMPANY Entity Relationship :<ENTITY RELATIONSHIP-0592-1> <INDUSTRY-0592-1>:= Industry-type: PRODUCTION Product/Service: (CODE 39 „20,000 IRON AND 'METAL WOOD‘ [CLUBS]“) <ENTITY RELATIONSHIP-0592-1>:= Entity1: <ENTITY-0592-1> <ENTITY-0592-2> <ENTITY-0592-3> Entity2: <ENTITY-0592-4> Rel Of Entity2 To Entity1: CHILD Status: CURRENT <ACTIVITY-0592-1>:= Industry: <INDUSTRY-0592-1> Activity-site: (Taiwan (COUNTRY) <ENTITY-0592-4>) START TIME: <TIME-0592-1> <TIME-0592-1>:= During: 0190 <OWNERSHIP-0592-1>:= Owned: <ENTITY-0592-4> Total-capitalization: 20000000 TWD Ownership-%: (<ENTITY-0592-3> 10) (<ENTITY-0592-2> 15) (<ENTITY-0592-1> 75) 6 3 Generationen von IE-Systemen • Manuell erstellte Systeme – Knowledge Engineering [1980s – ] – Regeln manuell erstellt – Benötigen Experten, die sowohl das Sytem als auch die Domäne verstehen. – Iterativer guess-test-tweak-repeat Zyklus • Automatische, trainierbare Regel-Extraktions-Systeme [1990s – ] – Regeln werden automatisch entdeckt, indem man vordefi-nierte Templates verwendet – setzt Methoden wie ILP ein – Erfordern große, annotierte Corpora (der Aufwand wird nur verschoben!) • Statistische, generative Modelle [1997 – ] – Man dekodiert das statistische Modell um herauszufinden, welche Teile des Texts relevant waren – Verwendung von HMMs oder statistischen Parsern – Das Lernen ist üblicherweise überwacht; u.U patriell nicht überwacht. Eine typische IE Architektur • Lokale Textanalyse – Lexikalische Analyse – Namenserkennung – Partielle Syntaktische Analyse – Szenario Pattern Matching • Diskursanalyse – Koreferenzanalyse – Inferenzkomponente • Templategenerierung 7 Verarbeitungsbeispiel • Text: Sam Schwartz retired as executive vice president of the famous hot dog manufacturer, Hupplewhite Inc. He will be succeeded by Harry Himmelfarb. • Namenserkennung: Sam Schwartz (person) retired as executive vice president of the famous hot dog manufacturer, Hupplewhite Inc (organisation). He will be succeeded by Harry Himmelfarb (person). Verarbeitungsbeispiel (2) • Partielle syntaktische Analyse: [np: e1 Sam Schwartz (person)] [vg retired] as [np: e2 executive vice president] of [np: e3 the famous hot dog manufacturer], [np:e4 Hupplewhite Inc (organisation)]. [np: e5 He] [vg will be succeeded] by [np: e6 Harry Himmelfarb (person)]. e1 type: person name: Sam Schwartz e2 type: position value: executive vice president e3 type: manufacturer e4 type: company name: Hupplewhite Inc. e5 type: person e6 type: person name: Harry Himmelfarb 8 Verarbeitungsbeispiel (3) • Scenario Pattern Matching: e2 type: position value: executive vice president company:e3 e7 leave-job person: e1 position: e2 e8 succeed person1: e6 person2: e5 • Koreferenzanalyse e5 = e1 e3 = e4 • Inferenz: e9 start-job person: e6 position e2 Verarbeitungsbeispiel (4) • Templategenerierung: EVENT: leave job PERSON: Sam Schwartz POSITION: executive vice president COMPANY: Hupplewhite Inc. EVENT: start job PERSON: Harry Himmelfarb POSITION: executive vice president COMPANY: Hupplewhite Inc. 9 Named Entity Recognition • Bei der MUC-6 definierte Typen von NE: – ENAMEX (type= person, organisation, location) – TIMEX (type= time, date) – NUMEX (type= money, percent) • Die Verwendung von Gazetteers (= Liste von Namen eines bestimmten Typs, z.B. Länder, Nachnamen, Flüsse) ist erlaubt. • ENAMEX ist schwieriger, weil mehr vom Kontext abhängig als TIMEX und NUMEX: – Ist Granada eine COMPANY oder eine LOCATION? – Ist Washington eine PERSON oder eine LOCATION? – Ist Arthur Anderson eine PERSON oder eine ORGANISATION? Named Entity Recognition: Ansätze • NE markup with subtypes: <ENAMEX TYPE='PERSON'>Flavel Donne</ENAMEX> is an analyst with <ENAMEX TYPE='ORGANIZATION'> General Trends</ENAMEX>, which has been based in <ENAMEX TYPE='LOCATION'>Little Spring</ENAMEX> since <TIMEX TYPE='DATE'>July 1998</TIMEX>. • Viele Systeme verwenden manuell erstellte reguläre Ausdrücke als Muster: – Regeln für Titel, Bezeichnungen, Postfixe, etc. – Gazetteers mit üblichen Namen – Acronyme: Hewlett Packard Inc. → HP • MUSTER: „president of <company>“ selektiert executive vice president of Hupplewhite 10 Named Entity Recognition: Gazetteers – Personennamen • Gazetteer für volle Personennamen weder möglich noch sinnvoll, da Vornamen und Nachnamen auch getrennt auftreten. • Gazetteer für Nachnamen wenig sinnvoll: – Eine nahezu unendliche Menge von möglichen Namen: Nachnamen sind produktiv (in den USA etwa 1.500.000 Nachnamen) – Überlappen mit Nomina/Adjektiven/Verben (z.B. Schmied, Köhler, Schuster, Schwarz, Berg) – Überlappen mit Vornamen • Gazetteer für Vornamen sinnvoll, aber auch hier Problemfälle: – Überraschende Vielfalt, etwa Beispiel aus MUC-7: Llennel Evangelista. – Auch Vornamen sind produktiv, z.B. Moonunit Zappa, Apple Paltrow . . . Named Entity Recognition: Gazetteers – Namensambiguität • Ambiguität im Typ eines Namens: Columbia (Organization) vs. (British) Columbia (Location) vs. Columbia (Space shuttle) • Firmennamen enthalten oft Nomina/Adjektiva/Verben (Next, Boots, Thinking Machines. . . ) und treten in verschiedenen Variationen auf (Peter Stuyvesant vs. Stuyvesant) • Probleme mit Koordination und linker Grenze: – Eine oder zwei Einheiten: „China International Trust and Investment Corp invests $2m in. . . ?“ – Unbekanntes Wort am Beginn eines potentiellen Namens: daei oder nicht? Suspended Ceilings Inc vs Yesterday Ceilings Inc Mason, Daily and Partners vs. Unfortunately, Daily and Partners • Experimente zeigen: Einfache Gazetteeers bringen gute Ergebnisse für Ortsnamen (90%P/80%R) aber nicht für Personen und Organisationen (80%P/50%R) 11 Kaskadierte Namenserkennung Mikheev et al. (1998) • Kaskadiertes Sytem, das regelbasierte Schritte mit probabilistic partial matching kombiniert • Verwende maschinell gelernte Information um den Typ eines Namens festzulegen • Verwende die interne Struktur von Namen zur Entscheidungsfindung • Triff zuerst Entscheidungen hoher Präzision • Triff Entscheidungen, die unsicher sind erst nachdem die gesamte Evidenz vorliegt. • Annahme: Jeder Name kann pro Diskurs (Artikel) genau einem Typ zugeordnet werden. – Ausser es gibt explizite Information im Text, die gegen diese Hypothese spricht Mikheev et al. (1998): Beispiele für „sure fire rules“ Rule Assign Example Xxxx+ is? a? JJ* PROF . Xxxx+ is? a? JJ* REL . Xxxx+ himself Xxxx+, DD+ , share in Xxxx+ Xxxx+ Inc. PROF (of|at|with) Xxxx+ Xxxx+ (region|area) PERS . PERS . PERS PERS ORG ORG ORG LOC Yuri Gromov, a former director John White is beloved brother White himself White, 33, shares in Trinity Motors Hummingbird Inc. director of Trinity Motors Beribidjan area PROF – Stellung, REL – Verwandtschaftsbeziehung, DD – Ziffern, JJ – Adjektive, Xxxx – ein kapitalisiertes Wort 12 Mikheev et al. (1998): Parameter des ML-Modells • Externe (kontextuelle) Merkmale – Position im Satz (satzinitial) – Wort (Phrase) existiert (kleingeschrieben) im Lexikon – Word (Phrase) tritt im Dokument (kleingeschrieben) auf • Interne (phrasale) Merkmale – Wort (Phrase) enthält nicht-alphabetische Zeichen – Anzahl an Wörtern, aus denen Phrase besteht – Suffix, Prefix – Adjektiv das auf „an“ or „ese“ endet + Root des Adjektivs in Gazetteer enthalten Mikheev et al. (1998): Algorithmus 1. Wende Regelset 1 an („Sure fire“ Regeln) => fix als Name des entsprechenden Typs annotieren 2. Auswahl jeweils einer Variante durch ML-Komponente (probabilistic partial match) – Finde alle zu diesem Zeitpunkt markierten Namen – Generiere alle potentiell möglichen Substrings dieser Namen => kennzeichne als mögliche Namen des gegebenen Typs - Adam Kluver Ltd => Adam Kluver, Adam Ltd, Kluver Ltd – Ein auf einem entsprechenden Korpus trainiertes Maximum Entropy Modell liefert zu jedem potentiellen Namen die Wahrscheinlichkiet, dass es sich tatsächlich um einen Namen handelt. 13 Mikheev et al. (1998): Algorithmus (2) 3. Wende Regelset 2 an (Relaxed rules) – Markiere alles, was als PERSON in Frage kommt (unter Berücksichtigung von Grammatikregeln und Gazetteer) – Entscheidung über Koordination: Sind Teile unabhängig verwendet worden? Falls nicht, nimm Koordination an. – Entscheidung über potentielle Modifikatoren am Satzanfang (Unfortunately, . . . , Suspended Ceiling Contractors Ltd.) – Genitiv-Ambiguität auflösen: Murdoch's News Corp 4. Wende ML-Komponente an (auf neue Varianten) – Namen, die schon in detaillierterer Form erkannt wurden (White falls James White schon an anderer Stelle erkannt) – Bei Koordination sind üblicherweise beide Namen vom gleichen Typ (erkannte bei der MUC-7 als einziges System „Un7ited States and Russia“) 5. Namenserkennung im in der Überschrift (alle Wörter im Titel kapitalisiert). Eigenes ML-Modell nötig, das auf Überschriften trainiert wurde. Mikheev et al. (1998): Beispieltext MURDOCH SATELLITE CRASH UNDER FBI INVESTIGATION London and Tomsk. The crash of Rupert Murdoch Inc's news satellite yesterday is now under investigation by Murdoch and by the Sibirian state police. Clarity J. White, vice president of Hot Start, the company which produced the satellite's ignition system, yesterday stated that her company considered human failure the most likely cause of the crash. Investigator Robin Black, 33, who investigates the crash for the FBI, recently arrived by train at the crash site in the Tomsk region. Neither White nor Black were availablefor comment today; Murdoch have announced a press conference for tomorrow. 14 Mikheev et al. (1998): Beispiel nach Schritt 1 MURDOCH SATELLITE CRASH UNDER FBI INVESTIGATION London and Tomsk. The crash of Rupert Murdoch Inc's(ORG) news satellite yesterday is now under investigation by Murdoch and by the Sibirian state police. Clarity J. White, vice president of Hot Start(ORG), the company which produced the satellite's ignition system, yesterday stated that her company considered human failure the most likely cause of the crash. Investigator Robin Black(PERSON), 33, who investigates the crash for the FBI, recently arrived by train at the crash site in the Tomsk(LOC) region. Neither White nor Black were availablefor comment today; Murdoch have announced a press conference for tomorrow. Blaue Instanzen: in dieser Runde neu erzeugt • Alle Instanzen durch „sure fire“ Regeln erzeugt. • Der exakte Umfang der Namen ist noch nicht geklärt: Investigator Robin Black? Robin Black? Black? Beispiel nach Schritt 2 (partieller Vergleich) MURDOCH SATELLITE CRASH UNDER FBI INVESTIGATION London and Tomsk(LOC?). The crash of Rupert Murdoch Inc(ORG)'s news satellite yesterday is now under investigation by Murdoch(ORG?) and by the Sibirian state police. Clarity J. White, vice president of Hot Start(ORG), the company which produced the satellite's ignition system, yesterday stated that her company considered human failure the most likely cause of the crash. Investigator Robin Black(PERSON?), 33, who investigates the crash for the FBI, recently arrived by train at the crash site in the Tomsk(LOC) region. Neither White nor Black(PERSON?) were availablefor comment today; Murdoch(ORG?) have announced a press conference for tomorrow. Grüne Instanzen: stammen aus früheren Runden Alle Instanzen aus der letzten Runde sowie ihre Substrings werden jetzt hypothetisiert und durch ML-Teil überprüft 15 Beispiel nach Schritt 2 (probabilistischer Vergleich) MURDOCH SATELLITE CRASH UNDER FBI INVESTIGATION London and Tomsk(LOCD). The crash of Rupert Murdoch Inc(ORG)'s news satellite yesterday is now under investigation by Murdoch(ORGD) and by the Sibirian state police. Clarity J. White, vice president of Hot Start(ORG), the company which produced the satellite's ignition system, yesterday stated that her company considered human failure the most likely cause of the crash. Investigator Robin Black(PERSOND), 33, who investigates the crash for the FBI, recently arrived by train at the crash site in the Tomsk(LOC) region. Neither White nor Black(PERSOND) were availablefor comment today; Murdoch(ORGD) have announced a press conference for tomorrow. • ML-Komponente hat einige Instanzen bestätigt (Robin Black) und andere verworfen (Investigator Robin Black) Mikheev et al. (1998): Beispiel nach Schritt 3 MURDOCH SATELLITE CRASH UNDER FBI INVESTIGATION London(LOC?) and Tomsk(LOC). The crash of Rupert Murdoch Inc(ORG)'s news satellite yesterday is now under investigation by Murdoch(ORG) and by the Sibirian state police. Clarity J. White(PERSON?), vice president of Hot Start(ORG), the company which produced the satellite's ignition system, yesterday stated that her company considered human failure the most likely cause of the crash. Investigator Robin Black(PERSON), 33, who investigates the crash for the FBI, recently arrived by train at the crash site in the Tomsk(LOC) region. Neither White(PERSON?) nor Black(PERSON) were availablefor comment today; Murdoch(ORG) have announced a press conference for tomorrow. • Alles als Möglichkeit markiert, was von der Form her Name sein könnte 16 Mikheev et al. (1998): Beispiel nach Schritt 4 MURDOCH SATELLITE CRASH UNDER FBI INVESTIGATION London(LOCD) and Tomsk(LOC). The crash of Rupert Murdoch Inc(ORG)'s news satellite yesterday is now under investigation by Murdoch(ORG) and by the Sibirian state police. Clarity J. White(PERSOND), vice president of Hot Start(ORG), the company which produced the satellite's ignition system, yesterday stated that her company considered human failure the most likely cause of the crash. Investigator Robin Black(PERSON), 33, who investigates the crash for the FBI, recently arrived by train at the crash site in the Tomsk(LOC) region. Neither White(PERSOND) nor Black(PERSON) were availablefor comment today; Murdoch(ORG) have announced a press conference for tomorrow. • ML-Komponente hat einige Instanzen bestätigt und andere verworfen • Fehlender Schritt: unterschiedliche Segmentierung und ML-Komponente für Titelzeile (alles kapitalisiert, andere Syntax) Mikheev et al. (1998): Resultate bei der MUC-7 • Bestes System und statistisch signifikant unterschiedliche Resultate gegenüber dem Zweiten. • Systemdesign zielt auf hohe Präzision in allen Stufen ab; Erhöhung des Recall je nach Möglichkeit. • Gazetteers verbessern die Performanz, das System liefert für Personen und Organisationen aber auch ohne Gazetteer gute Ergebnisse: – ORG: P86/R85 – PERSON: P90/R95 – LOC: P46/R59 17 Mikheev et al. (1998): Resultate nach Einzelschritten 1 Sure fire rules ORG PERSON LOC R P R P R P 42 98 40 99 36 96 2 Partial Match 1 75 98 80 99 69 93 3 Relaxed Rules 83 96 90 98 86 93 4 Partial Match 2 5 Title Assignment 85 91 96 93 95 95 97 88 97 95 93 93 18