HS 2011: Einführung in die Computerlinguistik I
Transcription
HS 2011: Einführung in die Computerlinguistik I
Universität Zürich Institut für Computerlinguistik Binzmühlestr. 14 8050 Zürich Vorlesungsskript∗ HS 2011: Einführung in die Computerlinguistik I Simon Clematidesimon.clematide@cl.uzh.ch Version von 29. Dezember 2011 Schriftliche Übungen: Nora Hollenstein/Noëmi Aepli Interaktive Lerneinheiten ∗ PDF: http://www.cl.uzh.ch/siclemat/lehre/hs11/ecl1/script/script.pdf HTML: http://www.cl.uzh.ch/siclemat/lehre/hs11/ecl1/script/html/scripth.html OLAT: https://www.olat.uzh.ch/olat/url/RepositoryEntry/3854598149 Hinweis: Dieses Lauftextskript wurde automatisch aus den Vorlesungsfolien generiert und ist deshalb bezüglich Layout und Formulierungen nicht für Fliesstext optimiert. 1 Inhaltsverzeichnis 1 Organisatorisches 1.1 Organisatorisches . . . . . 1.1.1 Leistungsnachweis 1.1.2 Lernen und Lehren 1.2 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 8 9 9 10 2 Was ist CL? 2.1 Motivation . . . . . . . . . . 2.2 Fachrichtungen . . . . . . . . 2.2.1 Computerlinguistik . . 2.2.2 Sprachtechnologie . . 2.2.3 Weiteres . . . . . . . . 2.2.4 Anliegen . . . . . . . . 2.3 Nachbardisziplinen . . . . . . 2.3.1 Linguistik . . . . . . . 2.3.2 Kognitionswissenschaft 2.4 Krux . . . . . . . . . . . . . . 2.5 Vertiefung . . . . . . . . . . . 2.5.1 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 11 11 12 12 14 15 15 17 17 18 18 3 Tokenisierung 3.1 Tokenisierer . . . . . . . . . . 3.1.1 Grundproblem . . . . 3.1.2 Kodierung . . . . . . . 3.1.3 Markup . . . . . . . . 3.1.4 Programme . . . . . . 3.2 XML . . . . . . . . . . . . . . 3.3 Tokenisierung . . . . . . . . . 3.3.1 Problem . . . . . . . . 3.3.2 Punktdisambiguierung 3.3.3 Normalisierung . . . . 3.3.4 NER . . . . . . . . . . 3.4 Multilingualität . . . . . . . . 3.5 Vertiefung . . . . . . . . . . . 3.5.1 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 19 19 20 21 21 23 24 24 25 26 27 27 28 29 . . . . 30 30 30 31 32 . . . . 4 Endliche Automaten (Intensiv-Wochenende) 4.1 Formale Sprachen . . . . . . . . . . . . . . 4.1.1 Mengen . . . . . . . . . . . . . . . 4.1.2 Zeichen . . . . . . . . . . . . . . . 4.1.3 Sprachen . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 35 36 37 39 5 Chunk-Parsing (Intensiv-Wochenende) 5.1 Chunking . . . . . . . . . . . . . . 5.1.1 Motivation . . . . . . . . . 5.2 NLTK-Chunkparser . . . . . . . . 5.2.1 Aufstarten . . . . . . . . . . 5.2.2 Strategien . . . . . . . . . . 5.3 Evaluationsmasse . . . . . . . . . . 5.3.1 Recall . . . . . . . . . . . . 5.3.2 Precision . . . . . . . . . . 5.3.3 F-Measure . . . . . . . . . . 5.4 Fazit . . . . . . . . . . . . . . . . . 5.4.1 Verschachtelte Chunks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 41 41 42 42 44 45 45 45 45 46 47 . . . . . . . . . . . . . . . . . . . . . . . . . . 48 48 48 49 49 50 50 51 51 52 53 54 54 55 55 55 55 56 56 56 57 57 58 58 58 58 59 4.3 4.4 EA . . . . . . . . . . . . . . . 4.2.1 Determinismus . . . . 4.2.2 Konkatenation . . . . Reguläre Sprachen/Ausdrücke . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Linguistisches Propädeutikum I 6.1 Wort . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Definition . . . . . . . . . . . . . . . 6.1.2 Token . . . . . . . . . . . . . . . . . 6.1.3 Wortform . . . . . . . . . . . . . . . 6.1.4 synt. Wort . . . . . . . . . . . . . . 6.1.5 Lexem . . . . . . . . . . . . . . . . . 6.2 Wortarten . . . . . . . . . . . . . . . . . . . 6.2.1 5 Hauptwortarten nach Glinz . . . . 6.2.2 STTS . . . . . . . . . . . . . . . . . 6.3 Merkmale . . . . . . . . . . . . . . . . . . . 6.3.1 Genus . . . . . . . . . . . . . . . . . 6.3.2 Zahl . . . . . . . . . . . . . . . . . . 6.3.3 Kasus . . . . . . . . . . . . . . . . . 6.3.4 Modus . . . . . . . . . . . . . . . . . 6.3.5 Zeit . . . . . . . . . . . . . . . . . . 6.3.6 Person . . . . . . . . . . . . . . . . . 6.3.7 Grad . . . . . . . . . . . . . . . . . . 6.3.8 Flexion . . . . . . . . . . . . . . . . 6.4 Proben . . . . . . . . . . . . . . . . . . . . . 6.4.1 Ersetzen . . . . . . . . . . . . . . . . 6.4.2 Einsetzen . . . . . . . . . . . . . . . 6.5 Comp. Morph. . . . . . . . . . . . . . . . . 6.5.1 Lemmatisierung/Morphologieanalyse 6.5.2 Morphologiegenerierung . . . . . . . 6.6 Vertiefung . . . . . . . . . . . . . . . . . . . 6.6.1 Kontrollfragen . . . . . . . . . . . . 7 Linguistisches Propädeutikum II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3 7.1 7.2 7.3 7.4 7.5 Proben . . . . . . . . . . 7.1.1 Weglassen . . . . 7.1.2 Verschieben . . . 7.1.3 Umformen . . . . Satz . . . . . . . . . . . Syntaxanalyse . . . . . . 7.3.1 Konstituenz . . . 7.3.2 Köpfe . . . . . . 7.3.3 Dependenz . . . 7.3.4 Koordination . . Baumbanken . . . . . . 7.4.1 NEGRA/TIGER 7.4.2 TIGERSearch . . Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 60 61 61 62 62 62 65 66 70 71 71 71 72 8 Flache Satzverarbeitung 8.1 Tagging . . . . . . . . . . . . . . . . . . . 8.1.1 Probleme . . . . . . . . . . . . . . 8.1.2 Fallstudie TnT-Tagger . . . . . . . 8.2 Evaluation . . . . . . . . . . . . . . . . . . 8.2.1 Zweck . . . . . . . . . . . . . . . . 8.2.2 Accuracy . . . . . . . . . . . . . . 8.2.3 Lernkurven . . . . . . . . . . . . . 8.2.4 Recall . . . . . . . . . . . . . . . . 8.2.5 Precision . . . . . . . . . . . . . . 8.2.6 F-Measure . . . . . . . . . . . . . . 8.3 Chunking . . . . . . . . . . . . . . . . . . 8.3.1 Abney . . . . . . . . . . . . . . . . 8.3.2 IOB-Chunk . . . . . . . . . . . . . 8.3.3 Verschachtelte Chunks . . . . . . . 8.4 Vertiefung . . . . . . . . . . . . . . . . . . 8.4.1 Kontrollfragen . . . . . . . . . . . 8.5 Exkurs: Evaluation binärer Klassifikatoren 8.5.1 TP:FP:FN:TN . . . . . . . . . . . 8.5.2 Fehlerparadoxe . . . . . . . . . . . 8.5.3 Unterschiede . . . . . . . . . . . . 8.5.4 Mittelwerte . . . . . . . . . . . . . 8.5.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 73 74 76 78 78 78 79 79 80 81 81 82 83 83 84 84 84 84 85 85 86 86 9 Sprachsynthese und Spracherkennung 9.1 Sprachsynthese . . . . . . . . . . . 9.1.1 Architektur . . . . . . . . . 9.1.2 Analyseebenen . . . . . . . 9.1.3 Sprachsignalproduktion . . 9.2 Spracherkennung . . . . . . . . . . 9.2.1 Probleme . . . . . . . . . . 9.2.2 Worthypothesengraph . . . 9.2.3 Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 89 90 90 95 96 96 97 97 . . . . . . . . . . . . . . . . 4 . . . . . . . . . . . . . . . . 9.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 98 98 99 10 Volltextsuche und Text Mining 10.1 Informationsflut . . . . . . . 10.1.1 Suchdilemma . . . . 10.2 Volltextsuche . . . . . . . . 10.2.1 Indexieren . . . . . . 10.2.2 Architektur . . . . . 10.2.3 Retrieval . . . . . . 10.2.4 Relevanz . . . . . . . 10.3 Text-Mining . . . . . . . . . 10.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 101 103 106 106 109 109 112 113 114 9.4 Dialogsysteme . . . 9.3.1 Typen . . . 9.3.2 VoiceXML . Vertiefung . . . . . . . . . . . . . . . . . . . . . 11 Literaturverzeichnis 115 Index 119 5 Abbildungsverzeichnis 2.1 Sprechende Maschine von 1791 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.1 4.2 4.3 Sprache aus 3 Verben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Deterministischer EA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Formale Sprachen, reguläre Ausdrücke und endliche Automaten . . . . . . . . . . 38 5.1 5.2 5.3 5.4 5.5 Volle Syntaxanalyse . . . . . . . . . . . . . . . . . . . . Partielle Syntaxanalyse (CONLL 2000) . . . . . . . . . . Informationsextraktion über gechunktem Text . . . . . . Partielle Analyse von einem Chunk-Tagger (TreeTagger) Resultate der Chunking-Shared-Task der CoNLL 2000 . 6.1 6.2 5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Hauptkategorien von STTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 7.10 7.11 7.12 7.13 7.14 7.15 7.16 Moderne Satzgliedlehre . . . . . . . . . . . . . . . . . . . . . . . . Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung . . Konstituenz, Dominanz und Präzedenz in Balken-Darstellung . . . Beispielsatz mit allen zu annotierenden Nominalphrasen (NP) . . . Beispielsatz mit allen zu annotierenden Präpositionalphrasen (PP) Beispielsatz mit allen zu annotierenden AP- und AVP-Knoten . . . Beispielsatz mit allen zu annotierenden Satz- und VP-Knoten . . . Beispielsatz mit allen zu annotierenden NP- und S-Knoten . . . . . Syntaktische Funktion in der NEGRA-Darstellung . . . . . . . . . Syntaktische Funktionen in Balken-Darstellung . . . . . . . . . . . Beispielsatz mit NP-internen Funktionen . . . . . . . . . . . . . . . Beispielsatz mit PP-internen Funktionen . . . . . . . . . . . . . . . Beispielsatz mit allen AP- und AVP-internen Funktionen . . . . . Beispielsatz mit allen S- und VP-internen Funktionen . . . . . . . Relativsatz mit allen internen Funktionen . . . . . . . . . . . . . . Beispielsatz mit koordinierten Strukturen . . . . . . . . . . . . . . 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 Kontextmodell des Trigramm-Taggers tnt . . . . . . . . . . . . Tagging-Ambiguitätsraten aus der Frankfurter Rundschau . . . Training, Tagging und Evaluation mit dem TnT-Tagger . . . . Tnt-Evaluation an Penn Treebank durch Thorsten Brants . . . Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants . Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. F-Mass in dreidimensionaler Darstellung . . . . . . . . . . . . . 6 . . . . . . . . . . . . von H. . . . . . . . . . . . . . . . . . . . Schmid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 42 43 43 46 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 63 63 64 64 64 65 65 67 67 67 68 68 68 69 71 . . . . . . . . . . . . . . . . . . . . . . . . . Schmid Schmid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 75 77 80 81 82 82 87 8.9 Arithmetisches vs. harmonisches Mittel . . . . . . . . . . . . . . . . . . . . . . . 88 9.1 9.2 9.3 9.4 9.5 9.6 Architektur von MARY-TTS-System . . . . . . . . . . . . . . IPA-Symbole für Deutsch . . . . . . . . . . . . . . . . . . . . Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . . Berechnung der Wortfehlerrate . . . . . . . . . . . . . . . . . Anwendungsszenario VoiceXML . . . . . . . . . . . . . . . . . 10.1 OCR und Frakturschrift . . . . . . . . . . . . . . . . . . . . . 10.2 In PubMed erfasste wiss. Artikel (2008 unvollständig) . . . . 10.3 Suchoption für Inhaltsverzeichnis . . . . . . . . . . . . . . . . 10.4 Eingescanntes Inhaltsverzeichnis . . . . . . . . . . . . . . . . 10.5 Sachbegriff-Indexierung im NEBIS . . . . . . . . . . . . . . . 10.6 Sachbegriff und Varianten im NEBIS . . . . . . . . . . . . . 10.7 Textuelle Zusatzinformation im NEBIS . . . . . . . . . . . . 10.8 Automatisches Indizieren von OPAC-Informationen: Gut . . . 10.9 Automatisches Indizieren von OPAC-Informationen: Schlecht 10.10Generelle Architektur von IR-Systemen . . . . . . . . . . . . 7 . . . . . . . . . . 2006a]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 92 94 98 98 99 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 102 103 104 105 105 106 110 110 111 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Organisatorisches 1.1 Organisatorisches Konzept und Inhalt der Vorlesung • „Einführung in die Computerlinguistik I (+ II)“ vermittelt die wichtigsten praktischen und theoretischen Ziele der Computerlinguistik in Übersicht. • Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung, Wortartenbestimmung, flache Syntaxanalyse), wichtige Anwendungen (Sprachsynthese, Spracherkennung, Textsuche Text-Mining, Informationsextraktion, Maschinelle Übersetzung) sowie Methoden und Probleme der automatischen Syntaxanalyse. • Im Kurs integriert ist ein linguistisches Propädeutikum, wo das notwendige grammatikalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw. vertieft wird. Kurs-Leitseite im WWW und Lehrmaterialien OLAT-Kurs namens “CL_11_HS Einführung in die Computerlinguistik I”: • https://www.olat.uzh.ch/olat/url/RepositoryEntry/3854598149 • VL-Teil von S. Clematide: Folienskript im 4-up-Format (farbige und SW-Version) als PDF-Dokument unter “Materialien” • Lauftextversion des Folienskripts (HTML-Version und PDF-Dokument) mit Index und Ergänzungen http://www.cl.uzh.ch/siclemat/lehre/hs11/ecl1/script/html/script.html • Merkblatt zum Einstieg in OLAT http://tinyurl.com/OLAT-Hinweise-Studierende-pdf Unser Kursbuch (3. Auflage): • Carstensen, K.-U. et al. (Hgg.): Computerlinguistik und Sprachtechnologie: Eine Einführung. Spektrum Akademischer Verlag, 3. Auflage 2009, ISBN:3-8274-2023-7. Für Beispielkapitel als PDF siehe auch http://www.linguistics.ruhr-uni-bochum.de/CLBuch/buch.html E-Learning CLab Teile der Vorlesung und Übungen werden durch Lerneinheiten aus unserem interaktiven, webbasierten Computerlinguistik-Laboratorium (CLab) unterstützt. http://www.cl.uzh.ch/clab Applikationen auf CL-UNIX-Servern Für einige Übungen oder zur Vertiefung stehen CL-Applikationen auf unseren Servern zur Verfügung. Von den Computern in den Übungsräumen aus sind diese problemlos nutzbar. Wer die Übungsstunde nicht besuchen kann bzw. von Zuhause aus arbeitet, braucht dazu VPN (Virtual Private Network), SSH (Secure Shell bzw. Putty) und einen X11-Klienten. Anleitungen dazu im Kurs „Programmiertechniken der CL“ oder via Anleitungen. 8 1.1.1 Leistungsnachweis 6 schriftliche Übungen (SU) 25% der Schlussnote für • Bachelor-Studierende, Informatik-Studierende, ETH-Multidisziplinfach • Liz-Studierende: Optional (Wahlmöglichkeit bis in 4. Woche) Bestanden (1 Punkt), Halb bestanden (0.5 Punkte), Nicht-Bestanden (0 Punkte) pro SU • Benotung: Gesamtzahl Punkte = Note • Keine Musterlösungen, dafür Nachbesprechung in Übungsstunde, Frage- und Diskussionsgelegenheit und auf OLAT Termine • Übungsstunden bei N. Aepli und N. Hollenstein freitags 12.15-13.45 im Raum BIN 0.B.06: Start in 2. Semesterwoche • Lösungsabgabe jeweils spätestens am Mittwoch 18h • Übungsausgabe spätestens am Donnerstag 21h Schriftliche Prüfung • Zeit: Donnerstag, 19. Januar 2011, von 16.15 - 18.00h • Dauer: 90 Minuten • Stoff: Skript, Übungen, Pflichtlektüren • Bitte das für Sie gültige Infoblatt zur Leistungsüberprüfung genau lesen! [ICL 2011a, ICL 2011b] 1.1.2 Lernen und Lehren Lehren und Lernen Commitments • Wir engagieren uns, um eine optimale CL-Ausbildung anzubieten. • Wir brauchen Ihre Rückmeldung, um suboptimale Elemente unserer Lehrarbeit zu verbessern. • Sie engagieren sich, die für ein optimales Lernen notwendige Zeit und Arbeit aufzuwenden. • Sie brauchen unsere Rückmeldung, um suboptimale Elemente Ihrer Lernarbeit und Ihres Lernerfolgs zu verbessern. 9 Hochrechnung zum Workload für 4 ECTS-Punkte “Bei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand berücksichtigt, der für das Erreichen einer genügenden Prüfungsleistung erforderlich ist.” (§14, Abs. 2) [Universitätsrat 2004] • 1 ECTS-Punkt = 30h Zeitaufwand • Präsenz in Vorlesung, Übungsstunde und schriftlicher Prüfung: 2 × 14 × 2h = 56h • Zeit pro Woche für (Pflicht-)Lektüre, Lösen der schriftlichen Übungen und Prüfungsvorbereitung: 120h − 56h − 1h = 4.5h 14 1.2 Kontrollfragen Kontrollfragen • Sind Buchungsfristen für Sie relevant? Wenn ja, bis wann können Sie sich noch einschreiben, bzw. das Modul stornieren? • Wieviele SU müssen Sie bestehen, damit eine 4.5 in der schriftlichen Prüfung noch auf eine 5 aufgerundet wird? • Wieso sollten Sie die Übungsstunde besuchen? • Welche Hauptthemen werden in dieser Vorlesung besprochen? 10 2 Was ist CL? Lernziele • Kenntnis der grundlegenden Thematik von Computerlinguistik, Sprachtechnologie und Linguistik • Kenntnis der zentralen Anliegen der modernen Computerlinguistik • Kenntnis der verschiedenen wissenschaftlichen Disziplinen und Fachbezeichnungen, welche mit Computerlinguistik interdisziplinär und transdisziplinär verbunden sind • Kenntnis der wichtigsten Meilensteine, Personen und Strömungen innerhalb der CL-Geschichte (Pflichtlektüre) • Kenntnis der Krux der Sprachverarbeitung 2.1 Motivation CL-haltige Produkte im (Computer-)Alltag • Auskunftssysteme (z.B. [Kassensturz 2006]) • Textverarbeitung (Rechtschreibe- und Grammatikkorrektur) • Elektronische Wörterbücher (Thesauri) • Automatische Übersetzung • Recherchen im WWW • Auskunftssysteme (z.B. [Kassensturz 2006]) • ... 2.2 Fachrichtungen 2.2.1 Computerlinguistik Was ist CL? Definition 2.2.1 (weiter Begriff). Computerlinguistik (CL; engl. computational linguistics) ist eine Wissenschaft im Überschneidungsbereich von Sprachforschung und Informatik, welche sich mit der maschinellen Verarbeitung von natürlicher Sprache beschäftigt. 11 Frage Ist das Kopieren einer MS-Word-Datei von einer CDROM auf die Festplatte eine Anwendung von CL? Frage Ist die 1791 beschriebene Maschine zur Sprachsynthese von Wolfgang von Kempelen (1734-1804) eine frühe Anwendung von CL? Sprachsynthese nach Kempelen Abbildung 2.1: Aus dem Buch “Mechanismus der menschlichen Sprache nebst Beschreibung einer sprechenden Maschine” (1791) [Traunmüller 1997] 2.2.2 Sprachtechnologie Was ist Sprachtechnologie? Definition 2.2.2. Sprachtechnologie beschäftigt sich mit der praxis- und anwendungsbezogenen, ingenieursmässig konzipierten Entwicklung von Sprachsoftware. 2.2.3 Weiteres Verwandte/Alternative Fachbezeichnungen 12 Deutsch Linguistische Datenverarbeitung (LDV) Maschinelle Sprachverarbeitung Automatische Sprachverarbeitung (ASV) Computerphilologie Sprachtechnologie Texttechnologie Korpuslinguistik Medieninformatik Linguistische Informatik Informationslinguistik Englisch Linguistic and Literary Computing (LLC) Natural Language Processing (NLP) (Natural) Language Engineering (NLE) Computational Philology Speech Processing Human Language Technology (HLT) Text Technology Corpus Linguistics QUIZ: Was ist was? [Weisser 2005] Frage 1: Welche Fachrichtung wird hier beschrieben? The use and possibly also compilation of computer-based text materials to investigate linguistic phenomena and ways of teaching about language. Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics Frage 2: Welche Fachrichtung wird hier beschrieben? The compilation, annotation and use of written and spoken corpora for the investigation of linguistic phenomena, mainly by means of easy to use software. Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics Frage 3: Welche Fachrichtung wird hier beschrieben? The automated analysis and modelling of language by means of sophisticated programming techniques. Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics Frage 4: Welche Fachrichtung wird hier beschrieben? 13 The creation and application of corpora for use in computer-based systems, such as speech recognition engines, translation systems, etc. Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics Frage 4: Welche Fachrichtung wird hier beschrieben? The creation and application of corpora for use in computer-based systems, such as speech recognition engines, translation systems, etc. Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics Schwerpunkte der verwandten Disziplinen • Symbolische, logikbasierte vs. statistische, probabilistische Methoden • Anwendungs- vs. Theorieorientierung • Algorithmisierung als Proof-Of-Concept (“Kann man sowas überhaupt?” vs. effiziente (kommerziell einsetzbare) Systeme • Hilfswissenschaft vs. eigenständige Forschung • Gesprochene vs. verschriftlichte Sprache (Text) • Psychologische/Neurologisch Plausibilität vs. ingenieurmässige Lösung 2.2.4 Moderne Computerlinguistik 4 zentrale Anliegen der modernen Computerlinguistik • Formalisierung natürlichsprachlicher Phänomene und ihre Operationalisierung auf dem Computer • Aufbau, Verwaltung und linguistische Interpretation (Erkennung von Wortarten, Grundformen, syntaktischen Strukturen) von grossen Textsammlungen (Korpora) und lexikalischen Ressourcen (Lexika) • Entwicklung realistischer und technologisch fortschrittlicher Anwendungen • Entwicklung und Durchführung von Evaluationen sprachverarbeitender Systeme und Komponenten 14 2.3 Nachbardisziplinen Nachbardisziplinen in Übersicht • Linguistik: formale Linguistik für Sprachmodelle; beschreibende Linguistik und Korpuslinguistik für empirische Basis • Informatik: praktische und theoretische Informatik (Was lässt sich mit welchem Formalismus wie effizient berechnen?); Künstliche Intelligenz • Kognitionswissenschaft • Logik und Philosophie • Mathematik: Mengenlehre (Funktionen, Relationen, Graphen) und Statistik 2.3.1 Linguistik Linguistik Definition 2.3.1 (Moderne strukturalistische Sprachwissenschaft nach [Bussmann 2002]). Die Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache (gesprochene Sprache und Schrift): Phonetik/Phonologie, Morphologie, Syntax, Semantik und Pragmatik. Als moderne, synchron orientierte Sprachwissenschaft untersucht sie sprachliche Regularitäten und hält diese in expliziter (formalisierter) Beschreibungssprache und erklärenden Modellen fest. Lautlehre: Phonetik und Phonologie Definition 2.3.2. Die Phonetik (engl. phonetics) ist die Lehre von der Lautbildung. Sie umfasst die artikulatorische, akustische und auditive Ebene. Definition 2.3.3 (enger strukturalistischer Begriff). Die Phonologie (engl. phonology) ist die Lehre von den bedeutungsunterscheidenden Sprachlauten (Phonemen) und ihren regelhaften Eigenschaften und Beziehungen. Beispiel 2.3.4 (Phonologische Regel der Auslautverhärtung). 1. Dieb /di:p/ 2. Diebe /di:b@/ Exkurs: Internationales Phonetisches Alphabet (IPA) Die Symbole zwischen den Schrägstrichen wie in “/di:p/” sind eine Lautschrift, d.h. ein schriftliches Notationssystem, welches die Lautform beliebiger Sprachen wiedergeben können soll. Die IPA-Notationen für die Laute des Standarddeutschen sind in Carstensen:2009 erklärt. Die IPA-Zeichen sind Teil des UNICODE-Standards (http://wwww.unicode.org), welcher alle Schriftsysteme der Welt wiedergeben können will. Eine Kodierung, welche die IPA-Symbole mit Hilfe eines 7-Bit-ASCII-Zeichensatzes (Gross- und Kleinbuchstaben von a bis z, Ziffern, einige Interpunktionszeichen – jedoch keine Umlaute und andere exotische Glyphen) erlaubt, heisst SAMPA. Die Kodierung für /di:b@/ lautet darin: di:b@. 15 Wortlehre: Morphologie Definition 2.3.5. Die Morphologie (engl. morphology) ist die Lehre von der Struktur der Wörter und ihrer Bildung. Beispiel 2.3.6 (Flexion). 1. Dieb#e Dieb-Plural “Mehr als ein Dieb”. 2. Dieb#e Dieb-Dativ “dem Dieb” Satzlehre: Syntax Definition 2.3.7. Die Syntax ist die Lehre vom zulässigen (wohlgeformten) strukturellen Aufbau von Sätzen aus Wörtern, Satzgliedern (Subjekt, Objekt, Prädikat usw.) und Teilsätzen. Beispiel 2.3.8 (Grammatikalität, d.h. syntaktische Wohlgeformtheit). 1. Der gewitzte Dieb stahl den Diamanten. 2. *Der Dieb gewitzte stahl den Diamanten. 3. *Den gewitzten Dieb stahl den Diamanten. Bedeutungslehre: Semantik Definition 2.3.9. Die Semantik (engl. semantics) ist die Lehre von der Bedeutung der Wörter (lexikalische Semantik), der grösseren syntaktischen Einheiten (Satzsemantik) und von Texten (Diskurssemantik). Beispiel 2.3.10 (Sprachliche Varianz unter Bedeutungsgleichheit). 1. Die Polizei beschlagnahmte das Diebesgut gestern. 2. Das Diebesgut beschlagnahmte die Polizei gestern. 3. Das Diebesgut wurde gestern von der Polizei beschlagnahmt. 4. Die Beschlagnahmung des Diebesgut durch die Polizei war gestern. 5. [Die Polizeii fasste die Täterin gestern.] Siei beschlagnahmte gleichzeitig das Diebesgut. Lehre von der Sprachverwendung: Pragmatik Definition 2.3.11. Die Pragmatik ist die Lehre vom (Kommunikations-)Zweck der Äusserungen von Sprachnutzern und den Gesetzmässigkeiten natürlichsprachlicher Kommunikation in der Welt. Beispiel 2.3.12 (Sprachliche Varianz unter Zweckgleicheit). 1. Ist das Fenster auf? 2. Bitte schliessen Sie das Fenster! 16 2.3.2 Kognitionswissenschaft Kognitionswissenschaft Definition 2.3.13. Die Kognitionswissenschaft (engl. cognitive science) ist die interdisziplinäre Erforschung kognitiver Fähigkeiten durch Psychologie, Neurowissenschaft, Informatik, Linguistik und Philosophie. Zu den kognitiven Fähigkeiten werden etwa Wahrnehmung, Denken, Lernen, Motorik und Sprache gezählt. Geschichte der Kognitionswissenschaft Exzellenter Artikel in [Wikipedia 2009] Turing-Test: Können Maschinen denken? Turing-Test im Original [Turing 1950] The new form of the problem can be described in terms of a game which we call the ’imitation game’. It is played with three people, a man (A), a woman (B), and an interrogator (C) who may be of either sex. The interrogator stays in a room apart front the other two. The object of the game for the interrogator is to determine which of the other two is the man and which is the woman. He knows them by labels X and Y, and at the end of the game he says either “X is A and Y is B” or “X is B and Y is A”. [. . . ] We now ask the question, “What will happen when a machine takes the part of A in this game?” Will the interrogator decide wrongly as often when the game is played like this as he does when the game is played between a man and a woman? These questions replace our original, “Can machines think?” Reale Turing-Tests Seit 1991 werden öffentliche Wettbewerbe (Loebner-Preis) mit Dialogsystemen gemacht, welche den Turing-Test bestehen wollen. Preisträgersysteme lassen sich teilweise im WWW direkt ausprobieren. [Wikipedia 2006] Das Ziel dieser Test lautet: Kann eine Maschine so antworten in einem Dialog, dass man sie nicht mehr von einem Menschen unterscheiden kann? 2.4 Die Krux der Mehrdeutigkeit Mehrdeutigkeit [Jurafsky und Martin 2000, 4] Beispiel 2.4.1. I made her duck. Einige Paraphrasen, d.h. Lesarten 1. I cooked waterfowl for her. 2. I cooked waterfowl belonging to her. 3. I created the (plaster?) duck she owns. 4. I caused her to quickly lower her head or body. 5. I waved my magic wand and turned her into undifferentiated waterfowl. Fragen Welche Einheiten sind mehrdeutig? Auf welcher Ebene der linguistischen Analyse werden die Mehrdeutigkeiten aufgelöst (desambiguiert) in den Paraphrasen? 17 2.5 Vertiefung • Pflichtlektüre [Carstensen et al. 2009, 1–23] http://www.linguistics.rub.de/CLBuch/kapitel1A3. pdf • Konversation mit einem Chat-Bot wie etwa http://www.elbot.de (Gewinner des Chatterbox Contests 2003) 2.5.1 Kontrollfragen • Welche Disziplinen verbindet die Computerlinguistik? Mit welchen Disziplinen steht sie in enger Nachbarschaft? • Geben Sie je ein Beispiel, welches die Analyseebenen der verschiedenen linguistischen Teildisziplinen illustriert. • Was ist der Unterschied von Computerlinguistik und Sprachtechnologie? • Nennen Sie 3 Bezeichnungen für Fachausrichtungen, welche teilweise ähnliche Ziele verfolgen wie die CL oder Sprachtechnologie. Wo können unterschiedliche Schwerpunkte ausgemacht werden? (Recherchieren Sie dafür allenfalls im Web zu den einzelnen Stichworten.) • Was ist von der modernen Computerlinguistik gefordert? 18 3 Tokenisierung Lernziele • Kenntnis über den Zweck und die Probleme der textuellen Vorverarbeitung von natürlicher Sprache: Text-Segmentierung und Text-Normalisierung • Kenntnis über Methoden der Punktdisambiguierung und Satzendeerkennung • Kenntnis über Textnormalisierung und Erkennung von interessierenden Grössen (Named Entity Recognition) • Kenntnis über die Kodierung sprachlicher Zeichen • Kenntnis und Umgang mit regulären Ausdrücken 3.1 Tokenisierer 3.1.1 Grundproblem Datei-Inhalte Beispiel 3.1.1 (Folge von Zeichenkodes). Wieviele und welche Wörter enthält der folgende Datei-Inhalt? 57 61 73 20 62 65 69 6E 68 61 6C 74 65 (Der Dateiinhalt ist als Dump im Hexadezimalformat wiedergegeben, d.h. jedes Zeichen in Form seines Zeichenkodes als Hexadezimalzahl.) Grundproblem: Vom Zeichenstrom zur Folge von Tokens Rohdaten Rohe, elektronische Sprachdaten liegen in Dateien vor, welche nichts anderes als eine Folge von kodierten Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind. Token: Einheit der Textsegmentierung Tokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Systeme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriff, syntaktische Analyse. Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip) • Konsumieren der Zeichenfolge (Eingabe) • Gruppieren und allenfalls normalisieren/modifizieren der Zeichen (Verarbeitung) • Produzieren einer Folge von Tokens (Ausgabe) 19 3.1.2 Zeichenkodierung Was ist ein Zeichen auf dem Computer? • Traditionell ein Byte, d.h. eine Folge von 8 Bits (0 oder 1) • Ein Byte kann als Zahl interpretiert werden, indem die Position eines Bits als Stelle im Binärsystem aufgefasst wird: 0010’0000 • Eine Zahl kann als Buchstabe/Zeichen interpretiert werden, indem eine Kodierungskonvention aufgestellt wird: Z.B. A=65, @=64, 1=49 • Verbreitete Kodierungskonventionen (engl. charset): ASCII (128 Zeichen für Englisch), iso-latin-1 (256 Zeichen für westeuropäische Sprachen), UNICODE(ISO/IEC 10646) (über 100’000 Zeichen in Version 5.1.0 für fast alle Schriftsysteme der Welt; http://www.unicode. org) • Speicherung bei ASCII und iso-latin-1: 1 Zeichen = 1 Byte Was ist ein Zeichen auf dem Computer? • Speicherung bei UNICODE: UTF (Abk. für Unicode Transformation Format) beschreibt Methoden, einen Unicode-Wert auf eine Folge von Bytes abzubilden. • UTF-8: (Abk. für 8-bit Unicode Transformation Format) Ordnet jedem Unicode-Zeichen eine speziell kodierte Bytefolge von variabler Länge zu. UTF-8 unterstützt bis zu 4 Byte pro Zeichen. • Dateiformat: XML-Dateien sind defaultmässig UTF-8 kodiert. Bei andern Dateien muss man es wissen. • Darstellung: Zeichensätze (engl. fonts) enthalten die graphischen Formen (glyphs), damit das Betriebssystem die Kodes fürs Auge darstellen kann. • Konversionswerkzeuge: Z.B. GNU-Kommandozeilentool iconv Textkonversion mit iconv Verlustbehaftete Konversion Nebst der Konversion zwischen unterschiedlichen Zeichenkodierungen lässt sich auch TextNormalisierung durch “Transliteration” durchführen. $ echo "Klößchen" | iconv -f ISO_8859-1 Kl"osschen -t ASCII//TRANSLIT Das Löschen von nicht-repräsentierbaren Zeichen ist meist weniger nützlich: $ echo "Klößchen" | iconv -f ISO_8859-1 Klchen 20 -t ASCII//IGNORE 3.1.3 Markup 3.1.4 Programme Typische Beispiele für Tokenisierer Tokenisierung aus einem Zeichenstrom oder einer Zeichenkette in eine Datenstruktur einer Programmiersprache Beispiel 3.1.2 (Covingtons Tokenizer [Covington 2003]). Tokenisierer in Prolog für Englisch: Konsumiere eine Textdatei oder eine Benutzereingabe und produziere daraus eine Prolog-Liste. Joe’s brother doesn’t owe us $4,567.89. [ w([j,o,e]), % w = Wort w([s]), w([b,r,o,t,h,e,r]), w([d,o,e,s,n,t]), w([o,w,e]), w([u,s]), s(’$’), % s = Symbol n([’4’,’5’,’6’,’7’,’.’,’8’,’9’]), % n = Zahl s(’.’) ] Typische Beispiele für Tokenisierer Tokenisierung aus einem Zeichenstrom oder einer Zeichenkette in eine Datenstruktur einer Programmiersprache Beispiel 3.1.3 (Tokenizer für Englisch). Tokenisierer in Python aus nltk.org: Konsumiere eine Textdatei oder Benutzereingabe und produziere daraus eine Python-Liste. $ python Python 2.6.5 (r265:79063, Apr 16 2010, 13:57:41) >>> import nltk >>> nltk.word_tokenize("Joe’s brother doesn’t owe us $4,567.89.") [’Joe’, "’s", ’brother’, ’does’, "n’t", ’owe’, ’us’, ’$’, ’4,567.89’, ’.’] >>> Typische Beispiele für Tokenisierer Vertikalisierter Text Tokenisierung mit rein textuellem Output: Lese eine Textdatei ein und erzeuge daraus • vertikalisierten Text, d.h. ein Token pro Zeile, oder • ein Satz pro Zeile, d.h. jedes Token durch Leerzeichen getrennt. Beispiel 3.1.4 (Schmids Tokenizer im UNIX-Stil [Schmid 2006]). Sprachunabhängiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkürzungsdatei 21 $ cat file.txt "Bach’sche Musik mag Dr. Fritz. Ja." $ cat ger-abbrev Dr. usw. $ separate-punctuation +1 +s +l ger-abbrev file.txt " Bach’sche Musik mag Dr. Fritz . Ja . " Typische Beispiele für Tokenisierer Auf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PERL, Python oder Xerox Finite State Tools, welche einen einfachen Umgang mit regulären Ausdrücken erlauben. Definition 3.1.5 (Reguläre Ausdrücke (engl. regular expressions)). Ein regulärer Ausdruck ist eine relativ standardisierte Kurz-Notation, um Zeichenketten mit bestimmten Eigenschaften zu beschreiben. Praktisch eingesetzt werden sie für die nicht-wörtliche Suche (engl. pattern matching), Suchenund-Ersetzen und Segmentieren von Zeichenketten. Einführung in reguläre Ausdrücke Z.B. in unserem CLab: http://www.cl.uzh.ch/clab/regex Typische Beispiele für Tokenisierer Tokenisierung mit XML-Output (ev. aus XML-Input), d.h. in einer Auszeichnungssprache (engl. markup language). Beispiel 3.1.6 (Der LT-TTT2 Tokenizer [Grover 2008]). 1. Rohtext This is an example. There are two sentences. 2. XML-Input für Tokenisierer (Vortokenisierung) <document> <text> 22 <p> This is an example. There are two sentences. </p> </text> </document> 3. XML-Tokenisat <document> <text> <p> <s id="s1"> <w id="w3" c="w" pws="yes">This</w> <w id="w8" c="w" pws="yes">is</w> <w id="w11" c="w" pws="yes">an</w> <w id="w14" c="w" pws="yes">example</w> <w id="w21" pws="no" sb="true" c=".">.</w> </s> <s id="s2"> <w id="w23" c="w" pws="yes">There</w> <w id="w29" c="w" pws="yes">are</w> <w id="w33" c="w" pws="yes">two</w> <w id="w37" c="w" pws="yes">sentences</w> <w id="w46" pws="no" sb="true" c=".">.</w> </s> </p> </text> </document> Hinweis: Für Darstellungszwecke mit zusätzlichen Layoutzeichen angereichert. 3.2 Exkurs: XML XML (eXtensible Markup Language) Definition 3.2.1. Der XML-Standard http://www.w3.org/XML/ spezifiziert, wie wohlgeformte XML-Dokumente aufgebaut sein müssen und wie mit Dokumenttypdefinitionen (DTD) deren Struktur genauer vorgeschrieben und validiert werden kann. XML in der Texttechnologie • Textbasiertes Format, das geeignet ist, Texte und dazugehörige Metainformation programmunabhängig, strukturiert zu speichern (z.B. Text Encoding Initiative TEI für Lexika, Korpora und digitale Editionen) • Dank Standardisierung gibt es viele Werkzeuge, Bibliotheken, Programmierschnittstellen zum Einlesen, Erstellen, Modifizieren von XML-Dokumenten • Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben 23 Aufbau von XML-Dokumenten Elemente und ihre Attribute • Elemente sind von Start-Tags (“<p>”) und End-Tags (“</p>”) begrenzt. • Leere Elemente können aus einem Tag bestehen (“<br/>”) • Elemente dürfen hierarchisch ineinander verschachtelt werden: <p><s>...</s></p> • Jedes XML-Dokument hat genau ein Wurzelelement: Z.B: <document>...</document> • Attribute eines Elements erscheinen als Paare der Form NAME="WERT" im Start-Tag: <s id="s2"> • Elemente können Zeichendaten (d.h. normalen Text) enthalten: <w>are</w> Zeichenreferenzen und Entity-Referenzen Entitäten und Referenzen • Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entities bezeichnet, welche zwischen & und ; notiert werden • Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens (#n=Hexadezimal) Zeichen < " & Newline Entität < " & 	 3.3 Tokenisierung: Segmentieren von Wörtern und Sätzen 3.3.1 Problem Naive Tokenisierung mit 3 Zeichenklassen Ein Token ist in segmentierten Schriftsystemen durch Leerraumzeichen (engl. white space) oder Interpunktion begrenzt. • Wort-Zeichen: /[a-zA-Z0-9]/ • Einzel-Zeichen: /[.,:;?!)(" ?-]/ • Grenz-Zeichen: /\s/ Problem Tokens können sowohl Einzel- wie Grenz-Zeichen enthalten: “Joop!”, “usw.”, “1 000”, “«Ich bin Borat»-Kit” 24 Teilprobleme der Tokenisierung im weiten Sinn • Umgang mit Markup (HTML-Tags, Formatierungszeichen) • Erkennung der “normalen” Tokengrenzen (in nicht-segmentierten Schriftsystemen wie dem Chinesischen anspruchsvoll) • Erkennung von “komplexen Tokens”, d.h. Tokens, welche Einzel- oder Grenzzeichen beinhalten • Erkennung von Interpunktion (Disambiguierung von Punkten, Erkennung von Satzenden) • Normalisierung von Zeichen und Token (z.B. Silbentrennung aufheben) • Named Entity Recognition (z.B. Erkennung von Namen und Zeitangaben) 3.3.2 Punktdisambiguierung Erkennung von Satzenden (Satz-Segmentierung) Im Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzfinal ist. Wer jeden Punkt als Satzende interpretiert, liegt (im Englischen) in 8-45% der Fälle daneben. Verschärfend: Verschmelzung zweier Funktionen Wiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert. Beispiel 3.3.1 (Verschmelzung). • It was due Friday by 5 p.m. Saturday would be too late. • Ich kenne die U.S.A. Frankreich kenne ich nicht. Weiteres Auch andere Interpunktion als Punkte ist mehrdeutig. Algorithmus zur Punktdisambiguierung Gegeben sei ein Token aus einem englischen Text, welches mit einem Punkt endet. Der Punkt ist ein Abkürzungspunkt, falls • das Token in einer Abkürzungsliste steht. • nach dem Token [,;a-z] folgt. • das Token kleingeschrieben ist, aber der Teil ohne den Punkt nicht im Lexikon steht. • das Token grossgeschrieben ist, eher häufig vorkommt und im Text nicht ohne den Punkt vorkommt. Nach [Grefenstette und Tapanainen 1994] Leistungsfähigkeit Mit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen. 25 Statistische Verfahren zur Punktdisambiguierung Prinzip Verwende die Häufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence) von Tokens aus grossen Textsammlungen, um eine Entscheidung zu treffen. Interessante Merkmale für statistische Ansätze 1. Wieviele Zeichen umfasst ein Token? 2. Umfasst ein Token Ziffern oder keine Vokale? 3. Wie oft kommt das Token ohne Punkt vor? 4. Wie oft kommt nach dem Token ein grossgeschriebenes Token vor? 5. Wie oft kommt ein Token kleingeschrieben vor? 6. Welche Wortart haben die umgebenden Tokens? 3.3.3 Zeichen- und Token-Normalisierung Text-Normalisierung Die Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Varianten bis zu stark linguistisch motivierten Operationen gehen. Beispiel 3.3.2 (Normalisierung bei Suchmaschinen und anderen Anwendungen). • Zürich, Zuerich, Zurich, ZURICH, ZUERICH, ZÜRICH, zurich, zürich, Zü-rich . . . • 4.8.97, 4-8-97, 4/8/97, 8/4/97 • 19000, 19’000, 19 000, 19,000 • Louisa, Luise, Louise, Luisa . . . • doesn’t, does not Rückgängig machen von Worttrennung am Zeilenende Definition 3.3.3. Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In einigen Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weitere graphematische Modifikationen. Beispiel 3.3.4 (Graphematische Modifikationen). • Deutsch alte Rechtschreibung: Zuk-ker → Zucker; Schiff-fahrt → Schiffahrt • Holländisch: chocola-tje → chocolaatje 26 Zeilen 101’860 12’473 Rückbau 11’858 615 in % 100% 12% in % 95% 5% Typ Zeilen total mit Silbentrennung Typ Rückbau in existierende Tokens Rückbau in neue Tokens Tabelle 3.1: Übersicht: Rückbau von Silbentrennung im Brown-Korpus Rückgängig machen von Worttrennung am Zeilenende Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994] Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach dehyphenisiert. Vergleich mit den manuell kontrollierten originalen Tokens: Beispiele: “rookie-of-theyear”, “sciencefiction”, “roleexperimentation” Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch. 3.3.4 Named Entity Recognition Named Entity Recognition Definition 3.3.5. Unter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Personen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungsund Zeitangaben oder weitere textsortenspezifische interessierende Grössen. Einheitliche (kanonische) Repräsentation Für die Zwecke der Informationsextraktion ist es oft sinnvoll, identifizierte interessierende Grössen in ein einheitliches und eindeutiges Format zu bringen. Beispiel 3.3.6 (Kanonische Formen). • USA: “U.S.A.”,“United States of America”, “U.S. of America” • time(13,20,–): “13.20”, “13h”, “1.20 pm”, “Zwanzig nach Eins” 3.4 Multilingualität Multilinguale Dokumente und Systeme Herausforderung Multilingualität • Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation • Bereits auf Tokensierungsstufe sind sprachspezifische Ressourcen (Abkürzungslexika) und Regeln notwendig • Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes das Fundament, auf dem alle Textanalyse aufbaut. • Traditionelles linguistisches Wissen ist für Sprachidentifikation nicht geeignet. • „Primitive“ Verfahren, welche auf Häufigkeiten von Buchstabenkombinationen aufbauen, funktionieren gut. 27 Ansatz von [Cavnar und Trenkle 1994] 1. Sammle häufigste Zeichenkombinationen (2-5 Zeichen, d.h. N-Gramme) der verschiedenen Sprachen über Trainingsdaten. 2. Berechne für jede Sprache die Reihenfolge der häufigsten Kombinationen (N-GrammProfil). 3. Berechne für ein unbekanntes Dokument D sein N-Gramm-Profil. 4. Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangunterschieds von jedem N-Gramm. 5. Wähle für D die Sprache mit dem kleinsten Profilabstand. N-Gramm-Profile und Profilabstand Quelle: [Cavnar und Trenkle 1994] Abbildung 3.1: 3.5 Vertiefung Zum Thema “Tokenisierung”: • Pflichtlektüre: [Carstensen et al. 2009, 3.4.1] • Guter Übersichtsartikel für Interessierte: [Palmer 2000] • Gut zu lesen und methodisch einfach und instruktiv: [Grefenstette und Tapanainen 1994] Zum Thema “Reguläre Ausdrücke”: 28 • http://www.cl.uzh.ch/clab/regex/ Zum Thema “XML”: • Kapitel 2.5.2 Texttechnologische Grundlagen in [Carstensen et al. 2009] 3.5.1 Kontrollfragen Kontrollfragen • Welche Probleme stellen sich bei der Tokenisierung? • Schildern Sie zwei unterschiedliche Ansätze zur Punktdisambiguierung. • Was sind die wesentlichen Eigenschaften von XML-Dokumenten? • Was versteht man unter NER? • Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle? 29 4 Endliche Automaten (Intensiv-Wochenende) Lernziele • Kenntnis über Zeichen, Mengen von Zeichen und Zeichenketten • Kenntnis über reguläre Sprachen und reguläre Ausdrücke und ihren Bezug zu endlichen Automaten • Zustandsdiagramme für endliche Automaten zeichnen und interpretieren können • Kenntnis, wann ein endlicher Automat deterministisch ist und wann nicht • Sanfter Einstieg in die Formalisierung von Konzepten • Umgang mit dem Simulationswerkzeug JFLAP für formale Sprachen, Grammatiken und Automaten 4.1 Formale Sprachen 4.1.1 Mengen A Quick Review of Set Theory A set is a collection of objects. B A D E We can enumerate the “members” or “elements” of finite sets: { A, D, B, E }. There is no significant order in a set, so { A, D, B, E } is the same set as { E, A, D, B }, etc. 30 Quelle: B04 Cardinality of Sets The A Empty Set: Finite Set: An Norway Denmark Sweden Infinite Set: e.g. The Set of all Positive Integers Quelle: B04 4.1.2 Zeichen Das Alphabet (Sigma): Menge von Zeichen Definition 4.1.1. Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole). Es wird mit Σ (Sigma) notiert. Beispiel 4.1.2 (Zeichen des Englischen). ΣEnglisch = {a, b, c, . . . , x, y, z} Beispiel 4.1.3 (Zeichen der binären Zahlen). Σbin = {0, 1} Zeichenketten (strings) Definition 4.1.4. Eine Zeichenkette (formales Wort, string) der Länge n ist eine endliche Folge aus n Zeichen über Σ. Beispiel 4.1.5 (Zeichenketten über englischen Symbolen ΣEnglisch ). a, we, work, and, talk, walk, krwrk,. . . Leere Zeichenkette Die leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen. Sie wird mit (Epsilon) oder λ (Lambda) notiert und hat die Länge 0. Sigma Stern Σ∗ ist die Menge aller Zeichenketten, welche aus dem Alphabet Σ gebildet werden können. Σ∗bin = {, 0, 1, 00, 01, 10, 11, 001, . . .} 31 4.1.3 Sprachen Formal Languages Very Important Concept in Formal Language Theory: A Language is just a Set of Words. • We use the terms “word” and “string” interchangeably. • A Language can be empty, have finite cardinality, or be infinite in size. • You can union, intersect and subtract languages, just like any other sets. Quelle: B04 Formale Sprachen als Teilmenge von Sigma Stern L ⊆ Σ∗ {walk, talk, work} ⊆ {a, b, . . . , z}∗ {1, 01, 10, 001, 010, 100, 0001, . . .} ⊆ {0, 1}∗ Wie lautet ein regulärer Ausdruck, der genau die Zeichenketten der obigen Sprache matchen 32 kann? Union of Languages (Sets) dog cat rat elephant mouse Language 1 Language 2 dog cat rat elephant mouse Union of Language 1 and Language 2 Quelle: B04 Intersection of Languages (Sets) dog cat rat rat mouse Language 1 Language 2 rat Intersection of Language 1 and Language 2 Quelle: B04 Ist eine Zeichenkette in einer Sprache drin oder nicht? Beispiel 4.1.6. Ist „talk“ ein Element der Sprache? Wahr oder falsch! talk ∈ {work, talk, walk} 33 Concatenation of Languages work talk walk 0 ing ed s Root Language Suffix Language Abbildung 4.1: Sprache aus 3 Verben 0 or ! denotes the empty string Endliche Automaten (EA) (engl. Finite-State Automatons (FA)) Endliche Automaten berechnen die Antwort diese Frage. workauf working The concatenation of worked works talk the Suffix language 4.2 Endliche Automaten talking talked talks after the Root Deterministische Endliche Automaten (DEA) walk walking language. walked walks Idee des akzeptierenden deterministischen endlichen Automaten Ein endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Wörtern einer regulären Sprache. Beim Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im sogenannten Startzustand. Sie ist nach jedem Verarbeitungsschritt in genau einem Zustand. Bei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und dem Lesezeichen in einen Nachfolgezustand gewechselt. Wenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist, gilt die gelesene Zeichenkette als akzeptiert. Wenn kein Übergang mit dem gelesenen Symbol möglich ist, gilt die zu verarbeitende Zeichenkette als nicht akzeptiert. Deterministischer endlicher Automat (DEA) Definition 4.2.1 (DEA, deterministic finite state automaton, DFA). Ein deterministischer endlicher Automat A = hΦ, Σ, δ, S, F i besteht aus 1. einer endlichen Menge Zustände Φ 2. einem endlichen Eingabealphabet Σ 3. einer (partiellen) Zustandsübergangsfunktion δ : Φ × Σ → Φ 4. einem Startzustand S ∈ Φ 5. einer Menge von Endzuständen F ⊆ Φ Hinweis Die Übergangsfunktion δ bestimmt den Folgezustand, der ausgehend vom aktuellen Zustand beim Lesen eines einzelnen Zeichens erreicht wird. 34 Abbildung 4.2: Deterministischer EA 4.2.1 Determinismus Nicht-Deterministische Endliche Automaten (NEA) Nicht-Determinismus I Von einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg. Nicht-Determinismus II Es gibt mindestens eine -Kante. Wichtiges Resultat Jeder Nicht-Deterministische Endliche Automat lässt sich in einen deterministischen verwandeln. 35 4.2.2 Konkatenation Concatenation of Languages work talk walk 0 ing ed s Root Language Suffix Language 0 or ε denotes the empty string work working worked works talk talking talked talks walk walking walked walks The concatenation of the Suffix language after the Root language. Quelle: B04 Konkatenation von Zeichenketten und Sprachen Konkatenation von Zeichenketten u • v = uv „work“ • „ed“ = „worked“ Konkatenation von Sprachen U • V = {u • v | u ∈ U und v ∈ V } { „work“} • {„ed“, „s“} = {„work“•„ed“, „work“•„s“ } = {„worked“, „works“ } 36 Concatenation of Languages II re out 0 work talk walk 0 ing ed s Root Language Suffix Language Prefix Language rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks work working worked works talk talking talked talks walk walking walked walks The concatenation of the Prefix language, Root language, and the Suffix language. Quelle: B04 Languages and Networks u o t t 0 s r u t 0 s r l e r a o n g d Network/Language 3 0 a t i k Network/Language 2 w e s a o e Network/Language 1 o a s w 0 s l s k i r n e g The concatenation of Networks 1, 2 and 3, in that order d Quelle: B04 4.3 Reguläre Sprachen/Ausdrücke Reguläre Sprachen und reguläre Ausdrücke (RA) Definition 4.3.1. Eine Sprache über Σ = {a1 , a2 , ..., an } heisst regulär, wenn sie durch folgende 37 2.3. SIMPLE REGULAR EXPRESSIONS 41 LANGUAGE / RELATION es REGULAR EXPRESSION od de no c en te s {"a"} compiles into a FINITE-STATE NETWORK a Figure 2.1: Regular expression , Language , Network. Abbildung 4.3: Beziehung zwischen formalen Sprachen, regulären Ausdrücken und endlichen Automaten (aus [Beesley und Karttunen 2003]) then compiling that regular expression into a network. This is in general easier than constructing a complex network directly, and in fact it is the only practical way for all but the most trivial infinite languages relations. reguläre Mengenausdrücke beschrieben werdenand kann: We use the term FINITE - STATE NETWORK both for simple automata that encodeMenge a regular and for transducers that encode a regular Ausdruck relation. A (RA) net- in JFLAP • Die leere ∅ language und die Menge {} ist regulär. Als regulärer work consists of STATES and ARCS . It has a single designated start state and any wird {} geschrieben als ! number (zero or more) of final states. In our network diagrams states are repre• Die Mengen },...,{a regulär. RA: a oder b sented by{acircles. leftmost circle is the start state; final states are distinguished 1 },{a2The n } sind by a double circle. Each state is the origin of zero or more labeled arcs leading to • Wennsome L1 und L2 regulär dann auch (A|B) JFLAP 1∪L 2 ). RA: destination state.sind, The arc labels are(L either simple symbols or (in symbol pairs (A+B)) depending on whether the network encodes a language or a relation between two • Wenn L1 und L2 regulär sind, dann auch (L1 • L2 ). RA: (AB) languages. Each string or pair of strings is encoded as a path of arcs that leads the start to some final(A)* state. In the network of Figure 2.1 there is just • Ist L from regulär, dannstate auch L∗ . RA: one path; it encodes the string “a”. Unlike many introductory textbooks, we do not treat Optionalität simple finite-state automata and transducers as different types of mathematiWie kann man ausdrücken? cal objects. Our presentation reflects rather closely the data structures in the actual Xerox implementation of finite-state networks. We hope it is as precise but more Beziehung zwischen RA, DEA und formalen Sprachen approachable than a rigorous formal introduction in terms of n-tuples of sets and Zu jedem regulären Ausdruck RA existiert mindestens ein EA, der die vom RA bezeichnete functions (Roche and Schabes, 1997). reguläre Sprache akzeptiert. 2.3 Simple Regular Expressions Zusammenfassung We will start with a simple regular-expression language and expand it later in Sec• Mit regulären Ausdrücken lassen sich alle regulären Sprachen beschreiben. tion 2.4 with more constructions and operators. Even this initial description introduces many more types of regular expressions than can be found in classical • Mit endlichen Automaten lassen sich alle regulären Sprachen erkennen. computer science literature (Hopcroft and Ullman, 1979). Because the expressions • Jeder we reguläre kann inon einen endlichenour Automaten werden. use areAusdruck meant to be typed the computer, notation is verwandelt slightly different 38 4.4 Ausblick The Big Picture of Low-Level NLP A running text in your favorite language A tokenized text (divided into “words”) Tokenizer Morphological Analyzer Tokens with their analyses (often ambiguous) • Future steps • Disambiguator (“tagger”) • Shallow parser (“chunker”) • Syntactic parser • Semantic analysis, information extraction • Ultimate applications • Spelling checking, indexing, aid to corpus analysis, lexicography • Dictionary lookup aids, language teaching, spelling correction • Text-to-speech systems • Question answering, machine translation, etc. Quelle: B04 Linguistic Transducer Machines Generator “Apply Down” : mesa+Noun+Fem+Pl mesas mesa+Noun+Fem+Pl m e s a +Noun m e s a 0 +Fem 0 +Pl s mesas Analyzer “Apply Up” : mesa+Noun+Fem+Pl mesas Quelle: B04 Vertiefung • Carstensen Abschnitt 2.2.3: „Endliche Automaten, einseitig-lineare Grammatiken und re- 39 guläre Sprachen“ • Carstensen Abschnitt 3.3.4: „Morphologie mit endlichen Automaten“ • JFLAP: http://www.jlap.org 40 5 Chunk-Parsing (Intensiv-Wochenende) 5.1 Chunking Volle syntaktische Analyse Definition 5.1.1. Eine volle syntaktische Analyse (engl. deep parsing) berechnet für einen Satz die Konstituenz und Dependenz. Abbildung 5.1: Volle Syntaxanalyse Partielle syntaktische Analyse Definition 5.1.2. Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing) berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz. Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt. 5.1.1 Motivation Chunks (Teilstrukturen) nach [Abney 1991] Beispiel 5.1.3 (Chunks nach Abney). [I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time]. Motivationen • Intonation: sprachliche Einheiten mit jeweils 1 stärkeren Betonung 41 Abbildung 5.2: Partielle Syntaxanalyse (CONLL 2000) Volle Analyse Exakte Strukturierung Benötigt für genaue Bedeutungsberechnung Aufwendiger zu berechnen (besonders bei langen Sätzen) „All grammars leak“ (Sapir) (gibt nicht immer eine Lösung) Je grösser die Abdeckung einer Grammatik, umso höher die Mehrdeutigkeit Partielle Analyse Grobe Gruppierung Ausreichend für gängige sprachtechnologische Anwendungen Extrem schnelle Verfahren (Endliche Automaten) Robuste Verfahren (gibt immer eine Lösung) Weniger Mehrdeutigkeit • Effizienz: Teilstrukturen lassen sich effizienter berechnen. • Minimaler Aufwand: Für gewisse Anwendungen braucht es keine vollständige syntaktische Analyse. • Robustheit: Für syntaktisch fehlerhaften Input braucht es fehler-tolerante, oberflächlichere Analysemethoden. Volle vs. Partielle Analyse Verwendung von Chunking • Vorstufe für vollständige syntaktische Analyse • Text-To-Speech-Systeme: Gruppierung für Pausenberechnung • Automatisches Extrahieren von Verwendungs-Mustern von Verben für die Lexikographie • Informationextraktion 5.2 NLTK-Chunkparser 5.2.1 Aufstarten Aufstarten des NLTK ChunkParsers 42 Abbildung 5.3: Informationsextraktion über gechunktem Text NLTK-NP-Chunkparser Einfache Entwicklungsumgebung, um Chunk-Grammatiken zu schreiben und zu evaluieren anhand von NP-Chunks aus der CONLL-Shared-Task. http://www.cnts.ua.ac.be/conll20001 Aufstarten $ python >>> import nltk >>> nltk.app.chunkparser() Chunking-Regeln schreiben für NLTK-NP-ChunkParser Abbildung 5.4: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid Wie kann man die zulässigen NP Chunks beschreiben? {<NN> <NN> <NNS>} • NP : Ein NP (Nominalchunk) • {...}: besteht aus • <NN>: aus einem Wort der Wortart NN (Nomen) • <NN>: gefolgt von einem weiteren Wort der Wortart NN (Nomen) • <NNS>: gefolgt von einem Wort der Wortart NNS (Nomen im Plural) Chunks werden nur auf der Ebene der Wortarten (PoS-Tags) der Wörter spezifiziert (deshalb heissen sie Tag-Patterns). 1 In unserer TIGERSearch-Distribution als Korpus CONLL-TRAIN verfügbar. 43 5.2.2 Strategien Mehrere Tag-Patterns nacheinander anwenden • Zuerst lange Patterns anwenden • danach kurze (Teil)-Patterns {<DT> <JJ> <NN> } # ... ist ein NP-Chunk {<NN>} # Ein einzelnes Nomen ist ein NP-Chunk, # falls nicht bereits Teil eines Chunks. Reguläre Muster für Tag-Patterns Übliche Matching-Strategien • Eifrig: Von links nach rechts • Gierig: Longest Matches {<DT>? <JJ>+ <NN> } # Was beschreibt das? Tag-Patterns mit Kontext Chunk-Gruppierung nur in bestimmten Kontexten Die Anwendung einer Gruppierung lässt sich auf bestimmte Kontext einschränken. Links und/oder rechts von den geschweiften Klammern können Tag-Patterns stehen. <VBP> {<VBG><NN>} # Gruppiere VBG NN nur zu NP-Chunk, # wenn vorher ein VBP steht Chinking Idee Manchmal ist es einfacher zu sagen, was nicht im Chunk sein soll, nämlich die Chinks. Reguläre Ausdrücke innerhalb einer Tag-Angabe { <.*>+ } } <VBD | IN>+ { # Chunke alles im Satz zusammen # . steht für einen Buchstaben ausser > # Chinke Folgen von VBD oder IN Achtung: Zeichen mit Sonderbedeutung in regulären Ausdrücken müssen geschützt werden, um für das normale Zeichen zu stehen: z.B. <PRP\$> 44 VHTXHQFH RI WRNHQV DSSHDUV LQ WKH PLGGOH RI WKH FKXQN WKHVH WRNHQV DUH OHDYLQJWZRFKXQNVZKHUHWKHUHZDVRQO\RQHEHIRUH,IWKHVHTXHQFHLVDWWK RIWKHFKXQNWKHVHWRNHQVDUHUHPRYHGDQGDVPDOOHUFKXQNUHPDLQV7 SRVVLELOLWLHVDUHLOOXVWUDWHGLQ7DEOH Semantik der Chinking-Regel 7DEOH7KUHHFKLQNLQJUXOHVDSSOLHGWRWKHVDPHFKXQN Entire chunk Middle of a chunk End of a chunk Input [a/DT little/JJ dog/NN] [a/DT little/JJ dog/NN] [a/DT little/JJ dog/NN] Operation Chink “DT JJ NN” Chink “JJ” Chink “NN” Pattern }DT JJ NN{ }JJ{ }NN{ Output a/DT little/JJ dog/NN [a/DT] little/JJ [dog/NN] [a/DT little/JJ] dog/NN 5.3 Evaluationsmasse 5.3.1 Recall Recall (Ausbeute, Abdeckung, Vollständigkeit) Definition 5.3.1. Recall gibt den Anteil der korrekt gefundenen Chunks gemessen an allen 268 | Chapter 7:ಗExtracting möglichen korrekten Chunks an.Information from Text R= | Gefundene korrekte Chunks | | Alle korrekten Chunks | Beispiel 5.3.2 (Recall eines Chunkers). Ein Chunker hat von 800 vorhandenen NPs in einem Testkorpus 600 korrekt als NP klassifiziert. At = 600 und Nt = 800. Der Recall berechnet sich als: R = 600 800 = 75% 5.3.2 Precision Precision (Genauigkeit, Präzision) Definition 5.3.3. Precision gibt den Anteil der korrekt gefundenen Chunks gemessen an allen gefundenen Chunks. P = | Gefundene korrekte Chunks | | Alle gefundenen Chunks | Beispiel 5.3.4 (Precision eines Chunkers). Ein Chunker hat in einem Testkorpus 1’000 Chunks als NP klassifiziert, aber nur 600 davon waren tatsächlich NP. 600 At = 600 und A = 1000. Die Precision berechnet sich als: P = 1000 = 60% 5.3.3 F-Measure F-Score oder F-Measure (F-Mass) 45 Definition 5.3.5 (F1 -Measure). Das F-Measure verrechnet Precision und Recall gleichgewichtet zum harmonischen Mittelwert. Formal: Sei P die Precision und R der Recall eines Systems: F = 2×P ×R P +R Beispiel 5.3.6 (F-Mass eines Chunkers). Ein Chunker hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für NPs. Das F-Measure berechnet sich somit: F = 2×0.6×0.75 0.6+0.75 = 66.6% Resultate der Chunking-Shared-Task der CoNLL 2000 Abbildung 5.5: Resultate der Chunking-Shared-Task [Tjong Kim Sang und Buchholz 2000, 131] der CoNLL 2000 5.4 Fazit Flache Chunks im IOB-Format Definition 5.4.1 (IOB-Chunks). IOB-Chunks beschreiben eine flache syntaktische Schicht über die getaggten Wortformen, welche in Form von Chunk-Tags auf die Token abbildbar ist. • B-K : Anfang einer Chunk-Konstituente K • I-K : Fortsetzung der Chunk-Konstituente K • 0: Nicht zugeordnet (wird auch chink genannt) We PRP B-NP saw VBD 0 the DT B-NP yellow JJ I-NP dog NN I-NP 46 5.4.1 Verschachtelte Chunks Verschachtelte Chunks Definition 5.4.2 (Verschachtelte Chunks). Verschachtelte Chunks beschreiben eine syntaktische Struktur von begrenzter Tiefe. Rekursive Verschachtelung, z.B. ein Nominal-Chunk innerhalb eines Nominal-Chunks, ist normalerweise nicht möglich. Beispiel 5.4.3 (Chunk Parsing Output mit Verschachtelungstiefe 3). [PX [APPR für] [NX [ARTIND eine] [AJXatt [ADJA gewisse]] [NN Reibungslosigkeit]]] Hinweis zur Chunk-Benennung Chunks werden manchmal wie Phrasen (NP) notiert, gebräuchlich sind auch NX oder NC. Vertiefung • NLTK-Buch S. 264ff. • Carstensen Abschnitt 3.4.3: „Chunk-Parsing“ • Penn-Treebank-Tagset im CLab: http://www.cl.uzh.ch/clab/hilfe/ptts • Information zum Sprachmodell des CONLL-Goldstandards und zu den Resultaten der Shared-Task enthält [Tjong Kim Sang und Buchholz 2000] 47 6 Linguistisches Propädeutikum I Lernziele • Kenntnis der Begriffe Wort, Token, Wortform, syntaktisches Wort, Lexem, Lemma, Lexemverband • Kenntnis der Wortartenlehre für Deutsch • Kenntnis der morphologischen Kategorien für Deutsch und Englisch • Kenntnis und Anwendung des Stuttgart-Tübingen-Tagsets (STTS) mit Hilfe der Referenzkarte • Kenntnis und Anwendung linguistischer Proben • Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von Morphologie und Wortarten • Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung, Analyse und Generierung 6.1 Wort 6.1.1 Definition Wort Definition 6.1.1 (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprachlich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche Definitionsversuche uneinheitlich und kontrovers sind. Beispiel 6.1.2 (Was ist ein Wort?). 1. Sie wollte vor allem am 1. Spiel teilnehmen. 2. Sie nahm z.B. an dem 2. Spiel teil. 3. Das gibts doch nicht! 4. Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit [. . . ] 48 Präzisierungsversuche des Wort-Begriffs Sprachliche Ebenen zur Präzisierung des Wort-Begriffs • Phonetisch-phonologisch: kleinstes durch Wortakzent und Grenzsignale wie Pause oder Knacklaut theoretisch isolierbares Lautsegment • Orthographisch-graphemisch: durch Leerstellen im Schriftbild isolierte Einheit • Morphologisch: Grundeinheit, welche flektierbar ist • Lexikalisch-semantisch: kleinster Bedeutungsträger, welcher im Lexikon kodifiziert ist • Syntaktisch: kleinste verschieb- und ersetzbare Einheit des Satzes Gängige Auffassungen des Worts Wort [Linke et al. 2001] Wieviele verschiedene Wörter hat dieser Satz? Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach. Antworten 4 5 6 9 __ 6.1.2 Token Antwort 9: Wort als Vorkommen einer Wortform Wieviele verschiedene Wörter hat dieser Satz? Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5 , fliegen6 Fliegen7 Fliegen8 nach9 . Definition 6.1.3 (Token). Ein Token ist ein einzelnes Vorkommen einer Wortform in einem Text. Bemerkung In der CL werden Interpunktionszeichen ebenfalls als textuelle Token betrachtet. Die Antwort lautet dann . . . 6.1.3 Wortform Antwort 5: Wort als Wortform Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 , fliegen4 Fliegen3 Fliegen3 nach5 . Definition 6.1.4 (Wortform). Eine Wortform ist eine rein graphematische Einheit eines Textes. Beispiel 6.1.5 (Identische Wortformen mit unterschiedlicher Bedeutung). • Die Fliege war tot. • Er trug eine samtene Fliege. • Fliege nicht so schnell! 49 6.1.4 Syntaktisches Wort Antwort 6: Wort als syntaktisches Wort Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5 , fliegen5 Fliegen4 Fliegen3 nach6 . Definition 6.1.6 (Syntaktisches Wort). Ein syntaktisches Wort ergibt sich aus einer Wortform kombiniert mit ihren morphosyntaktischen Merkmalen. Rein orthographische Varianten einer Wortform werden für ein syntaktisches Wort normalerweise zusammengefasst. Beispiel 6.1.7 (Wortform vs. syntaktisches Wort). Die Wortform „Fliegen“ kann mindestens 4 syntaktische Wörter repräsentieren: „Fliege“ in Nominativ, Akkusativ, Dativ oder Genitiv Plural. 6.1.5 Lexem Antwort 5: Wort als Lexem Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 , fliegen4 Fliegen3 Fliegen3 nach5 . Definition 6.1.8 (Lexem im engen Sinn). Ein Lexem ist eine Menge (Paradigma) von syntaktischen Wörtern, welche sich nur in bestimmten morphosyntaktischen Merkmalen (Kasus, Numerus, Tempus usw.) unterscheiden. Definition 6.1.9 (Nennform, Zitierform, Grundform, Lemma). Ein Lemma ist eine lexikographische Standard-Notation für ein Lexem. Beispiel 6.1.10 (Lexikographische Notationskonventionen im Deutschen). Substantiv-Lexeme werden durch das syntaktische Wort im Nominativ Singular repräsentiert. Verb-Lexeme durch den Infinitiv. Wie werden Verb-Lexeme im Latein notiert? Antwort 4: Wort als Lexemverband Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 , fliegen3 Fliegen3 Fliegen3 nach4 . Definition 6.1.11 (Lexemverband, auch Lexem im weiten Sinn). Ein Lexemverband ist eine Menge von Lexemen, deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivationsstamm) basiert. Beispiel 6.1.12 (Derivationen von „fliegen“ in Canoo). Lexemverbände umfassen typischerweise Lexeme mit unterschiedlichen Wortarten. Die Wortbildungsinformation in http://www.canoo.net illustriert dies schön. Stufen der Abstraktion: Vom Text zum Lexemverband • Jedes Token ist eine Zeichenfolge, welche in einem Text an einer bestimmten Stelle beginnt. • Jede Wortform ist eine Menge von Token, welche aus der identischen Zeichenfolge bestehen (sog. Type). • Jedes syntaktisches Wort ist eine Menge von Token, welche identische morphosyntaktische und semantische Eigenschaften aufweisen. 50 • Jedes Lexem ist eine Menge syntaktischer Wörter, welche sich nur in ihren morphosyntaktischen Merkmalen unterscheiden. • Jeder Lexemverband ist eine Menge der Lexeme, für die eine identische Wurzel (oder derselbe Derivationsstamm) angenommen wird. 6.2 Lehre von den Wortarten Wortarten nach [Bussmann 2002] Definition 6.2.1 (Redeteile, engl. parts of speech (PoS)). Wortarten sind das Ergebnis der Klassifizierung der Wörter einer Sprache nach morphologischen, syntaktischen und/oder semantischen Kriterien. Historisches [Gallmann und Sitta 2010] Die 8-Wortarten-Lehre von Dionysius Thrax (ca. 100 vor Chr.) wirkte stark bis ins 19. Jahrhundert. Für Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemäss Adelung (1781) vermittelt: Substantiv, Verb, Adjektiv, Präposition, Konjunktion, Interjektion, Numerale, Pronomen, Artikel, Adverb 5-Wortarten-Lehre Mit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilung durch, welche explizite (operationalisierbare) und durchgängige Klassifikationskriterien anwendet. 6.2.1 5 Hauptwortarten nach Glinz Klassifikationskriterien Abbildung 6.1: Die 5 Hauptwortarten nach Glinz [Stocker et al. 2004] Welcher Fachbegriff wäre präziser anstelle von “Wörter” in der Abbildung? 51 Abbildung 6.2: Die Hauptkategorien von STTS:http://www.cl.uzh.ch/clab/hilfe/stts/ 6.2.2 STTS Stuttgart/Tübingen-Tag-Set (STTS) Eine umfassende Standard-Klassifikation aus der CL-Praxis: • Die Kürzel für die Wortarten nennt man „Tag“ (engl. Etikette) • Wichtigstes Tagset des Deutschen [Schiller et al. 1999] mit 54 Tags • Vergleichbar mit dem Tagset der Penn-Treebank für Englisch • Eine Notationsvariante von STTS wurde als europäischer Standard für Deutsch (EAGLES ELM-DE) [EAGLES 1996] spezifiziert. • Alternativen: Münsteraner Tagset [Steiner 2003] Wieso ist das STTS wichtig in der CL? • Wichtige linguistisch annotierte Korpora (sog. Baumbanken) verwenden auf der Wortartenebene STTS: NEGRA-Korpus III(20’000 Sätze), TüBa-D/Z (45’000) TIGER-Korpus (50’000) (leicht adaptiertes STTS) III • Es gibt frei verfügbare Programme, welche Wörter im Lauftext automatisch mit ihren STTS-Tags ergänzen. Solche Programme (z.B. TreeTagger) nennt man „Tagger“ und den Prozess „Tagging“. STTS vs. 5-Wortartenlehre • Eigennamen (NE) sind eine semantisch definierte Klasse. 52 • Feine Aufgliederung bei Pronomen/Begleiter: Personalpronomen (PPERS), Demonstrativpronomen (PDS) usw. • Durchgängige Unterscheidung von attribuierend (Begleiter) vs. substituierend (Pronomen): “Diese/PDAT Kuh muht.” vs. “Diese/PDS muht.” • Feine Aufgliederung bei Glinzschen Partikeln: Konjunktionen, Adverbien, Antwortpartikel (PTKANT), Negationspartikel „nicht“ (PTKNEG) usw. • Als Adverbien zählen nur Lexeme, welche keine adjektivische Verwendung erlauben. • ‘Wortarten’ für satzinterne ($,) und -finale Interpunktion ($.) • Kategorie für fremdsprachliches Material (FM) Probleme der Wortartenbestimmung Was sind die Schwierigkeiten? Er kannte ihn schon als kleines Kind. Die Wissenschaft selbst ist ein kompliziertes System. Ich habe noch nie solch eine Geschichte gehört. Er ist erkrankt. Auf der einen Seite ist es so, aber ... Der Mann, von dessen Vater das Buch handelt, ist ... Er kam plötzlich und ohne anzuklopfen herein. Er wartete bis um 5 Uhr. 6.3 Morphologische Merkmale Morphologische Kategorien und ihre Merkmale Definition 6.3.1 (auch morphosyntaktisches oder grammatisches Merkmal). Die morphologischen Merkmale sind Ausprägungen von morphologischen Kategorien wie Genus, Kasus, Numerus, Person, Tempus, Modus und Komparation, welche durch die Flexion (Wortbeugung) realisiert werden. Flexion: Bildung von den unterschiedlichen syntaktischen Wortformen eines Lexems • Konjugation von Verben • Deklination von Nomen, Adjektiven, Artikeln und Pronomen • Steigerung von Adjektiven (und wenigen Adverbien) 53 Diskussion: Sind steigerbare Adverbien ein Widerspruch im System? Nach Glinz zählen die Adverbien zu den Partikeln. Partikeln sind gemäss dieser Einteilung nicht flektierbar. Zur Flexion wird normalerweise auch die Komparation gezählt. Es gibt einige Adverbien, welche komparierbar sind (“sehr, mehr, am meisten”, “gern, lieber, am liebsten” . . . ). Ist dies ein Widerspruch? Ein bisschen schon. Aber: Steigerung wird oftmals nur für Adjektive als Flexion betrachtet. Ist dies ein definitorischer Zirkel? Ein bisschen schon. Aber: Was ein Adjektiv ausmacht, ist die Gesamtheit der Attribute im Klassifikationsbaum, d.h. flektierbar nach Kasus, Genus und komparierbar. Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheiden. Aber es gibt doch auch Adjektiv-Lexeme, welche nicht flektierbar nach Kasus und Genus sind oder nicht attributiv (d.h. in flektierter Position) verwendet werden können? Hmmh, dann muss es wohl noch andere Gründe geben, ein Adjektiv-Lexem zu sein. Welche denn? 6.3.1 Genus Das Genus (engl. gender ): Grammatisches Geschlecht Fachbegriff Maskulinum Femininum Neutrum Unterspezifiziert Deutsch männlich weiblich sächlich n/a Englisch masculine feminine neuter n/a STTS Masc Fem Neut * Beispiel Elephant Gazelle Huhn Ferien Tabelle 6.1: Übersicht: Genera Bemerkung Der Plural von Genus lautet Genera. Bei welchen Wortarten ist die Kategorie Genus ausgeprägt? 6.3.2 Numerus Der Numerus (engl. number ): Grammatische Zahl Fachbegriff Singular Plural Deutsch Einzahl Mehrzahl Englisch singular plural STTS Sg Pl Beispiel Huhn Hühner Tabelle 6.2: Übersicht: Numeri Bemerkung Der Plural von Numerus lautet Numeri. Bei welchen Wortarten ist die Kategorie Numerus ausgeprägt? 54 Fachbegriff Nominativ Genitiv Dativ Akkusativ Deutsch Werfall Wesfall Wemfall Wenfall Englisch nominative genitive dative accusative STTS Nom Gen Dat Akk Beispiel der Baum des Baumes dem Baum den Baum Tabelle 6.3: Übersicht: Kasus 6.3.3 Kasus Der Kasus (engl. case): Fall Bemerkung Der Plural von Kasus lautet Kasus. 6.3.4 Modus Der Modus (engl. mode, mood ): Aussageweise Fachbegriff Indikativ Konjunktiv Deutsch Wirklichkeitsform Möglichkeitsform Englisch indicative subjunctive mood STTS Ind Subj Beispiel er geht er gehe Tabelle 6.4: Übersicht: Modi Im STTS steht eigentlich für Konjunktiv das Kürzel Konj. Subj ist eine Modifikation im TIGERModell. Bemerkungen Der Plural von Modus lautet Modi. Die Befehlsform (Imperativ) wird normalerweise auch als Modus aufgefasst. Im STTS ist dies durch das V.IMP ausgedrückt. 6.3.5 Tempus Das Tempus (engl. tense): grammatische Zeit, Zeitform Fachbegriff Präsens Präteritum Deutsch Gegenwart Vergangenheit Englisch present tense past tense STTS Pres Past Beispiel er geht er ging Tabelle 6.5: Übersicht: Tempora Bemerkungen Der Plural von Tempus lautet Tempora. Wieso gibt es nur 2 morphologische Kategorien für Tempus? Im Deutschen gibt’s doch viel mehr Zeiten. 6.3.6 Person Die Person (engl. person) 55 Fachbegriff 1. Person 2. Person 3. Person Deutsch Sprecher Angesprochene Person, Sachverhalt Englisch first person second person third person STTS 1 2 3 Beispiel ich gehe du gehst er geht Tabelle 6.6: Übersicht: Personen Bemerkungen Der Plural von Person lautet Personen; die Verwendung ist allerdings ungebräuchlich. Bei welchen Wortarten ist die Kategorie Person ausgeprägt? 6.3.7 Grad Der Grad (engl. degree): Steigerung, Komparation Fachbegriff Positiv Komparativ Superlativ Deutsch Normalform Vergleichsform Höchststufe Englisch positive comparative superlative STTS Pos Comp Sup Beispiel schlau schlauer schlauste Tabelle 6.7: Übersicht: Komparation Bemerkungen Bei welchen Wortarten ist die Kategorie Grad ausgeprägt? 6.3.8 Adjektiv-Flexion Die Adjektiv-Flexion (engl. adjective inflection) Fachbegriff Schwache Flexion Gemischte Flexion Starke Flexion Deutsch mit best. Artikel mit ein, kein,. . . ohne Artikel Englisch weak mixed strong STTS Schw Mix St Beispiel der schlaue Fuchs keine schlauen Füchse schlaue Füchse Tabelle 6.8: Übersicht: Adjektiv-Flexion Bemerkung Gibts die Unterscheidung von schwacher und starker Flexion nur bei Adjektiven? Beispiel 6.3.2 (Flexion von “schlau”). Darstellung bei www.canoo.net 6.4 Linguistische Proben Linguistische Testverfahren Definition 6.4.1 (Linguistische Proben). Eine linguistische Probe ist ein experimentelles Analyseverfahren der strukturellen Linguistik, das gezielt die sprachliche Kompetenz benutzt, um grammatische Aussagen verifizieren (bestätigen) oder falsifizieren (verwerfen) zu können. 56 6.4.1 Ersatzprobe Ersatzprobe Definition 6.4.2. In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einen grammatisch eindeutig zu interpretierenden Ausdruck ersetzt. Die Interpretation des Satzrestes muss dabei unverändert bleiben. Beispiel 6.4.3 (Bestimmung des Kasus). Probe Mehrdeutig Eindeutig Kasus Baumprobe Peter ist zornig Der Baum ist zornig Nom Dem Baum ist heiss Dat Baumprobe Peter ist heiss Frageprobe Peter ist zornig Wer ist zornig Nom Frageprobe Peter ist heiss Wem ist heiss Dat Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen. Beispiel 6.4.4 (Bestimmung der Wortart von “das”). • Das ist das Angebot, das uns überzeugt hat. • Dieses ist das Angebot, welches uns überzeugt hat. • * Welches ist das Angebot, dieses uns überzeugt hat. • ? Das ist dieses Angebot, welches uns überzeugt hat. Probleme der Interpretation • Test bestanden vs. nicht bestanden ist manchmal abhängig von der ursprünglichen Interpretation des Satzes. • Ob die Interpretation des Satzrestes sich ändert durch den Ersatz, ist nicht immer leicht zu beurteilen. 6.4.2 Einsetzprobe Einsetzprobe Definition 6.4.5. In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext eingesetzt, der ihn grammatisch eindeutig interpretiert. Beispiel 6.4.6 (Bestimmung der Wortart). Probe Attributivprobe Attributivprobe Mehrdeutig Das war billig Das war gratis Eindeutig Der billige Baum *Der gratis Baum Wortart Adjektiv Adverb Einsetzen in Flexionsparadigmen Eine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugation für Verben oder Steigerung für Adjektive. 57 6.5 Computermorphologie 6.5.1 Lemmatisierung/Morphologieanalyse Lemmatisierung und Morphologieanalyse Definition 6.5.1 (Grundformbestimmung). Die Lemmatisierung ist die Bestimmung der Lemmas, welche einer Wortform zugrunde liegen. Definition 6.5.2 (Morphologieanalyse). Die Morphologieanalyse ist die Bestimmung der morphologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lexem. Lemmatisierung und Morphologieanalyse mit GERTWOL http://www2.lingsoft.fi/cgi-bin/gertwol Verbrechens "Verb#rechen" S MASK SG GEN "Verb#rech~en" S NEUTR SG GEN "Ver|brech~en" S NEUTR SG GEN eine "ein" ART INDEF SG NOM FEM "ein" ART INDEF SG AKK FEM "einer" PRON INDEF SG NOM FEM "einer" PRON INDEF SG AKK FEM "ein~en" V IND PRÄS SG1 "ein~en" V KONJ PRÄS SG1 "ein~en" V KONJ PRÄS SG3 "ein~en" V IMP PRÄS SG2 6.5.2 Morphologiegenerierung Generierung von syntaktischen Wortformen Definition 6.5.3 (Morphologiegenerierung). Die Morphologiegenerierung ist das Erzeugen von syntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation. Beispiel 6.5.4 (Generieren mit STTS-Tags). gehen + VVFIN:2.Sg.Past.Ind → gingst 6.6 Vertiefung • Quiz Stuttgart-Tübingen-Tagset • Quiz Wortarten nach STTS bestimmen • Referenzkarte zum Annotieren von STTS und dem TIGER-Sprachmodell (in OLAT) • Manuals für das Programm annotate [Plaehn 2000, Plaehn 1998] 58 • http://www.canoo.net aus Basel hat eine sorgfältige traditionelle linguistische Terminologie im Web und viel (!) Anschauungsmaterial aus ihrem Morphologiesystem. • Die CDROM zum „Studienbuch Linguistik“ enthält viel interaktiv aufbereitetes Lernmaterial http://www.ds.uzh.ch/studien-cd 6.6.1 Kontrollfragen Kontrollfragen • Welche verschiedenen Auffassungen verbergen sich hinter dem Wort „Wort“? • Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien. • Worin besteht Morphologieanalyse und -generierung? • Welche STTS-Tags (inklusive Morphologie) müssten bei den Wörtern der 1. Kontrollfrage zugeordnet werden? • Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in Ihrem Dialekt? • Was ist der Unterschied zwischen Lemma und Lexem? 59 7 Linguistisches Propädeutikum II Lernziele • Anwendung der klassischen syntaktischen Proben • Kenntnis der Begriffe Satz, Konstituenz, Dependenz, Konstituente, Kern, Kopf, Satzglied, Phrase • Kenntnis der wichtigsten syntaktischen Funktionen • Kenntnis und Anwendung des TIGER/NEGRA-Annotationsschemas mit Hilfe der Referenzkarte • Kenntnis über die flach annotierten NP und PP • Kenntnis über die verschachtelt annotierten infiniten VP • Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer Annotation von syntaktischen Strukturen • Erfahrungen mit einfacher Suche von syntaktischen Strukturen in einer Baumbank mit TIGERSearch 7.1 Syntaktische Proben 7.1.1 Weglassprobe Weglassprobe Definition 7.1.1. In der Weglassprobe wird von einem grösseren mehrdeutigen Ausdruck soviel Material wie möglich entfernt, um einen eindeutigen Ausdruck zu erhalten. Beispiel 7.1.2 (Bestimmung eines Satzglieds). 1. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. 2. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. 3. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. 4. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam. Frage Warum nicht Variante 4? 60 7.1.2 Verschiebeprobe Verschiebeprobe Definition 7.1.3. In der Verschiebeprobe werden Wörter und Wortgruppen im Satz umgestellt, so dass der Satz grammatisch bleibt und sich am Inhalt höchstens die Gewichtung ändert. Damit lassen sich die Anfang und Ende von Satzgliedern erkennen. Beispiel 7.1.4 (Bestimmung von Satzgliedern). 1. Die Sitzung mit dem Chef bereite ich morgen vor. 2. Morgen bereite ich die Sitzung mit dem Chef vor. 3. Ich bereite die Sitzung mit dem Chef morgen vor. Regeln: Tausche immer 2 Kandidaten aus, um nicht unnötig ungrammatische (Pseudo-)Sätze zu erzeugen. Ersetze in einfachen Sätzen immer das Satzglied vor dem flektierten Verb. Verschiebeprobe Beispiel 7.1.5 (Unzulässiges Verschieben). 1. Die Sitzung mit dem Chef bereite ich morgen vor. 2. *Morgen ich bereite die Sitzung mit dem Chef vor. 3. # Die Sitzung bereite ich morgen mit dem Chef vor. 7.1.3 Umformungsproben Umformungsprobe Definition 7.1.6. In der Umformungsprobe werden Sätze umfassend umgebaut. Beispiel 7.1.7 (Funktion von Nebensätzen). 1. Es würde mich freuen, wenn du mitkämest. 2. Dein Mitkommen würde mich freuen. Der Nebensatz mit „wenn“ erfüllt eine analoge Funktion wie „Es“. Beispiel 7.1.8 (Infinitivumformung zur Subjekterkennung). 1. Die Lärche ist ein Nadelbaum. 2. ein Nadelbaum sein / die Lärche 61 Abbildung 7.1: Moderne Satzgliedlehre nach [Stocker et al. 2004] 7.2 Satz Satz Definition 7.2.1 (nach [Bussmann 2002]). Satz (engl. clause oder sentence). Nach sprachspezifischen Regeln aus kleineren Einheiten (sog. Konstituenten) konstruierte Redeeinheit, die hinsichtlich Inhalt, grammatischer Struktur und Intonation relativ vollständig und unabhängig ist. Definition 7.2.2 (nach [Dudenredaktion 2005]). Ein Satz ist eine Einheit, die aus einem finiten Verb und allen vom Verb verlangten Satzgliedern besteht. Darüber hinaus kann der Satz zusätzliche Angaben enthalten. Moderne Satzgliedlehre 7.3 Syntaxanalyse 7.3.1 Konstituenz Konstituenten und Konstituenz Definition 7.3.1 (Konstituente nach [Bussmann 2002]). Konstituente. In der strukturellen Satzanalyse [sog. Konstituentenanalyse] Bezeichnung für jede sprachliche Einheit (Wort, Wortgruppe) die Teil einer grösseren sprachlichen Einheit ist. Definition 7.3.2 (Konstituentenanalyse nach [Bussmann 2002]). Ziel und Ergebnis der Konstituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierte Abfolge von Konstituenten. Definition 7.3.3 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz und linearen Präzedenz zwischen Konstituenten. 62 Konstituenten in der annotate-Darstellung L! SOT L< ! SOR !N M; A: Syntaktische Konstituente unmittelbare Dominanz !1$ L+$ SOQ L< Konstituente auf Wortebene !"# .#/#0 O $$%& 1123+ '($)(*(+,- '($)($4#5(306 L; L< +$ SOO +@ +@ .#78.9# P M; 1#4>"06?0.#0 Q :;<: Präzedenz auf $,5(*(:==($)(!9 Wortebene ?06 ' &"5"=#0 R ++ @A+ Präzedenz zwischen 2#-(:==($)(* !! Tochterkonstituenten #"0 S $B@1C ED 1123+ +#?9(:==($)(* !! !! '($)($4#5(30 Jedes Wort und jeder ovale Knoten repräsentiert eine Konstituente. Konstituenten in der Balken-Darstellung Abbildung 7.3: Konstituenz, Dominanz und Präzedenz in Balken-Darstellung Quelle: http://www.cl.uzh.ch/siclemat/lehre/negra/s2.html Konstituenten überspannen als Balken die von ihnen dominierten Tokens. Annotation von Nominalphrasen (NP) Hinweise • Begleiter, attributive Adjektive werden flach eingehängt. • Keine unären Konstituenten (d.h. keine NP-Knoten mit einem Kind!) 63 F#45?G/#0 U ++ Abbildung 7.2: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung • Komplexe postnominale NP werden verschachtelt eingehängt. D T NP NP Er sah die kleinen Hunde meiner Mutter . Abbildung 7.4: Beispielsatz mit allen zu annotierenden Nominalphrasen (NP) Annotation von Präpositionalphrasen (PP) PP PP Er hat vor den lauten Hunden im Garten Respekt. Abbildung 7.5: Beispielsatz mit allen zu annotierenden Präpositionalphrasen (PP) Hinweise • Die unmittelbaren Konstituenten der von der Präposition abhängigen NP werden flach eingehängt. • Eingebettete NP kann rekonstruiert werden. • Komplexe postnominale PP werden verschachtelt eingehängt. Annotation von Adjektiv- und Adverbphrasen (AP/AVP) AP Die recht zahme AVP Katze schnurrte immer wieder AP sehr laut . Abbildung 7.6: Beispielsatz mit allen zu annotierenden AP- und AVP-Knoten Hinweise • Nur modifizierte Adjektive bilden AP. • Nur modifizierte Adverbien bilden AVP. 64 S VP Er will sie gerne sehen . Abbildung 7.7: Beispielsatz mit allen zu annotierenden Satz- und VP-Knoten Annotation von finite (S) und infiniten (Teil-)Sätzen (VP) Hinweise • Finite Verben sind immer unmittelbare Konstituenten von S-Knoten. • Jedes infinite Verb bildet eine eigene VP (keine flache Struktur hier!) Annotation von Relativsätzen S NP S NP Der Hund, den die Katze anfauchte, knurrte leise. Abbildung 7.8: Beispielsatz mit allen zu annotierenden NP- und S-Knoten Relativsätze gehören in die NP, auf die sie sich beziehen! 7.3.2 Köpfe (oder Kerne) von Konstituenten Syntaktische Köpfe (engl. head ) / Kern (engl. kernel ) Definition 7.3.4. Ein Kopf oder Kern einer Konstituente ist diejenige Unterkonstituente, welche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der die Geschwisterkonstituenten abhängig sind. Der Kern ist normalerweise nicht weglassbar (Weglassprobe). Beispiel 7.3.5 (Welches ist der Kern der geklammerten Konstituenten?). 1. Er [hält ihm den Ausweis unter die geschwollene Nase]. 65 2. Sie rennt [mit dem Mobile hantierend] zum Kiosk. 3. Es wird [viel zu oft] telefoniert. 4. [Die Frau, die zum Kiosk rannte, ] war aufgeregt. 5. Sie fühlte sich [wie in einem schlechten Film]. 6. Aber sie war auch [in einem ziemlich schlechten Film]. Konstituententypen Typen von Konstituenten in TIGER/NEGRA 1. (Teil-)Sätze (S): Konstituente mit finiten Verbalkernen. 2. Verbalgruppe, -phrase (VP): Konstituente mit einem nicht-finiten (!) verbalen Kern. 3. Nominalgruppe, -phrase (NP): Konstituente mit Nomen oder Pronomen als Kern. 4. Adjektivgruppe, -phrase (AP): Konstituente mit Adjektiv oder adjektivisch verwendetem Partizip als Kern. 5. Adverbgruppe, -phrase (AVP): Konstituente mit Adverb als Kern. 6. Präpositionalgruppe, -phrase (PP): Konstituente mit Präposition oder Postposition als Kern. 7. Konjunktionalgruppe, -phrase (PP): Konstituente mit der Konjunktion “als” oder “wie” als Kern (aber nicht als Vergleichskonstruktion gebraucht): „Er fühlte sich als Gewinner.“ 7.3.3 Dependenz bzw. syntaktische Funktion Dependenz und syntaktische Funktion Definition 7.3.6. Dependenz ist die syntaktische Relation der Abhängigkeit zwischen Konstituenten. Definition 7.3.7 (frei nach [Bussmann 2002]). Syntaktische Funktion ist ein Sammelbegriff für Beschreibungsgrössen wie “Subjekt”, “Objekt”, “Prädikat”, “Adverbial”, “Attribut” u.a., welche nach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden, um die Beziehung zwischen abhängigen Konstituenten zu bestimmen. Hinweis Innerhalb von Konstituenten ist die syntaktische Funktion des “Kopfes” fundamental, aber traditionell wenig explizit dargestellt. Syntaktische Funktionen in der annotate-Darstellung Jedes eckige Kästchen repräsentiert eine Funktion zwischen der dominierten und der dominierenden Konstituente. Syntaktische Funktion in der Balken-Darstellung Syntaktische Funktionen als Zwischenschicht zwischen sich dominierenden Balken. 66 L! SOT L< ! SOR !N M; A: Syntaktische Funktion !1$ M; L+$ SOQ L< Konstituenten L; L< +$ SOO +@ !"# .#/#0 O +@ .#78.9# P 1#4>"06?0.#0 Q ?06 ' &"5"=#0 R #"0 S D T F#45?G/#0 U $$%& 1123+ :;<: ++ @A+ ++ $B@1C ED 1123+ '($)(*(+,- '($)($4#5(306 $,5(*(:==($)(!9 2#-(:==($)(* !! +#?9(:==($)(* !! !! '($)($4#5(30 Abbildung 7.9: Syntaktische Funktion in der NEGRA-Darstellung Abbildung 7.10: Syntaktische Funktionen in Balken-Darstellung NP NK NK NK AG NP NK Er sah die NK kleinen Hunde meiner Mutter . Abbildung 7.11: Beispielsatz mit NP-internen Funktionen Annotation von Funktionen in NP Hinweise • Pränominale Begleiter, attributive Adjektive und die Köpfe haben die Funktion NK (noun kernel) • Aus NEGRA-historischen Gründen werden keine Köpfe annotiert. 67 • Komplexe postnominale NP oder PP habe die Funktion MNR. Annotation von Funktionen in PP PP AC NK NK NK MNR PP AC Er hat vor den lauten Hunden im NK Garten Respekt . Abbildung 7.12: Beispielsatz mit PP-internen Funktionen Hinweise • Die Präposition hat die Funktion AC. • Alle andern Funktionen sind wie in NPs. Annotation der Funktionen in AP und AVP AP Die AVP MO HD recht zahme HD Katze AP MO schnurrte immer wieder MO HD sehr laut . Abbildung 7.13: Beispielsatz mit allen AP- und AVP-internen Funktionen Hinweise • Köpfe (HD: head) werden von adverbialen Modifikatoren (MO: modifier) unterschieden. Annotation der Funktionen in S und VP S SB HD OC VP Er will OA MO HD sie gerne sehen . Abbildung 7.14: Beispielsatz mit allen S- und VP-internen Funktionen Hinweise 68 • Finites Verb ist Kopf (HD). • Abhängige VP ist ein Satzobjekt (OC: object clause) • Subjekt (SB) ist immer abhängig von finitem Verb. • Akkusativobjekt (OA) ist rein inhaltlich abhängig. Annotation der Funktion in Relativsätzen S SB HD MO knurrte leise NP NK NK RC S OA SB HD NP Der Hund , den NK NK die Katze anfauchte , . Abbildung 7.15: Relativsatz mit allen internen Funktionen Relativsätze haben die Funktion RC (relative clause). Einige Satzglieder mit TIGER/NEGRA-Funktion • Subjekt (SB): Infinitivprobe oder Frageprobe (Wer oder was?). Subjekt kann auch ein S oder eine VP sein! • Akkusativ-Objekt (OA): Frageprobe (Wen oder was?) oder Ersatzprobe (“ihn”) • Dativ-Objekt (DA): Frage- (Wem?) oder Ersatzprobe (“ihm”) • Genitiv-Objekt (OG): Frage- (Wessen?) oder Ersatzprobe (“seiner”) • Adverbiales und prädikatives Präpositionalglied, Adverbglied, Konjunktionalglied u.ä. (MO): Modifikator • Nicht-finite Verbalteile (OC: object clause): Abhängig von flektiertem oder nicht-flektierten Verb • In TIGER: Präpositionalobjekte (OP), Funktionsverbgefüge (CVC) („in die Zuständigkeit fallen“) 69 Wichtige Gliedteile mit TIGER/NEGRA-Funktion • Artikel, attributive Pronomen und Adjektiv(phrasen) (NK) • Präpositionen und konjunktionales “als” oder “wie” (AC) • Postnominale Präpositionalphrasen (MNR) „das Treffen in Bern“ • Genitivattribute von Nominalphrasen (AG) und Pseudogenitiv (PG) „das Haus vom Vater“ • Platzhalter (PH) und wiederholte Elemente (RE) • Koordinierende Konjunktion (CD) und die koordinierten Konstituenten (CJ) 7.3.4 Koordination Koordination, Konstituenz und Köpfe Definition 7.3.8. Koordination (Beiordnung) ist eine syntaktische Struktur, welche aus zwei oder mehr Konjunkten (Wörter, Wortgruppen oder Sätzen) besteht. Beispiel 7.3.9 (Koordination von Konstituenten aus NEGRA-Korpus). • Selbst die flotteren Passagen werden nie ausgelassen und fröhlich. [Satz 35] • Oder saß es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre? [Satz 9328] • Wenn es eine Organisation gibt, der vertraut wird und die etwas erreichen kann, ist das die Kirche. [Satz 11’978] Problem Was ist der Kopf von koordinierten Konstituenten? Die Konjunktion oder eine der koordinierten Phrasen? Lösung in TIGER/NEGRA: Es gibt die Koorinations-Konstituenten CS, CNP, CAP usw. Annotation von koordinierten Konstituenten Hinweise • Koordinierte Konstituenten haben immer die Funktion CJ. • Konjunktionen haben die Funktion CD. 70 CNP CJ CD CJ und Hunde NP NK NK CAP Er mag CJ CD junge und CJ freche Katzen . Abbildung 7.16: Beispielsatz mit koordinierten Strukturen 7.4 Baumbanken 7.4.1 NEGRA/TIGER NEGRA- und TIGER-Baumbanken • NEGRA (1997-2001): Die 1. Baumbank für Deutsch (20’000 Sätze) III • TIGER (1999-2006): “Nachfolgeprojekt” (50’000 Sätze im Release 2.1 2006) inklusive Lemmatisierung und Morphologieanalyse http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/ Eigenheiten von NEGRA/TIGER • PP und NP werden mit flacher Hierarchie verbaut • Ketten von infiniten Verben (VP) sind zu verschachteln • Syntaktische Phrasenknoten werden nur für Wortgruppen gebildet, nie für Einzelwörter • Keine annotierten Köpfe in NP • Keine explizite Unterscheidung der Satztypen 7.4.2 TIGERSearch TIGERSearch: Ein modernes Suchwerkzeug Lernen aus Beispielen Beim Annotieren ist es hilfreich, aus bereits annotiertem Material zu lernen! Die 3 Hauptfunktionen von TIGERSearch Abfrage-Sprache (investigation) Visualisierung der Suchresultate und Baumbank (exploration) Einfache statistische Auswertung (condensation) 71 Grundlegende Suchrezepte Eckige Klammern stehen für Konstituenten (Knoten) eines Syntaxbaumes. Beschreibungen auf der Ebene der Wörter (word), Wortarten (pos), Phrasen (cat) spezifizieren darin die möglichen Treffer. • Wie wird das Wort “der” verwendet? [ word="der" ] • Mit welchen Wortarten kommt das Wort “der” wie oft vor? brauchts für das Statistikmodul als Knoten-Identifikator) #w:[ word="der" ](#w: • Welche Adverbien kommen vor? #w:[ pos="ADV" ] • Welche koordinierten NP kommen vor? #p:[ cat="CNP" ] • Welche Dativobjekte kommen vor? [ ] >DA #da:[ ] Aha-Erlebnis [] > []: unmittelbare Dominanz [] . []: lineare Präzedenz 7.5 Vertiefung • Pflichtlektüre: Das Kapitel Baumbanken in Carstensen (2009). • Detailliertes Annotationshandbuch von TIGER: http://tinyurl.com/tiger-hs10-syn • Annotierte TIGER-Sätze in Balkendiagramm-HTML-Darstellung: http://www.cl.uzh.ch/siclemat/ lehre/tiger • Quiz Die Form der Satzglieder http://kitt.cl.uzh.ch/kitt/clab/QUIZ/97 • Quiz Satzglieder und Proben http://kitt.cl.uzh.ch/kitt/clab/QUIZ/104 • Konzise Einführung in die Deutschgrammatik: [Gallmann und Sitta 2010] • Anleitung zu TIGERSearch mit Bildern http://www.bubenhofer.com/korpuslinguistik/kurs/ index.php?id=weitere_tiger.html • Sofortbenutzung via X11: ssh -Y tigersearch@hal2.ifi.uzh.ch (ev. -Y durch -X ersetzen; kein VPN erforderlich) 72 8 Flache Satzverarbeitung Lernziele • Kenntnis über POS-Tagger, ihre Aufgabe und Probleme sowie über wichtige POS-Tagsets • Kenntnis über grundlegende Evaluationsmethodik und -anwendung • Fähigkeit zur Berechnung von Accuracy, Precision, Recall, F-Measure für Tagger • Kenntnis über partielle syntaktische Analyse • Kenntnis über flache und verschachtelte Chunks 8.1 Wortarten-Tagging Wortarten-Tagging Definition 8.1.1 (Wortarten-Tagger). Ein Wortarten-Tagger (engl. Part-of-Speech Tagger, kurz POS-Tagger) ist ein Programm, das für jedes Token eines Korpus die Wortart bestimmt, indem es ein Klassifikationskürzel als Tag zuordnet. Beispiel 8.1.2 (Zeilenformat mit Schrägstrich). Sonderrechte/NN für/APPR Minoritätenkollektive/NN widersprechen/VVFIN N-Best-Tagging Tagger, welche die Wortarten mit einer Wahrscheinlichkeit versehen zurückliefern, können für n-best-Tagging verwendet werden. Tag-Sets für Englisch Definition 8.1.3 (Tag-Set). Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wortarteninformation noch semantische, syntaktische oder morphologische Information. Die Grösse eines Tag-Sets kann stark variieren. Tag-Set Brown Penn CLAWS c5 London-Lund Grösse 87 (179) 45 62 197 Beispiel she/PPS she/PRP she/PNP she’s/RA*VB+3 Bedeutung Pronoun, personal, subject, 3SG Pronoun (personal or reflexive) Pronoun personal pronoun, personal, nominative + verb "to be", present tense, 3rd person singular Tabelle 8.1: Übersicht: Tag-Sets für Englisch Penn-Treebank-Tag-Set (PTTS) Das wichtigste Tag-Set für Englisch ist eine vereinfachte Version des Brown-Tag-Sets, welches ab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist. 73 Anforderungen an ein Programm für Tagging Positive Eigenschaften eines Taggers nach [Cutting et al. 1992, 133]: • Robust: Der Tagger verarbeitet beliebigen Input (inkl. unbekannte Wörter, Sonderzeichen, Markup). • Effizient: Der Tagger arbeitet schnell. • Genau: Der Tagger arbeitet mit einer geringen Fehlerrate (< 5%). • Anpassbar: Der Tagger kann an besondere Anforderungen eines Texttyps angepasst werden. • Wiederverwertbar: Der Tagger kann leicht für neue Aufgabengebiete eingesetzt werden. Was fehlt? 8.1.1 Probleme des Taggings Wortformen mit mehreren möglichen Tags Mehrdeutigkeit Im Brown-Corpus sind 11% aller Wortformen ambig. Das entspricht jedoch 40% der Token. Tag-Ambiguität im Englischen Baseline (Basis-Algorithmus) Nimm für jedes Wort das Tag, mit dem es am häufigsten vorkommt. Ergibt ca. 90% richtige Entscheidungen. Optimierungspotential Berücksichtige den linken Kontext (Tags und/oder Wörter) und ev. den rechten Kontext (Wörter), um die Baseline-Entscheidung umzustossen. Verwendeter Kontext des Trigramm-Taggers TnT Zum Bestimmen des Tags eines Tokens wn werden verwendet: • die möglichen Tags von wn aus Tagger-Lexikon • die bereits berechneten Tags der beiden vorangehenden Tokens 74 NLTK-Buch [Bird et al. 2009, 204] Abbildung 8.1: Kontextmodell des Trigramm-Taggers tnt Mehrdeutigkeit bei deutschen Wörtern Beispiel 8.1.4 (Verteilung der Mehrdeutigkeit). Vorkommen in einem Korpus von ca. 80’000 Token die ART 2351 PRELS 448 PDS 4 Mehrheit NN 40 bestimmt VVPP 7 VVFIN 4 ADV 1 ADJD 1 Mehrdeutigkeit in einem deutschen Testkorpus (STTS) Abbildung 8.2: Ambiguitätsraten aus der Frankfurter Rundschau [Volk und Schneider 1998] Dem Tagger unbekannte Wortformen haben die Ambiguitätsrate 0. Unbekannte Wörter Kein Tagger-Lexikon kann vollständig sein (Eigennamen, Komposita, Zahlausdrücke). Wie kann ein Tagger sinnvolle Vorschläge machen? • Unterscheidung zwischen offenen und geschlossenen Wortarten • Daumenregeln aufgrund des Baus der unbekannten Wortformen: Wortende/Wortbeginn, Ziffern Beispiel 8.1.5 (Morphologische Heuristiken für Englisch). 75 • 98% aller Wörter mit Endung -able sind Adjektive. • Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname. Nutzen und Anwendung des POS-Tagging Definition 8.1.6 (POS-Tagging (automatische Wortartenbestimmung)). POS-Tagging ist eine eigenständige und vielfältig benötigte sprachtechnologische Anwendung, welche effizient und zuverlässig funktioniert. Anwendungen: Lemmatisierung, Lexikographie, Sprachsynthese, Spracherkennung, Dokumentensuche, Bedeutungsdesambiguierung usw. Beispiel 8.1.7 (Sprachsynthese/Bedeutungsdesambiguierung). • lead: Verb /li:d/ (führen); Nomen: /led/ (Blei) • increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen) Beispiel 8.1.8 (Lemmatisierung). • eine/ART Kuh: Lemma “ein” • eine/VVIMP dich mit ihm!: Lemma “einen” Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe. 8.1.2 Fallstudie TnT-Tagger Fallstudie TnT-Tagger: Übersicht Fallstudie TnT-Tagger: Anpassbarkeit konkret Man nehme . . . [Clematide 2007] 1. ein getaggtes Korpus (vertikalisierter Textformat) $ head -n 3 ../../uis-vonabisz.tts Studienführer NN " $( Universität NN $ wc ../../uis-vonabisz.tts 9676 18154 118761 ../../uis-vonabisz.tts 2. Produziere aus 9/10 davon ein Trainingskorpus, indem alle bis auf die letzten 965 Zeilen in eine neue Datei geschrieben werden. $ head --lines -965 ../../uis-vonabisz.tts > training.tts 3. Produziere aus dem restlichen 1/10 ein Testkorpus, indem die letzten 965 Zeilen in eine neue Datei geschrieben werden. 76 Trainingskorpus training.tts Getaggtes Korpus Training tnt-para ParameterDateien training.lex training.123 Tagging tnt Evaluationskorpus eval.tts Aufteilen des Korpus Testkorpus test.tts test.txt Evaluation tnt-diff Abbildung 8.3: Training, Tagging und Evaluation mit dem TnT-Tagger $ tail --lines 965 ../../uis-vonabisz.tts > test.tts 4. Trainiere über dem Trainingskorpus $ tnt-para training.tts 5. Probiere aus, ob der Tagger was Vernünftiges tut. $ tnt training /dev/stdin > out.tts Der Tagger läuft . [mit Control-D für Dateiende abschliessen $ more out.tts 6. Erstelle ein Testkorpus. $ cut -f 1 test.tts > eval.txt 7. Tagge das Testkorpus mit dem trainierten Modell. $ tnt training eval.txt > eval.tts 8. Evaluiere das getaggte Evaluationskorpus gegen das Testkorpus. $ tnt-diff test.tts eval.tts 77 8.2 Evaluation Evaluation Definition 8.2.1. Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung eines Wertes auf einer Werteskala aufgrund einer Messmethode. Definition 8.2.2 (Qualität einer Evaluation). Die Qualität einer Messmethode basiert auf ihrer Validität und Reliabilität. Definition 8.2.3 (Validität, Gültigkeit, Angemessenheit). Die Validität einer Messmethode sagt aus, ob das, was gemessen werden soll (Messintention) auch das ist, was effektiv gemessen wird. Definition 8.2.4 (Reliabilität, Zuverlässigkeit, Genauigkeit). Die Reliabilität einer Messmethode sagt aus, wie genau und reproduzierbar die Messresultate sind. Überlegungen zu Reliabilität und Validität Messintention Es soll das Verständnis von Studierenden für reguläre Ausdrücke mittels eines Multiple-ChoiceTests geprüft werden. Überlegung I Wie müssen die Fragen des Multiple-Choice-Tests beschaffen sein, damit die Reliabilität und Validität hoch ist? Überlegung II Was passiert bezüglich der Qualität der Evaluation, wenn derselbe Test von der gleichen Person mehrmals gemacht wird? 8.2.1 Zweck Zweck von Evaluationen Systemverbesserung Von System A wird eine neue Version A’ erstellt, wobei eine Komponente Z modifiziert worden ist. Die Evaluation von System A gegenüber A’ hilft einzuschätzen, inwiefern die Komponente Z das System optimiert. Systemvergleich Um ein Problem P zu lösen, steht ein System A und ein System B zur Verfügung. Die Evaluation anhand einer Testaufgabe T zeigt auf, welches System besser ist. 8.2.2 Accuracy POS-Tagger-Evaluation: Genauigkeit Definition 8.2.5 (Genauigkeit, engl. accuracy). Die Tagging-Genauigkeit über einem Text mit N Token ist der Anteil der korrekt getaggten Token. Formal: Sei E die Anzahl von falsch getaggten Vorkommen von Token: accuracy = 78 N −E N Beispiel 8.2.6 (Genauigkeitsberechnung von TnT-Tagger). Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 96.7%. Wieviele Tags im Testkorpus von 100’000 sind falsch? Wenn man nur mit 1’000 Tokens trainiert, sind im Schnitt etwa 31’400 Fehler im Testkorpus von 100’000 Tokens. Wie hoch ist die Genauigkeit? Häufigste Tagging-Fehler von TnT im NEGRA-Korpus Legende zur Tabelle 8.2 T agt : Korrektes Label; T agf : Falsch getaggtes Label F reqt : Vorkommenshäufigkeit des korrekten Labels; F reqf : Vorkommenshäufigkeit des falschen Labels Erel. : Relative Fehlerquote, d.h. Anteil dieses Fehlers am Gesamtfehler Ant.: Anteil der falschen Tags an den korrekt erkannten T agt NE VVFIN NN VVFIN ADJA F reqt 15069 11595 58563 11595 16843 T agf NN VVINF NE VVPP NN F reqf 2092 667 615 425 270 Ant. 13.9 5.8 1.1 3.7 1.6 Erel. 19.6 6.3 5.8 4.0 2.5 Eabs. 0.74 0.23 0.22 0.15 0.10 Tabelle 8.2: Übersicht: NEGRA-Konfusionsmatrix [Brants 1999, 112] Genauigkeit unter 10-facher Kreuzvalidierung Definition 8.2.7 (10-fache Kreuzvalidierung, engl. ten-fold cross-validation). Bei der 10-fache Kreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt. In 10 Testläufen wird jeweils 1/10 der Daten als Testmaterial verwendet und die restlichen 9/10 der Daten als Trainingsmaterial. Zufallsbedingte besonders gute oder schlechte Resultate werden damit „neutralisiert“. Beispiel 8.2.8 (Durchschnittliche Genauigkeit (average accuracy)). Pi=10 accuracy = i=1 accuracyi 10 Generalisierung von 10 auf k Die Verwendung von 10 hat sich als bewährte Praxis etabliert. Im Prinzip wäre mit k > 10 das Mittel noch genauer. 8.2.3 Lernkurven 8.2.4 Recall Recall (Ausbeute, Abdeckung, Vollständigkeit) Definition 8.2.9. Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allen möglichen korrekten Antworten an. 79 !"#$!%&!'())*+,-"../0.,1/$+,-0-2,!)00,-#))3"04 TM5:!T00I'-0L "@@ 56)#"77 6/+!!7!89:;< 6-=!7!>;:8< >@ 80%10 6/+!!7!>#:?< 6-=!7!>8:@< 9@ 8@ 9040%10 6/+!!7!;?:?< 6-=!7!9#:#< ;@ #@ " ? # "@ ?@ #@ "@@ #@:S R?:9 SS:R ?;:9 ?@:? "S:? >:9 ?@@ 8:@ #@@ "@@@ $'-+/+5!./N*!F=!"@@@J R:R ?:> TM5:!<!U+B+&E+ 2*++!$'**A-+BC!"D?!6/11/&+!)&B*+(!+*E(4-4*'!)*=)!FG-11!.)'**)!H&I'+-1J! '-+K&61L!(*1*0)*K!)'-/+/+5!FM-'/-A1*!(/N*J!-+K!)*()!4-')(!F"@@D@@@!)&B*+(J "@!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/N*O!)'-/+/+5!-+K!)*()!4-')(!-'*!K/(P&/+): Q&!&)%*'!(&I'0*(!E*'*!I(*K!3&'!)'-/+/+5: Abbildung 8.4: Tnt-Evaluation an Penn Treebank durch Thorsten Brants .)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!"#!! !!$%&'()*+!,'-+)( !"#$%!&'()#*+,-'+!%.,/& Formal: Sei Nt die Anzahl aller möglichen korrekten Antworten und At die Anzahl der korrekten Antworten des Systems. At R= Nt :"/6),6;<,'$"$)!%&!$+)!=#$,>??,=((#%"*+ Beispiel 8.2.10 (Recall eines Taggers). Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFIN "!Q-/M*!-44'&-0%C klassifiziert. 600 !!!!!,/5'-6!6&K*1!F3/'()!&'K*'!VWWJ At = 600 und Nt = 800. Der Recall berechnet sich als: R = 800 = 75% !!!!!.6&&)%/+5C!-KK/)/&+!&3!c 7!@:#!)&!N*'&!3'*XI*+0/*( 8.2.5 Precision !!!!!U+B+&E+!E&'K(C!)-5!K/()'/AI)/&+!*()/6-)*K!3'&6!-11!E&'K( !!!!!Q&!(*+)*+0*!A&I+K-'L!-+K!0-4/)-1/N-)/&+!/+3& Precision (Genauigkeit, Präzision) "!.)-)*!&3!)%*!T')C Definition 8.2.11. Precision gibt den Anteil der korrekten Antworten (Entscheidungen) eines !!!!!$'/5'-6!6&K*1!F(*0&+K!&'K*'!VWWJ Systems gemessen an allen gegebenen Antworten des Systems an. !!!!!.6&&)%/+5C!Y&+)*=)!/+K*4*+K*+)!1/+*-'!/+)*'4&1-)/&+ Formal: Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten des Systems. !!!!!U+B+&E+!E&'K(C!(I33/=!-+-1L(/(!-+K!(I00*((/M*!-A()'-0)/&+ At !!!!!TI)&6-)/0!6&K*1/+5!&3!(*+)*+0*!A&I+K-'/*(!-+K!0-4/)-1/N-)/&+ P = A +-/M*!!!!()-)*!&3!)%*!-')!!!!!!!!!∆ Beispiel 8.2.12 (Precision eines Taggers). G.H FZ+51/(%J!!!!!!>#:@< !!!!>;:8< ![":8< aber nur 600 davon Ein Tagger hat in einem Testkorpus 1’000 Token als VVFIN klassifiziert, QZ\]T F\*'6-+J!!!!!>?:R< !!!!>;:8< ![R:S< 80 .)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!";!! !!$%&'()*+!,'-+)( !"#$%!&'()#*+,-'+!%.,/& .)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!"#!! !!$%&'()*+!,'-+)( !"#$%!&'()#*+,-'+!%.,/& *#+&!(,!-.//0123#44')425'&123)3627!89:2;(+.%< >75T!>008'-0N "MM ="/+#$$ D/+!!Q!RST"U D-E!Q!VWTRU VM >)(5) D/+!!Q!VXTRU D-E!Q!VRTRU SM RM ?)@)(5) D/+!!Q!W"TYU D-E!Q!SVTMU WM XM " Y X "M YM XM "MM XMTS PWTP P"TP #WTM #MTR Y#TM "ST# YMM "PT# #YM $'-+/+5!./O*!CE!"MMMF ""TV >75T!U![+A+&9+ ;6<=>!0&'48(:!#XMLMMM!)&A*+(!+*9(4-4*'!)*E)!C@'-+A38')*'!=8+B(0%-8F '-+B&D1N!(*1*0)*B!)'-/+/+5!C7-'/-G1*!(/O*F!-+B!)*()!4-')(!C#MLMMM!)&A*+(F "M!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/O*Z!)'-/+/+5!-+B!)*()!4-')(!-'*!B/(K&/+) ;&!&)%*'!(&8'0*(!9*'*!8(*B!3&'!)'-/+/+5T Abbildung 8.5: Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants C(**!%))4:\\999T0&1/T8+/!(GTB*\])%&'()*+\)+)\F .)-)/()/0-1!2-')!&3!.4**0%!$-55/+5 !!"P!! waren tatsächlich VVFIN. At = 600 und A = 1000. Die Precision berechnet sich als: P = 600 1000 !!$%&'()*+!,'-+)( !"#$%!&'()#*+,-'+!%.,/& = 60% 8.2.6 F-Measure F-Measure (F-Mass) Definition 8.2.13 (F1 -Measure). Das F-Measure ist ein Evaluationsmass, das Precision und Recall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnet. Formal: Sei P die Precision und R der Recall eines Systems: F = 2×P ×R P +R Beispiel 8.2.14 (F-Mass eines Taggers). Ein Tagger hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für VVFIN. Das F-Measure berechnet sich somit: F = 2×0.6×0.75 0.6+0.75 = 66.6% 8.3 Chunk Parsing Partielle syntaktische Analyse 81 Definition 8.3.1. Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing) berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz. Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt. Abbildung 8.6: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid Chunking-Regeln schreiben in Pfeilnotation Abbildung 8.7: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid Wie kann man die zulässigen Chunks beschreiben? NC -> ART NN • NC : Ein NC (Nominalchunk) besteht • ->: besteht aus • ART: aus einem Wort der Wortart ART (Artikel) • NN: gefolgt von einem Wort der Wortart NN (normales Nomen) 8.3.1 Abneys Chunk-Definition Chunks (Teilstrukturen) nach [Abney 1991] Beispiel 8.3.2 (Chunks nach Abney). [I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time]. Motivationen 82 • Intonation: sprachliche Einheiten mit jeweils 1 stärkeren Betonung • Effizienz: Teilstrukturen lassen sich effizienter berechnen. • Minimaler Aufwand: Für gewisse Anwendungen braucht es keine vollständige syntaktische Analyse. • Robustheit: Für syntaktisch fehlerhaften Input braucht es fehler-tolerante, oberflächlichere Analysemethoden. 8.3.2 IOB-Chunk Flache Chunks im IOB-Format Definition 8.3.3 (IOB-Chunks). IOB-Chunks beschreiben eine flache syntaktische Schicht über die getaggten Wortformen, welche in Form von Chunk-Tags auf die Token abbildbar ist. • B-K : Anfang einer Chunk-Konstituente K • I-K : Fortsetzung der Chunk-Konstituente K • 0: Nicht zugeordnet (wird auch chink genannt) We PRP B-NP saw VBD 0 the DT B-NP yellow JJ I-NP dog NN I-NP 8.3.3 Verschachtelte Chunks Verschachtelte Chunks Definition 8.3.4 (Verschachtelte Chunks). Verschachtelte Chunks beschreiben eine syntaktische Struktur von begrenzter Tiefe. Rekursive Verschachtelung, z.B. ein Nominal-Chunk innerhalb eines Nominal-Chunks, ist normalerweise nicht möglich. Beispiel 8.3.5 (Chunk Parsing Output mit Verschachtelungstiefe 3). 83 [PX [APPR für] [NX [ARTIND eine] [AJXatt [ADJA gewisse]] [NN Reibungslosigkeit]]] Hinweis zur Chunk-Benennung Chunks werden manchmal wie Phrasen (NP) notiert, gebräuchlich sind auch NX oder NC. 8.4 Vertiefung Zum Thema „POS-Tagging“ und „Chunk Parsing“: • Pflichtlektüre: [Carstensen et al. 2009, 3.4.2-3] • Lerneinheit “Chunk Parsing” im CLab: http://www.cl.uzh.ch/clab/chunking/ 8.4.1 Kontrollfragen Kontrollfragen • Was sind 2 typische Szenarien für systematische Evaluation von Systemen? • Was unterscheidet Recall und Precision von Accuracy? • Was sind typische Fehlerquoten und Fehlerquellen für STTS-Tagging? • Wieviel Trainingsmaterial braucht es für eine Tagginggenauigkeit von etwa 95%? • Was ist der Vorteil der IOB-Notation? 8.5 Exkurs: Evaluation binärer Klassifikatoren Lernziele • Kenntnis über True Positive, True Negative, False Positive sowie False Negative • Kenntnis über Fehlertypen und ihre Gefahr • Kenntnis über Unterschiede von Recall, Precision, F-Measure und Accuracy in Form der TP:FP:FN:TN-Darstellung 8.5.1 True/False Positives/Negatives Evaluation von binären Klassifikatoren Legende zur Tabelle 8.3 True Übereinstimmung zwischen “Test” und “Truth” False Keine Übereinstimmung zwischen “Test” und “Truth” FP Fehlertyp I: Test ist positiv, wo er nicht sollte. FN Fehlertyp II: Test ist negativ, wo er nicht sollte. 84 Test Positive Negative Truth Positive Negative True Positive (TP) False Positive (FP) False Negative (FN) True Negative (TN) Tabelle 8.3: Schema zum Abgleich von Test-Klassifikator und Wahrheit 8.5.2 Fehlerparadoxe Problem der Fehlerabschätzung I Beispiel 8.5.1 (FP: Fehlertyp I). Ein syntaktischer Test zur Identifizierung einer seltenen Konstruktion, welche nur in 1 von 100’001 Sätzen auftaucht, findet zwar alle vorhandenen Konstruktionen, liefert aber leider 1% Falsch-Positive. D.h die Korrektheit (accuracy) ist 99%. Wie wahrscheinlich ist es, dass der Test tatsächlich eine gesuchte Konstruktion gefunden hat, wenn er ein positives Resultat vermeldet? Man überlege: Wie oft wird ein positives Testresultat bei 100’001 Sätzen gemeldet? Wieviele TP sind im Schnitt darunter? Problem der Fehlerabschätzung II Beispiel 8.5.2 (FN: Fehlertyp II). Ein syntaktischer Test zur Identifizierung einer häufigen Konstruktion, welche in 80’000 von 100’000 Sätzen auftaucht, findet 12.5% der Fälle nicht, produziert jedoch keine falschen Treffer. Wie wahrscheinlich ist es, dass ein Satz die Konstruktion trotzdem enthält, obwohl der Test ein negatives Resultat vermeldet? Man überlege: Wie oft wird ein negatives Testresultat bei 100’000 Sätzen gemeldet? Wieviele FN sind darunter? 8.5.3 Unterschiede von Evaluationsmassen Dualität von Precision und Recall Test Pos Neg R= Truth Pos Neg TP FP FN TN TP TP + FN Tabelle 8.4: Recall Recall ignoriert FP. Je weniger falsche Negative, desto höher der Recall. Precision ignoriert FN. Je weniger falsche Positive, desto höher die Precision. 85 Test Pos Neg P = Truth Pos Neg TP FP FN TN TP TP + FP Tabelle 8.5: Precision F-Measure vs. Accuracy Test F = Pos Neg Truth Pos Neg TP FP FN TN 2 × TP 2 × TP + FP + FN Tabelle 8.6: F1 -Measure F-Measure ignoriert TN. TP interessieren eigentlich. Test Accuracy = Truth Pos Neg TP FP FN TN Pos Neg TP + TN TP + TN + FP + FN Tabelle 8.7: Accuracy Accuracy ignoriert nichts. TP und TN interessieren gleichwertig. 8.5.4 Mitteln von Recall und Precision F-Measure: Harmonisches vs. arithmetisches Mittel 8.5.5 Vertiefung • Artikel zum Harmonischen Mittel in [Wikipedia 2007] 86 Abbildung 8.8: F = 2×P ×R P +R : y/x-Achse: Recall F-Mass [F-Mass 2006] 87 Abbildung 8.9: M = P +R 2 : 88 Arithmetisches Mittel 9 Sprachsynthese und Spracherkennung Lernziele • Kenntnis über die Teilfunktionen und Verarbeitungsstufen eines typischen Systems zur Sprachsynthese und der Spracherkennung • Kenntnis über die Probleme und Ansätze solcher Systeme • Kenntnis über die Einsatzmöglichkeiten von CL-Techniken • Kenntnis über sprachtechnologische Standards 9.1 Sprachsynthese Sprachsynthesesysteme III Definition 9.1.1 (Text-To-Speech System, TTS). Ein Sprachsynthesesystem erzeugt aus einer Zeichenkette (Text) ein akustisches Signal. Die Spracherzeugung setzt eine mehr oder weniger tiefe linguistische Textanalyse voraus. Beispiel 9.1.2 (Ein deutscher Stolpersatz). “Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm.” • Welche Schwierigkeiten liegen vor? • Was kann ein TTS damit anfangen? Z.B. [German 2006] Qualitätsmerkmale für Sprachsynthese Was macht gute Sprachsynthese aus? • Silbenübergänge: Wie natürlich werden Silbenübergänge lautiert? • Wortbetonung: Sind die Betonungen bei (unbekannten) Wörtern korrekt? • Satzmelodie/Satzbetonung: Ergibt die Satzbetonung Sinn oder bleibt alles hölzern neutral? • Sprechtempo: Zu schnell, zu langsam? • Sprechrhythmus: Monotones Geraspel oder gegliederte Information? • Pausen: Finden Sprechpausen (an der richtigen Stelle) statt? Weiteres Unterschiedliche Benutzer haben unterschiedliche Bedürfnisse. Blinde Personen schätzen es, wenn das Sprechtempo stark erhöht werden kann. 89 Einsatzmöglichkeiten von Sprachsynthese Wo ist Sprachsynthese praktisch anwendbar? • (Mobil-)Telefonie: Auskunftssysteme (Tourismus, Kinoprogramm, Wetter, Börsenkurse usw.), welche meist mit einem Spracherkennungssystem gekoppelt sind • Informationssysteme, welche keine visuelle Ablenkung erzeugen dürfen: Navigationssysteme im Auto, E-Mail-Vorlesesysteme im Auto usw. • Computerarbeitsplätze für Sehbehinderte • Künstliche Stimme für Sprechbehinderte • Sprachenlernen • ... 9.1.1 Architektur Typische Architektur von TTS Vom der Zeichenkette zum Laut 1. Tokenisierung (Satzsegmentierung, Normalisierung von Abkürzungen usw.) 2. (Flache) syntaktische Analyse für lexikalische Desambiguierung (Tagging) und für die prosodische Gestaltung der Phrasengrenzen/Pausen und Akzente (Chunking, Parsing) 3. Lexikalische Analyse mit einem Lexikon und/oder Regeln 4. Phonologische und prosodische Analyse 5. Lautproduktion aufgrund der Lautfolge mit Information zu Lautdauer, Tonhöhe (Grundfrequenz), Lautstärke (Intensität). Beispiel-Architektur von MARY TTS 9.1.2 Analyseebenen Aussprache von Ziffern und Abkürzungen Die Aussprache von Ziffernotationen variiert vielfältig innerhalb einer Sprache und zwischen Kulturräumen [Liberman und Church 1992]. Frage Welche Aussprachen sind für welche Grössen verbreitet? Beispiel 9.1.3 (Varianten im Deutschen). • Einzelziffern: 1456 “ Konto eins vier fünf sechs” • Zahl: 1456 “Eintausendvierhundertsechsundfünfzig” • Hunderter: 1456 “Vierzehnhundert(und)sechsundfünfzig” • Paare oder Trippel: “044 344 56 10” 90 Abbildung 9.1: Architektur von MARY-TTS-System • Ordinalzahlen: “Am 2.12. kam die 2. Frau trotz 2. Platz nicht ins Final.” Probleme bei Abkürzungen Welche Schwierigkeiten stellt die Aussprache von Abkürzungen? Phonetische Analyse: Lautfolgen und Akzente von Wörtern Wie werden die einzelnen Laute eines Wortes in Isolation repräsentiert? Definition 9.1.4 (Pronunciation Dictionary). Ein elektronisches Aussprachewörterbuch enthält für (flektierte) Wortformen oder Grundformen eine Repräsentation der Lautform (Lautfolge, Akzente) in einer Lautschrift. Z.B. in Form der Revision 2005 des International Phonetic Alphabet (IPA) http://www.langsci. ucl.ac.uk/ipa, bzw. einer auf Computern einfacher verwendbareren Kodierung davon. Beispiel 9.1.5 (Formate elektronischer Aussprachewörterbücher nach [Jurafsky und Martin 2000]). • Pronlex: +arm.xd’Il.o • CELEX (britisch): "#-m@-’dI-15 =[a:.m@."dI.l@U], • CMU (amerikanisch): AA2 R N AH0 D IH1 L OW0 = [arm2"dI.loU] 91 IPA-Lautschrift für Deutsch Vgl. volles IPA in [Carstensen et al. 2009, 213]) Quelle: [Carstensen et al. 2004, 157] Abbildung 9.2: IPA-Symbole für Deutsch Phonetische Lautschrift (SAMPA German) Eine in ASCII kodierte Notationsvariante für IPA-Symbole. • : (langer Vokal), ’ (Hauptbetonung), - (Silbengrenze) • Plosive: p (Pein), b (Bein), t (Teich), d (Deich), k (Kunst), g (Gunst), ? (Atem) • Frikative: f (fast), v (was), s (das), z (sein), S (Schein), Z (Genie), C (ich), x (ach), r (rein), h (Hand) • Sonoranten: m (mein), n (nein), N (lang), l (laut), j (ja) • Ungespannte Vokale: I (Sitz), Y (hübsch), 9 (plötzlich), E (Bett), U (Schutz), O (Trotz), a (Satz), @ (bitte), 6 (kurz), • Gespannte Vokale: i (bin), y (süss), e: (Reh), 2: (blöd), E: (spät), u: (Blut), o: (rot) Frage Wie kann man das Wort “jenseits” schreiben? Hinweis: Das Wiktionary für Deutsch http://de.wiktionary.org ist auch ein Aussprachewörterbuch. 92 Phonologische Analyse Welche Gesetzmässigkeiten der gegenseitigen Beeinflussung von Lauten in ihrem (aus-)sprachlichen Kontext gelten? Definition 9.1.6 (Phonological Rules). Phonologische Regeln spezifizieren die Umstände, unter denen phonologische Alternationen statt finden. Die Zwei-Ebenen-Morphologie bietet eine praktische Modellierung und Implementation dafür an. Beispiel 9.1.7 (Phonologische Alternationen im Englischen). Das Plural-(e)s wird nach Stammendung unterschiedlich ausgesprochen: “peaches”, “pigs”, “cats”. III Morphologie und Ausspracheregeln Beispiel 9.1.8 (Aussprache von „st“ im Deutschen). Wann spricht man „st“ als [St] und wann als [st]? Beispiele: Lastwagen, staunen, bestaunen, Staubsauger, Feinstaub, Krebstest, zurückkrebste Anwendung von Ausspracheregeln Ausspracheregeln beziehen sich nicht auf das Wort, sondern auf Morphe (Vorsilben, Endungen, Wortstämme). Beispiel 9.1.9 (Auslautverhärtung). Im Deutschen werden gewisse Laute entstimmlicht, wenn sie am Ende eines Morphs stehen und nicht vor einem Vokal. „Krug“ → [’kru:g]→ [’kru:k] „Krug+s“ → [’kru:g]+[s] → [’kru:ks] „Krug+es“ → [’kru:g]+[@s] → [’kru:g@s] Probleme der morphologischen Analyse und Lautfolgenberechnung • Mehrdeutigkeiten der morphologischen Analyse: Wählerstimmen = wähl+erst+imme+n III • Einschlüsse verschiedener Sprachen in einem Text “Er hat dies nur contre coeur live gesungen.” • Umgang mit Named Entities Prosodische Analyse: Akzentuierung im Wort Definition 9.1.10 (Wortakzent). Der Wortakzent ist diejenige Silbe eines Worts, welche am stärksten betont wird. Mehrsilbige Wörter und Komposita haben oft Nebenakzente. Regelhaftigkeit von Wortakzenten im Deutschen • Bei einfachen Wörtern eine lexikalische Information. • Präfixe, Suffixe und Infixe sind regelhaft: be-, -lich, -tät, -al • Bei Komposita (Zusammensetzungen) trägt immer der Wortakzent des Vorderglieds den Hauptakzent: Hauptakzenterkennungsroutine 93 • Flexionsbetonung: Doktor vs Doktoren Die Nebenakzente können immer durch Fokusakzentuierung semantisch/pragmatisch zum stärksten Akzent gemacht werden. Beispiel: Prosodie [Simmons 2006b] Pausen und Satzbetonung sind an der Amplitude der Schallwellen ablesbar. Der Grundfrequenzverlauf (oft mit f0 bezeichnet) gibt die relativen Tonhöhenunterschiede in der gesprochenen Sprache wieder. Quelle: http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm Abbildung 9.3: Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons 2006a]) Ein frei verfügbares Tool, um die verschiedenen akustischen Aspekte der Sprache auf dem Computer zu analysieren, ist unter http://www.praat.org zu finden. Prosodie: ToBI-Modell (Tones and Break Indices) • H (high): Hohe Satzmelodie • L (low): Tiefe Satzmelodie • [HL]*: Auszeichnung der betonten Silbe • [HL]+[HL]: Tonwechsel innerhalb von Wörtern • [HL]%: Satzendebetonung • [HL]– : Phrasenbetonung (sekundärer Satzakzent) 94 Prosodische Analyse: Phrasen und Sätze Um Satzintonation (Prosodie) korrekt wiederzugeben, braucht es teilweise detaillierte linguistische Analysen. Beispiel 9.1.11 (Satzintonation und -rhythmus). The government plans. . . • . . . were defeated. • . . . to raise taxes. Grundregel der Phrasierung Eine Phrasengrenze zwischen 2 benachbarten Wörtern ist umso plausibler, je stärker die Wörter in der syntaktischen Struktur getrennt sind voneinander. 9.1.3 Sprachsignalproduktion Sprachsignalproduktion Prosodiesteuerung Aus der phonologische Analyse (Laute, Akzente, Pausen, Tonhöhenverlauf) werden die prosodischen Parameter der Laute für die Sprachsynthese berechnet: Dauer, Grundfrequenz, Intensität. Die Verwendung der klassischen linguistischen Einheit Phonem (35-50 pro Sprache) für Sprachgenerierung ergibt keine guten Systeme. Wie lassen sich natürlichere und fliessende Übergänge der Laute erzeugen? Definition 9.1.12 (Diphone III). Ein Diphon geht von der Mitte eines Phonems zur Mitte des nächsten Phonems. Für Deutsch kommt man etwa auf 2’500 existierende Diphone, für Spanisch auf 800. Koartikulation von Lauten wird dadurch auf jeweils 2 Phonemkombinationen beschränkt. In der Phonemmitte ist das menschliche Gehör weniger empfindlich auf Unebenheiten. Sprachsignalproduktion: Sprachkonserven Am primitivsten funktioniert Sprachsynthese, wenn ganze Wörter oder Teilsätze als akustische Sprachkonserven nacheinander ausgegeben werden. Dies funktioniert für eingeschränkte Anwendungsgebiete: "Jetzt. Bitte. Rechts. Abbiegen." Beispiel 9.1.13 (Ein Problem zu einfacher Ansätze). • lead: Verb /li:d/ (führen); Nomen: /led/ (Blei) • increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen) Unit Selection Databases Ein Weiterentwicklung sind grosse Datenbanken, welche unterschiedlich grosse Einheiten (Diphone, Phone, Silben, Wörter) umfassen und eine optimale Selektion daraus versuchen. 95 Speech Synthesis Markup Language (SSML) Dieser XML-Standard erlaubt eine strukturierte Spezifikation von verschiedenen Parametern einer Speech-Applikation. <p> <s xml:lang="en-US"> <voice name="David" gender="male" age="25"> For English, press <emphasis>one</emphasis>. </voice> </s> <s xml:lang="es-MX"> <voice name="Miguel" gender="male" age="25"> Para español, oprima el <emphasis>dos</emphasis>. </voice> </s> </p> http://www.w3.org/TR/2004/REC-speech-synthesis-20040907/ 9.2 Spracherkennung Spracherkennungssysteme Definition 9.2.1 (Speech Recognition System). Ein Spracherkennungssystem erzeugt aus dem akustischen Signal von gesprochener Sprache eine textuelle Darstellung. Definition 9.2.2 (Speech Understanding System). Ein Sprachverarbeitungssystem berechnet aus dem akustischen Signal von gesprochener Sprache eine (partielle) Bedeutung. Spracherkennung ist schwieriger als Sprachsynthese. Warum? Typische Architektur Vom Sprachsignal zur Wortfolge 1. Digitale Signalanalyse (inklusive Erkennung der wesentlichen Eigenschaften des Signals: Merkmalsextraktion) 2. Matching der extrahierten Merkmale auf die phonologischen Sprachbestandteile (Phoneme, Diphone, Silben), mit denen sich die Wörter zusammensetzen 3. Lexikalische Analyse: Erkennen von Wortkandidaten 4. Syntaktische Analyse: Filtern auf wahrscheinliche Wortfolgen bzw. syntaktische mögliche 5. Semantische Analyse: Filtern auf wahrscheinliche (anwendungsspezifische) Bedeutungen 9.2.1 Probleme Wortübergänge (Junkturen) Wortgrenzen werden eher selten als Sprechpausen realisiert. Im Deutschen tendenziell durch die Erstbetonung. Im Englischen manchmal durch leichte Verlängerung beginnender Konsonanten oder Betonung endender Vokale. 96 Definition 9.2.3. Die Koartikulation ist die Beeinflussung der lautlichen Form eines Phonems durch seine Umgebung. Beispiel 9.2.4 (Assimilation). R • this year → this ear • the old man → thiold man Wortübergänge (Junkturen) Beispiel 9.2.5 (Epenthese und Auslassung). • China is → Chinaris • best buy → besbuy Beispiel 9.2.6 (Fehlsegmentierungen (Oronym)). • night-rate ↔ nitrate ; grey day ↔ grade A; why choose ↔ white shoes • The sad poet remembers a long ago time ↔ Thus add poetry members along a goat I’m Weitere Störfaktoren • Unbekannte Wörter, u.a. zu kleines Lexikon • Hintergrundsgeräusche • Schlechte Mikrophone • Sprecherspezifische Eigenheiten: schnelles oder undeutliches Artikulieren, dialektale Färbung • Wenig kollaborative Kommunikation: Im Gegensatz zur menschlichen Kommunikation weiss ein Spracherkennungssystem selten, worum es geht. 9.2.2 Worthypothesengraph Worthypothesengraph In einem Wortkandidatengraphen werden kompakt alle möglichen Folgen von Wörtern repräsentiert. Das Spracherkennungssystem sollte den in der Kommunikationssituation am wahrscheinlichsten Pfad auswählen. 9.2.3 Wortfehlerrate Wortfehlerrate (word error rate, WER) Definition 9.2.7 (Editierdistanz). Unter der minimalen Editierdistanz zweier Wortfolgen versteht man die minimale Anzahl der notwendigen Editieroperationen, um die Folgen gleich zu machen. Bei der Levenshtein-Editierdistanz können Wörter gelöscht (DEL), ersetzt (SUB) oder eingefügt (INS) werden. Definition 9.2.8 (Wortfehlerrate für eine Folge von n Wörtern). W ER = 100 × NSU B + NIN S + NDEL N 97 Abbildung 9.4: Worthypothesengraph aus [Carstensen et al. 2004, 580] Abbildung 9.5: Berechnung der Wortfehlerrate aus [Carstensen et al. 2004, 581] 9.3 Dialogsysteme 9.3.1 Typen Dialogsysteme Ein natürlichsprachliches Dialogsystem erlaubt Kommunikation zwischen Computer und Mensch mittels menschlicher Sprache. Definition 9.3.1 (Kommandowortsysteme). Ein Kommandowortsystem erlaubt die einseitige Steuerung von elektronischen Geräten durch Äusserungen. Definition 9.3.2 (Interactive Voice Response System (IVR)). Ein IVR erlaubt die sprachliche Navigation durch ein starres Menu. Benutzer kann nur reagieren. Definition 9.3.3 (Conversational User Interface (CUI)). Ein CUI soll nebst der Steuerung eines Devices den Benutzer pro-aktiv beratend unterstützen. Dialoge sollten von Mensch und Maschine gesteuert sein (mixed-initiative dialogue).1 9.3.2 VoiceXML VoiceXML III Dieser XML-Standard erlaubt eine strukturierte Spezifikation von (einfachen) natürlichsprachlichen Dialogsystemen (Bestellvorgänge, Chatbots usw.), welche Web-Services via Telefon verfügbar machen. 1 http://mobile.20min.ch/de/front/28506028f/Das-digitale-Vermächtnis-von-Steve-Jobs 98 Abbildung 9.6: Anwendungsszenario VoiceXML nach [Raggett 2001] VoiceXML beinhaltet ... VoiceXML-Dokumente beschreiben • Gesprochene Eingaben (synthetische Sprache) • Ausgaben von Audiodateien und -streams • Erkennung von gesprochenen Wörtern und Sätzen • Erkennung von Tonwahl (DTMF) • Aufnahme gesprochener Eingaben • Kontrolle des Dialogflusses • Telefoniekontrolle (Anruftransfer und Auflegen) 9.4 Vertiefung • Pflichtlektüren: [Carstensen et al. 2009, 3.1.1-3.1.2, 3.2.2, 5.4] • Eine umfassende technische Einführung bietet [Pfister und Kaufmann 2008] • Für an Sprachtechnologie Interessierte: “HAL’s Legacy” http://www-mitpress.mit.edu/ e-books/Hal/chap6/six1.html • Viele historische Beispiele für Sprachsynthese http://www.cs.indiana.edu/rhythmsp/ASA/ Contents.html • Das didaktisch orientierte Tool MARY http://mary.dfki.de/, das wir im CLab integriert haben. • Beispiel emotionale Fussballreportersprache:[MARY 2006] • SAMPA: Kurzbeschreibung unter http://de.wikipedia.org/wiki/SAMPA und Hauptseite unter http://www.phon.ucl.ac.uk/home/sampa/index.html 99 • MBROLA:http://tcts.fpms.ac.be/synthesis/mbrola.html • http://www.voicexml.org • Beispiele: Dialoggestaltung [excelsis 2007]; Erkennung von Dialekten [ORF 2007b, ORF 2007a] 100 10 Volltextsuche und Text Mining Lernziele • Kenntnis über Grundlagen der Volltextsuche • Kenntnis über traditionelle Informationserschliessung von OPAC • Kenntnis über die Einsatzmöglichkeiten von CL-Ansätzen beim Indexieren • Kenntnis über das Boolsche Retrievalmodell, Relevanz-Ranking und dem Vektorraummodell • Kenntnis über die Probleme der Auffassung von Dokument als Indexterm-Menge • Kenntnis über Auffassungen von Text Mining 10.1 Elektronische Informationsflut Thesen zur elektronischen Informationsflut • Immer mehr Menschen verbreiten (produzieren?) immer schneller immer mehr elektronische textuelle Information! • Das Internet Archive http://www.archive.org bot 2003 Zugriff auf 10 Milliarden Webseiten. Im Mai 2006 enthält es knapp 2 Petabyte (1015 ) Daten und soll monatlich um 20 Terabyte wachsen. Im März 2009 sind es 85 Milliarden Webseiten(versionen). • Nicht-öffentliche Bereiche wie “Intranets” von Firmen und Verwaltungen oder auch automatisch schlecht zugängliche Seiten verstecken sich dabei noch als “deep web” unter der Spitze des sichtbaren Eisbergs. • Verschiedene Projekte zur Buchdigitalisierung (z.B. http://books.google.com) versuchen, bislang nur gedruckte Information ins digitale Gedächtnis zu bringen. Digitalisierte Bibliotheken Nutzen und Tücken der automatischen Erfassung (OCR) Z.B. bei http://books.google.de Chriftian Morgenstern: Wer vom Ziel nicht WeiB Lann den Weg night haben Wachstum der Publikationen im biomedizinischen Bereich 2007 wurden pro Tag ca. 1900 Publikationen in der Online-Bibliographie PubMed erfasst [Pyysalo 2008, 6]. Wachstumrate steigt jährlich um 3%. 101 Abbildung 10.1: OCR und Frakturschrift Quelle: [Pyysalo 2008, 6] Abbildung 10.2: In PubMed erfasste wiss. Artikel (2008 unvollständig) 102 10.1.1 Suchdilemma Suchdilemmas Typisches Problem bei Volltextsuche Benutzende erhalten zuviele Treffer! Was tun? ... Typisches Problem bei OPAC-Suche (OPAC=öffentlich zugänglicher elektronischer Bibliothekskatalog) Benutzende erhalten zuwenige Treffer! Was tun? ... Beispiel für Anreicherung von OPAC-Information Anreicherung des klassischen OPAC-Bibliothekskatalogs Inhaltsverzeichnisse Eingescannte und in Text konvertierte oder vom Verlag elektronisch gelieferte Inhaltsverzeichnisse erlauben mehr Treffer. Beispiel 10.1.1 (Landesbibliothek Vorarlberg). • Keine Treffer für eine Suche nach dem Autor Jewgeni Charitonow. • Dafür Treffer via Inhaltsverzeichnis. Abbildung 10.3: Suchoption für Inhaltsverzeichnis Elektronisches Inhaltsverzeichnis Vom OPAC zur digitalen Bibliothek mit Volltextsuche Traditionelle Sachbegriff-Indexierung im OPAC Traditionelle Sachbegriff-Organisation im OPAC Neuere textuelle Zusatzinformationen im OPAC 103 Abbildung 10.4: Eingescanntes Inhaltsverzeichnis Entwicklung von Online-Datenbanken Die ersten Online-Datenbanken entstanden in den 60er Jahren. Die NASA und Lockheed entwickelten ein System, das heute als DIALOG bekannt ist, die Ohio Bar Association LEXIS, das heute unter LEXIS/NEXIS firmiert, der CIA und IBM STAIRS. Die Zahl der Online-Datenbanken betrug 1965 unter 20, 1975 mehr als 300 und 1984 fast 2500. Quelle: http://www.phil.uni-sb.de/~werner/ir/irs.htm Beispiel 10.1.2 (PubMed: http://pubmed.org). Online-Bibliographien wie PubMed bieten mittlerweile komplexe Datenverknüpfungsdienste (Terminologie, Ontologie, fachspezifische Datenbanken, Literaturverknüpfungen, Abstracts, Volltexte) an: Knowledge Management. 104 Abbildung 10.5: Sachbegriff-Indexierung im NEBIS Abbildung 10.6: Sachbegriff und Varianten im NEBIS 105 Abbildung 10.7: Textuelle Zusatzinformation im NEBIS 10.2 Volltextsuche Volltextsuche Definition 10.2.1 (auch Dokumentenzugriffssystem, engl. Information Retrieval (IR)). Die klassische Volltextsuche liefert (Referenzen auf) Dokumente zurück, welche für eine Kombination von Suchtermen und Suchkriterien (=Anfrage, query) relevant sind. Die Suchterme selbst können beliebige im Text vorkommende Ausdrücke sein – es wird nicht wie bei Bibliothekskatalogen mit geschlossenen Sachbegriffen indiziert. Hinweis zu den Einheiten des Retrievals Anstelle von ganzen Dokumenten als Suchresultat kann man auch kleinere Textstellen (engl. passage retrieval) als Wiedergewinnungseinheit definieren. Beispiel 10.2.2 (Googles define-Operator). Gewisse Suchmaschinen unterstützen die Suche nach definitionsartigen Passagen. 10.2.1 Indexieren Indexieren Definition 10.2.3 (Volltext-Indexieren). Beim Indexieren einer Dokumentensammlung werden (fast) alle Wörter jedes Dokuments ausgewählt, zu Indextermen normalisiert und im Index abgelegt. Definition 10.2.4 (Index). Ein Index eines IR-Systems ist eine Daten(infra)struktur, aus der sich für jeden Indexterm effizient bestimmen lässt, in welchen Dokumenten er vorkommt. 106 Meta-Information zu Dokumenten IR-System erlauben oft, Einschränkung bezüglich Alter, Sprache, Herkunft etc. von Dokumenten in die Anfrage einzubauen. Solche Informationen müssen für jedes Dokument gespeichert werden. Beispiel: Vorkommensmatrix in Shakespeare-Stücken Term-document incidence matrix nach [Manning et al. 2009] Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest Cleopatra Anthony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1 Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0 mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0 ... ... Lesebeispiele Der Term „Calpurnia“ kommt im Stück Julius Caesar vor. Der Term „Calpurnia“ kommt im Stück The Tempest nicht vor. Effizienter Index Speicherplatzprobleme der Vorkommensmatrix • 1 Million Dokumente mit je 1000 Tokens zu 6 Bytes pro Token braucht 6 GB Speicherplatz. • Es finden sich darin typischerweise 1/2 Million Indexterme. • Eine naive Repräsentation der Vorkommensmatrix benötigt also 500’000 × 1’000’000 Bits, d.h. ca. 58GB. Fast alle Tabellenzellen sind 0 Aus Effizienzgründen sollte nur gespeichert werden, in welchen Dokumenten ein Term tatsächlich vorkommt. Dictionary Die Menge aller Indexterme (dictionary) sollte im Hauptspeicher Platz finden. Durch Termnormalisierung und Stoppwörter lassen sich ca. 1/3 der Indexterme entfernen. [Manning et al. 2009, 89] Invertierter Index (inverted index) • Jedes Dokument erhält eine ID (DocID). • Für jeden Term t speichern man die sortierte Liste der DocIDs (posting list), welche t enthalten. 107 Brutus −→ 1 2 4 11 31 45 173 174 Caesar −→ 1 2 4 5 6 16 57 132 Calpurnia −→ 2 31 54 101 ... .. . | {z } dictionary | {z postings } Auswahl der Indexterme Nach der Tokenisierung werden aus Gründen der Effizienz und/oder Relevanz oft bestimmte Wörter (noise words) ausgefiltert. • Allgemeine Funktionswörter einer Sprache, welche meist häufig vorkommen (Stoppwortliste): der, die, das ...ich, du, er ...auf, unter, in ...und, oder ...bin, bist, ist, hast ... • Bei inhaltlich homogenen Dokumentensammlungen manchmal auch Inhaltwörter, welche fast in allen Dokumenten vorkommen und dadurch keinen informativen Wert besitzen. Z.B. in Dokumenten zur Informatik: System, Computer ... Es gibt auch Suchmaschinen, welche alles indizieren – interessant für CL-Ansätze “WWW als Korpus”. Eine kleine Stoppwortliste für Englisch III a about after again ago all almost also always am an and another any anybody anyhow anyone anything anyway are as at away back be became because been before being between but by came can cannot come could did do does doing done down each else even ever every everyone everything for from front get getting go goes going gone got gotten had has have having he her here him his how i if in into is isn’t it just last least left less let like make many may maybe me mine more most much my myself never no none not now of off on one onto or our ourselves out over per put putting same saw see seen shall she should so some somebody someone something stand such sure take than that the their them then there these they this those through till to too two unless until up upon us very was we went were what what’s whatever when where whether which while who whoever whom whose why will with within without won’t would wouldn’t yet you your Indexterme normalisieren Die Normalisierung kann keine bis viel Sprachtechnologie enthalten: • Reduktion auf orthographische Normalform (Ä → ä; ä → ae ; ph → f) • Trunkierung (veraltet): Abschneiden von Wortenden bei Wörtern ab einer Mindestlänge auf einen Präfix fixer Länge analys|ieren → analys Analys|e → analys analyt|isch → analyt 108 • Stemming (z.B. noch in Suche im Acrobat Reader): Einzelsprachliche Kürzungsregeln, welche ohne Lexikoneinsatz Wortformen auf ihren Stamm (stem) reduzieren. Stemming mit dem Porter-Stemmer III Beispiel 10.2.5 (Porter-Stemmer für Englisch). These analyses seemed especially analytic. these → these analyses → analys seemed → seem especially → especi analytic → analyt Indexterme normalisieren • Lemmatisierung: Reduktion von syntaktischen Wortformen flektierter Sprachen auf ihre Grundform: “aufgegessen” → “aufessen” • Kompositaanalyse: Auflösung von Komposita in ihre Bestandteile: “Schwimmunterricht” → “schwimm” “unterricht” • Derivationsauflösung: Auflösung von derivierten Ausdrücken: “Überzeugung” “überzeugen”→ “überzeugen” • Synonymerkennung: Auflösung von engeren Synonymen oder verwandten Bezeichnungen: “Rechenmaschine”→ “Computer”, “Luisa” → “Louise” • “Named Entity Recognition”: Erkennung von Personen-Angaben (Google-Squared), Erkennung von Datumsangaben für “Timelines” Beispiele Beispiel: Automatisches Indexieren von OPAC-Daten 10.2.2 Architektur IR-System-Architektur [Carstensen et al. 2004, 483] Frage Warum hat es zwischen dem Kästchen “Anfrage-Compiler” und “Termextraktion und linguistische Normalisierung” eine Verbindung? 10.2.3 Retrieval Dokument als Menge von Indextermen Definition 10.2.6 (engl. bag of words (BOW)). Im IR wird ein Dokument meist als Menge von Indextermen betrachtet. Definition 10.2.7 (Boolsches Retrievalmodell). Im Boolschen Retrievalmodell werden die einzelnen Suchterme der Anfrage mit den logischen Operatoren “UND”, “ODER” und “NICHT” verknüpft zu einer komplexen Anfrage. 109 Wie indizieren? rohe Wortform im Text mit oder ohne orthographische Normalisierung mit Stoppworterkennung auf Grundform normalisiert mit Derivations- und Komposita-Auflösung (Dekomposition) mit Erkennung von Mehrwortlexemen bzw. Terminologie mit Erkennung von Namen mit Synonymen bzw. Deskriptoren aus Schlagwortdatei mit Hypernymen mit semantischer Desambiguierung mit Relevanzkriterien der Terme für das Dokument Quelle: Oberhauser/Labner 2003 Automatische Indexieren mit IDX/MILOS Beispiel I Grad an linguistischer Aufbereitung CL in IuD II – 6 Quelle:[Oberhauser und Labner 2003] Quelle: Oberhauser/Labner 2003 Automatisches Indexieren mit IDX/MILOS Beispiel 2 Abbildung 10.8: Automatisches Indizieren von OPAC-Informationen: Gut Quelle:[Oberhauser und Labner 2003] Abbildung 10.9: Automatisches Indizieren von OPAC-Informationen: Schlecht Beispiel 10.2.8 (Logische Operatoren). Die Anfrage Schuhmacher UND Suzuka UND (NICHT Michael) bedeutet: Finde alle Dokumente, welche • den Indexterm Schuhmacher und Suzuka enthalten, aber • den Indexterm Michael nicht enthalten. 110 Abbildung 10.10: Generelle Architektur von IR-Systemen nach [Carstensen et al. 2004] Probleme des Boolschen Retrievalmodells Zweiwertigkeit Wegen der klassischen Zweiwertigkeit, d.h. keine partiellen Treffer, können (bei kleineren Dokumentensammlungen) Null-Treffermengen entstehen. Bei grossen Dokumentensammlungen wiederum können übergrosse Treffermengen entstehen. Eine gute Reihenfolge der Suchresultate nach Relevanz ist notwendig (erweitertes Boolsches Modell) Dokument als Indexterm-Menge Die Dependenzen zwischen den Wörtern lassen sich nicht darstellen. Ein Aufsatztitel wie “A formal specification language for the automatic design of chips by computer” bedeutet dasselbe wie die Wortmenge “automatic, chip, computer, design, formal, language, specification”. 111 Problem der Mengen-Repräsentation für die Suche Beispiel 10.2.9 (Dokument mit seine Termmenge). Dokument: “A formal specification language for the automatic design of chips by computer” Termmenge: “automatic, chip, computer, design, formal, language, specification” Beispiel 10.2.10 (Anfragen und ihre Term-Mengen). • languages for the design by computer: language UND design UND computer • the specification of computer languages specification UND computer UND languages Welches Problem haben wir? 10.2.4 Relevanz Relevanzabschätzung von Indextermen Um die Relevanz von Indextermen gegenüber Dokumenten, welche sie enthalten, abschätzen zu können, werden unterschiedlichste Masse angewendet und kombiniert. Definition 10.2.11 (engl. term frequency (TF)). Die Relevanzhypothese zur Termhäufigkeit besagt: Je häufiger ein Indexterm in einem Dokument erscheint, umso relevanter ist das Dokument für den Term. Definition 10.2.12 (engl. inverse document frequency (IDF)). Die Relevanzhypothese zur inversen Dokumenthäufigkeit besagt: Je seltener ein Indexterm eines Dokuments d in anderen Dokumenten der Gesamtkollektion D erscheint, umso relevanter ist Dokument d für den Indexterm. Überlegungen zu Stoppwörter, TF und IDF Fragen 1. Wie verhalten sich typische Stoppwörter bezüglich TF und IDF? 2. Wie verhält sich ein Wort bezüglich TF und IDF, das in einer Dokumentensammlung nur 1 Vorkommen hat? 3. Welche Auswirkungen hat es, wenn eine Dokumentensammlung sowohl sehr kurze wie auch extrem lange Dokumente enthält? 4. Wie könnte man die Information über TF und IDF miteinander kombinieren zu einer einzigen Bewertung? 112 Die TF/IDF-Formel nach [Salton 1988] • N die Anzahl Dokumente einer Dokumentenmenge D, N = |D| . • d ein Dokument aus der Dokumentenmenge D • i ein Indexterm • df i die Anzahl der Dokumente aus D, welche Indexterm i enthalten • tf d,i die Anzahl der Vorkommen von Indexterm i im Dokument d (TF) • wd,i das Gewicht (Relevanz), welche dem Dokument d bezüglich dem Indexterm i zukommt × wd,i = tf d,i | {z } TF Fragen Welche Werte kann tf d,i und N df i log N df i | {z } IDF maximal/minimal annehmen? Was macht log? Vektorraummodell Definition 10.2.13 (Vektorraummodell (vector space model)). Ein einfaches Vektorraummodell entsteht, wenn in der Vorkommensmatrix anstelle der 1 das Gewicht (z.B. klassisch TF/IDF) eingetragen wird. Jede Zeile in Vorkommensmatrix ist ein Vektor (Folge von Werten). Beispiel 10.2.14 (Interaktive Demo zu Vektorraummodell). http://kt2.exp.sis.pitt.edu:8080/VectorModel/main.html Idee: Relevanz als Vektorähnlichkeit • Anfrageterme werden wie Dokumentvektoren repräsentiert • Relevanz von Anfrage = Ähnlichkeit von Anfragevektor mit Dokumentvektor • Verschiedene Ähnlichkeitsmasse, z.B. euklidische Distanz, Cosinus, etc. 10.3 Text-Mining Das Problem Volltextsuche vs. Text-Mining • In der Volltextsuche geht es darum, ad hoc ein Informationsbedürfnis zu stillen, indem relevante Dokumente gefunden werden, welche die Information (hoffentlich) enthalten. • Im Text-Mining geht es darum, automatisch neue Information aus Texten zu erschliessen. Data-Mining vs. Text-Mining • Im Data-Mining wird mit statistischen und Methoden der künstlichen Intelligenz versucht, aus strukturierten Daten Ähnlichkeiten, Tendenzen und Zusammenhänge in grossen Datenmengen zu entdecken. • Im Text-Mining soll dasselbe aus Text-Daten heraus geschehen – der grössten Informationsquelle überhaupt. 113 Literature Based Discovery [Hearst 1999] Ein reales Beispiel aus der Medizin zur Forschungsinspiration: “When investigating causes of migraine headaches, he [Don Swanson] extracted various pieces of evidence from titles of articles in the biomedical literature:” Paraphrasen: • stress is associated with migraines • stress can lead to loss of magnesium • calcium channel blockers prevent some migraines • magnesium is a natural calcium channel blocker • migraine patients have high platelet aggregability • magnesium can suppress platelet aggregability • ... Daraus entstand die Hypothese, dass Magnesium und Migräne in einem Zusammenhang stehen können. Modernes biomedizinisches Text-Mining Unser Institutsprojekt ontogene.org hat an verschiedenen Text-Mining-Wettbewerben (shared task) teilgenommen. Beispiel 10.3.1 (Biocreative 3 im 2010: http://www.biocreative.org). • Gene Normalization Task: Erkennung von Erwähnungen von Genen in biomedizinischen Texten und Normalisierung der Erwähnungen auf eindeutige Identifikatoren von GenDatenbanken • Protein-Protein Interactions: (a) Erkennung, ob ein Dokument relevante Interaktionen von Proteinen enthält. (b) Erkennung, mit welcher experimentellen Labormethode eine Interaktion festgestellt wurde. 10.4 Vertiefung Pflichtlektüre Kapitel 5.3.1 bis Seite 590 aus [Carstensen et al. 2009] • Einführungskapitel des frei verfügbaren IR-Buches [Manning et al. 2009] • Infos und interaktive Demos von Methoden zum Thema “Information Retrieval” http: //ir.exp.sis.pitt.edu/res2/resources.php • Vertiefungslektüre zum Thema “Text-Mining” [Hearst 1999] • Lerneinheit “Reduzieren von Wortformen” im CLab zu verschiedenen Themen der Normalisierung von Wortformen: http://www.cl.uzh.ch/clab/reduzieren/ 114 11 Literaturverzeichnis [Abney 1991] Abney, Steven (1991). Parsing by Chunks, In: Berwick, Robert, S. Abney und C. Tenny, Hrsg.: Principle-Based Parsing. Kluwer Academics. 41, 82 [Beesley und Karttunen 2003] Beesley, Kenneth R. und L. Karttunen (2003). FiniteState Morphology: Xerox Tools and Techniques. CSLI Publications. 38 [Bird et al. 2009] Bird, Steven, E. Klein und E. Loper (2009). Natural Language Processing with Python. O’Reilly. 75 [Brants 1999] Brants, Thorsten (1999). Tagging and Parsing with Cascaded Markov Models. Automation of Corpus Annotation, Saarbrücken Dissertations in Computational Linguistics and Language Technology 6. Saarland University. 79 [Bussmann 2002] Bussmann, Hadumod (2002). Lexikon der Sprachwissenschaft. Kröner, Stuttgart, 3., aktual. und erw. Aufl. 15, 48, 51, 62, 66 [Carstensen et al. 2004] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat, R. Klabunde und H. Langer, Hrsg. (2004). Computerlinguistik und Sprachtechnologie : Eine Einführung. Elsevier, München. 92, 98, 109, 111 [Carstensen et al. 2009] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat, R. Klabunde und H. Langer, Hrsg. (2009). Computerlinguistik und Sprachtechnologie : Eine Einführung. Spektrum, München. 18, 28, 29, 84, 92, 99, 114 [Cavnar und Trenkle 1994] Cavnar, William B und J. M. Trenkle (1994). N-GramBased Text Categorization, In: Proceedings of SDAIR94 3rd Annual Symposium on Document Analysis and Information Retrieval, S. 161–175. Citeseer, http://citeseerx.ist.psu.edu/ viewdoc/download?doi=10.1.1.21.3248&rep=rep1&type=pdf. 28 [Clematide 2007] Clematide, Simon (2007). Tagger-Training und Evaluation mit TnT , http://www.cl.uzh.ch/siclemat/lehre/papers/tnt-training2007.txt. 76 [Covington 2003] Covington, Michael A (2003). ET: an Efficient Tokenizer in ISO Prolog, http://www.cl.uzh.ch/siclemat/lehre/papers/Covington2003.pdf. 21 [Cutting et al. 1992] Cutting, D, J. Kupiec, J. Pedersen und P. Sibun (1992). A Practical Part-of-Speech Tagger, In: Proceedings of the Third Conference on Applied Natural Language Processing, Trento, S. 133–140, Trento. Association for Computational Linguistics, http://www.aclweb.org/anthology/A92-1018.pdf, http://www.cl.uzh.ch/siclemat/lehre/papers/CuttingKupiec1992.pdf. 74 [Dudenredaktion 2005] Dudenredaktion, Hrsg. (2005). Duden, die Grammatik: Unentbehrlich für richtiges Deutsch, Bd. 4 d. Reihe Der Duden. Dudenverlag, 7. Aufl. 62 115 [EAGLES 1996] EAGLES (1996). ELM-DE: EAGLES Specifications for German morphosyntax: Lexicon Specification and Classification Guidelines, electronic, http://www.ilc.cnr.it/EAGLES96/pub/eagles/lexicons/elm_de.ps.gz, http://www.cl.uzh.ch/siclemat/lehre/papers/EAGLES1996.pdf. 52 [excelsis 2007] excelsis (2007). Hörbeispiel: Fussball-WM-Auskunft, http://www.excelsisnet.com/download/voicedemos/DemoWM2002.mp3, http://www.cl.uzh.ch/siclemat/lehre/papers/excelsis2007.mp3. 100 [F-Mass 2006] F-Mass (2006). F1 -Mass in 3D als Funktion von Recall (x) und Precision (y), http://www.cl.uzh.ch/siclemat/lehre/papers/F-Mass2006.mov. 87 [Gallmann und Sitta 2010] Gallmann, Peter und H. Sitta (2010). Deutsche Grammatik. Lehrmittelverlag, 6. Aufl. 51, 72 [German 2006] German, Klara (2006). AT&T Beispielsatz Deutsch, http://www.research.att.com/~ttsweb/tts/demo.php, http://www.cl.uzh.ch/siclemat/lehre/papers/German2006.mp3. 89 [Grefenstette und Tapanainen 1994] Grefenstette, Gregory und P. Tapanainen (1994). What is a Word, What is a Sentence? Problems of Tokenisation, In: Proceedings of the 3rd Conference on Computational Lexicography and Text Research, COMPLEX’94 , Budapest. http://citeseer.ist.psu.edu/grefenstette94what.html, http://www.cl.uzh.ch/siclemat/lehre/papers/GrefenstetteTapanainen1994.pdf. 25, 27, 28 [Grover 2008] Grover, Claire (2008). LT-TTT2 Example Pipelines Documentation, http://www.ltg.ed.ac.uk/software/lt-ttt2, http://www.cl.uzh.ch/siclemat/lehre/papers/Grover2008.pdf. 22 [Hearst 1999] Hearst, Marti A. (1999). Untangling text data mining, In: Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, S. 3–10, Morristown, NJ, USA. Association for Computational Linguistics. 114 [ICL 2011a] ICL (2011a). Informationen zur Leistungsüberprüfung für Bachelorstudierende, http://www.cl.uzh.ch/siclemat/lehre/papers/ICL2011.pdf. 9 [ICL 2011b] ICL (2011b). Informationen zur Leistungsüberprüfung für Lizentiatsstudierende, http://www.cl.uzh.ch/siclemat/lehre/papers/ICL2011a.pdf. 9 [Jurafsky und Martin 2000] Jurafsky, Daniel und J. H. Martin (2000). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall. 17, 91 [Kassensturz 2006] Kassensturz (2006). Sendung Kassensturz vom 10. Oktober, http://www.cl.uzh.ch/siclemat/lehre/papers/Kassensturz2006.mov. 11 [Liberman und Church 1992] Liberman, Mark und K. W. Church (1992). Text Analysis and Word Pronunciation in Text-to-Speech Synthesis, In: Furui, Sadaoki und M. M. Sondhi, Hrsg.: Advances in Speech Signal Processing, S. 791–832. Marcel Dekker, New York. 90 [Linke et al. 2001] Linke, Angelika, M. Nussbaumer und P. R. Portmann, Hrsg. (2001). Studienbuch Linguistik. Niemeyer. 49 116 [Manning et al. 2009] Manning, Christopher, P. Raghavan und H. Schütze (2009). An Introduction to Information Retrieval. Cambridge University Press, http://www. informationretrieval.org. 107, 114 [MARY 2006] MARY, Male (2006). Hörbeispiel Sprachsynthese: Emotionaler Fussballreporter, http://www.cl.uzh.ch/siclemat/lehre/papers/MARY2006.mp3. 99 [Oberhauser und Labner 2003] Oberhauser, Otto und J. Labner (2003). OPACErweiterung durch automatische Indexierung: Empirische Untersuchung mit Daten aus dem Österreichischen Verbundkatalog, In: ODOK ’03 : 10. Österreichisches OnlineInformationstreffen ; 11. Österreichischer Dokumentartag. 110 [ORF 2007a] ORF (2007a). Hörbeispiel 1: Sprechender Fahrplan Salzburg, http://salzburg.orf.at/magazin/leben/stories/73906/, http://www.cl.uzh.ch/siclemat/lehre/papers/ORF2007a.mp3. 100 [ORF 2007b] ORF (2007b). Hörbeispiel 3: Sprechender Fahrplan Salzburg, http://salzburg.orf.at/magazin/leben/stories/73906/, http://www.cl.uzh.ch/siclemat/lehre/papers/ORF2007.mp3. 100 [Palmer 2000] Palmer, David D (2000). Tokenisation and Sentence Segmentation, In: Dale, Robert, H. Moisl und H. Somers, Hrsg.: Handbook of natural language processing, S. 11– 35. New York. 28 [Pfister und Kaufmann 2008] Pfister, Beat und T. Kaufmann (2008). Sprachverarbeitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung, SpringerLehrbuch. Springer, Berlin. 99 [Plaehn 1998] Plaehn, Oliver (1998). ANNOTATE: http://www.cl.uzh.ch/siclemat/lehre/papers/Plaehn1998a.pdf. 58 [Plaehn 2000] Plaehn, Oliver (2000). ANNOTATE v3.6 http://www.cl.uzh.ch/siclemat/lehre/papers/Plaehn2000.txt. 58 Bedienungsanleitung, – Quick Reference, [Pyysalo 2008] Pyysalo, Sampo (2008). A Dependency Parsing Approach to Biomedical Text Mining, Department of Information Technology; TUCS, http://oa.doria.fi/handle/10024/ 39934. 101, 102 [Raggett 2001] Raggett, Dave (2001). Dave Raggett’s Introduction to VoiceXML 2.0 , http: //www.w3.org/Voice/Guide/. 99 [Salton 1988] Salton, Gerard (1988). Automatic text processing : the transformation, analysis, and retrieval of information by computer. Addison-Wesley, Reading, Mass. 113 [Schiller et al. 1999] Schiller, Anne, S. Teufel und C. Stöckert (1999). Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset), http://www.ims. uni-stuttgart.de/projekte/corplex/TagSets/stts-1999.pdf. 52 [Schmid 2006] Schmid, Helmut (2006). TreeTagger, http://www.ims.uni-stuttgart.de/ projekte/corplex/TreeTagger/DecisionTreeTagger.html. 21 [Simmons 2006a] Simmons (2006a). Hörbeispiel ToBi: Bloomingdales, http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm, http://www.cl.uzh.ch/siclemat/lehre/papers/Simmons2006a.mp3. 7, 94 117 [Simmons 2006b] Simmons, Anita (2006b). Sound-Datei zu Beispielsatz ”There ‘s a lovely one in Bloomingdale.“, http://anita.simmons.edu/~tobi/chap2-7/bloomingdales1.wav, http://www.cl.uzh.ch/siclemat/lehre/papers/Simmons2006.mp3. 94 [Steiner 2003] Steiner, Petra (2003). Das revidierte Münsteraner Tagset / Deutsch (MT/D). Beschreibung, Anwendung, Beispiele und Problemfälle, http://santana.uni-muenster. de/Publications/tagbeschr_final.ps. 52 [Stocker et al. 2004] Stocker, Christa, D. Macher, R. Studler, N. Bubenhofer, D. Crevlin, R. Liniger und M. Volk (2004). Studien-CD Linguistik: Multimediale Einführungen und interaktive Übungen zur germanistischen Sprachwissenschaft, Max Niemeyer Verlag, http://www.ds.uzh.ch/studien-cd. 51, 62 [Tjong Kim Sang und Buchholz 2000] Tjong Kim Sang, Erik F. und S. Buchholz (2000). Introduction to the CoNLL-2000 Shared Task: Chunking, In: Cardie, Claire, W. Daelemans, C. Nedellec und E. Tjong Kim Sang, Hrsg.: Proceedings of CoNLL2000 and LLL-2000 , S. 127–132. Lisbon, Portugal. 46, 47 [Traunmüller 1997] Traunmüller, Hartmut (1997). Geschichte der Sprachsynthese, http: //www.ling.su.se/staff/hartmut/kempln.htm. 12 [Turing 1950] Turing, A. M. (1950). Computing Machinery and Intelligence, Mind, 59(236):433–460, http://cogprints.org/499/00/turing.html. 17 [Universitätsrat 2004] Universitätsrat (2004). Richtlinie über die Umsetzung des Bologna-Prozesses an der Universität Zürich, http://www.studienreform.unizh.ch/dokumente/ richtlinien.pdf. 10 [Volk und Schneider 1998] Volk, Martin und G. Schneider (1998). Comparing a statistical and a rule-based tagger for German, In: Proceedings of KONVENS-98 , S. 125–137, Bonn. http://www.cl.uzh.ch/siclemat/lehre/papers/VolkSchneider1998.pdf. 75 [Weisser 2005] Weisser, Martin (2005). Computational Philology, http://ell.phil. tu-chemnitz.de/compPhil/intro.html [cited Mittwoch, 11. Oktober 2006]. 13 [Wikipedia 2006] Wikipedia (2006). Loebner-Preis — Wikipedia, Die freie Enzyklopädie, http://de.wikipedia.org/w/index.php?title=Loebner-Preis&oldid=22274242. 17 [Wikipedia 2007] Wikipedia (2007). Harmonic mean — Wikipedia, The Free Encyclopedia, http://en.wikipedia.org/w/index.php?title=Harmonic_mean&oldid=107249796. 86 [Wikipedia 2009] Wikipedia (2009). Kognitionswissenschaft — Wikipedia, Die freie Enzyklopädie, http://de.wikipedia.org/w/index.php?title=Kognitionswissenschaft. 17 118 Index 10-fache Kreuzvalidierung, 79 Junktur, 97 Adjektiv-Flexion, 56 Alphabet, 31 Eingabealphabet, 34 Assimilation, 97 Aussprachewörterbuch, elektronisch, 91 Kasus, 55 Kern, 65 Koartikulation, 97 Kognitionswissenschaft, 17 Komparation, siehe Grad Konstituente, 62 Konstituentenanalyse, 62 Konstituenz, 62 Koordination, 70 Kopf, 65 BOW, 109 Computerlinguistik, 11 Data-Mining, 113 DEA, 34 Dependenz, 66 Dialogsystem Conversational User Interface, 98 Interactive Voice Response System, 98 Kommandowortsystem, 98 Diphon, 95 Dokument als Menge von Indextermen, 109 Dokumenthäufigkeit, inverse, siehe IDF Lemma, 50 Lemmatisierung, 58 Levenshtein Editierdistanz, siehe Editierdistanz, minimal Lexem, 50 Lexemverband, 50 Linguistik, 15 Merkmal, morphologisch, 53 Modus, 55 Morphologie, 16 Morphologieanalyse, 58 Morphologiegenerierung, 58 Editierdistanz, minimal, 97 Einsetzprobe, 57 Endzustand, 34 Epsilon, 31 Ersatzprobe, 57 Evaluation, 78 Named Entity Regonition, 27 NER, 27 Numerus, 54, 56 F-Measure, 46, 81 Oronym, 97 Genus, 54 Grad, 56 Grundfrequenzverlauf, 94 partielle syntaktische, 41, 82 Person, 55 Phonem, 15 Phonetik, 15 Phonologie, 15 Pragmatik, 16 Precision, 45, 80 Probe, linguistisch, 56 IDF, 112 Index, 106 Indexieren, 106 IOB-Chunks, 46, 83 IPA, 15 IR, 106 119 Qualität einer Evaluation, 78 XML-Standard, 23 Recall, 45, 79 Regeln, phonologisch, 93 regulärer Ausdruck, 22 Reliabilität, 78 Retrievalmodell, Boolsch, 109 Zeichenkette, 31 Zeichenkette, leer, 31 Zustand, 34 Zustandsübergangsfunktion, 34 Satz, 62 Schallwellen, 94 Semantik, 16 Sigma, 31 Silbentrennung, 26 Spracherkennungssystem, 96 Sprachsynthesesystem, 89 Sprachtechnologie, 12 Startzustand, 34 Syntaktische Funktion, 66 Syntax, 16 Tag-Set, 73 Tagging-Genauigkeit, 78 Tempus, 55 Termhäufigkeit, siehe TF Text-Mining, 113 Text-Segmentierung, 19 TF, 112 Token, 49 TTS, siehe Sprachsynthesesystem Umformungsprobe, 61 Validität, 78 Vektorraummodell, 113 Verschachtelte Chunks, 47, 83 Verschiebeprobe, 61 volle syntaktische, 41 Volltextsuche, klassisch, 106 Vorkommensmatrix, 107 Weglassprobe, 60 WER, siehe Wortfehlerrate Wort, 31, 48 Wort,syntaktisch, 50 Wortakzent, 93 Wortarten, 51 Wortarten-Tagger, 73 Wortfehlerrate, 97 Wortform, 49 120