slides - SFB 632
Transcription
slides - SFB 632
35. Jahrestagung der DGfS, 12.-15. März 2013, Potsdam Arbeitsgruppe 10: Modellierung nicht-standardisierter Schriftlichkeit Thomas Bartz, Angelika Storrer Korpusbasierte Analyse internetbasierter Kommunikation Phänomene und Herausforderungen *räusper* Hömma woher kommste denn? Ick bin aus Do-Stadt, net aus Berlin. Dortmunder Chat-Korpus: 1101001a_CvK_Welcome_2004-10-22_a.xml Technische Universität Dortmund Institut für deutsche Sprache und Literatur Technische Universität Dortmund Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 1 0. Dieser Vortrag Überblick über den Vortrag 1. Motivation & Projekthintergrund 2. Phänomene und Herausforderungen 3. Ausblick Technische Universität Dortmund Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 2 1. Motivation & Projekthintergrund Projekt „Deutsches Referenzkorpus zur internetbasierten Kommunikation“ (DeRiK) BBAW / TU Dortmund (seit 2010), www.dwds.de DFG-Netzkerk „Empirische Erforschung internetbasierter Kommunikation“ (seit 2010) Sprecher: Michael Beißwenger, www.empirikom.net Netzwerk “Building & Annotating CMC Corpora“ Korpusprojekte aus D, F, IT, NL (seit 2013), wiki.itmc.tu-dortmund.de/cmc/ BMBF-Verbundprojekt „Korpusgestützte Recherche und Analyse mit Hilfe von Data Mining“ (KobRA) TU Dortmund: Germanistik/Informatik, BBAW, SfS Tübingen, IDS Manneim (seit 2012) Projektleitung: Angelika Storrer, www.kobra.tu-dortmund.de Technische Universität Dortmund Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 4 2. Phänomene und Herausforderungen Nicht-standardisierte Schriftlichkeit in der IBK: Interaktionsorientiertes Schreiben Zu den Besonderheiten der IBK gehört eine Schreibhaltung, bei der der unmittelbare kommunikative Erfolg im Kontext der laufenden Interaktion eine höhere Priorität hat als die (für Schrifttexte sonst notwendige) situationsunabhängige Verständlichkeit des sprachlichen Produkts. Dies zeigt sich an folgenden typischen Merkmalen: Schnellschreib-Phänomene Sprachliche Ökonomie: Liberaler Umgang mit GKS und Interpunktion; Akronyme Orientierung am Duktus der gesprochenen Umgangssprache (Lexik und Syntax) „Verschriftete Umgangssprache“: An der umgangssprachlichen Lautung orientierte Verschriftungen Innovative semiotische und sprachliche Formen: Emoticons, Inflektive, Adressierungsausdrücke Technische Universität Dortmund Institut für deutsche Sprache und Literatur wieso stoeps?biste losgerannt einkaufen udn ahst vergessen dich anzuziehen vorher?*G* Thomas Bartz / Angelika Storrer, 15.03.2013: 5 2. Phänomene und Herausforderungen Tests mit Werkzeugen zur automatischen Annotation Testdatenset: Belege für ausgewählte Phänomene IBK-spezifischer Sprachverwendung Phänomene WikipediaChat Diskussionen Ökonomie: Akronyme 100 100 Verschriftete Umgangssprache: Wortschreibung 100 100 Verschriftete Umgangssprache: Kontraktive Formen 100 100 Innovative Zeichen: Emoticons 100 100 Innovative Zeichen: Aktionswörter 100 100 Belege gesamt DWDS 100 1000 Toolchain 1: Tokenisierer/Satzgrenzenerkenner + TreeTagger des IMS Toolchain 2: Tokenisierer/Satzgrenzenerkenner + OpenNLP-Tagger (SfS) Technische Universität Dortmund Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 6 2. Phänomene und Herausforderungen Automatische Verarbeitung von IBK-Sprachdaten: Herausforderungen auf verschiedenen Ebenen Tokenizer Tagset: STTS POS-Tagger Technische Universität Dortmund Institut für deutsche Sprache und Literatur Daten Thomas Bartz / Angelika Storrer, 15.03.2013: 7 2. Phänomene und Herausforderungen Automatische Verarbeitung von IBK-Sprachdaten: Herausforderungen auf verschiedenen Ebenen Segmentierung Technische Universität Dortmund Institut für deutsche Sprache und Literatur Tokenizer POS-Tagger Tagset: STTS Nicht-standardkonforme Verwendungen von Spatien und Interpunktionszeichen führen bei der Tokenisierung z.T. zu Einheiten, die in den folgenden Schritten der Verarbeitung nicht sinnvoll klassifizierbar sind. Daten Thomas Bartz / Angelika Storrer, 15.03.2013: 8 2. Phänomene und Herausforderungen Automatische Verarbeitung von IBK-Sprachdaten: Herausforderungen auf verschiedenen Ebenen Segmentierung Technische Universität Dortmund Institut für deutsche Sprache und Literatur Tokenizer POS-Tagger Tagset: STTS Nicht-standardkonforme Verwendungen von Spatien und Interpunktionszeichen führen bei der Tokenisierung z.T. zu Einheiten, die in den folgenden Schritten der Verarbeitung nicht sinnvoll klassifizierbar sind. Daten Klassifizierung Einheiten werden trotz korrekter bzw. normalisierter Segmentierung nicht als Vertreter im Tagset vorhandener Kategorien identifiziert. Thomas Bartz / Angelika Storrer, 15.03.2013: 9 2. Phänomene und Herausforderungen Automatische Verarbeitung von IBK-Sprachdaten: Herausforderungen auf verschiedenen Ebenen Segmentierung Tokenizer POS-Tagger Tagset: STTS Nicht-standardkonforme Verwendungen von Spatien und Interpunktionszeichen führen bei der Tokenisierung z.T. zu Einheiten, die in den folgenden Schritten der Verarbeitung nicht sinnvoll klassifizierbar sind. Daten Klassifizierung Einheiten werden trotz korrekter bzw. normalisierter Segmentierung nicht als Vertreter im Tagset vorhandener Kategorien identifiziert. Kategorien Einheiten können trotz korrekter bzw. normalisierter Segmentierung nicht zugeordnet werden, weil im Tagset keine entsprechende Kategorie existiert. Technische Universität Dortmund Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 10 2. Phänomene und Herausforderungen Ökonomie: IBK-typische und okkasionelle Akronyme IMHO in my humble opinion bspw. beispielsweise Die Akronyme werden z.T. in Kombination mit anderen Einheiten verwendet. Einzelne Bestandteile können iteriert oder variiert werden. b.t.w. by the way Btw. by the way vllt vielleicht evt. eventuell mE meines Erachtens zB zum Beispiel cuuuuu see you Thx thanks cya see ya jmd jemand(en) cu@all + Adressierung LG Liebe Grüße rääää „re“ = returned POV point of view (in Wikipedia-Diskussionen) Technische Universität Dortmund Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 11 2. Phänomene und Herausforderungen Segmentierung Tokenizer Korrekte Tokenisierungen Toolchain 2 Datenset 98 98 Wikip.-Diskussion 89 92 Chat <>vllt</> <>cs=chpo</> Tagset: STTS Toolchain 1 POS-Tagger Daten Klassifizierung Korrekte POS-Tags Toolchain 1 Toolchain 2 Datenset 8 21 Wikip.-Diskussion 10 17 Chat dat fusion-pack fuer cs/FM Sollen wir evt./ADJD nicht gleich anfangen sollte das mE/ADV noch ergänzt werden Ansonsten: IMO/NE Technische Universität Dortmund Institut für deutsche Sprache und Literatur Abgekürzte Wortformen werden getaggt wie die ausgeschriebene Form. Mehrteilige, nicht durch Spatien getrennte Abkürzungen werden entsprechend ihrer syntaktischen Funktion klassifiziert. Vgl. STTS-Guidelines: 9 Thomas Bartz / Angelika Storrer, 15.03.2013: 12 2. Phänomene und Herausforderungen „Verschriftete Umgangssprache“: Wortschreibung DWDS Wikipedia-Diskussion Chat ja, in ihm offenbare sich Jo, gute Vorbereitung ist ahjo :) Nein, mein Leben besteht Nö, hat er nicht mehr ;-) nope nusu, nur die üblen Okay, okay, sie ist ein okidoki, sag Bescheid oki...mach‘s gut Gut, gelegentlich brachte Jut, ich find die Variante jo mir jehts jut dir och das ist schon kraftraubend Schaden kann dat ja nich syno det is to wenig for de nicht genug Anregungen ich wars ja net ;O) nur mit Dir. Sonst nüscht. Guten Tag, Silke gudn tach! ok, mach ich all gun tach, kolleje jauch! ins Grübeln, was? Wat bisse, derzeit bei die na watt? Chance für Kollege Zufall nur unter Kollegen und all gun tach, kolleje jauch! wieder gucken konnten mal mal drüber guggn. und pösguggende elsi :) Mit letzten Grüßen nicht ;o) Grüßken greetz von nadi Technische Universität Dortmund Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 13 2. Phänomene und Herausforderungen Segmentierung Tokenizer Korrekte Tokenisierungen Toolchain 2 Datenset 99 100 Wikip.-Diskussion 91 92 Chat 100 100 DWDS <>moin,moin:-</> <>dori,wa?:-</> Tagset: STTS Toolchain 1 POS-Tagger Daten Klassifizierung Korrekte POS-Tags Toolchain 1 Toolchain 2 Datenset 34 44 13 87 Jut/NN jetze/VVFIN Wikip.-Diskussion Jute/VVFIN Vadder/NN 15 Chat Jo/NE feddich/ADJD 83 DWDS okidoki/NE nix/PIS Technische Universität Dortmund Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 14 2. Phänomene und Herausforderungen „Verschriftete Umgangssprache“: Kontraktive Formen wasn dat fürn heller streifen auf dem monitor? na da haste aber was verschlimmbessert, machstes selber rückgängig? :) slebst anna uni inna mensa shcmeckt das richtig gut Standard Non-standard Typ / STTS-Tags findest du, ich kenne es geht es findest + e, kenn + s, geht + s VVFIN + PPER mach es, schreib es mach + s, schreib + s VVIMP + PPER hast du, bist du, ist es hast + e, bist + e, iss + es VAFIN + PPER könntest du, kann es könntest + e, kann + s VMFIN + PPER machst du es machst + e + s VVFIN + PPER + PPER Technische Universität Dortmund Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 15 2. Phänomene und Herausforderungen Segmentierung Tokenizer Korrekte Tokenisierungen Toolchain 2 100 Datenset Tagset: STTS Toolchain 1 POS-Tagger 100 Wikip.-Diskussion 96 92 Chat Daten Klassifizierung Zugewiesene POS-Tags (Auswahl) Toolchain 1 Toolchain 2 VVFIN 35 VVFIN VVIMP 1 VMFIN Datenset 26 10 Wikip.-Diskussion NN 34 VAFIN 6 VVFIN 41 VVFIN 34 VMFIN 6 VAFIN NN 32 VMFIN „Es ist bis jetzt […] nicht möglich, […] kontraktive Formen mit einer Kombination aus mehreren Tags zu versehen.“ STTS-Guidelines: 9 11 Chat 6 Technische Universität Dortmund Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 16 2. Phänomene und Herausforderungen Innovative Zeichen: Emoticons :) (: :-) :-)) :-))) :o) ;-) ;-)))) :( :-( :O) :P :-P 8) =o) :-} (#):-) >:-> :Ü :-9 8) :-? ^^ -.o_O O-O ---./\.--°_° ´°`-´°` «o•o» Die Menge an Kombinationen aus Interpunktionszeichen, Zahlen und Buchstaben, die als Emoticons verwendet werden können, ist prinzipiell nicht begrenzt. Einzelne Elemente von Emoticons werden häufig absichtsvoll und kreativ iteriert. Weiß zufällig jemand, warum der Verein sich - entgegen allen Rechtschreibregeln :) - mit -ss- und nicht mit -ßschreibt? bekommt von mir einen Orden;-) Nee, mal im Ernst bitte wo hat anthony hopkins in anaconda mitgespielt? nirgends^^! :((( Mit mir will einfach keiner chatten!:((( @medien: ja, wenn man das so genau wüsste...:/ Technische Universität Dortmund Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 17 2. Phänomene und Herausforderungen Segmentierung Tokenizer Toolchain 1 Toolchain 2 <>:-D</> Datenset 23 22 Wikip.-Diskussion 48 45 Chat <>(#):-) </> <>;-</> <>)</> <>)</> POS-Tagger Tagset: STTS Korrekte Tokenisierungen Daten Kategorien Zugewiesene POS-Tags (häufigste) Toolchain 1 Toolchain 2 Datenset ADJA/D 52 $./$,/$( 68 NN/NE 43 NN/NE 23 Wikip.-Diskussion VVFIN 3 VV* 5 ADJA/D 52 NN/NE 40 NN/NE 43 $./$( 36 Chat CARD 4 XY 15 Technische Universität Dortmund Institut für deutsche Sprache und Literatur Auffällig: Selten bzw. gar nicht vergeben werden die Kategorien: XY „Nichtwort“, Symbolgruppen oder Kombinationen aus Ziffern und Zeichen ITJ den Emoticons positional und funktional ähnlich Thomas Bartz / Angelika Storrer, 15.03.2013: 18 2. Phänomene und Herausforderungen Innovative Zeichen: Inflektive und Inflektivkonstruktionen Inflektive *freu* *lach* *lächel* *grins* *ächz* *stotter* *wunder* *wink* *sss* *lol* *rofl* *g* *ggg* Einfache Inflektive sind oft homonym zu bestimmten Verbformen, insbesondere zu Imperativformen. Bei mehrteiligen Inflektivkonstruktionen (z.T. ohne Spatien) wäre die Möglichkeit einer Analyse der Bestandteile wünschenswert. Inflektivkonstruktionen *baff bin*, *entäuschtguck*, *fiesgrins*, *rotwerd* *feuerzeug an reb weiterreich*, *auf locher rumhüpf & konfetti mach*, *beimpostmannbedank*, *malganzdollgrüßundliebindenarmnehm* Technische Universität Dortmund Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 19 2. Phänomene und Herausforderungen Segmentierung Tokenizer Toolchain 1 Toolchain 2 <>*freu*</> Datenset 9 9 Wikip.-Diskussion 0 0 Chat POS-Tagger <>*</> <>grins</> <>*</> Tagset: STTS Korrekte Tokenisierungen Daten Kategorien Zugewiesene POS-Tags (häufigste) Toolchain 1 Toolchain 2 Datenset Tag VVIMP, wenn homonyme Imperativform vorhanden Toolchain 1 Datenset VV* 41 XY 30 NN/NE 32 VV* 24 Wikip.-Diskussion 34 von 58 Wikip.-Diskussion ADJA/D 25 ADJA/D 22 28 von 47 Chat VV* 41 XY 46 ADJA/D 32 VV* 23 Chat 0 von 58 Wikip.-Diskussion NN/NE 26 ADJA/D 20 1 von 47 Chat Technische Universität Dortmund Institut für deutsche Sprache und Literatur Toolchain 2 Datenset Thomas Bartz / Angelika Storrer, 15.03.2013: 20 3. Zusammenfassung und Ausblick Phänomene nicht-standardisierter Schriftlichkeit führen bei der automatischen linguistischen Aufbereitung von Sprachdaten aus der internetbasierten Kommunikation je nach Phänomentyp zu Herausforderungen auf verschiedenen Ebenen des Verarbeitungsprozesses: A Schnellschreib- und Ökonomie-Phänomene „Verschriftete Umgangssprache“ Segmentierungsproblematik Token-Verschmelzungen wegen z.T. fehlender Spatien Klassifizierungsproblematik Vorhandene Kategorien werden nicht zuverlässig zugewiesen (abweichende Schreibungen, sprechsprachliche Syntax). Mögliche Lösung: Aufbau handannotierter Korpora und Anpassung/Optimierung vorhandener Sprachverarbeitungswerkzeuge Nächster Vortrag: Kay-Michael Würzner, Lothar Lemnitzer, Alexander Geyken & Bryan Jurish: Linguistische Annotation von Dokumenten internetbasierter Technische Universität-Dortmund Kommunikation Eine explorative Analyse Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 21 3. Zusammenfassung und Ausblick B Innovative semiotische und sprachliche Formen Segmentierungsproblematik Token-Verschmelzungen, Aufsplittung zusammenhängender netztypischer Zeichenkombinationen Kategorienproblematik Fehlende Kategorien für netztypische Zeichen und Wortformen in gängigen Tagsets Mögliche Lösung: Entwicklung von Werkzeugen zur Identifizierung netztypischer Zeichenverwendungen Erweiterung relevanter Kategorien in bestehenden Annotationsschemata/Tagsets Aktuelle Arbeiten: Mitarbeit in der Arbeitsgruppe zur Überarbeitung des STTS Thomas Bartz, Michael Beißwenger, Angelika Storrer Vorschlag zur Erweiterung der TEI-Guidelines um IBK-typische Elemente M. Beißwenger, M. Ermakova, A. Geyken, L. Lemnitzer, A. Storrer (2012): A TEI Schema for the Representation of Computer-Mediated Communication. In: Journal of the Text Encoding Initiative (TEI), Universität Dortmund issueTechnische 3 | November 2012 (DOI: 10.4000/jtei.476). Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 22 3. Zusammenfassung und Ausblick Ausblick: Identifizierung IBK-typischer Zeichenverwendungen Die Identifizierung IBK-typischer Zeichenverwendungen wird durch homonyme konventionelle Zeichenverwendungen erschwert. Instanz wink, *wink* :-) Treffer falsch positiv Belege 128 123 5 25.350 ? ? Niederlande – Finnland -:- (-:-) :-), danke. IBK-Stilelemente auf Wikipedia-Diskussionsseiten BMBF-Verbundprojekt: KobRA Entwicklung von Verfahren zur Filterung und Disambiguierung bei der korpusbasierten Recherche und Analyse mit Hilfe von Data-Mining. Beteiligte: Angelika Storrer (Germanistik TU Dortmund, Koordination), Katharina Morik (Informatik TU Dortmund), Alexander Geyken (BBAW) Erhard Hinrichs (SfS Tübingen) Universität Dortmund MarcTechnische Kupietz, Andreas Witt (IDS Mannheim) Institut für deutsche Sprache und Literatur Korpus-basierte Recherche und Analyse mithilfe von Data-Mining http://www.kobra.tu-dortmund.de Thomas Bartz / Angelika Storrer, 15.03.2013: 23 35. Jahrestagung der DGfS, 12.-15. März 2013, Potsdam Arbeitsgruppe 10: Modellierung nicht-standardisierter Schriftlichkeit Thomas Bartz, Angelika Storrer Korpusbasierte Analyse internetbasierter Kommunikation Phänomene und Herausforderungen *räusper* Hömma woher kommste denn? Ick bin aus Do-Stadt, net aus Berlin. Dortmunder Chat-Korpus: 1101001a_CvK_Welcome_2004-10-22_a.xml Technische Universität Dortmund Institut für deutsche Sprache und Literatur Technische Universität Dortmund Institut für deutsche Sprache und Literatur Thomas Bartz / Angelika Storrer, 15.03.2013: 24