slides - SFB 632

Transcription

slides - SFB 632
35. Jahrestagung der DGfS, 12.-15. März 2013, Potsdam
Arbeitsgruppe 10: Modellierung nicht-standardisierter Schriftlichkeit
Thomas Bartz, Angelika Storrer
Korpusbasierte Analyse
internetbasierter Kommunikation
Phänomene und Herausforderungen
*räusper* Hömma woher kommste denn?
Ick bin aus Do-Stadt, net aus Berlin.
Dortmunder Chat-Korpus: 1101001a_CvK_Welcome_2004-10-22_a.xml
Technische Universität Dortmund
Institut für
deutsche
Sprache und Literatur
Technische
Universität
Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 1
0. Dieser Vortrag
Überblick über den Vortrag
1. Motivation & Projekthintergrund
2. Phänomene und Herausforderungen
3. Ausblick
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 2
1. Motivation & Projekthintergrund
Projekt „Deutsches Referenzkorpus zur internetbasierten
Kommunikation“ (DeRiK)
BBAW / TU Dortmund (seit 2010), www.dwds.de
DFG-Netzkerk „Empirische Erforschung internetbasierter
Kommunikation“
(seit 2010) Sprecher: Michael Beißwenger, www.empirikom.net
Netzwerk “Building & Annotating CMC Corpora“
Korpusprojekte aus D, F, IT, NL (seit 2013), wiki.itmc.tu-dortmund.de/cmc/
BMBF-Verbundprojekt „Korpusgestützte Recherche und
Analyse mit Hilfe von Data Mining“ (KobRA)
TU Dortmund: Germanistik/Informatik, BBAW, SfS Tübingen, IDS Manneim
(seit 2012) Projektleitung: Angelika Storrer, www.kobra.tu-dortmund.de
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 4
2. Phänomene und Herausforderungen
Nicht-standardisierte Schriftlichkeit in der IBK:
Interaktionsorientiertes Schreiben
Zu den Besonderheiten der IBK gehört eine Schreibhaltung, bei der der
unmittelbare kommunikative Erfolg im Kontext der laufenden Interaktion eine
höhere Priorität hat als die (für Schrifttexte sonst notwendige)
situationsunabhängige Verständlichkeit des sprachlichen Produkts.
Dies zeigt sich an folgenden typischen Merkmalen:

Schnellschreib-Phänomene

Sprachliche Ökonomie:
Liberaler Umgang mit GKS und
Interpunktion; Akronyme

Orientierung am Duktus
der gesprochenen Umgangssprache
(Lexik und Syntax)

„Verschriftete Umgangssprache“:
An der umgangssprachlichen Lautung orientierte Verschriftungen

Innovative semiotische und sprachliche Formen:
Emoticons,
Inflektive,
Adressierungsausdrücke
Technische Universität
Dortmund
Institut für deutsche Sprache und Literatur
wieso stoeps?biste
losgerannt einkaufen udn
ahst vergessen dich
anzuziehen vorher?*G*
Thomas Bartz / Angelika Storrer, 15.03.2013: 5
2. Phänomene und Herausforderungen
Tests mit
Werkzeugen zur
automatischen
Annotation
Testdatenset:
Belege für ausgewählte Phänomene
IBK-spezifischer
Sprachverwendung
Phänomene
WikipediaChat
Diskussionen
Ökonomie: Akronyme
100
100
Verschriftete Umgangssprache:
Wortschreibung
100
100
Verschriftete Umgangssprache:
Kontraktive Formen
100
100
Innovative Zeichen: Emoticons
100
100
Innovative Zeichen: Aktionswörter
100
100
Belege gesamt
DWDS
100
1000
Toolchain 1: Tokenisierer/Satzgrenzenerkenner + TreeTagger des IMS
Toolchain 2: Tokenisierer/Satzgrenzenerkenner + OpenNLP-Tagger (SfS)
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 6
2. Phänomene und Herausforderungen
Automatische Verarbeitung von IBK-Sprachdaten:
Herausforderungen auf verschiedenen Ebenen
Tokenizer
Tagset: STTS
POS-Tagger
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Daten
Thomas Bartz / Angelika Storrer, 15.03.2013: 7
2. Phänomene und Herausforderungen
Automatische Verarbeitung von IBK-Sprachdaten:
Herausforderungen auf verschiedenen Ebenen
 Segmentierung
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Tokenizer
POS-Tagger
Tagset: STTS
Nicht-standardkonforme
Verwendungen von
Spatien und Interpunktionszeichen führen bei
der Tokenisierung z.T.
zu Einheiten, die in den
folgenden Schritten der
Verarbeitung nicht
sinnvoll klassifizierbar
sind.
Daten
Thomas Bartz / Angelika Storrer, 15.03.2013: 8
2. Phänomene und Herausforderungen
Automatische Verarbeitung von IBK-Sprachdaten:
Herausforderungen auf verschiedenen Ebenen

 Segmentierung
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Tokenizer
POS-Tagger
Tagset: STTS
Nicht-standardkonforme
Verwendungen von
Spatien und Interpunktionszeichen führen bei
der Tokenisierung z.T.
zu Einheiten, die in den
folgenden Schritten der
Verarbeitung nicht
sinnvoll klassifizierbar
sind.
Daten
Klassifizierung
Einheiten werden trotz
korrekter bzw. normalisierter Segmentierung
nicht als Vertreter im
Tagset vorhandener
Kategorien identifiziert.
Thomas Bartz / Angelika Storrer, 15.03.2013: 9
2. Phänomene und Herausforderungen
Automatische Verarbeitung von IBK-Sprachdaten:
Herausforderungen auf verschiedenen Ebenen

 Segmentierung
Tokenizer
POS-Tagger
Tagset: STTS
Nicht-standardkonforme
Verwendungen von
Spatien und Interpunktionszeichen führen bei
der Tokenisierung z.T.
zu Einheiten, die in den
folgenden Schritten der
Verarbeitung nicht
sinnvoll klassifizierbar
sind.
Daten
Klassifizierung
Einheiten werden trotz
korrekter bzw. normalisierter Segmentierung
nicht als Vertreter im
Tagset vorhandener
Kategorien identifiziert.
 Kategorien
Einheiten können trotz korrekter bzw. normalisierter
Segmentierung nicht zugeordnet werden, weil im
Tagset keine entsprechende Kategorie existiert.
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 10
2. Phänomene und Herausforderungen
Ökonomie:
IBK-typische und okkasionelle Akronyme
IMHO in my humble opinion
bspw. beispielsweise
Die Akronyme werden
z.T. in Kombination mit
anderen Einheiten
verwendet.
Einzelne Bestandteile
können iteriert oder
variiert werden.
b.t.w.
by the way
Btw.
by the way
vllt
vielleicht
evt.
eventuell
mE
meines Erachtens
zB
zum Beispiel
cuuuuu
see you
Thx
thanks
cya
see ya
jmd
jemand(en)
cu@all
+ Adressierung
LG
Liebe Grüße
rääää
„re“ = returned
POV
point of view (in Wikipedia-Diskussionen)
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 11
2. Phänomene und Herausforderungen
 Segmentierung
Tokenizer
Korrekte Tokenisierungen
Toolchain 2
Datenset
98
98
Wikip.-Diskussion
89
92
Chat
<>vllt</> 
<>cs=chpo</> 
Tagset: STTS
Toolchain 1
POS-Tagger
Daten
 Klassifizierung
Korrekte POS-Tags
Toolchain 1
Toolchain 2
Datenset
8
21
Wikip.-Diskussion
10
17
Chat
dat fusion-pack fuer cs/FM 
Sollen wir evt./ADJD  nicht gleich anfangen
sollte das mE/ADV  noch ergänzt werden
Ansonsten: IMO/NE 
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Abgekürzte Wortformen werden
getaggt wie die ausgeschriebene
Form.
Mehrteilige, nicht durch Spatien
getrennte Abkürzungen werden
entsprechend ihrer
syntaktischen Funktion
klassifiziert.
Vgl. STTS-Guidelines: 9
Thomas Bartz / Angelika Storrer, 15.03.2013: 12
2. Phänomene und Herausforderungen
„Verschriftete Umgangssprache“:
Wortschreibung
DWDS
Wikipedia-Diskussion
Chat
ja, in ihm offenbare sich
Jo, gute Vorbereitung ist
ahjo :)
Nein, mein Leben besteht
Nö, hat er nicht mehr ;-)
nope nusu, nur die üblen
Okay, okay, sie ist ein
okidoki, sag Bescheid
oki...mach‘s gut
Gut, gelegentlich brachte
Jut, ich find die Variante
jo mir jehts jut dir och
das ist schon kraftraubend Schaden kann dat ja nich
syno det is to wenig for de
nicht genug Anregungen
ich wars ja net ;O)
nur mit Dir. Sonst nüscht.
Guten Tag, Silke
gudn tach! ok, mach ich
all gun tach, kolleje jauch!
ins Grübeln, was?
Wat bisse, derzeit bei die
na watt?
Chance für Kollege Zufall
nur unter Kollegen und
all gun tach, kolleje jauch!
wieder gucken konnten
mal mal drüber guggn.
und pösguggende elsi :)
Mit letzten Grüßen
nicht ;o) Grüßken
greetz von nadi
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 13
2. Phänomene und Herausforderungen
 Segmentierung
Tokenizer
Korrekte Tokenisierungen
Toolchain 2
Datenset
99
100
Wikip.-Diskussion
91
92
Chat
100
100
DWDS
<>moin,moin:-</> 
<>dori,wa?:-</> 
Tagset: STTS
Toolchain 1
POS-Tagger
Daten
 Klassifizierung
Korrekte POS-Tags
Toolchain 1
Toolchain 2
Datenset
34
44
13
87
Jut/NN 
jetze/VVFIN 
Wikip.-Diskussion
Jute/VVFIN 
Vadder/NN 
15
Chat
Jo/NE 
feddich/ADJD 
83
DWDS
okidoki/NE 
nix/PIS 
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 14
2. Phänomene und Herausforderungen
„Verschriftete Umgangssprache“:
Kontraktive Formen
wasn dat fürn heller streifen auf
dem monitor?
na da haste aber was
verschlimmbessert, machstes
selber rückgängig? :)
slebst anna uni inna mensa
shcmeckt das richtig gut
Standard
Non-standard
Typ / STTS-Tags
findest du, ich kenne es
geht es
findest + e, kenn + s,
geht + s
VVFIN + PPER
mach es, schreib es
mach + s, schreib + s
VVIMP + PPER
hast du, bist du, ist es
hast + e, bist + e, iss + es VAFIN + PPER
könntest du, kann es
könntest + e, kann + s
VMFIN + PPER
machst du es
machst + e + s
VVFIN + PPER + PPER
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 15
2. Phänomene und Herausforderungen
 Segmentierung
Tokenizer
Korrekte Tokenisierungen
Toolchain 2
100
Datenset
Tagset: STTS
Toolchain 1
POS-Tagger
100 Wikip.-Diskussion
96
92 Chat
Daten
 Klassifizierung
Zugewiesene POS-Tags (Auswahl)
Toolchain 1
Toolchain 2
VVFIN
35 VVFIN
VVIMP
1 VMFIN
Datenset
26
10 Wikip.-Diskussion
NN
34 VAFIN
6
VVFIN
41 VVFIN
34
VMFIN
6 VAFIN
NN
32 VMFIN
„Es ist bis jetzt […] nicht
möglich, […] kontraktive
Formen mit einer Kombination
aus mehreren Tags zu
versehen.“
STTS-Guidelines: 9
11 Chat
6
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 16
2. Phänomene und Herausforderungen
Innovative Zeichen:
Emoticons
:)
(:
:-)
:-))
:-)))
:o)
;-)
;-))))
:(
:-(
:O)
:P
:-P
8)
=o)
:-}
(#):-)
>:->
:Ü
:-9
8)
:-?
^^
-.o_O
O-O
---./\.--°_°
´°`-´°`
«o•o»
Die Menge an Kombinationen aus Interpunktionszeichen,
Zahlen und Buchstaben, die als Emoticons verwendet
werden können, ist prinzipiell nicht begrenzt.
Einzelne Elemente von Emoticons werden häufig
absichtsvoll und kreativ iteriert.
Weiß zufällig jemand, warum der Verein sich - entgegen
allen Rechtschreibregeln :) - mit -ss- und nicht mit -ßschreibt?
bekommt von mir einen Orden;-) Nee, mal im Ernst
bitte wo hat anthony hopkins in anaconda mitgespielt?
nirgends^^!
:((( Mit mir will einfach keiner chatten!:(((
@medien: ja, wenn man das so genau wüsste...:/
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 17
2. Phänomene und Herausforderungen
 Segmentierung
Tokenizer
Toolchain 1
Toolchain 2
<>:-D</> 
Datenset
23
22 Wikip.-Diskussion
48
45 Chat
<>(#):-) </> 
<>;-</> 
<>)</> 
<>)</> 
POS-Tagger
Tagset: STTS
Korrekte Tokenisierungen
Daten
 Kategorien
Zugewiesene POS-Tags (häufigste)
Toolchain 1
Toolchain 2
Datenset
ADJA/D
52 $./$,/$(
68
NN/NE
43 NN/NE
23 Wikip.-Diskussion
VVFIN
3 VV*
5
ADJA/D
52 NN/NE
40
NN/NE
43 $./$(
36 Chat
CARD
4 XY
15
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Auffällig: Selten bzw. gar nicht
vergeben werden die
Kategorien:
 XY
„Nichtwort“, Symbolgruppen
oder Kombinationen aus
Ziffern und Zeichen
 ITJ
den Emoticons positional
und funktional ähnlich
Thomas Bartz / Angelika Storrer, 15.03.2013: 18
2. Phänomene und Herausforderungen
Innovative Zeichen:
Inflektive und Inflektivkonstruktionen
Inflektive
*freu*
*lach*
*lächel*
*grins*
*ächz*
*stotter*
*wunder*
*wink*
*sss*
*lol*
*rofl*
*g*
*ggg*
Einfache Inflektive sind oft homonym zu bestimmten
Verbformen, insbesondere zu Imperativformen.
Bei mehrteiligen Inflektivkonstruktionen (z.T. ohne
Spatien) wäre die Möglichkeit einer Analyse der
Bestandteile wünschenswert.
Inflektivkonstruktionen
*baff bin*,
*entäuschtguck*, *fiesgrins*, *rotwerd*
*feuerzeug an reb weiterreich*,
*auf locher rumhüpf & konfetti mach*,
*beimpostmannbedank*,
*malganzdollgrüßundliebindenarmnehm*
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 19
2. Phänomene und Herausforderungen
 Segmentierung
Tokenizer
Toolchain 1
Toolchain 2
<>*freu*</> 
Datenset
9
9 Wikip.-Diskussion
0
0 Chat
POS-Tagger
<>*</> 
<>grins</> 
<>*</> 
Tagset: STTS
Korrekte Tokenisierungen
Daten
 Kategorien
Zugewiesene POS-Tags (häufigste)
Toolchain 1
Toolchain 2
Datenset
Tag VVIMP, wenn homonyme
Imperativform vorhanden
Toolchain 1
Datenset
VV*
41 XY
30
NN/NE
32 VV*
24 Wikip.-Diskussion
34 von 58 Wikip.-Diskussion
ADJA/D
25 ADJA/D
22
28 von 47 Chat
VV*
41 XY
46
ADJA/D
32 VV*
23 Chat
0 von 58 Wikip.-Diskussion
NN/NE
26 ADJA/D
20
1 von 47 Chat
Technische Universität Dortmund
Institut für deutsche Sprache und Literatur
Toolchain 2
Datenset
Thomas Bartz / Angelika Storrer, 15.03.2013: 20
3. Zusammenfassung und Ausblick
Phänomene nicht-standardisierter Schriftlichkeit führen bei der automatischen
linguistischen Aufbereitung von Sprachdaten aus der internetbasierten
Kommunikation je nach Phänomentyp zu Herausforderungen auf
verschiedenen Ebenen des Verarbeitungsprozesses:
A
 Schnellschreib- und Ökonomie-Phänomene
 „Verschriftete Umgangssprache“
 Segmentierungsproblematik
Token-Verschmelzungen wegen
z.T. fehlender Spatien

Klassifizierungsproblematik
Vorhandene Kategorien werden
nicht zuverlässig zugewiesen
(abweichende Schreibungen,
sprechsprachliche Syntax).
Mögliche Lösung:
Aufbau handannotierter Korpora und Anpassung/Optimierung
vorhandener Sprachverarbeitungswerkzeuge
 Nächster Vortrag:
Kay-Michael Würzner, Lothar Lemnitzer, Alexander Geyken & Bryan Jurish:
Linguistische Annotation von Dokumenten internetbasierter
Technische Universität-Dortmund
Kommunikation
Eine explorative Analyse
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 21
3. Zusammenfassung und Ausblick
B
 Innovative semiotische und sprachliche Formen
 Segmentierungsproblematik

Token-Verschmelzungen,
Aufsplittung zusammenhängender
netztypischer Zeichenkombinationen
Kategorienproblematik
Fehlende Kategorien für
netztypische Zeichen und
Wortformen in gängigen Tagsets
Mögliche Lösung:
 Entwicklung von Werkzeugen zur
Identifizierung netztypischer
Zeichenverwendungen
 Erweiterung relevanter
Kategorien in bestehenden
Annotationsschemata/Tagsets
Aktuelle Arbeiten:
Mitarbeit in der Arbeitsgruppe zur Überarbeitung des STTS
Thomas Bartz, Michael Beißwenger, Angelika Storrer
Vorschlag zur Erweiterung der TEI-Guidelines
um IBK-typische Elemente
M. Beißwenger, M. Ermakova, A. Geyken, L. Lemnitzer, A. Storrer (2012): A TEI Schema for the
Representation of Computer-Mediated Communication. In: Journal of the Text Encoding Initiative (TEI),
Universität Dortmund
issueTechnische
3 | November
2012 (DOI: 10.4000/jtei.476).
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 22
3. Zusammenfassung und Ausblick
Ausblick:
Identifizierung IBK-typischer Zeichenverwendungen
Die Identifizierung IBK-typischer Zeichenverwendungen wird durch homonyme
konventionelle Zeichenverwendungen erschwert.
Instanz
wink, *wink*
:-)
Treffer
falsch
positiv
Belege
128
123
5
25.350
?
?
Niederlande – Finnland -:- (-:-)
:-), danke.
IBK-Stilelemente auf Wikipedia-Diskussionsseiten
BMBF-Verbundprojekt: KobRA
Entwicklung von Verfahren zur Filterung und Disambiguierung
bei der korpusbasierten Recherche und Analyse mit Hilfe von
Data-Mining. Beteiligte:
Angelika Storrer (Germanistik TU Dortmund, Koordination),
Katharina Morik (Informatik TU Dortmund),
Alexander Geyken (BBAW)
Erhard Hinrichs (SfS Tübingen)
Universität Dortmund
MarcTechnische
Kupietz,
Andreas
Witt
(IDS Mannheim)
Institut
für deutsche
Sprache und
Literatur
Korpus-basierte
Recherche und
Analyse mithilfe
von Data-Mining
http://www.kobra.tu-dortmund.de
Thomas Bartz / Angelika Storrer, 15.03.2013: 23
35. Jahrestagung der DGfS, 12.-15. März 2013, Potsdam
Arbeitsgruppe 10: Modellierung nicht-standardisierter Schriftlichkeit
Thomas Bartz, Angelika Storrer
Korpusbasierte Analyse
internetbasierter Kommunikation
Phänomene und Herausforderungen
*räusper* Hömma woher kommste denn?
Ick bin aus Do-Stadt, net aus Berlin.
Dortmunder Chat-Korpus: 1101001a_CvK_Welcome_2004-10-22_a.xml
Technische Universität Dortmund
Institut für
deutsche
Sprache und Literatur
Technische
Universität
Dortmund
Institut für deutsche Sprache und Literatur
Thomas Bartz / Angelika Storrer, 15.03.2013: 24