Disfluencies bei Muttersprachlern und Lernern des Deutschen

Transcription

Disfluencies bei Muttersprachlern und Lernern des Deutschen
Dispflu... ähm nee
–
Disfluencies bei
Muttersprachlern und Lernern
des Deutschen
Malte Belz
Institut für deutsche Sprache und Linguistik
malte.belz@hu-berlin.de
Gliederung
•
•
•
•
•
•
1. Definition, Kontexte und Funktionen
2. Klassen von Disfluencies
3. Native vs. non-native Disfluencies
4. Methodik
5. Diskussion
6. Literatur
2
1. Was sind Disfluencies?
• „Any deviation in speech from ideal delivery”
(Ferreira/Bailey 2004)
• Phänomene der gesprochenen Sprache
• Gesamtfrequenz: 6–10 v. 100 geäußerten
Wörtern (Eklund 2004, Shriberg 2001)
• Nicht pathologisch
3
1. Was bedingt Disfluencies?
• Register (Schachter 1991), Routine (Hoffmann
1991)
– Geisteswissenschaften (größere Variation) vs.
Naturwissenschaften (festes Ausdrucksset)
– Geskripteter Vortrag vs. emotionale Diskussion
• Soziolinguistik: Nähe – Distanz
• Muttersprache – Fremdsprache
• Konzentration auf Stil oder Inhalt
– Aufmerksames Monitoring gefüllter Pausen (Siegel
4
et al. 1969)
1. Was bedingt Disfluencies?
• Somatischer Zustand (Müdigkeit, Ablenkung)
(Hoffmann 1991)
• Kognitive Makroplanung
(Planungsinterferenzen – Hoffmann 1991)
• Human limitations (fluency spurts)
– „Speakers have trouble deciding on, formulating,
and articulating what they want to say and that
interferes with their ideal delivery“ (Clark 1996:
254)
5
1. Perzeption von Disfluencies
• Psycholinguistische Inferenz:
– Disfluencies lassen Rückschlüsse über unser
mentales Sprachproduktions- und Sprachperzeptionssystem zu, denn Disfluencies müssen
mitverarbeitet werden (Ferreira/Bailey 2004)
– Hat Auswirkungen bspw. auf Parsing-Theorien
6
1. Funktionen von Disfluencies
• Floor-holding hypothesis (FP) (Eklund 2004)
• Signalisierung von Planungsprozessen
– Help-me-out-Hypothesis (FP) (Clark/Fox Tree 2002)
– Aber: Dichotomie zwischen strategischem Einsatz und
Planungsproblemen (UP) (Clark/Wasow 1998)
• Im Englischen wird uh für kurze, uhm für längere
FPs verwendet (Clark/Fox Tree 2002)
• Informationsstrukturelle Implikationen (ist
Information given oder new) (Arnold 2003)
7
1. Funktionen von Disfluencies:
Reparatur
• Einleitung von Reparaturstrategien
– Explizite Editierungen („ne Quatsch“, „also ich
meine“)
– Neustart oder
– Ersetzung des Reparandums
8
1. Funktionen von Disfluencies:
Reparatur
• Selbstreparaturen nach Perzeption des
Monitors
(Ferreira/Bailey 2004: 232)
9
1. Funktionen von Disfluencies:
Reparatur
• Beispiel 1
• Beispiel 2
10
2. Klassen von Disfluencies (Hartsuiker 2010,
Eklund 2004)
• i) Ungefüllte Pausen (UP)
• ii) Gefüllte Pausen (FP)
– Vokalisationen („äh, ähm“)
•
•
•
•
iii) Längung (Prolongation)
iv) Abbrüche
v) Wiederholung
vi) Selbstreparatur
– Ersetzung, Ergänzung, Löschung
11
i) Ungefüllte Pausen
• Häufigste und zugleich schlecht fassbare
Klasse (perzeptiver Anfang? Cut-off?)
• HAMATAC: Pausen innerhalb eines
Sinnabschnittes
Separate Annotation wünschenswert
12
ii) Gefüllte Pausen
• Zweithäufigste Klasse
• Oft ein zentraler, schwaesker Laut einer
Sprache (Eklund 2012)
13
iii) Längungen
• Dritthäufigste Klasse
• Gedehnte Silben (Onsets, Nuklei, Kodae)
Koda-Längung
Nukleus-Längung
Onset-Längung
14
iv) Abbrüche (Trunkationen)
• Mit und ohne Restart/Repair
Annotation fraglich aber lt. Guidelines
• Sind Abbrüche bei den Lernern häufiger als bei
den Muttersprachlern?
15
v) Wiederholungen
• Wiederholungen ganzer Wörter/Phrasen sind selten
(sowohl direkte als auch indirekte Präzedenz)
• Registerabhängig: in Diskussionen häufiger (floorholding)
– ich betreibe keine / ich betreibe / ich betreibe / ich
betreibe keine entnazifizierung / ich betreibe keine / ich
betreibe keine entnazifizierung wie sie es im falle kiesinger
betreiben wollten (Schwitalla 2012: 119)
16
vi) Selbstreparaturen
• Reparaturen mit Abbruch/ohne Abbruch und
mit FP
17
3. Native vs. non-native Disfluencies
• foreign-soundingness von gesprochener
Lernersprache bei Mangel an Fluency (Götz
2007)
• Disfluencies geben fremde Herkunft zu
erkennen (Eklund 2004: 146)
– Aussprache der Fillers
• Welche weiteren Unterschiede in der
Produktion von Disfluencies lassen sich für
Lerner feststellen?
18
3. Native vs. non-native Disfluencies
• Lassen sich Effekte für das Englische (Götz
2007) auch im Deutschen finden
(Overuse/Underuse)?
– Overuse von Pausen am Anfang einer
syntaktischen Einheit
• Unterschiede
– In Art/Verteilung?
– In Frequenz?
– In syntaktischer Position?
– In Reparaturstrategien?
19
3. Native vs. non-native Disfluencies
• Reparaturstrategien
– Frequenzunterschiede? TROUBLE + UP/FP +
REPAIR/RESTART
– Qualität/Quantität der Reparandi vor UP/FP?
• Unterscheiden sich die Prolongationen der
Lernern von denen der Muttersprachler?
• Methode
– Quantitativ (Korpusdaten)
– Qualitativ (Interpretation der Ergebnisse, Kontext)
20
4. Methodik
• Notwendig: Daten von
– Lernern
– Muttersprachlern
• Lerner: Hamburg Map Task Corpus
• Muttersprachler: Berlin Map Task Corpus
• Erhebungsmethoden
– Map -Task-Aufgabe
– Quasi-spontane Sprache (Elizitationsexperiment)
21
4. Methodik – Maps
22
4. Methodische Problematik
• Die beiden Korpora sind klein
– HAMATAC
• 21433 „Wörter“, 24 Sprecher, 12x2 Gespräche (Wechsel
Instructor – Instructee)
– BeMaTaC (Kolloquium 06.02.2013)
• tba Tokens, 24 Sprecher, 12x2 Gespräche (Wechsel
Instructor – Instructee)
23
4. Methodische Problematik HAMATAC
• HAMATAC hat viele einzelne Sprecher
unterschiedlicher Herkunftssprachen, so sind
keine Aussagen für bestimmte L1-Sprachen
möglich.
• Mehrere Disfluency-Ebenen bis 10 ohne
Motivation!
• Tokenisierung fragwürdig (nach gesprochenen
Sinneinheiten – hochgradig interpretativ)
24
4. Methodische Probleme HAMATAC
• Annotationen
– Orthographische Transkription
– Disfluency-Annotation
– POS, Lemma (wo?)
– Metadaten (Alter, Geschlecht, Bekanntheit, Zeit in
Deutschland, Anzahl der Sprachen)
25
4. Disfluency-Annotation HAMATAC
Redundant – besser wäre (bspw.)
Repair (allgemein, !=Restart)
Restart (bei Neustart)
(Hedeland 2012: 36)
26
4. Disfluency-Annotation HAMATAC
• Nicht-exhaustive, sondern akustische
Annotation gefüllter Pausen
 Unvorhersehbare Werte
– „äh “ mit Spatium
– „äh“ ohne Spatium
– „ähm “ mit Spatium
– „ähm“ ohne Spatium
– „mh“, „mhm“, „oh“, „ah“, „öh“, „uh“
27
4. Methodische Problematik HAMATAC
• Fehler:
– In zwei Gesprächen wurde vergessen, die
Instructor/Instructee-Zuweisung zu wechseln
• Trotz allem
– Disfluency-annotiertes Korpus gesprochener
deutscher Lernersprache
– Verfügbar und in ANNIS durchsuchbar
– Parallelkorpus im Entstehen
28
4. Methodik BeMaTaC
• Der HAMATAC-Problematik bewusst
• Annotationsebene <break> für ungefüllte
Pausen (Stille)
• Exhaustive Listung gefüllter Pausen
– /.*(äh|ähm|mhm|mh mh|hmm).*/
• Je nach Fragestellung (Prolongationen,
Reparaturen) müsste noch eine zusätzliche
Ebene entwickelt und ergänzt werden
29
4. Methodik BeMaTaC
• Annotationsebenen
(aus BeMaTaC Transkriptionsguide.pdf)
30
4. Methodik: Statistik
• Vergleich von absoluten Häufigkeiten in
verschieden großen Korpora mittels der LogLikelihood-Methode (nach Rayson/Garside 2000,
wie in Götz 2007)
• Je höher der relative Frequenzunterschied eines
Tokens ist, desto höher ist der LL-Wert
– 95th percentile; 5% level; p < 0.05; critical value = 3.84
– 99th percentile; 1% level; p < 0.01; critical value = 6.63
31
5. Diskussion
• Ich freue mich auf
– Fragen
– Anregungen
– Kritik
• Vielen Dank!
32
6. Literatur
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Arnold, Jennifer E.; Fagnano, Maria; Tanenhaus, Michael K. (2003): Disfluencies Signal Theee, Um, New Information.
Journal of Psycholinguistic Research 1/32. 25–36.
Clark, Herbert H. (1996): Using language. Cambridge: Cambridge Univ. Press.
Clark, Herbert H.; Fox Tree, Jean E. (2002): Using uh and um in spontaneous speaking. Cognition 1/84. 73–111.
Eklund, Robert (2004): Disfluency in Swedish human-human and human-machine travel booking dialogues. Linköping,
Sweden, Linköpings Universitet, Dissertation.
Eklund, Robert (2012): Persönliches Gespräch am 14.12.2012.
Ferreira, Fernanda; Bailey, Karl G.D (2004): Disfluencies and human language comprehension. Trends in Cognitive
Sciences 5/8. 231–237.
Götz, Sandra (2007): Performanzphänomene in gesprochenem Lernerenglisch. Eine korpusbasierte Pilotstudie.
Zeitschrift für Fremdsprachenforschung 1/18. 67–84.
Hartsuiker, Robert J.; Notebaert, Lies (2010): Lexical Access Problems Lead to Disfluencies in Speech. Experimental
Psychology (formerly Zeitschrift für Experimentelle Psychologie) 3/57. 169–177.
Hedeland, Hanna; Schmidt, Thomas (2012): Technological and methodological challenges in creating, annotating and
sharing a learner corpus of spoken German. In: Schmidt, Thomas/Wörner, Kai (eds.): Multilingual Corpora and
Multilingual Corpus Analysis: John Benjamins. 25–46.
Hoffmann, Ludger (1991): Anakoluth und sprachliches Wissen. Deutsche Sprache 2/19. 97–119.
Rayson, Paul; Garside, Roger (2000): Comparing corpora using frequency profiling. In: Proceedings of the workshop on
Comparing Corpora, to be held in conjunction with the 38th Annual Meeting of the Association for Computational
Linguistics.
Schachter, Stanley et al. (1991): Speech disfluency and the structure of knowledge. Journal of Personality and Social
Psychology 3/60. 362–367.
Schwitalla, Johannes (2012): Gesprochenes Deutsch. Eine Einführung. Berlin: Erich Schmidt Verlag. (=Grundlagen der
Germanistik 33).
Shriberg, Elizabeth (2001): To ‘errrr’ is human: ecology and acoustics of speech disfluencies. Journal of the International
Phonetic Association 1/31. 153–169.
Siegel, Gerald M.; Lenske, Joanne; Broen, Patricia (1969): Suppression of normal speech disfluencies through response
33
cost. Journal of Applied Behavior Analysis 4/2. 265–276.