Disfluencies bei Muttersprachlern und Lernern des Deutschen
Transcription
Disfluencies bei Muttersprachlern und Lernern des Deutschen
Dispflu... ähm nee – Disfluencies bei Muttersprachlern und Lernern des Deutschen Malte Belz Institut für deutsche Sprache und Linguistik malte.belz@hu-berlin.de Gliederung • • • • • • 1. Definition, Kontexte und Funktionen 2. Klassen von Disfluencies 3. Native vs. non-native Disfluencies 4. Methodik 5. Diskussion 6. Literatur 2 1. Was sind Disfluencies? • „Any deviation in speech from ideal delivery” (Ferreira/Bailey 2004) • Phänomene der gesprochenen Sprache • Gesamtfrequenz: 6–10 v. 100 geäußerten Wörtern (Eklund 2004, Shriberg 2001) • Nicht pathologisch 3 1. Was bedingt Disfluencies? • Register (Schachter 1991), Routine (Hoffmann 1991) – Geisteswissenschaften (größere Variation) vs. Naturwissenschaften (festes Ausdrucksset) – Geskripteter Vortrag vs. emotionale Diskussion • Soziolinguistik: Nähe – Distanz • Muttersprache – Fremdsprache • Konzentration auf Stil oder Inhalt – Aufmerksames Monitoring gefüllter Pausen (Siegel 4 et al. 1969) 1. Was bedingt Disfluencies? • Somatischer Zustand (Müdigkeit, Ablenkung) (Hoffmann 1991) • Kognitive Makroplanung (Planungsinterferenzen – Hoffmann 1991) • Human limitations (fluency spurts) – „Speakers have trouble deciding on, formulating, and articulating what they want to say and that interferes with their ideal delivery“ (Clark 1996: 254) 5 1. Perzeption von Disfluencies • Psycholinguistische Inferenz: – Disfluencies lassen Rückschlüsse über unser mentales Sprachproduktions- und Sprachperzeptionssystem zu, denn Disfluencies müssen mitverarbeitet werden (Ferreira/Bailey 2004) – Hat Auswirkungen bspw. auf Parsing-Theorien 6 1. Funktionen von Disfluencies • Floor-holding hypothesis (FP) (Eklund 2004) • Signalisierung von Planungsprozessen – Help-me-out-Hypothesis (FP) (Clark/Fox Tree 2002) – Aber: Dichotomie zwischen strategischem Einsatz und Planungsproblemen (UP) (Clark/Wasow 1998) • Im Englischen wird uh für kurze, uhm für längere FPs verwendet (Clark/Fox Tree 2002) • Informationsstrukturelle Implikationen (ist Information given oder new) (Arnold 2003) 7 1. Funktionen von Disfluencies: Reparatur • Einleitung von Reparaturstrategien – Explizite Editierungen („ne Quatsch“, „also ich meine“) – Neustart oder – Ersetzung des Reparandums 8 1. Funktionen von Disfluencies: Reparatur • Selbstreparaturen nach Perzeption des Monitors (Ferreira/Bailey 2004: 232) 9 1. Funktionen von Disfluencies: Reparatur • Beispiel 1 • Beispiel 2 10 2. Klassen von Disfluencies (Hartsuiker 2010, Eklund 2004) • i) Ungefüllte Pausen (UP) • ii) Gefüllte Pausen (FP) – Vokalisationen („äh, ähm“) • • • • iii) Längung (Prolongation) iv) Abbrüche v) Wiederholung vi) Selbstreparatur – Ersetzung, Ergänzung, Löschung 11 i) Ungefüllte Pausen • Häufigste und zugleich schlecht fassbare Klasse (perzeptiver Anfang? Cut-off?) • HAMATAC: Pausen innerhalb eines Sinnabschnittes Separate Annotation wünschenswert 12 ii) Gefüllte Pausen • Zweithäufigste Klasse • Oft ein zentraler, schwaesker Laut einer Sprache (Eklund 2012) 13 iii) Längungen • Dritthäufigste Klasse • Gedehnte Silben (Onsets, Nuklei, Kodae) Koda-Längung Nukleus-Längung Onset-Längung 14 iv) Abbrüche (Trunkationen) • Mit und ohne Restart/Repair Annotation fraglich aber lt. Guidelines • Sind Abbrüche bei den Lernern häufiger als bei den Muttersprachlern? 15 v) Wiederholungen • Wiederholungen ganzer Wörter/Phrasen sind selten (sowohl direkte als auch indirekte Präzedenz) • Registerabhängig: in Diskussionen häufiger (floorholding) – ich betreibe keine / ich betreibe / ich betreibe / ich betreibe keine entnazifizierung / ich betreibe keine / ich betreibe keine entnazifizierung wie sie es im falle kiesinger betreiben wollten (Schwitalla 2012: 119) 16 vi) Selbstreparaturen • Reparaturen mit Abbruch/ohne Abbruch und mit FP 17 3. Native vs. non-native Disfluencies • foreign-soundingness von gesprochener Lernersprache bei Mangel an Fluency (Götz 2007) • Disfluencies geben fremde Herkunft zu erkennen (Eklund 2004: 146) – Aussprache der Fillers • Welche weiteren Unterschiede in der Produktion von Disfluencies lassen sich für Lerner feststellen? 18 3. Native vs. non-native Disfluencies • Lassen sich Effekte für das Englische (Götz 2007) auch im Deutschen finden (Overuse/Underuse)? – Overuse von Pausen am Anfang einer syntaktischen Einheit • Unterschiede – In Art/Verteilung? – In Frequenz? – In syntaktischer Position? – In Reparaturstrategien? 19 3. Native vs. non-native Disfluencies • Reparaturstrategien – Frequenzunterschiede? TROUBLE + UP/FP + REPAIR/RESTART – Qualität/Quantität der Reparandi vor UP/FP? • Unterscheiden sich die Prolongationen der Lernern von denen der Muttersprachler? • Methode – Quantitativ (Korpusdaten) – Qualitativ (Interpretation der Ergebnisse, Kontext) 20 4. Methodik • Notwendig: Daten von – Lernern – Muttersprachlern • Lerner: Hamburg Map Task Corpus • Muttersprachler: Berlin Map Task Corpus • Erhebungsmethoden – Map -Task-Aufgabe – Quasi-spontane Sprache (Elizitationsexperiment) 21 4. Methodik – Maps 22 4. Methodische Problematik • Die beiden Korpora sind klein – HAMATAC • 21433 „Wörter“, 24 Sprecher, 12x2 Gespräche (Wechsel Instructor – Instructee) – BeMaTaC (Kolloquium 06.02.2013) • tba Tokens, 24 Sprecher, 12x2 Gespräche (Wechsel Instructor – Instructee) 23 4. Methodische Problematik HAMATAC • HAMATAC hat viele einzelne Sprecher unterschiedlicher Herkunftssprachen, so sind keine Aussagen für bestimmte L1-Sprachen möglich. • Mehrere Disfluency-Ebenen bis 10 ohne Motivation! • Tokenisierung fragwürdig (nach gesprochenen Sinneinheiten – hochgradig interpretativ) 24 4. Methodische Probleme HAMATAC • Annotationen – Orthographische Transkription – Disfluency-Annotation – POS, Lemma (wo?) – Metadaten (Alter, Geschlecht, Bekanntheit, Zeit in Deutschland, Anzahl der Sprachen) 25 4. Disfluency-Annotation HAMATAC Redundant – besser wäre (bspw.) Repair (allgemein, !=Restart) Restart (bei Neustart) (Hedeland 2012: 36) 26 4. Disfluency-Annotation HAMATAC • Nicht-exhaustive, sondern akustische Annotation gefüllter Pausen Unvorhersehbare Werte – „äh “ mit Spatium – „äh“ ohne Spatium – „ähm “ mit Spatium – „ähm“ ohne Spatium – „mh“, „mhm“, „oh“, „ah“, „öh“, „uh“ 27 4. Methodische Problematik HAMATAC • Fehler: – In zwei Gesprächen wurde vergessen, die Instructor/Instructee-Zuweisung zu wechseln • Trotz allem – Disfluency-annotiertes Korpus gesprochener deutscher Lernersprache – Verfügbar und in ANNIS durchsuchbar – Parallelkorpus im Entstehen 28 4. Methodik BeMaTaC • Der HAMATAC-Problematik bewusst • Annotationsebene <break> für ungefüllte Pausen (Stille) • Exhaustive Listung gefüllter Pausen – /.*(äh|ähm|mhm|mh mh|hmm).*/ • Je nach Fragestellung (Prolongationen, Reparaturen) müsste noch eine zusätzliche Ebene entwickelt und ergänzt werden 29 4. Methodik BeMaTaC • Annotationsebenen (aus BeMaTaC Transkriptionsguide.pdf) 30 4. Methodik: Statistik • Vergleich von absoluten Häufigkeiten in verschieden großen Korpora mittels der LogLikelihood-Methode (nach Rayson/Garside 2000, wie in Götz 2007) • Je höher der relative Frequenzunterschied eines Tokens ist, desto höher ist der LL-Wert – 95th percentile; 5% level; p < 0.05; critical value = 3.84 – 99th percentile; 1% level; p < 0.01; critical value = 6.63 31 5. Diskussion • Ich freue mich auf – Fragen – Anregungen – Kritik • Vielen Dank! 32 6. Literatur • • • • • • • • • • • • • • • Arnold, Jennifer E.; Fagnano, Maria; Tanenhaus, Michael K. (2003): Disfluencies Signal Theee, Um, New Information. Journal of Psycholinguistic Research 1/32. 25–36. Clark, Herbert H. (1996): Using language. Cambridge: Cambridge Univ. Press. Clark, Herbert H.; Fox Tree, Jean E. (2002): Using uh and um in spontaneous speaking. Cognition 1/84. 73–111. Eklund, Robert (2004): Disfluency in Swedish human-human and human-machine travel booking dialogues. Linköping, Sweden, Linköpings Universitet, Dissertation. Eklund, Robert (2012): Persönliches Gespräch am 14.12.2012. Ferreira, Fernanda; Bailey, Karl G.D (2004): Disfluencies and human language comprehension. Trends in Cognitive Sciences 5/8. 231–237. Götz, Sandra (2007): Performanzphänomene in gesprochenem Lernerenglisch. Eine korpusbasierte Pilotstudie. Zeitschrift für Fremdsprachenforschung 1/18. 67–84. Hartsuiker, Robert J.; Notebaert, Lies (2010): Lexical Access Problems Lead to Disfluencies in Speech. Experimental Psychology (formerly Zeitschrift für Experimentelle Psychologie) 3/57. 169–177. Hedeland, Hanna; Schmidt, Thomas (2012): Technological and methodological challenges in creating, annotating and sharing a learner corpus of spoken German. In: Schmidt, Thomas/Wörner, Kai (eds.): Multilingual Corpora and Multilingual Corpus Analysis: John Benjamins. 25–46. Hoffmann, Ludger (1991): Anakoluth und sprachliches Wissen. Deutsche Sprache 2/19. 97–119. Rayson, Paul; Garside, Roger (2000): Comparing corpora using frequency profiling. In: Proceedings of the workshop on Comparing Corpora, to be held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics. Schachter, Stanley et al. (1991): Speech disfluency and the structure of knowledge. Journal of Personality and Social Psychology 3/60. 362–367. Schwitalla, Johannes (2012): Gesprochenes Deutsch. Eine Einführung. Berlin: Erich Schmidt Verlag. (=Grundlagen der Germanistik 33). Shriberg, Elizabeth (2001): To ‘errrr’ is human: ecology and acoustics of speech disfluencies. Journal of the International Phonetic Association 1/31. 153–169. Siegel, Gerald M.; Lenske, Joanne; Broen, Patricia (1969): Suppression of normal speech disfluencies through response 33 cost. Journal of Applied Behavior Analysis 4/2. 265–276.