Förhandsgranskning av kurs läsåret 2011/12
Transcription
Förhandsgranskning av kurs läsåret 2011/12
Förhandsgranskning av kurs läsåret 2011/12 Kursplaner Språkteknologi EDAN20 Language Technology Högskolepoäng: 7,5 Betygsskala: TH Nivå (institutionens förslag): A (Avancerad nivå) Undervisningsspråk: Kursen kan komma att ges på engelska Kursansvarig/a: Professor Pierre Nugues E-post: Pierre.Nugues@cs.lth.se Förkunskapskrav: EDAA01 Programmeringsteknik - fördjupningskurs eller EDA027 Algoritmer och datastrukturer. Prestationsbedömning: För betyg 3 krävs godkända inlämningsuppgifter (laborationer). För möjlighet till högre betyg krävs även skriftlig tentamen. Inlämningsuppgifterna (laborationerna) skall uföras i grupper om två eller tre studenter, men kan även göras individuellt. Den första laborationen ägnas åt de programmeringsverktyg som används i kursen. De fem övriga uppgifterna behandlas under de följande laborationstillfällena. Förstagångstentamen i ordinarie tentamensperiod: Ja. Omtentamen i omtentamensperiod: Nej. Hemsida: http://cs.lth.se/ Syfte Under de senaste 15 åren har de språkteknologiska metoderna mognat avsevärt på grund av att mängden tillgänglig skriven och talad information har ökat kraftigt, vilket har lett till ökande behov av att behandla den automatiskt. Fastän de flesta datorsystem inte enbart ägnar sig åt språkbehandling så finns det numera många applikationer som i någon mån är "språkmedvetna" och har inbyggda språkteknologiska funktioner såsom stavnings- och grammatikkontroll, sökning och sammanfattning av information eller ett talbaserat dialoggränssnitt. Detta gör att fältet är av ökande betydelse för CS-ingenjörer. Kursen ger en inledning till språkteknologins metoder. Den försöker täcka hela fältet från teckenkodning och statistiska språkmodeller till syntaktisk analys, semantik och dialogsystem. Kursen inriktar sig på välbeprövade tillämpningar i industriell skala eller på försöksnivå. Kunskap och förståelse För godkänd kurs skall studenten: Förstå fältet av språkteknologiska metoder och viktiga applikationer som använder dem Känna till de viktigaste teknikerna, grundläggande algoritmer och allmänna arkitekturer som används i applikationer Skapa och konstruera språkbehandlingsalgoritmer. Skriva, tolka, utvärdera och förbättra dem under laborationerna. Färdighet och förmåga För godkänd kurs skall studenten: Förstå och utveckla annoteringsscheman, skapa och bearbeta strukturerade dokument genom att använda XML Förstå och skriva reguljära uttryck och använda dem i programmeringsspråk som Perl eller Java Använda logik och logikprogrammeringsspråk som Prolog- eller beskrivningslogik Förstå och använda maskininlärningsalgoritmer och statistiska tekniker Utveckla och utvärdera algoritmer i de viktiga fälten av språkteknologier, språkmodellering, partiell parsning, dependensparsning, genom att använda verkliga data Värderingsförmåga och förhållningssätt För godkänd kurs skall studenten: Visa nyfikenhet, kreativitet och förmåga till problemlösning Visa förståelse för industriella och forskningsrelaterade frågor i språkteknologiområdet Innehåll En översikt över språkteknologi: delområden, tillämpningar och exempel. Korpuslingvistik: Reguljära uttryck, ändliga automater, introduktion till Perl, konkordanser, tokenisering, frekvenslistor, kollokationer. Morfologi och ordklasstaggning: Morfologi, transduktorer, ordklasstaggning. Frasstrukturgrammatiker i Prolog: Konstituenter, syntaxträd, DCG-regler, unifiering. Partiell parsning: Detektering av multiord, detektering av substantivgrupp och verbgrupp, informationsextrahering, utvärdering. Syntaktiska formalismer: Konstituens och dependens, funktioner. Parsning, statisktisk parsning, dependensparsning. Semantik: Formell semantik, lambda-kalkyl, lexikal semantik, predikat-argument-struktur, ramsemantik, semantisk parsning. Diskurs och dialog: Referens och koreferens, diskurs och retorik, diskursrelationer, analys av diskursrelationer, dialog, talhandling, multimodalitet. Litteratur Nugues Pierre, An Introduction to Language Processing with Perl and Prolog. An Outline of Theories, Implementation, and Application with Special Consideration of English, French, and German. Series: Cognitive Technologies, Springer Verlag, 2006, ISBN: 3-540-25031-X. Överlappande kurser: Kurs Högskolepoäng EDA171 7.5 Engelsk kursplan EDAN20 Language Technology Credits: 7,5 Grading scale: TH Cycle: A Language of instruction: The course might be given in English Course coordinator/s: Pierre Nugues E-mail: Pierr.Nugues@cs.lth.se Prerequisites: EDAA01 Programming - Second Course or EDA027 Algorithms and Data Structures. Assessment: Compulsory course items: Assignments and possibly an examination. The coursework assignments are carried out in teams of two or three students, but can also be carried out individually. The first laboratory session will be dedicated to a handson approach to the programming tools used in the course. The assignements will then consist of five programming problems. Passing the course with a mark of 3 will consist in passing all the assignments. Optionally, the students will be able to set an examination and improve their mark to 4 or 5. Home page: http://cs.lth.se/ Aim In the past 15 years, language technology has considerably matured driven by the massive increase of textual and spoken data and the need to process them automatically. Although there are few systems entirely dedicated to language processing, there are now scores of applications that are to some extent "language-enabled" and embed language processing techniques such as spelling and grammar checkers, information retrieval and extraction, or spoken dialogue systems. This makes the field form a new requirement for the CS engineers. The course introduces theories used in language technology. It attempts to cover the whole field from character encoding and statistical language models to semantics and conversational agents, going through syntax and parsing. It focuses on proven techniques as well as significant industrial or laboratory applications. Knowledge and understanding For a passing grade the student must: Understand the field of language technology and major applications using them Know the most important techniques, fundamental algorithms, and most common architectures used in applications Create and implement language processing algorithms. Write, interpret, evaluate, and improve them during the programming laboratories. Skills and abilities For a passing grade the student must: Understand and develop annotation schemes, create and process structured documents using XML Understand and write regular expressions and use them in languages like Perl or Java Use logic and a logic programming language like Prolog Understand and use machine learning algorithms and statistical techniques Develop and evaluate algorithms in major fields of language technology: language models, partial parsing, and dependency parsing, using real data. Judgement and approach For a passing grade the student must: Show curiosity, creativity, and problem solving aptitudes Show an understanding of industrial and research issues in language technology Contents An overview of language technology: disciplines, applications, and examples Corpus and word processing: regular expressions, automata, an introduction to Perl, concordances, tokenization, counting words, collocations Morphology and part-of-speech tagging: word morphology, transducers, part-of-speech tagging, Phrase-structure grammars: constituents, trees, DCG rules, unification. Partial parsing: multiword detection, noun group and verb group extraction, information extraction, evaluation Syntax: formalisms, constituency and dependency, functions, parsing, statistical parsing, dependency parsing. Semantics: formal semantics, lambda-calculus, lexical semantics, predicate--argument structures, frame semantics, semantic parsing. Discourse and dialogue: reference and coreference, discourse and rhetoric, discourse relations, parsing discourse relations, dialogue automata, speech acts, multimodality. Literature Nugues Pierre, An Introduction to Language Processing with Perl and Prolog. An Outline of Theories, Implementation, and Application with Special Consideration of English, French, and German. Series: Cognitive Technologies, Springer Verlag, 2006, ISBN: 3-540-25031-X. Kursen har enda poängsatta provet (LADOK kräver att alla kurser har prov): Kod Namn Namn (eng) 0110 Språkteknologi Language Technology Högskolepoäng Betygsskala 7,5 TH Läroplaner Program C:Infocom Specialisering Ges som Ingår i ÅK ALLM:Allmän inriktning C Valfri 4 D:Datateknik ALLM:Allmän inriktning D Valfri 4 D:Datateknik pv :Programvara 4 Valfri Timplaner C HT 2011 lp 1 F 20 D O - L 12 H - HT 2011 lp 2 S F 160 - O - HT 2011 lp 1 F 20 O - L 12 H - L - VT 2012 lp 1 H - S - F - O - HT 2011 lp 2 S F 160 - O - L - - S - F - O - - Institutionens förslag (Inst f datavetenskap (LTH),7121): Kursen är aktiv dvs föreslås ges läsåret 2011/12. Inlämnad för beslut av utbildningsnämnd: Nej. Lämpar sig för utbytesstudenter: Ja. Utbildningsnämnd som beslutar om kursplan: UN1 Nämndens beslut: Ställningstagande saknas. Beslutad kursnivå: A Program Status Beslut C Aktiv Obeslutad D Aktiv Obeslutad L Annat Utbildningsnämndernas beslut: H S - F - O - VT 2012 lp 1 H - L VT 2012 lp 2 - H - S - VT 2012 lp 2 H - L S - F - O - L - H - S -