Informationsveranstaltung Linguistische Informatik

Transcription

Informationsveranstaltung Linguistische Informatik
Informationsveranstaltung
Linguistische Informatik
& Korpuslinguistik
Prof. Dr. Stefan Evert
Professur für Korpuslinguistik
http://www.linguistik.uni-erlangen.de/
Was ist „Linguistische Informatik“?
Korpuslinguistik ≠ Computerlinguistik?
2
Das Erlanger Modell
●  „Linguistische Informatik“
= sprachwissenschaftlich fundierte Computerlinguistik
mit Schwerpunkt auf korpuslinguistischen Ansätzen
● 
● 
Sprachwissenschaft mit dem Computer
Informatik für Anwendungen, die mit Sprache zu tun haben
●  Computerlinguistik beschäftigt sich mit Methoden, Werkzeugen und
Anwendungen der maschinellen Verarbeitung natürlicher Sprache
● 
● 
● 
● 
computerlinguistische Methoden als Forschungsgebiet sui generis
bessere Sprachtechnologie durch linguistisches Verständnis,
keine „blindes“ language engineering
Sprachwissenschaft: objektivierbare Aussagen über Sprache,
empirische Überprüfung linguistischer Theorien
neue Erkenntnisse für Kognitionswissenschaft, Psycholinguistik, …
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
Computerlinguistik ist interdisziplinär
Statistik
Informatik
Machine
Learning
Künstliche
Intelligenz
Computer-
linguistik
Cognitive
Science
Sprachwissenschaft
Logik &
Theoretische
Informatik
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
4
Was kann man mit Computerlinguistik anfangen?
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
5
Was kann man mit Computerlinguistik anfangen?
●  Maschinelle Übersetzung
(Google, Babel Fish, …)
●  Rechtschreibkorrektur und
Grammatikprüfung
●  Diktieren & Sprachsteuerung
●  Sprachausgabe (z.B. Navi)
●  Sprachdialogsystem (z.B. im
Auto, Fahrplanauskunft, …)
●  Wörterbücher (zweisprachige,
Lerner-WB, Kollokations-WB)
●  Semantische Websuche
●  Künstliche Intelligenz:
Siri, IBM Watson, …
●  Meinungs- & Marktforschung
●  Information Retrieval
& Question Answering
●  Text / Knowledge Mining (z.B.
im biomedizinischen Bereich)
●  Patentrecherche u.ä.
●  Kontrollierte Terminologie
●  Plagiaterkennung
●  Automatische Bewertung von
Klausuren und Hausarbeiten
●  Spam schreiben & erkennen
●  Forensik & Aufklärung (z.B.
linguistische Steganographie)
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
6
CL Showcase: Maschinelle Übersetzung
Übersetzungssoftware
von AltaVista Babel Fish
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
http://www.systranet.com/translate
7
CL Showcase: Maschinelle Übersetzung
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
8
CL Showcase: IBM Watson gewinnt bei Jeopardy!
IN 1939's CARTOON
"THE POINTER", THIS
GUY GOT A NEW,
MORE PEAR-SHAPED
BODY & PUPILS WERE
ADDED TO HIS EYES
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
9
CL Showcase: IBM Watson gewinnt bei Jeopardy!
THIS CLAUSE IN A UNION
CONTRACT SAYS THAT
WAGES WILL RISE OR
FALL DEPENDING ON A
STANDARD SUCH AS
COST OF LIVING
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
10
Korpuslinguistik ≠ Computerlinguistik?
●  Korpus (im weiten Sinn)
= Sammlung von Sprachdaten / Texten in maschinenlesbarer Form
● 
● 
sehr große Korpora (≥ 100 M Wörter) sind besonders nützlich
Auswertung mit statistischen Methoden und maschinellen Lernverfahren
●  Korpus (im engen Sinn)
= Stichprobe authentischer Sprachdaten / Texte, die für eine
bestimmte Sprache oder Sprachvarietät repräsentativ ist
● 
● 
z.B. literarische Korpora, Dialekte, gesprochene Sprache, IBK, …
Basis für empirisch fundierte sprachwissenschaftliche Studien
●  Korpuslinguistik (im weiten Sinn)
= Erstellung, maschinelle Verarbeitung und Auswertung von Korpora
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
11
Was ist Korpuslinguistik?
Korpuslinguistik
Korpuslinguistik
Computerlinguistik
Sprachwissenschaft
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
12
Korpuslinguistische Fragestellungen & Anwendungen
●  Kernziel: Erforschung von authentischem Sprachgebrauch
●  Empirische Überprüfung linguistischer Theorien
●  Lexikographie (neue Einträge, Kollokationen, Präferenzen, …)
● 
IZ Lexikografie, Valenz und Kollokation
●  Korpusbasierte (Lerner-)Grammatiken
●  Erforschung von Sprachvariation
● 
● 
● 
● 
● 
● 
IZ für Dialekte und Sprachvariation
Erst- und Zweitspracherwerb (à Lernerkorpora)
Psycholinguistik (à Häufigkeitsnormen)
Historische Sprachwissenschaft (es gibt keine Muttersprachler!)
Digital Humanities (à Auswertung digitalisierter Bestände)
Soziologie und Politikwissenschaft
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
13
Wo wird Korpustechnologie praktisch eingesetzt?
●  Maschinelle Übersetzung
(Google, Babel Fish, …)
●  Rechtschreibkorrektur und
Grammatikprüfung
●  Diktieren & Sprachsteuerung
●  Sprachausgabe (z.B. Navi)
●  Sprachdialogsystem (z.B. im
Auto, Fahrplanauskunft, …)
●  Wörterbücher (zweisprachige,
Lerner-WB, Kollokations-WB)
●  Semantische Websuche
●  Künstliche Intelligenz:
Siri, IBM Watson, …
●  Meinungs- & Marktforschung
●  Information Retrieval
& Question Answering
●  Text / Knowledge Mining (z.B.
im biomedizinischen Bereich)
●  Patentrecherche u.ä.
●  Kontrollierte Terminologie
●  Plagiaterkennung
●  Automatische Bewertung von
Klausuren und Hausarbeiten
●  Spam schreiben & erkennen
●  Forensik & Aufklärung (z.B.
linguistische Steganographie)
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
14
Beispiel: Vorteile korpusbasierter Sprachtechnologie
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
15
Lernen von Übersetzungsmustern aus Parallelkorpora
http://www.linguee.de/
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
16
Sprachwissenschaft
Korpuslinguistik
Digital Humanities
Bachelor
Linguistische
Informatik
Computerlinguistik
Sprachtechnologie / Informatik
Sprachtechnologie
Wirtschaft / Industrie
(Spezialist für Sprache & Text)
Der Studiengang Linguistische Informatik (Entwurf)
●  Bachelorstudiengang (6 Semester)
● 
● 
10 Module mit insgesamt 80 ECTS (1. Fach) / 70 ECTS (2. Fach)
Praktikum in Forschungsprojekt oder bei Industrieunternehmen
●  Kombination mit einem sprachwissenschaftlichen Fach
● 
z.B. Germanistik, Anglistik oder Romanistik
●  Doppelqualifikation durch
● 
● 
● 
linguistische Ausbildung im sprachwissenschaftlichen Fach
praktische Anwendung der linguistischen Theorie und
computerlinguistischen Methoden im Fach Linguistische Informatik
zusätzliche Vorlesungen und Übungen aus der Informatik
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
18
Studienziele
●  Theoretische Kompetenzen
● 
● 
● 
● 
● 
Logik, Mengenlehre, formale Sprachen, Grammatiken, Wk-Theorie
computerlinguistische Aufgabenstellungen und Lösungsansätze
Korpuslinguistik, deskriptive und analytische Statistik
Verfahren der maschinellen Sprachverarbeitung
sowie Sprachwissenschaft, Informatik, Humanities (Import / 2. Fach)
●  Praktische Kompetenzen
● 
● 
● 
● 
● 
Linux-Shell, Emacs/LaTeX, reguläre Ausdrücke, Datenformate (z.B. XML)
Skriptprogrammierung mit Python
Verwendung computerlinguistischer Werkzeuge und Ressourcen
Implementierung sprachtechnologischer Anwendungen
Durchführung quantitativer korpuslinguistischer Studien
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
19
Studienziele
●  Soft skills
● 
● 
● 
● 
● 
Teamwork
konstruktive Diskussion
Vermittlung von Wissen und Ergebnissen
in wissenschaftlichen Arbeiten und Vorträgen
Berufserfahrung (à Praktikum)
sowie weitere Soft skills aus zweitem Fach
●  Allgemeine Ziele
● 
● 
praxis- und forschungsorientiertes Studium
Verzahnung mit Infrastruktur und Forschungsthemen der Professur
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
20
Studienplan nach neuer
Studienordnung (Entwurf)
Semester 1
Semester 2
Semester 3
Semester 4
Semester 5
(WiSe)
Semester 6
(SoSe)
Proseminar
HS
(versch. Themen) Korpuslinguistik
2 SWS; 5 ECTS
2 SWS; 5 ECTS
Oberseminar 1
1 SWS; 1 ECTS;
nur Erstfach
Oberseminar 2
1 SWS; 1 ECTS;
nur Erstfach
Ü Grundlagen
der CL 2
2 SWS; 3 ECTS
Ü Computerling.
Werkzeuge und
Infrastrukturen
2 SWS; 5 ECTS
Ü Statistik
2 SWS; 5 ECTS
Ü Implement.
compling. Sys.
2 SWS; 3 ECTS;
nur Erstfach
Grundseminar
Programmierung
2 SWS; 5 ECTS
Aufbauseminar
Programmierung
2 SWS; 5 ECTS
Hauptseminar
Hauptseminar
theoretisch
praktisch
2 SWS; 5 ECTS;
2 SWS; 5 ECTS
Semester 4 oder 6
Vorlesung
Grundlagen der
Informatik (GdI)
3 SWS; insg. 7,5
ECTS; Import
V Konzeptionelle
Modellierung
2 SWS; 2,5 ECTS;
Import; Sem. 2 – 4
Import Informatik
~ 4 SWS; 5 ECTS;
Import; Sem. 4 – 6;
nur Erstfach
Tafelübung GdI
2 SWS; s.o. ECTS;
Import
Ü Konz. Mod.
2 SWS; 2,5 ECTS;
Import; Sem. 2 – 4
(WiSe)
(SoSe)
(WiSe)
VL Grundlagen
der CL 1
2 SWS; 2 ECTS
VL Grundlagen
der CL 2
2 SWS; 2 ECTS
Ü Grundlagen
der CL 1
2 SWS; 3 ECTS
Ü Arbeitstechniken der CL
2 SWS; 2,5 ECTS
(SoSe)
Rechnerübung
GdI
1 SWS; s.o. ECTS;
Import
12 SWS
15 ECTS
6 SWS
10 ECTS
10 SWS
20 ECTS
10 (6) SWS
20 (15) ECTS
5 (2) SWS
9 (5) ECTS
1 (0) SWS
1 (0) ECTS
21
Vergleich alte / neue Studienordnung (Entwurf)
LV alt
ECTS
LV neu
ECTS
LV alt
ECTS
LV neu
ECTS
V GCL 1
2
V GCL 1
2
Ü GrammEntw
Ü GCL 1
3
Ü GCL 1
3
GK Programm
V GCL 2
2
V GCL 2
2
AK Programm
5
AS Programm.
5
Ü GCL 2
3
Ü GCL 2
3
PS EMSV
5
PS WerkzInf
5
V GCL 3
2
Proseminar
5
V+Ü KonzMod
5
V+Ü KonzMod
5
Ü GCL 3
3
V+Ü DB
5
Import Inf*
5
V GCL 4
2
Prakt. HS
5
HS praktisch
5
Ü GCL 4
3
Theoret. HS
5
HS theoret.
5
Ü Implement.
3
7,5
OS 1
1
2
OS 1
1
HS KorpLing
Ü Statistik
Modul GdI
Ü WACL
7,5 Modul GdI
3
Ü WACL
5
2
2,5 GS Programm.
5
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
5
Der Studiengang Linguistische Informatik
●  Kleiner Studiengang: ca. 70 Studierende
●  Aktive Fachschaftsinitiative:
http://fsi.linguistik.uni-erlangen.de/
●  KLUE-Stammtisch zum Semesterstart
● 
Mittwoch 16.10., 19:00 im Irish Pub Murphy's Law
●  Weitere Informationen zum Studium unter
http://www.linguistik.uni-erlangen.de/studium-lehre/
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
23
Nach dem Studium
●  Masterstudium / Promotion
● 
● 
● 
● 
Computerlinguistik
Sprachwissenschaft
Digital Humanities
Informatik
●  Tätigkeitsbereiche in der Sprachtechnologie
● 
● 
● 
● 
● 
● 
Google, Microsoft, Yahoo, Twitter, …
Text Mining, Information Retrieval, Search Engines, …
Lexikographie und Terminologie
Spracherkennung und Sprachsynthese, Dialogsysteme
Computergestützter Sprachunterricht (CALL)
Viele Start-Up-Unternehmen im IT-Bereich suchen Computerlinguisten!
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
24
Praktische Informationen
Bismarckstr. 6
Raum 4.000
(Büro Professur)
Philologien
Unser Team
●  Prof. Dr. Stefan Evert
evert@linguistik.uni-erlangen.de
●  Besim Kabashi, M.A.
bmkabash@linguistik.uni-erlangen.de
●  Thomas Proisl, M.A.
tsproisl@linguistik.uni-erlangen.de
●  Paul Greiner, M.A.
plgreine@linguistik.uni-erlangen.de
Webseite:
http://www.linguistik.uni-erlangen.de/
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
(CIP-Pool)
Bismarckstr. 12
Raum 0.320 25
Lehrangebot im WS 2014/15
●  Vorlesung + Übung Grundlagen der Computerlinguistik 1
●  Werkzeuge und Arbeitstechniken der Computerlinguistik
●  Vorlesung + Übungen Grundlagen der Informatik
● 
● 
● 
● 
● 
1. Sem.
Vorlesung Grundlagen der Computerlinguistik 3
PS Einführung in die maschinelle Sprachverarbeitung
3. Sem.
PS Aufbaukurs Python
Vorlesung + Übung Konzeptionelle Modellierung
Vorlesung + Übung Implementierung von Datenbanksystemen
●  Praktisches HS: Sentiment Analysis & Subjectivity
●  Oberseminar Computerlinguistik
Prof. Dr. Stefan Evert | Professur für Korpuslinguistik | www.linguistik.uni-erlangen.de | purl.org/stefan.evert
5. Sem.
26
Semester: WS 2013/2014
UnivIS - Lehrveranstaltungsplan
Mo
Di
Mi
08:00
Do
Fr
08:15 - 09:45
Konzeptionelle Modellierung
(Lenz)
09:00
H7
10:00
10:15 - 11:45
11:00
Übung zu Grundlagen der
Computerlinguistik 1
(Evert)
0.320 Bismarckstr. 12
12:00
12:15 - 13:45
13:00
Grundlagen der
Computerlinguistik 1
(Evert)
0.320 Bismarckstr. 12
14:00
14:15 - 15:45
14:15 - 15:45
14:15 - 15:45
14:15 - 15:45
Werkzeuge und Arbeitstechniken
der Computerlinguistik
(Greiner)
0.320 Bismarckstr. 12
Aufbaukurs Python
(Proisl)
0.320 Bismarckstr. 12
Grundlagen der Informatik
(Grosso)
H7, H8
Grundlagen der Informatik Ergänzungen
(Bauer)
01.133-128
14:15 - 15:45
15:00
Praktisches Hauptseminar
Computerlinguistik
(Evert)
4.000 Bismarckstr. 6
16:00
16:15 - 17:45
16:15 - 17:45
16:15 - 17:45
16:15 - 17:45
17:00
Grundlagen der
Computerlinguistik 3
(Evert)
4.000 Bismarckstr. 6
Implementierung von
Datenbanksystemen
(Meyer-Wegener)
Oberseminar Computerlinguistik
(Evert)
4.000 Bismarckstr. 6
Grundlagen der Informatik
(Grosso)
H7, H8
18:00
19:00
H8
18:15 - 19:45
Maschinelle Sprachverarbeitung
(Kabashi)
0.320 Bismarckstr. 12
27
Stand: Montag, 14 Oktober 2013 16:37:34
28