Polskojęzyczne korpusy równoległe w Polsce i za granicą. Polish

Transcription

Polskojęzyczne korpusy równoległe w Polsce i za granicą. Polish
Polskojęzyczne korpusy równoległe
Polish-language Parallel Corpora
MULTILINGUAL APPLIED LINGUISTICS
WIELOJĘZYCZNA LINGWISTYKA STOSOWANA
Redaktor serii:
Ewa Gruszczyńska
TOM I
Instytut Lingwistyki Stosowanej WLS
Uniwersytet Warszawski
Komitet Redakcyjny serii:
Agnieszka Biernacka, Markus Eberharter,
Agnieszka Kulczyńska, Agnieszka Leńko-Szymańska, Anna Szczęsny.
Uniwersytet Warszawski
Wydział Lingwistyki Stosowanej
Instytut Lingwistyki Stosowanej
University of Warsaw
Faculty of Applied Linguistics
Institute of Applied Linguistics
Polskojęzyczne korpusy równoległe
Polish-language Parallel Corpora
Redakcja
Edited by
Ewa Gruszczyńska, Agnieszka Leńko-Szymańska
Warszawa 2016
Książka wydana dzięki środkom
Wydziału Lingwistyki Stosowanej Uniwersytetu Warszawskiego
Recenzent
Profesor zwyczajny dr hab. Barbara Lewandowska-Tomaszczyk
Projekt okładki:
Barbara Kuropiejska-Przybyszewska
Skład i łamanie:
Witold Woicki
Copyright:
Instytut Lingwistyki Stosowanej 2016
Individual authors
Wydano nakładem
Instytutu Lingwistyki Stosowanej WLS UW
Druk i oprawa:
Sowa Sp. z o.o.
www.sowadruk.pl
ISBN:
978-83-935320-4-9
Spis treści
Table of Contents
1. Agnieszka Leńko-Szymańska, Ewa Gruszczyńska
Polskojęzyczne korpusy równoległe w Polsce i za granicą
Polish-language parallel corpora in Poland and abroad����������������������������������������1
2. Alexandr Rosen
InterCorp – a look behind the façade of a parallel corpus
InterCorp – korpus równoległy od kuchni������������������������������������������������������������21
3. Milena Hebal-Jezierska, Alexandr Rosen, Elżbieta Kaczmarska
Between the devil and the deep blue sea or between users’ needs
and the compilers’ powers: An analysis of the Czech-Polish part
of the parallel corpus InterCorp
Między młotem a kowadłem, czyli czego potrzebuje użytkownik
korpusu równoległego, a jakie są możliwości twórców korpusów
(na przykładzie czesko-polskiej części
korpusu równoległego InterCorp) ������������������������������������������������������������������������41
4. Piotr Pęzik
Exploring phraseological equivalence with Paralela
Zastosowanie korpusu Paralela w badaniach ekwiwalencji
frazeologicznej ����������������������������������������������������������������������������������������������������������67
5. Marek Łaziński, Magdalena Kuratczyk
Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego
The University of Warsaw Polish-Russian Parallel Corpus ��������������������������������83
6. Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels
Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad
Polsko-Niemieckim i Niemiecko-Polskim Korpusem Równoległym
How to create a parallel corpus “for all”? About the building
of the Polish-German and German-Polish Parallel Corpus ������������������������������97
7. Danuta Roszko, Roman Roszko
Polsko-litewskie korpusy równoległe. Elementy anotacji
semantycznej z zakresu modalności możliwościowej
i kwantyfikacji zakresowej
Polish-Lithuanian parallel corpora: Elements of the semantic
annotation related to hypothetical and imperceptive modalities
and scope quantification��������������������������������������������������������������������������������������� 119
8. Natalia Kotsyba
Polsko-Ukraiński Korpus Równoległy PolUKR i jego następca
PolUKR-2
Polish-Ukrainian Parallel Corpus PolUKR and its successor
PolUKR-2 ��������������������������������������������������������������������������������������������������������������� 133
9. Marianna Petrincová
Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie
Równoległym
Searching for equivalents in the Polish-Slovak Parallel Corpus ��������������������� 143
10. Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek
Multi-domain machine translation enhancements
by parallel data extraction from comparable corpora
Poprawa jakości tłumaczenia maszynowego dla wielu domen
poprzez ekstrakcję danych równoległych
z korpusów porównywalnych ����������������������������������������������������������������������������� 157
11. Silvia Bonacchi, Mariusz Mela
Multilingwalny (polsko-niemiecki) korpus języka mówionego
MCCA dla celów analizy kulturologicznej i suprasegmentalnej
(nie)grzeczności językowej
Multilingual (Polish-German) corpus of spoken language
(MCCA) for the purposes of a culturological and suprasegmental
analysis of linguistic (im)politeness��������������������������������������������������������������������� 181
12. Łucja Biel
Mixed corpus design for researching the Eurolect: a genre-based
comparable-parallel corpus in the PL EUROLECT project
Mieszana struktura korpusu do badania eurolektu –
gatunkowy korpus porównawczo-równoległy
w ramach projektu PL EUROLECT ������������������������������������������������������������������� 197
13. Monika Szela
O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego
Tekstów Prawnych w badaniu cech języka tekstów tłumaczonych
On using a English-Polish Parallel Corpus of Legal Texts
in research on features of the translational language ��������������������������������������� 209
14. Elżbieta Kaczmarska
O dwóch czeskich jednostkach leksykalnych będących wykładnikami
negatywnych stanów emocjonalnych i ich polskich ekwiwalentach.
Analiza na materiale z korpusu paralelnego InterCorp
On two Czech lexical items representing negative emotional states
and their Polish equivalents: An analysis based
on the parallel corpus InterCorp������������������������������������������������������������������������� 227
15. Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels
The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring
language contacts through translation
Polsko-Szwedzki i Szwedzko-Polski Korpus Równoległy
w badaniach kontaktów językowych poprzez tłumaczenie����������������������������� 249
Noty biograficzne��������������������������������������������������������������������������������������������������� 269
Notes on contributors ������������������������������������������������������������������������������������������� 275
Agnieszka Leńko-Szymańska
Uniwersytet Warszawski
Ewa Gruszczyńska
Uniwersytet Warszawski
Polskojęzyczne korpusy równoległe w Polsce i za granicą
Dane korpusowe stanowią niezastąpione źródło informacji dla badaczy
reprezentujących szeroki wachlarz różnych dyscyplin naukowych zajmujących
się językiem, począwszy od badań czysto teoretycznych, a skończywszy na przetwarzaniu języka naturalnego. W ciągu ostatnich trzydziestu lat udostępniono
naukowcom z różnych dziedzin językoznawstwa i kulturoznawstwa ogromną
liczbę wielkich korpusów. Rośnie też liczba języków, które zostały udokumentowane w postaci dużych, zrównoważonych i reprezentatywnych zbiorów tekstów
pisanych i mówionych, stanowiących dokładne i całościowe odzwierciedlenie języków narodowych bądź regionalnych (np. Brytyjski Korpus Narodowy,
Amerykański Korpus Narodowy, Czeski Korpus Narodowy). Język polski jest
także reprezentowany w co najmniej dwóch tego typu korpusach: Narodowym
Korpusie Języka Polskiego i Korpusie Języka Polskiego PWN. Oprócz ogólnych
zbiorów powstaje także wiele korpusów mających skromniejsze cele, ograniczonych do poszczególnych odmian języka.
Coraz częściej pojawiają się także wielojęzyczne zbiory, co poszerza
pole badawcze, na którym wykorzystuje się dane korpusowe. Podobnie, jak
w przypadku korpusów jednojęzycznych, korpusy wielojęzyczne są przydatne
do badań w wielu dziedzinach, a szczególnie tam, gdzie dokonuje się porównań dwóch lub więcej języków i kultur. Pole dociekań wykorzystujących wielojęzyczne korpusy obejmuje badania interkulturowe, kontrastywne badania
dyskursu, językoznawstwo kontrastywne, przekładoznawstwo, automatyczne
wyszukiwanie ekwiwalentów i tłumaczenie maszynowe. Zasoby wielojęzyczne
obejmują zarówno korpusy porównywalne, tj. zbiory tekstów w dwóch lub więcej językach, które spełniają te same kryteria, np. reprezentują ten sam gatunek, temat, typ odbiorcy itp., jak i korpusy równoległe, w których zestawia się
teksty oryginalne z przekładami na jeden lub więcej języków. Każdy z tych
dwóch typów korpusów jest przeznaczony do rozwiązywania innego rodzaju
problemów badawczych, ale rośnie liczba badań, w których wykorzystuje się
2
Agnieszka Leńko-Szymańska, Ewa Gruszczyńska
dane zarówno z korpusów porównywalnych jak i równoległych oraz dodatkowo
wzbogaca się wyniki, stosując analizę korpusów jednojęzycznych.
Wśród wielojęzycznych zbiorów cyfrowych na świecie korpusy równoległe stanowią mniejszość z co najmniej dwóch powodów. Pierwszy wynika
z tego, że do korpusu mogą zostać włączone tylko takie teksty, które istnieją
w dwujęzycznej wersji (tekst oryginalny i jego przekład, ewentualnie dwa przekłady na różne języki tego samego tekstu wyjściowego), co znacznie ogranicza
liczbę potencjalnych tekstów nadających się do takiego zbioru. Drugi powód
wynika z charakteru procesu tworzenia korpusu równoległego, który jest o wiele
trudniejszy pod względem technicznym, gdyż polega między innymi na zrównolegleniu obu dwujęzycznych tekstów na poziomie akapitów, zdań, a czasami
nawet słów. Wymaga także skomplikowanego interfejsu umożliwiającego użytkownikowi dwujęzyczne symultaniczne wyszukiwanie informacji. Pierwsze
korpusy równoległe często zawierały język angielski (np. Angielsko-Szwedzki
Korpus Równoległy utworzony w 1993r.). Wynikało to ze statusu języka angielskiego jako powszechnie używanego i większej dostępności tekstów tłumaczonych z języka angielskiego i vice versa. Jednak z upływem lat zaczęło pojawiać
się coraz więcej korpusów bazujących na innych parach języków. Ważnym źródłem danych paralelnych stały się oficjalne dokumenty krajów wielojęzycznych
takich jak Kanada oraz dokumenty międzynarodowe (wydawane przez takie
instytucje jak Organizacja Narodów Zjednoczonych, NATO i Unia Europejska)
tłumaczone na kilkanaście lub kilkadziesiąt języków narodowych.
W ciągu ostatnich lat, zarówno w Polsce jak i za granicą, rozpoczęto
wiele działań związanych z budowaniem polskojęzycznych korpusów równoległych. Niektóre z nich stanowią część większych zbiorów liczących wiele języków
(np. InterCorp, ParaSol), inne są ograniczone tylko do jednej pary językowej
(np. Polsko-Rosyjski i Rosyjsko-Polski Korpus Równoległy, Korpus Równoległy PELCRA). Projekty te znacznie różnią się od siebie zarówno pod względem
założeń i objętości, jak i rozwiązań technicznych. Tabele 1. i 2. dołączone do
niniejszego rozdziału zawierają aktualną (względem daty wydania książki) listę
polskojęzycznych korpusów równoległych opisanych w literaturze przedmiotu
wraz z afiliacją każdego z nich, nazwiskami wykonawców oraz w miarę dostępności adresami internetowymi.
Niniejszy tom jest odpowiedzią na rosnące zainteresowanie badaczy
reprezentujących różne dyscypliny, którzy zajmują się analizowaniem języka
polskiego i polskiej kultury w kontekście wielojęzycznym i wielokulturowym.
Jego celem jest zaprezentowanie możliwie pełnego przeglądu bieżących projektów związanych z korpusami równoległymi z udziałem języka polskiego.
Polskojęzyczne korpusy równoległe w Polsce i za granicą
3
Zawiera sprawozdania z tworzenia takich korpusów jak również opisy badań
przeprowadzonych na ich podstawie.
Tom składa się z rozdziału wstępnego oznaczonego numerem 1 oraz
czternastu kolejnych rozdziałów opisujących projekty, które już zostały zakończone, a także takie, które są na etapie realizacji. W każdym rozdziale można
znaleźć szczegółowy opis konkretnego korpusu równoległego zawierającego
polski komponent. Prezentowane i poddane dyskusji są zarówno budowa korpusu, anotacja oraz zastosowany interfejs. Autorzy dostarczają także wielu przykładów badań opartych na danych uzyskanych z korpusów równoległych lub
badań, które są planowane. Badania te potwierdzają wielość zastosowań cyfrowych zasobów paralelnych w językoznawstwie oraz kulturoznawstwie.
Rozdział 2. autorstwa Alexandra Rosena dotyczy jednego z największych wielojęzycznych korpusów równoległych InterCorp utworzonego na
Uniwersytecie Karola w Pradze. Obejmuje zbiór tekstów w 39 językach z czeskim jako najlepiej reprezentowanym językiem głównym. W rozdziale tym
przedstawiono strukturę korpusu, który został też porównany z innymi tego
typu zasobami. Wyjaśniono także jego status organizacyjny oraz opisano proces
kompilacji. Część końcowa to przegląd różnego rodzaju zapytań możliwych do
zrealizowania za pomocą korpusowego interfejsu.
InterCorp zawiera komponent polski wielkości około 80 milionów
słów, co przedyskutowano szczegółowo w rozdziale 3. Milena Hebal-Jezierska,
Alexandr Rosen i Elżbieta Kaczmarska przeanalizowali wyzwania związane
z oczekiwaniami użytkowników, przed jakimi stają twórcy korpusu. Autorzy przedstawiają problemy użytkowników, jakie pojawiają się przy korzystaniu z czesko-polskiej części korpusu oraz rodzaje zapytań, które nie są dobrze
obsługiwane, jednak przytaczają także przykłady wyszukiwań, które zwracają
bogate i relewantne dane.
W rozdziale 4. Piotr Pęzik prezentuje nowy polsko-angielski korpus
równoległy zwany Paralela, który jest od niedawna dostępny jako część polskiej
infrastruktury CLARIN-PL –zasobów i narzędzi do obsługi tekstów w języku
polskim. Autor skrótowo przedstawia zawartość korpusu i opisuje specjalnie
stworzoną dla niego wyszukiwarkę. Rozważania zawarte w rozdziale skupiają
się wokół możliwości zastosowania Paraleli w badaniach idiomów występujących w angielsko-polskich przekładach. Autor dochodzi do wniosku, że tylko
wielkie korpusy równoległe w połączeniu z wyspecjalizowanymi narzędziami
służącymi do ich przeszukiwania, mogą dostarczyć odpowiednich danych do
badań nad zjawiskiem globalnej ekwiwalencji frazeologicznej w przekładzie.
4
Agnieszka Leńko-Szymańska, Ewa Gruszczyńska
Rozdział 5. autorstwa Marka Łazińskiego i Magdaleny Kuratczyk dotyczy Polsko-Rosyjskiego Korpusu Równoległego utworzonego na Uniwersytecie Warszawskim. Zawiera on 30 milionów tokenów, jednak część korpusu nie
jest ogólnie dostępna ze względu na prawa autorskie. Projekt był realizowany
we współpracy z dwoma dużymi podmiotami: Narodowym Korpusem Języka
Polskiego i Rosyjskim Korpusem Narodowym, których zasoby tekstowe oraz
zasady anotacji częściowo wykorzystano. Autorzy omawiają proces budowy
korpusu ze zwróceniem szczególnej uwagi na aspekty kulturowe przy doborze
tekstów, proces tagowania oraz ujednoznaczniania, a także różne możliwości
wyszukiwania. W rozdziale posłużono się dwoma przykładami zastosowania
korpusu w badaniach ekwiwalentów przekładowych. Rozważania kończy dyskusja na temat znaczenia projektu oraz planów na przyszłość.
W rozdziale 6. Andreas Meger, Michał Woźniak i Ruprecht von
Waldenfels opisują korpus równoległy, który jest obecnie tworzony pod auspicjami Uniwersytetu Jan Gutenberga w Moguncji. Istotną cechą tego korpusu
jest zrównoleglenie nie tylko na poziomie zdań, ale także na poziomie słów.
Na razie mały, pilotażowy korpus liczy około 1 miliona tokenów. Podobnie
jak w przypadku innych korpusów opisanych w tym tomie, autorzy omawiają
szczegółowo jego budowę i anotację. Szczególną uwagę poświęcają projektowi
interfejsu, który jest oparty na pakiecie ParaVoz, oryginalnie stworzonym dla
projektu ParaSol. Obsługuje on teksty równoległe w formacie CWB i działa
poprzez przeglądarkę internetową. Graficzna wyszukiwarka oferuje różne możliwości: od prostego wyszukiwania tokenów do skomplikowanego wyszukiwania CQP, co sprawia, że korpus jest „przyjazny” w użytkowaniu zarówno dla
laików jak i dla specjalistów w przetwarzaniu języka naturalnego.
Danuta Roszko i Roman Roszko (rozdział 7.) opisują dwa polsko-litewskie korpusy równoległe utworzone w Instytucie Slawistyki Polskiej
Akademii Nauk. Starszy, korpus eksperymentalny, to wewnętrzny projekt
zawierający ponad 2 miliony tokenów pochodzących z tekstów beletrystycznych
i 14 milionów tokenów pochodzących ze współczesnych tekstów specjalistycznych w obu językach. Drugi korpus jest tworzony pod auspicjami konsorcjum
CLARIN. Będzie także zawierał teksty beletrystyczne i teksty specjalistyczne,
które znajdują się w wolnym dostępie, a jego objętość w roku 2016 planowana
jest na około 6 milionów tokenów. Autorzy tłumaczą fakt istnienia dwóch korpusów równoległych prawami autorskimi. Polsko-litewski korpus równoległy
CLARIN będzie w wolnym dostępie, więc może zawierać tylko teksty, dla których nie jest wymagana zgoda na upublicznienie, lub dla których taka zgoda
została uzyskana. To ogranicza dobór tekstów, stąd decyzja o kontynuowaniu
wewnętrznego projektu korpusowego, który ma służyć badaniom przeprowadzanym w macierzystej jednostce. Ciekawą cechą obu korpusów jest ich
Polskojęzyczne korpusy równoległe w Polsce i za granicą
5
anotacja, która zawiera tagowanie semantyczne. W drugiej części artykułu autorzy wyjaśniają, że dzięki przejrzystości struktur formalnych języka litewskiego
oraz braku dwuznaczności przy mapowaniu na płaszczyźnie formalno-funkcyjnej język litewski jest szczególnie odpowiedni do automatycznej anotacji
semantycznej. Zestawienie go z językiem polskim oraz innymi językami słowiańskimi, które są mniej regularne pod wyżej wymienionym względami, może
ułatwić semantyczną anotację tych języków.
Rozdział 8., autorstwa Natalii Kotsyby, poświęcony jest opisowi kompilacji polsko-ukraińskiego korpusu równoległego oraz wyzwaniom, przed
jakimi stanęli jego twórcy. Podobnie jak w przypadku korpusu polsko-litewskiego i oni także zdecydowali się na budowę dwóch korpusów. Pierwszy z nich,
korpus pilotażowy PolUKR, powstawał w latach 2004-2009 w Instytucie Slawistyki Polskiego Akademii Nauk (podobnie jak wyżej omówione zasoby polsko-litewskie), a następnie na wydziale „Artes Liberales” Uniwersytetu Warszawskiego. Głównym celem tego projektu było sprawdzenie procedur oraz stworzenie i przetestowanie oprogramowania koniecznego w procesie kompilacji.
Szczególny nacisk został położony na wypracowanie jednolitego morfosyntaktycznego systemu znaczników do anotacji obu języków, który obecnie jest
częścią międzynarodowego projektu wielojęzycznego o nazwie MULTEXT-East. Wynikiem prac pilotażowych był niewielki oportunistyczny zbiór danych
liczący około 600 tysięcy słów. Autorka pracuje obecnie nad powiększeniem
zasobów. PolUKR2 zawiera już 6,5 miliona tokenów, a jego docelowa wielkość
przewidziana jest na 10 milionów tokenów. Ma on służyć stworzeniu wielkiego
słownika polsko-ukraińskiego.
Zastosowaniu równoległych zasobów w leksykografii jest poświęcony rozdział 9. Marianna Perincova opisuje krok po kroku tworzenie Polsko-Słowackiego Korpusu Równoległego zawierającego obecnie 1,3 miliona tokenów. Prezentuje zawartość korpusu, jak również sposoby pozyskiwania tekstów
od autorów, tłumaczy i wydawców. W projekcie tym zdecydowano się na wykorzystanie komercyjnego pakietu online SketchEngine jako narzędzia do obsługi
korpusu, a także jako interfejsu do zrównoleglonego materiału. Jest to wszechstronny system, który oprócz obsługi różnorodnych jednojęzycznych i równoległych korpusów, umożliwia także użytkownikowi tworzenie i obsługiwanie jego
własnych zasobów. W drugiej części artykułu autorka prezentuje liczne przykłady pozyskiwania słowackich ekwiwalentów przekładowych dla czasowników
prefiksalnych i ocenia ich leksykograficzną przydatność.
W rozdziale 10. poruszono problem trudności związanych z pozyskiwaniem tekstów i tworzeniem korpusów równoległych, który pojawiał się także
w wyżej wzmiankowanych artykułach. Autorzy Krzysztof Wołk, Emilia Rejmund
6
Agnieszka Leńko-Szymańska, Ewa Gruszczyńska
i Krzysztof Marasek zaproponowali nową metodę pozyskiwania zdań równoległych z korpusów porównywalnych. Metoda ta polega na przeszukiwaniu sieci
w celu zbudowania tematycznych korpusów porównywalnych, a następnie
wyszukaniu w nich zdań prawdziwie równoległych za pomocą narzędzia Yalign.
Narzędzie to zostało opracowane specjalnie do tego celu. Stosuje ono miernik
podobieństw zdań (cyfra od 0 do 1), który wskazuje przybliżony stopień prawdopodobieństwa tego, że dwa zdania są swoimi tłumaczeniami. Autorzy dostarczają dowodów eksperymentalnych, świadczących o skuteczności tej metody.
Silvia Bonacchi i Mariusz Mela proponują inne spojrzenie na kompilację wielojęzycznych zasobów, w tym korpusów równoległych. W rozdziale
11. opisują dwujęzyczne korpusy polsko-niemieckie tworzone w ramach projektu MCCA: Multimodal Communication: Culturological Analysis, na Uniwersytecie Warszawskim i Uniwersytecie Kraju Saary w Saarbrücken. Celem
zaprezentowanego projektu jest kulturologiczna i suprasegmentalna analiza
(nie)grzeczności językowej. Oryginalność zgromadzonych dla celów badawczych zasobów polega na tym, że reprezentują mówioną odmianę obu języków, a udokumentowane są w postaci nagrań oraz tekstów transkrybowanych.
Autorzy opisują trzy rodzaje danych ujętych w korpusie: rozmowy diadyczne na
tematy ogólne zrealizowane w warunkach studyjnych, nagrania audio odgrywanych scenek, oraz nagrania z mediów, takie jak talk show i debaty. Sporządzono
szczegółowe opisy każdego typu danych wraz z ich transkrypcją, anotacją i analizą. Rozdział kończy dyskusja na temat stopnia, w jakim zebrane dane spełniają
kryteria definiujące korpusy porównywalne i równoległe.
W rozdziale 12. zaprezentowano projekt, którego celem jest opis oraz
analiza eurolektu – nowej odmiany polszczyzny używanej w sytuacjach oficjalnych, która wykształciła się pod wpływem tłumaczeń ogromnej liczby unijnych
dokumentów. Autorka, Łucja Biel, argumentuje, że dla dogłębnej analizy stopnia zróżnicowania tej odmiany języka polskiego niezbędne są zasoby zarówno
jedno- jak i wielojęzyczne takie jak angielsko-polskie korpusy równoległe
i porównywalne, a także specjalistyczne oraz ogólne korpusy języka polskiego.
W artykule zaprezentowano skład i strukturę zasobów, które autorka zamierza
opracować w projekcie realizowanym w Instytucie Lingwistyki Stosowanej Uniwersytetu Warszawskiego.
Monika Szela jest także zainteresowana badaniem cech charakterystycznych dla języka urzędowego w tekstach tłumaczonych i także podkreśla
potrzebę posługiwania się wielojęzycznymi zasobami do prowadzenia tego typu
badań. W rozdziale 13. opisuje zasoby porównywalne i równoległe utworzone
na użytek projektu, którego celem jest przebadanie cech gramatycznych i leksykalnych przekładów oraz ich porównanie z tekstami oryginalnymi utworzonymi
Polskojęzyczne korpusy równoległe w Polsce i za granicą
7
przez tzw. użytkowników natywnych w języku docelowym. Korpus równoległy,
który analizuje, składa się z unijnych tekstów aktów prawnych opublikowanych
w języku angielskim i polskim. Każda z części zawiera 40 milionów tokenów
w postaci niezrównoleglonych plików tekstowych bez anotacji. Autorka prezentuje wyniki prac wstępnych przeprowadzonych na podstawie pozyskanych
danych włącznie z analizą list frekwencyjnych i słów kluczowych, a także kilku
wybranych czasowników.
Podczas gdy większość rozdziałów w tej książce prezentuje szczegółowe
opisy różnych korpusów równoległych, Elżbieta Kaczmarska przedstawia w rozdziale 14. badania oparte na danych pozyskanych z takiego korpusu. Celem
eksploracji jest znalezienie i przeanalizowanie polskich ekwiwalentów dwóch
bliskich sobie znaczeniowo czeskich czasowników. Autorka rozpoczyna od analizy znaczeń zawartych w tradycyjnym słowniku czesko-polskim, a następnie
porównuje je z cytowaniami z InterCorp (opisanym szczegółowo w niniejszym
tomie w rozdziałach 1. i 2.). Autorka podejmuje także próbę automatycznego
profilowania odnalezionych ekwiwalentów i dochodzi do wniosku, że dane na
tym etapie nie pozwalają jeszcze na zastosowanie do analizy narzędzia Word
Sketch, dlatego zdecydowała się na analizę manualną. W ostatniej części artykułu autorka umieszcza swoją analizę w szerszej perspektywie i prezentuje swoje
badania, których celem jest wypracowanie algorytmu ułatwiającego pozyskiwanie ekwiwalentów przekładowych dla czasowników będących językowymi
wykładnikami emocji na podstawie ich charakterystyki składniowej.
Rozdział 15. dotyczy pilotażowego projektu realizowanego
w Instytucie Lingwistyki Stosowanej UW, którego celem jest utworzenie Szwedzko-Polskiego i Polsko-Szwedzkiego Korpusu Równoległego współczesnych tekstów literackich. Ewa Gruszczyńska, Agnieszka
Leńko-Szymańska i Ruprecht von Waldenfels opisują szczegółowo, jak powstawał liczący 750 tysięcy tokenów minikorpus i jakie narzędzia wykorzystywane
są do jego obsługi. W drugiej części zaprezentowano wyniki studiów pilotażowych dotyczących analizy jednostek leksykalnych będących wykładnikami
emocji strach/skräck oraz ich wzajemnych tłumaczeń. Wyniki badań pilotażowych wykazały, że przekłady z języka polskiego na język szwedzki i vice versa
jednostek leksykalnych związanych z tą emocją znacznie różnią się od siebie
pod względem siły nacechowania emocjonalnego. Potwierdziły także przydatność korpusu równoległego do tego typu badań.
Wielość przedsięwzięć związanych z różnymi korpusami równoległymi
opisanymi w niniejszym tomie oraz różnorodność zagadnień naukowych związanych z przedstawionymi projektami są dowodem, że polskojęzyczne korpusy stały się niepodważalnym źródłem danych w badaniach lingwistycznych
8
Agnieszka Leńko-Szymańska, Ewa Gruszczyńska
i kulturowych. Redaktorzy mają nadzieję, że tom ten przyczyni się do rozpowszechnienia informacji na temat istniejących projektów i pozwoli na konsolidację społeczności akademickiej zainteresowanej polskojęzycznymi korpusami
równoległymi. Mamy także nadzieję, że książka ta przyczyni się do rozwoju
tej stosunkowo nowej dziedziny i zachęci kolejnych naukowców do tworzenia
własnych zasobów równoległych. Rosnąca liczba dobrej jakości danych wielojęzycznych dostępnych za pomocą korpusów równoległych wpłynie z pewnością
nie tylko na stopień dociekliwości i dokładności porównań między językami
i kulturami, ale także na jakość glosariuszy, słowników i przekładów, które trafiają do odbiorców.
Agnieszka Leńko-Szymańska
Uniwersytet Warszawski
Ewa Gruszczyńska
Uniwersytet Warszawski
Polish-language parallel corpora in Poland and abroad
Corpus data constitute an indispensable source of information for
scholars from a whole range of language-related disciplines, from purely
theoretical studies to Natural Language Processing. In the last thirty years
a multitude of large corpora have become available to researchers form different branches of linguistics and culture studies. An increasing number of
world languages are being captured in large, balanced and representative
collections of written and spoken text, some making claims to being an
accurate reflection of a national or regional language as a whole (e.g. British National Corpus, American National Corpus and Czech National Corpus). Polish also has such a representation in at least two corpora: National
Corpus of Polish and PWN Corpus. In addition to general collections, there
is also a whole array of corpora compiled with more modest aims of representing a particular language variety.
More recently, multilingual language collections have become
available, thus broadening the scope of research supported by corpus data.
As in the case of monolingual resources, multilingual corpora are useful to
researchers from the whole range of disciplines, interested in comparing
and contrasting two or more languages and cultures. The fields of inquiry
which benefit from multilingual corpus data include intercultural studies,
contrastive discourse studies, contrastive linguistics, translation studies,
automatic extraction of equivalents or machine translation. Multilingual
resources include either comparable corpora, that is collections of texts in
two or more languages which match one another on the number criteria
such as genre, topic, audience etc., and parallel corpora which encompass
original texts and their translation(s) into one or more languages. Each
of these two different types of multilingual corpora is more suitable for
addressing different types of research questions, but a growing number of
projects draw their data from both comparable and parallel corpora and
supplement their results with analyses of monolingual corpora.
10
Agnieszka Leńko-Szymańska, Ewa Gruszczyńska
Among multilingual resources around the world parallel corpora
are less numerous for at least two reasons. First, texts to be included in
them have to exist in at least a bilingual version (an original and its translation, or translations of the same text from another source language), thus
drastically limiting the number of texts eligible for inclusion. Second, the
process of compilation is technically more demanding as it involves aligning the bilingual content at the text, paragraph, sentence or sometimes
even word level. It also requires a complex interface enabling users to
query and display the bilingual information simultaneously. First parallel
corpora often included English in their language pairs (e.g. English-Swedish Parallel Corpus launched in 1993). This was motivated by the status
of English as the global language and consequently a larger availability of
texts translated from and into English. However, with years an increasing
number of corpora including other language pairs have started to emerge.
An important source of parallel data have recently been official documents
from multilingual countries such as Canada or international documents
(issued by such official bodies as the United Nations, NATO or the European Union) translated into several national languages.
In recent years several ventures involving a compilation of parallel
corpora including Polish have been launched in Poland and abroad. Some
of them constitute sections of larger collections encompassing several languages (e.g. InterCorp, ParaSol), others are limited to one language pair
(e.g. Polish – Russian and Russian-Polish Parallel Corpus, PELCRA Parallel
Corpus). These projects vary greatly in their objectives and scope as well as
in their technical solutions. Tables 1 and 2 at the end of this chapter contain
an up-to-date (as of the publication date) list of parallel corpora including
a Polish component described in the literature, together with their mother
institutions, compilers’ names and website addresses, if available.
This volume is an answer to a growing interest of researchers from
various disciplines in analysing Polish language and culture in a multilingual
and multicultural context. Its aim is to provide a fairly comprehensive review
of current projects linked to parallel corpora with a Polish component.
It includes reports on activities related to the compilation of such corpora
as well as descriptions of studies based on Polish-language parallel data.
The volume consists of this introductory chapter (Chapter 1)
and 14 chapters describing a variety of projects which have already been
completed or which are currently under development. Each paper offers
a detailed description of a parallel corpus including a Polish component.
The composition of the corpora, their annotation schemes and query
Polish-language parallel corpora in Poland and abroad
11
interfaces are presented and discussed. The authors also present examples of studies based on parallel data which have been conducted or are
planned to be conducted. These studies attest to the multitude of application of parallel resources in linguistic and cultural research.
Chapter 2 by Alexandr Rosen describes InterCorp, one of the
largest multilingual parallel corpora, compiled at Charles University in
Prague. This collection comprises texts in 39 languages, with Czech being
its best-represented and pivot language. The chapter presents a detailed
makeup of the corpus, and compares it to other resources of this kind. It
also explains its organisational status and describes the compilation process. Finally, the paper briefly reviews the types of queries facilitated by
the corpus interface.
InterCorp includes a sizeable Polish component of almost 80 million words, which is discussed in detail in Chapter 3. Milena Hebal-Jezierska, Aleksandr Rosen and Elżbieta Kaczmarska analyse the challenges
facing the corpus compilers related to meeting users’ needs. The authors
demonstrate the problems users come across when using the Czech-Polish
section of the corpus and the kinds of queries which are not well addressed
by the corpus data. However, the chapter also presents examples of searchers which return rich and relevant data.
Piotr Pęzik (Chapter 4) presents a new parallel Polish-English corpus called Paralela, which has recently become available as part of the
CLARIN-PL infrastructure of Polish language tools and resources. The
author summarizes the contents of the corpus and describes its dedicated
search engine. The chapter focuses on the applicability of Paralela in the
study of idiomaticity in English-Polish translations. The author concludes
that only large parallel corpora, in combination with specialized search
tools, provide sufficient data for investigating the phenomenon of global
phraseological equivalence in translation.
Chapter 5 by Marek Łaziński and Magdalena Kuratczyk presents
a Polish-Russian parallel corpus compiled at the University of Warsaw.
The collection consists of 30 million tokens but not all of it is publically
available due to copyright restrictions. The project was run in cooperation
with two large national corpora: National Corpus of Polish and Russian
National Corpus, using some of their textual resources and the annotation schemes. The authors discuss the composition of the collection with
special attention given to the cultural aspects governing the choice of
texts included in it. The tagging and disambiguation processes are also
described together with various search options. The chapter offers two
12
Agnieszka Leńko-Szymańska, Ewa Gruszczyńska
examples of applications of this corpus for research on translation equivalents and it ends with the discussion of the significance of the project and
the outlook for the future.
In Chapter 6 Andreas Meger, Michał Woźniak and Ruprecht
von Waldenfels describe another parallel corpus which is currently being
compiled under the auspices of the University of Mainz. The interesting
feature of this resource is that it is aligned not only at the sentence level but
also at the word level. A small pilot corpus of 1 million tokens has already
been completed. As with other text collections described in this volume,
the authors provide the details of its composition and annotation schemes.
Special attention in this chapter is given to the development of the interface
which is based on the ParaVoz package, originally created for the ParaSol
project. It works with parallel texts in CWB-format and operates through
a web browser. The graphical query builder offers different options: from
simplest token searches to complex CQP queries, which makes the corpus
a user-friendly resource for both laymen as well as NLP specialists.
Danuta Roszko and Roman Roszko (Chapter 7) describe two parallel corpora of Polish and Lithuanian developed at the Institute of Slavic
Studies, Polish Academy of Sciences. The earlier one, the experimental corpus, is an in-house project containing over 2 million tokens of fiction and
14 million tokens of contemporary specialist texts in the two languages.
The other corpus is being compiled under the auspices of the CLARIN-PL
consortium. It will also include fiction and specialist texts from the public
domain and it is planned to reach the size of 6 million tokens in 2016. The
authors explain the necessity of having two parallel corpora by copyright
issues. The CLARIN-PL Polish-Lithuanian parallel corpus will be publically available, thus it can only contain texts for which permissions are not
necessary or have been obtained. This limits the choice of texts, hence the
decision was made to continue the in-house compilation project, which
will only be used for internal research. An interesting feature of these two
corpora is its annotation which will include semantic tagging. In the second part of the article the authors explain that due to the clarity of formal structures in Lithuanian and a lack of ambiguity in the form-function
mappings Lithuanian is particularly suitable for automatic semantic annotation. Juxtaposing it with Polish and other Slavic languages, which are
less regular in these respects, can facilitate automatic semantic annotation
of these languages.
Chapter 8 by Natalia Kotsyba describes in detail the steps in
building a Polish-Ukrainian parallel corpus and the challenges that the
Polish-language parallel corpora in Poland and abroad
13
compilers faced during this process. As in the case of the Polish-Lithuanian resources, two collections were created. The pilot corpus, PolUKR,
was also compiled at the Institute of Slavic Studies, Polish Academy of
Sciences in 2004-2009, and later at the faculty “Artes Liberales”, University
of Warsaw. The primary aim of this project was piloting the procedures
and developing and testing software needed for the compilation process.
Special attention was given to creating a morphosyntactic tagset for a uniform annotation of both languages, which is now part of the international
multilingual project called MULTEXT-East. The result of the pilot project
was a small and opportunistic resource of 600 thousand words. At the
moment Kotsyba is working on extending the collection. PolUKR2 already
contains 6,5 million tokens and is planned to reach at least 10 million
tokens. It will be used for compiling a great Polish-Ukrainian dictionary.
The application of a parallel collection in lexicography is addressed
in Chapter 9. Marianne Petrincova reports on the subsequent steps in the
creation of a Polish-Slovak parallel corpus containing over 1.3 million
tokens. The contents of the corpus as well as ways of obtaining the data
from authors, translators and publishers are presented. In this project the
compiler decided to use the on-line service Sketch Engine as a management tool and an interface for her aligned data. It is a versatile on-line
system which in addition to providing access to a variety of monolingual
and parallel corpora allows users to upload and work with their own data.
In the second part of the paper Petrincova presents several examples of
obtaining Slovak translation equivalents for prefixed verbs and assessing
their lexicographical potential.
Chapter 10 addresses the problem of difficulty in obtaining parallel
texts and building a parallel corpus, already mentioned above. Krzysztof
Wołk, Emilia Rejmund and Krzysztof Marasek propose a new methodology for extracting parallel sentences from comparable corpora. The new
method involves first web crawling for compiling topic-aligned comparable corpora and then extracting from them truly parallel sentences with
the help of Yalign tool. The tool was designed especially for his purpose.
It applies a sentence similarity metric that produces a rough estimate
(a number between 0 and 1) of the likelihood of two sentences being
a translation of each other. The authors provide experimental evidence for
a satisfactory performance of their method.
Silvia Bonacchi and Mariusz Mela offer a different perspective
on the compilation of multilingual resources, including parallel corpora.
In Chapter 11 they describe the bilingual Polish-German corpora they
14
Agnieszka Leńko-Szymańska, Ewa Gruszczyńska
compiled within the project MCCA: Multimodal Communication: Culturological Analysis, which was undertaken by the University of Warsaw
and University of Saarland in Saarbrücken. Its aim is a culturological and
suprasegmental analysis of (im)politeness. The originality of the collection created in the framework of this project lies in the fact that it consists
of spoken data in the two languages in the form of both recordings and
transcripts. The authors describe three types of data that were included in
the corpus: dyadic conversations on topics of general interest recorded in
a studio, audio recordings of acted situations, and media recordings such
as talk shows and debates. The detailed description of each text type as
well as of their transcription, annotation and analysis are provided. The
authors finish the chapter with a discussion of the extent to which their
data meet the criteria of comparable and parallel corpora.
Chapter 12 presents a project aimed at description and analysis of Eurolect, a new variety of Polish used in official contexts, which
is emerging under the influence of translations of large number of EU
documents. Łucja Biel argues that a thorough analysis of this language
variety requires access to different kinds of multilingual and monolingual
resources including English-Polish parallel and comparable corpora and
specialised and general Polish monolingual corpora. The author presents
the architecture of these resources which she intends to compile in the
framework of the project just launched at the Institute of Applied Linguistics, University of Warsaw.
Monika Szela is also interested in research into the characteristics
of the translated legal language and she also recognizes a need for a variety of multilingual resources necessary for this purpose. In Chapter 13
she describes comparable and parallel collections she compiled within her
project whose aim is to explore the grammatical and lexical features of
translated texts and compare them to texts produced originally by native
speakers of the target language. Her parallel corpus consists of legal acts
of the European Union published in English and Polish. Each of the two
sections contains 40 million tokens. The corpus has the form of plain text
files without annotation and alignment. Szela presents results of initial
analyses of the collected data including analyses of frequency lists and
keyword lists as well as of a few hand-picked verb forms.
While most of the chapters in this book offer detailed descriptions of various parallel resources, Elżbieta Kaczmarska’ paper (Chapter
14) reports on a study based on the data drawn from such a corpus. The
aim of the study was to find and examine the closest Polish translation
Polish-language parallel corpora in Poland and abroad
15
equivalents of two semantically related verbs in Czech. The author starts
with the analysis of the equivalents found in a traditional Czech-Polish
dictionary and then compares her results with the citations from InterCorp, described in detail in Chapters 1 and 2. The author also attempts to
automatically profile the located equivalents and concludes that the data is
not sufficient for applying the Word Sketch analysis, thus instead she conducts this analysis manually. In the last section of the chapter Kaczmarska
puts her analysis in a lager perspective by presenting her research aiming
at establishing an algorithm facilitating extration of translation equivalents of verbs being linguistic representations of emotions based on their
syntactic behaviour.
Chapter 15 describes a pilot project launched at the Institute
of Applied Linguistics, University of Warsaw and aimed at compiling
the Swedish-Polish and Polish-Swedish parallel corpus of literary texts.
Gruszczyńska, Leńko-Szymańska and von Waldenfels describe in detail
the subsequent stages involved in the creation of a 750-thousand-token
mini-corpus and the tools used for this purpose. The second part of the
chapter presents the results of a pilot study into the expression of the emotion of ‘fear’ in the two languages. The results of this pilot study demonstrate that translations of lexical units connected with this emotion from
Polish into Swedish and vice versa differ from each other in the intensity
of emotional loading. They also confirm that the parallel corpus provides
invaluable data in exploring this issue.
The multitude of corpus compilation ventures described in this
volume as well as the variety of research questions addressed by these projects testify that Polish-language parallel corpora are becoming a well-established source of data in linguistic and cultural investigations. The
editors hope that the volume will help disseminate the information about
the existing projects and it will be a step forward in consolidating the
research community interested in the analysis of Polish parallel data. It is
also hoped that the volume will contribute to the development of this relatively new area of exploration and encourage more researches to engage in
the compilation of their own resources. The growing availability of good
quality multilingual corpus data will certainly have its influence not only
on the depth and accuracy of comparisons between languages and cultures
but will also be reflected in the excellence of glossaries, dictionaries and
translations reaching their end-users.
http://pol-ros.polon.uw.edu.pl/
Bułgarsko-Polsko-Rosyjski Korpus Równoległy
Bulgarian-Polish-Russian Parallel Corpus
EKorpPL-LT; KorpPL-LT_CLARIN
Polsko-litewskie korpusy równoległe
Polish-Lithuanian parallel corpora
http://pelcra.pl/new/
Polsko-Rosyjski i Rosyjsko-Polski Korpus Równoległy
Polish-Russian and Russian-Polish Parallel Corpus
http://paralela.clarin-pl.eu/
PELCRA (Polish and English Language Corpora for Research and Application)
Korpusy równoległe PELCRA
PELCRA parallel corpora
Nazwa i witryna projektu
Project name and website
PARALELA
Angielsko-polskie teksty równoległe z zawansowana wyszukiwarką
Polish-English parallel texts with an advanced search engine
Magdalena Kuratczyk
m.kuratczyk@uw.edu.pl
Violetta Koseska
amaz1312@gmail.com
Roman Roszko
roman.roszko@ispan.waw.pl
Instytut Języka Polskiego,
Uniwersytet Warszawski
Instytut Rusycystyki,
Uniwersytet Warszawski
Instytut Slawistyki,
Polska Akademia Nauk
Instytut Slawistyki,
Polska Akademia Nauk
Barbara Lewandowska-Tomaszczyk,
blt@uni.lodz.pl;
Kierownik projektu
Project director
Pior Pęzik
piotr.pezik@gmail.com
Piotr Pęzik
piotr.pezik@gmail.com
Marek Łaziński
m.lazinski@uw.edu.pl
Instytut Anglistyki,
Uniwersytet Łódzki
Instytucja macierzysta
Home institution
CLARIN-PL
Tabela 1. Korpusy dwujęzyczne i trójjęzyczne / Table 1. Bilingual and trilingual corpora
Polish-language parallel corpora
Polskojęzyczne korpusy równoległe
16
Polish-language parallel corpora
PL EUROLECT
Korpusy równoległe i porównywalne polskiego i angielskiego unijnego języka
urzędowego (eurolektu)
Parallel and comparable corpora of Polish and English EU administrative
language (Eurolect)
KRAN i KRPL
Polsko-Angielski Korpus Równoległy Tekstów Prawnych
Polish-English Parallel Corpora of Legal Texts
MCCA (Multimodal Communication: Culturological Analysis)
Niemieckie i polskie korpusy równoległe i porównywalne języka mówionego
German and Polish parallel corpora of spoken language
http://www.fb06.uni-mainz.de/polnisch/331.php
Polsko-Węgierski i Węgiersko-Polski Korpus Równoległy
Polish-Hungarian and Hungrian-Polish Parallel Corpus
Polsko-Szwedzki i Szwedzko-Polski Korpus Równoległy
Polish-Swedish and Swedish-Polish Parallel Corpus
Polsko-Włoski Korpus Równoległy
Polish-Italian Parallel Corpus
http://domeczek.pl/~polukr
Polsko-Słowacki Korpus Równoległy
Polish-Slovak Parallel Corpus
Polsko-Niemiecki i Niemiecko-Polski Korpus Równoległy
Polish-German and German-Polish Parallel Corpus
PolUKR; PolUKR2
Polsko-Ukraiński Korpus Równoległy
Polish-Ukrainian Parallel Corpus
Łucja Biel
l.biel@uw.edu.pl
Monika Szela
monikaszela@gmail.com
Silvia Bonacchi
s.bonacchi@uw.edu.pl
Wyższa Szkoła Filologiczna
we Wrocławiu
Instytut Komunikacji
Specjalistycznej i Interkulturowej,
Uniwersytet Warszawski
Marek Łaziński
m.lazinski@uw.edu.pl
Robert Wołosz
robert.wolosz@gmail.com
Ewa Gruszczyńska
e.gruszczynska@uw.edu.pl
Dorota Sieroń
dorota.sieron@uj.edu.pl
Uniwersytet Warszawski
Instytut Slawistyki,
Uniwersytet w Pécsu
Instytut Lingwistyki Stosowanej,
Uniwersytet Warszawski
Katedra Językoznawstwa Ogólnego
i Indoeuropejskiego,
Uniwersytet Jagielloński
Instytut Lingwistyki Stosowanej,
Uniwersytet Warszawski
Marianna Petrincová
m_petrincova@yahoo.com
Andreas Meger
meger@uni-mainz.de
Natalia Kotsyba
natalia.kocyba@ipipan.waw.pl
Univerzita Palackého
v Olomouci
Johannes GutenbergUniversität Mainz
Instytut Slawistyki,
Polska Akademia Nauk
Polskojęzyczne korpusy równoległe
17
http://opus.lingfil.uu.se/
http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/
a.a.barentsen/a.a.barentsen.html
Opus – an open source parallel corpus
Zbiór wielojęzycznych korpusów równoległych przetłumaczonych tekstów
dostępnych w Internecie
A collection of multilingual parallel corpora of translated texts from the web
http://www.slavist.de/
Słowiański Korpus Równoległy Uniwersytetu w Amsterdamie
Amsterdam Slavic Parallel Aligned Corpus
http://ucnk.ff.cuni.cz/intercorp/?lang=en
ParaSol
Korpus równoległy zawierający wiele języków (głównie słowiańskich)
Parallel corpus including multiple (mainly Slavic) languages
Nazwa i witryna projektu
Project name and website
InterCorp
Wielojęzyczny korpus równoległy
Multilingual parallel corpus
Tabela 2. Korpusy wielojęzyczne / Table 2. Multilingual corpora
Michal Křen
michal.kren@ff.cuni.cz
Ruprecht von Waldenfels
ruprecht.waldenfels@gmail.com;
Kierownik projektu
Project director
Alexandr Rosen
alexandr.rosen@ff.cuni.cz;
Jörg Tiedemann
jorg.tiedemann@helsinki.fi
Roland Meyer
roland.meyer
@sprachlit.uni-regensburg.de
Faculteit der Geesteswetenschappen, A.A. Barentsen
Capaciteitsgroep
A.A.Barentsen@uva.nl
Slavische talen en culturen,
Universiteit van Amsterdam
Humboldt-Universität zu Berlin
Instytucja macierzysta
Home institution
Filozofická fakulta,
Univerzita Karlova v Praze
18
Polish-language parallel corpora
http://www.casmacat.eu/corpus/ted2013.html
http://www.opensubtitles.org/
Korpus Równoległy Wykładów TED (dostępny także przez OPUS)
TED Talk Parallel Corpus (also available through OPUS)
http://www.statmt.org/europarl/
OpenSubtitles Corpus
Zbiór przetłumaczonych napisów filmowych w wielu językach
(dostępny także przez OPUS)
A collection of translated movie subtitles in multiple languages
(also available through OPUS)
https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis
https://ec.europa.eu/jrc/en/language-technologies/dgt-acquis
https://ec.europa.eu/jrc/en/language-technologies/dcep
Europarl
Korpus równoległy transkrypcji obrad Parlamentu Europejskiego 1996-2011
(dostępny także przez OPUS)
European Parliament Proceedings Parallel Corpus 1996-2011
(also available through OPUS)
CASMACAT
Cognitive Analysis and Statistical
Methods for Advanced Computer
Aided Translation
opensubtitles.org
Chair of Machine Translation,
School of Informatics,
University of Edinburgh
JRC-Acquis; DGT-Acquis; DCEPT
European Commission,
Wielojęzyczne korpusy równoległe tekstów prawnych UE (dostępne także
Joint Research Centre
przez OPUS)
Multilingual parallel corpus of EU legislative texts (also available through OPUS)
Mauro Cettolo
admin@ opensubtitles.org
Philipp Koehn
pkoehn@inf.ed.ac.uk
Polskojęzyczne korpusy równoległe
19
http://www.korpus.matf.bg.ac.rs/Verne80days/
http://nl.ijs.si/ME/V4/
https://www.clarin.si/repository/xmlui/handle/11356/1043
Verne80days
Wielojęzyczny korpus powieść J. Verne „W 80 dni dookoła świata”
Multilingual edition of Verne’s novel Around the World in 80 Days
MULTEXT-East „1984” 4.0
Korpus równoległy tekstu powieści G. Orwella „1984”
Parallel Corpus of Orwell’s novel 1984
META CESAR
Multilingual Europe
Technology Alliance
Central and South-east European
Resources
Institut „Jožef Stefan”,
Ljubljana
Duško Vitas
vitas@matf.bg.ac.rs
20
Polish-language parallel corpora
Alexandr Rosen
Univerzita Karlova, Praha
InterCorp – a look behind the façade of a parallel corpus
InterCorp – korpus równoległy od kuchni
Streszczenie
InterCorp to projekt, który powstał na Wydziale Filozoficznym
Uniwersytetu Karola w Pradze. Jego celem jest zbudowanie obszernego równoległego korpusu synchronicznego, który obejmowałby
jak najwięcej języków. W tworzeniu korpusu uczestniczą pracownicy
naukowi i studenci Wydziału Filozoficznego Uniwersytetu Karola,
osoby związane z Czeskim Korpusem Narodowym, a także współpracownicy zewnętrzni.
InterCorp to rzeczywiście obszerny i ciągle rozwijający się synchroniczny korpus równoległy, obejmujący teksty w języku czeskim
i 38 innych językach – w tym w języku polskim (wersja 8; stan w lutym
2016), dostępny online poprzez interfejs. Trzon korpusu, który stanowi półautomatycznie opracowana beletrystyka, jest uzupełniony
automatycznie opracowanymi tekstami z zakresu publicystyki
i prawa, a także zapisami debat parlamentarnych i napisami filmowymi. W sumie korpus obejmuje około 1,6 miliarda słów. Wszystkie
teksty dysponują wiązaniem segmentów na poziomie zdania i w miarę
możliwości są opatrzone lingwistyczną anotacją (z podaniem podstawowych form i kategorii morfologicznych) oraz danymi bibliograficznymi. Po krótkiej prezentacji koncepcji korpusu przedstawiamy jego
parametry liczbowe; zwracamy przy tym uwagę na olbrzymią nierównowagę w reprezentacji tekstów z różnych języków, oryginałów i przekładów oraz typów tekstów. Staramy się także dokonać porównania
z niektórymi innymi projektami tego typu. W części poświęconej
wykorzystaniu korpusu zwracamy uwagę na możliwości i ograniczenia wyszukiwarki KonText (wcześniej wykorzystywane wyszukiwarki
Bonito i NoSketch Engine nie są już dostępne) oraz różne sposoby
wykorzystania tekstów równoległych takich jak ekscerpcja ekwiwalentów leksykalnych czy analiza zgodnych fragmentów tekstu. Spojrzenie na korpus od strony użytkownika jest uzupełnione komentarzem
twórców korpusu. W części przedstawiającej opracowywanie tekstów
przed ich włączeniem do korpusu oczekiwania i życzenia użytkowników zostają skonfrontowane z koncepcyjnymi, technicznymi i fizycznymi możliwościami budowy korpusu paralelnego. Końcowa część
Alexandr Rosen
22
zawiera wnioski, jakie się nasuwają na podstawie dotychczasowych
doświadczeń, a także plany na przyszłość obejmujące zarówno konkretne projekty twórców korpusu, jak i koncepcje dotyczące zmian
wymagających dużych technicznych interwencji w samej strukturze
korpusu.
Powstały i ciągle rozwijany korpus równoległy InterCorp ma
z założenia służyć między innymi jako źródło danych do badań teoretycznych, analiz gramatycznych i leksykograficznych, prac translatorskich, projektów dotyczących nauki języków obcych, a także jako
materiał do badań dla studentów.
Keywords: parallel corpus, Czech, multilinguality, user feedback,
annotation, balance
Słowa kluczowe: korpus równoległy, język czeski, wielojęzyczność,
feedback od użytkowników, anotacja, równowaga
1. About InterCorp
InterCorp,1 a part of the Czech National Corpus (CNC),2 is a multilingual parallel corpus, built since 2005 at Charles University in Prague. Although its
original purpose was to serve researchers, teachers and students from the linguistic departments at the Faculty of Arts, it has reached out to users beyond the
academic community and national borders. However, its typical users are still
humans, with their varied and often challenging needs, rather than computer
applications.
New releases of the corpus are published approximately once per year.
With each new release the amount of texts is growing, often together with the
number of languages and the extent and quality of annotation. Starting with
release 6, previous versions remain available on-line. Currently (at release 8) the
corpus includes about 1.4 billion words in 38 languages plus 174 million words
in Czech.3 All ‘foreign’ texts have a Czech counterpart, while a foreign text may
have no counterpart in any other foreign language.
There are two main groups of texts included in the corpus: the core,
consisting largely of literary texts, and collections as well as a mix of other text
1 For more details about the corpus see http://www.korpus.cz/intercorp/. For a slightly outdated
but more theoretically oriented account see Čermák and Rosen (2012), or the more technically
focused paper Rosen and Vavřín (2012). The project is supported by the Ministry of Education of
the Czech Republic, project no. LM2011023.
2 https://www.korpus.cz
3 See Table 2. for more details. Like any other CNC corpora published since 2014, InterCorp is
now officially described as a reference corpus. The reason for using this term is the permanent
availability of its previous releases in their entirety. We are aware of the somewhat non-standard
usage of this term, cf. Brown (2005: 209): “When a sample corpus claims to be a reasonably reliable repository of all the features of a language, it can be called a reference corpus.”
InterCorp – a look behind the façade of a parallel corpus
23
types, obtained from freely available resources. The proportions are very much
language-specific. The size of the core part (altogether 194 million words in 28
languages plus 85 million words in Czech) ranges from 3 titles in Arabic to
327 titles in German. The core has a privileged status as the linguistically more
interesting and reliable resource, also because it has been proofread for typos,
sentence segmentation and alignment errors.
The collections are acquired from other multilingual corpora, web services or databases. The languages of the EU countries have a substantial portion
of legal texts and parliament proceedings (approx. 40 million per language from
JRC-Acquis,4 the Acquis Communautaire corpus, and about 9–17 million from
Europarl,5 the corpus of European Parliament proceedings), and some include
journalistic texts (approx. 4 million per language from Project Syndicate,6 a site
of newspaper commentaries, and Voxeurop,7 a European news site). For most
languages the corpus also includes film subtitles (in sizes ranging from 113
thousand words in Japanese to 52 million words in English; obtained from the
Open Subtitles8 database).
Texts in all languages are equipped with available bibliographical data,
such as translator’s name, language of the original or publication year, and
are automatically aligned by sentences with a corresponding text in Czech.
Czech has the role of the pivot – two foreign languages are aligned via Czech.
Depending on the availability of tools, texts in 20 languages are lemmatized
and/or tagged.
InterCorp can be accessed via a standard web browser from the integrated
search interface of the CNC.9 Upon request and after signing a non-profit license
agreement, the texts can also be acquired as bilingual files, including shuffled
pairs of sentences as a physical protection against infringement of copyright.
On the organizational front, the Institute of the Czech National Corpus (ICNC) is responsible for the top-level management, financing, technical
support, training, consulting, central data repository, automatic alignment,
morphosyntactic markup, lemmatization, availability and dissemination of
InterCorp. The coordinator for a specific language is responsible for the selection and acquisition of texts (pending the Institute’s approval), proofreading
and alignment checking. While most coordinators are the staff of the Faculty of
4 http://ipsc.jrc.ec.europa.eu/index.php?id=198
5 http://www.statmt.org/europarl/
6 http://www.project-syndicate.org/
7 Formerly Presseurop: http://www.voxeurop.eu
8 http://www.opensubtitles.org
9 https://kontext.korpus.cz
Alexandr Rosen
24
Arts, some come from other faculties of Charles University or other institutions:
Masaryk University in Brno, Palacký University in Olomouc, the Czech Academy of Sciences, University of Warsaw and the Polish Academy of Sciences.
Some texts, mainly the collections but also fiction titles, and many of the tools,
such as taggers, have been acquired, processed or developed by researchers
from abroad.10
2. InterCorp in numbers
Table 1 shows the number of words (in millions) for Czech, Polish, all foreign
languages and the total, separately for each text group. The more detailed Table 2
shows the number of words (in thousands) for each language and text group. For
the core part, the number of texts is also included. There are striking differences
between the languages. Some languages of the EU countries are represented in
all the text groups, with a correspondingly high total (German, English, Spanish, French, Italian, Dutch, Portuguese), but not all of them also have a high
number of core texts. In addition to German, English and Spanish, languages
with over 10 million words in the core part include Croatian and Polish. On the
other hand, there are languages such as Arabic and Hindi with very few texts
in the core, or Hebrew, Icelandic, Japanese, and Albanian with some texts from
Open Subtitles and nothing else. It is mainly this disproportionate distribution
of texts across languages that makes InterCorp a somewhat opportunistic corpus
(arguably an unavoidable feature of all parallel corpora), suffering from a shortage of suitable texts, or – for some language pairs – of any texts.
Czech
Polish
All foreign
Core
84.7
17.5
194.1
Syndicate
3.4
0
20.1
Voxeurop
2.3
2.4
24.7
Acquis
20.3
20.6
430.2
Europarl
12.9
12.8
265.0
Subtitles
50.7
26.6
488.4
Total
174.3
79.9
1,423.1
No. of core texts
1,282
232
2,516
Table 1. The size of InterCorp in million words, with details for Czech and Polish
Language
Core
Syndicate Voxeurop Acquis Europarl Subtitles
Total
278.8
24.1
27.0
450.5
278.0
539.1
1,597.5
3,798
Total
words texts
ar
Arabic
be
Belarusian
bg Bulgarian
34
3
2,153
39
5,241
68
34
2,153
13,816
words texts
10 See http://ucnk.ff.cuni.cz/intercorp/?lang=en for details.
9,083
28,141
InterCorp – a look behind the façade of a parallel corpus
Language
ca
Core
Syndicate Voxeurop Acquis Europarl Subtitles
Catalan
4,633
46
da Danish
3,017
27
27,682
327
de
German
el
Greek
25
Total
4,633
3,725
21,680
13,916
14,430
53,042
2,483 21,724
25,070
13,089
8,367
77,070
15,404
23,715
64,188
en English
15,488
178
3,818
2,670 24,208
15,580
52,101
113,866
es
Spanish
17,476
214
4,324
2,816 27,001
15,885
36,379
103,882
et
Estonian
15,963
10,900
10,296
37,158
fi
Finnish
3,426
58
16,455
10,175
15,098
45,154
fr
French
9,170
137
2,928 27,352
17,178
25,962
86,983
he
Hebrew
16,221
16,221
hi
Hindi
hr
Croatian
19,093
34,572
21,240
58,110
1,585
1,585
14,654
65,599
113
113
hu Hungarian
409
7
15,480
215
5,388
71
4,393
409
19,177
12,307
is
Icelandic
it
Italian
ja
Japanese
lt
Lithuanian
358
17
18,393
11,213
558
30,522
lv
Latvian
1,337
36
18,745
11,689
280
32,051
mk Macedonian
3,742
49
1,877
5,619
3,521
3,521
7,248
69
652
2,708 24,849
15,489
ms Malay
mt Maltese
nl
Dutch
no Norwegian
14,133
9,962
119
4,816
54
17,516
232
Portuguese
2,393
29
Romanian
3,433
36
ru
Russian
3,338
63
sk
Slovak
7,402
sl
Slovene
900
sq
Albanian
sr
Serbian
8,824
100
sv
Swedish
8,138
100
tr
Turkish
5,054
67
pl
Polish
pt
ro
uk Ukrainian
vi
14,133
2,956 24,746
15,563
29,363
82,904
2,378 20,628
12,811
26,572
79,906
3,000 28,603
4,816
369
16,485
43,392
94,242
8,200
9,446
34,129
57,945
6,886
13,397
140
19,223
12,734
5,134
44,493
15
19,646
12,241
17,025
49,811
2,004
2,004
20,777
29,601
14,694
57,258
21,191
21,191
246
5,300
1,474
1,474
2,738
3,174
20,586
13,840
Vietnamese
Total
cs
314
Czech
194,055 2,516
20,770
84,718 1,282
3,416
24,677 430,195 265,029 488,373 1,423,099
2,315 20,303
12,923
50,688
174,364
Table 2. The size of Intercorp by language and text groups in thousands of words and in text units
(for core texts)
26
Alexandr Rosen
While the text types and their mix is not a critical factor for some kinds of
research and applications, other users are quite discriminating and treat some
data, such InterCorp’s collections, as the last resort option. This may not be primarily because the linguistic annotation and alignment of these data is of a lower
standard compared with the core part. The main complaints concern missing
metadata (especially about the source language) and the types of texts included
in the collections. This is why many users focus on the core part, despite its
limitations in terms of size. However, even in the core part there are issues of
disproportionate distribution. The most obvious differences across languages
are in terms of size (see the Core column in Table 2 again). Yet other differences
are not visible at first sight, although some users may perceive them to be as
critical as limited size.
As a multilingual corpus, InterCorp should offer large amounts of texts
in as many languages as possible to provide data for truly cross-lingual types
of research. The intersection of texts available in multiple languages in the core
part of the corpus is very much dependent on both the languages and the texts.
As a rough guide, there are now 9 texts in the core part, which are available in
at least 20 languages, 27 texts in at least 15 languages, 55 texts in at least 10 languages and 186 texts in at least 5 languages. A Polish translation is available for
all of the texts in 15 and more languages, and there are still 110 texts available
in five or more languages including Polish. Table 3 shows 27 texts covered in
most languages. The list is hardly a balanced mix – except for six Czech novels and a single novel in French, Italian, Portuguese and Russian, the rest is all
English originals. Moreover, there are as many as five novels authored by Joanne
Rowling, four by J. R. R. Tolkien and three by Milan Kundera. This is perhaps
the best illustration of the thorny path to the elusive ideal of a representative
parallel corpus.
Another major concern may be the size of available texts for a specific
language pair. Table 4 shows the figures for each pair of the core part, shown
separately for each language in the pair. For example, Polish texts aligned
with German include 6.0 million words (“pl” column, “de” row), while corresponding German texts aligned with Polish include 6.9 million words (“de”
column, “pl” row).11
Yet another case where the distribution of texts across languages may not
be quite satisfactory is the ratio of originals to translations, and the availability
11 The diagonal shows the total number of words for all texts in the language. The extent and
sizes of collections available for a specific pair are easy to determine from Table 2. Another option
is to use KonText. After clicking the bottommost button ‘Refine selection’, KonText shows the
number of tokens (i.e. words plus punctuation signs) for the texts in the language in focus which
are aligned with one or more other specified languages and/or which are subject to some other
constraints according to the metadata.
InterCorp – a look behind the façade of a parallel corpus
27
of the original. Table 5 shows only texts which have their original version in one
of the languages of the pair. For each language with some texts in the core, the
rows indicated by the corresponding language code in the first column show
the number of texts according to the language of the original, given in the column heading. For example, the core includes three texts in Arabic (the last but
one column, headed Σ), one original text (in the column headed “ar”), one text
translated from Czech (in the column headed by “cs”) and one translated from
German (in the column headed “de”). The row with “cs” in the first column has
at least one text in each column – each text in a foreign language has a Czech
counterpart. Except for the column headed “cs”, which shows the number of
Czech originals (in the language of the original, i.e. in Czech), the numbers in
the “cs” row indicate the number of original texts (in the language indicated in
the column heading), which are translated into Czech.
Languages
26
26
23
21
21
21
20
20
20
19
19
19
19
18
18
18
18
17
17
17
17
16
16
16
16
15
15
Author
Rowling
Saint-Exupéry
Carroll
Kundera
Rowling
Tolkien
Kundera
Adams
Tolkien
Bulgakov
Rowling
Brown
Tolkien
Tolkien
Hašek
Eco
Milne
Orwell
Kafka
Rowling
Coelho
Kundera
Frank
Hrabal
Kipling
Kundera
Rowling
Title
Harry Potter and the Philosopher’s Stone
The Little Prince
Alice in Wonderland
The Unbearable Lightness of Being
Harry Potter and the Chamber of Secrets
The Fellowship of the Ring
The Joke
The Hitch Hiker’s Guide to the Galaxy
The Return of the King
The Master and Margarita
Harry Potter and the Prisoner of Azkaban
The Da Vinci Code
The Two Towers
The Hobbit or There and Back Again
The Good Soldier Švejk
The Name of the Rose
Winnie the Pooh
1984
The Trial
Harry Potter and the Goblet of Fire
The Alchemist
Immortality
The Diary of a Young Girl
I Served the King of England
The Jungle Book
Laughable Loves
Harry Potter and the Order of the Phoenix
Table 3. The top 27 texts in most languages in the core part of InterCorp
28
Alexandr Rosen
The columns show how many original texts in the language specified in the
heading have a translation in the other languages, indicated in the first column.
A language such as English (“en”) has at least one text in nearly each row, which
means that translations of English originals occur in almost all languages of
the InterCorp core. The English column is exceptional for another reason too:
there are as many as 242 texts translated into Czech while there are far fewer
original English texts (125). This means that the core does not include English
originals for 117 texts. In all of these cases, a Czech translation is aligned with
one or more translations, while the English original is missing. The last column
(“other”) shows the number of original texts in languages not included in the
core of InterCorp.
The diagonal gives the number of original texts for the corresponding
language of the row and the column. The best-represented languages are Czech
(267), German and Spanish (126), English (125) and French (83). On the other
hand, the core does not include any original text in Hungarian or Romanian.
There is not even any translated Romanian original. But even in languages with
a more representative content, the user may be disappointed to see cases of
some very lopsided balance between originals and translations. For a pair such
as Polish and Czech, the proportion is 46:36 in favour of Polish originals (2.5
million vs. 2.1 million in the number of words, see Table 6), which is a reasonable balance, similar to that for German and Czech (126:85). On the other hand,
foreign originals prevail in the English-Czech (125:25), Spanish-Czech (126:25)
and French-Czech pairs (83:36). The opposite applies to Croatian and Czech
(26:71) and a few other “smaller” languages. Seen from this angle, the best-represented pair is Slovak and Czech, with the score 56:55.
Table 6 shows similar statistics. This time, the texts are not counted in
items, but in thousands of words. For example, according to Table 6 the core of
InterCorp includes 551 thousand words in German originals for which a Polish
translation is available (“de” column, “pl” row). Table 5 shows that there are
actually 8 such texts. On the other hand, there are 114 thousand words in Polish
originals for which the corpus has a German translation (“pl” column, “de” row)
in 3 texts according to Table 5. The following remarks are due here:
There is a reason why the number of words in German originals translated into Czech (10,968 thousand) is lower than in untranslated German
originals (11,547 thousand), even though the corpus includes more German
originals translated into Czech (134) than those untranslated (126). This is
because languages may differ significantly in the number of words within the
same parallel texts.
2,453
1,338
2,529
371
645
1,320
338
805
2,868
1,795
2,263
1,677
73
87
1,791
1,953
2,270
46
1,530
797
2,065
2,209
2,270
927
5,241
1,238
5,241
910
bg
1,515
903
2,158
328
330
785
872
1,087
2,031
1,980
1,931
1,379
196
338
2,337
1,557
2,734
1,038
840
4,258
1,648
2,847
838
4,633
4,633
1,603
340
ca
cs
5,259
7,116
8,165
813
7,510
3,459
2,800
1,950
17,625
4,052
8,093
3,494
1,407
418
6,451
5,473
14,707
297
7,281
3,965
15,140
12,951
23,891
2,487
84,743
3,660
5,029
2,221
35
1,901
872
1,901
87
96
443
88
945
1,768
960
1,210
1,509
2
90
1,050
1,137
1,208
224
831
229
1,415
1,465
1,813
3,017
3,017
819
1,146
369
da
de
3,155
2,803
4,955
483
986
1,824
1,073
1,066
6,942
3,587
5,040
2,844
157
320
3,326
2,636
7,069
92
2,818
2,143
5,735
6,692
27,656
1,675
27,656
2,571
2,531
1,283
34
3,163
1,958
4,379
432
450
2,490
1,037
835
4,892
2,464
4,542
2,403
108
380
1,590
2,089
4,936
105
2,200
1,167
3,464
15,488
6,633
1,373
15,488
1,461
2,451
1,381
en
2,908
2,609
3,898
303
330
823
1,542
1,121
5,009
3,072
3,716
1,998
195
320
4,669
2,025
6,205
50
2,253
1,073
17,476
3,425
5,761
1,308
17,476
3,836
2,303
627
es
592
511
807
211
383
521
317
111
1,305
1,071
1,020
462
99
111
606
614
1,252
26
593
3,426
874
923
1,628
170
3,426
625
655
173
fi
1,888
1,448
2,076
498
193
988
567
631
2,927
1,695
2,456
1,670
216
327
1,877
1,876
2,595
101
9,170
755
2,457
2,273
2,981
884
9,170
1,000
1,729
559
8
fr
220
17
265
75
17
45
62
103
62
17
62
17
62
409
120
45
62
120
120
261
409
62
17
hi
hr
3,003
2,493
4,030
379
624
1,372
1,480
759
5,025
2,913
4,607
1,994
214
324
2,974
1,862
15,480
43
2,122
1,502
5,519
4,347
6,331
1,047
15,480
2,221
2,290
1,028
31
1,679
1,248
1,978
326
377
850
438
664
2,353
1,495
1,799
1,403
86
196
1,467
5,388
1,639
12
1,479
688
1,678
1,767
2,199
867
5,388
1,154
1,819
524
hu
2,669
1,867
2,691
156
142
497
804
842
3,202
2,078
2,387
1,487
84
161
7,248
1,766
3,209
51
1,681
692
4,576
1,584
3,249
969
7,248
2,071
2,007
657
It
58
101
209
58
13
174
143
43
297
244
326
171
16
358
113
171
253
209
110
216
259
228
60
358
214
71
110
lt
54
81
54
74
244
83
135
116
102
83
111
1,337
18
54
81
174
154
100
137
83
118
2
1,337
135
54
54
lv
2,224
1,174
2,287
305
541
997
388
796
2,533
1,434
2,147
3,742
139
219
1,347
1,549
1,990
13
1,446
580
1,795
2,214
2,605
1,241
3,742
1,110
1,737
832
32
mk
3,197
2,460
3,877
431
567
2,077
1,053
816
5,257
2,880
9,962
2,361
105
469
2,546
2,314
5,271
54
2,459
1,458
3,860
4,664
5,258
1,158
9,962
1,753
2,587
1,055
nl
1,941
1,765
2,482
355
555
914
948
826
3,134
4,816
2,705
1,546
135
361
2,156
1,803
3,324
81
1,629
1,389
3,145
2,466
3,628
927
4,816
1,832
1,996
664
35
no
3,722
2,226
4,128
477
849
2,113
935
861
17,517
2,663
4,390
2,390
133
346
2,804
2,460
4,800
43
2,380
1,487
4,320
4,191
5,992
1,394
17,517
1,593
2,693
1,290
pl
961
674
1,000
30
94
372
111
2,393
1,099
858
835
961
69
905
867
865
38
596
154
1,230
907
1,173
936
2,393
1,051
1,000
396
6
pt
374
448
1,882
171
278
3,433
105
1,173
993
1,079
464
220
218
871
578
1,747
15
591
438
1,632
1,047
1,137
79
3,433
856
397
570
ro
1,413
1,040
1,551
268
436
3,338
202
283
2,042
792
1,687
912
94
199
444
840
1,274
40
806
574
697
2,111
1,523
332
3,338
598
1,214
407
ru
sk
499
317
640
220
7,402
433
76
820
520
433
478
257
15
115
384
585
227
443
260
433
819
76
7,402
242
580
259
Table 4. The size of core bitexts in thousands of words: column headings indicate the language of the text, row labels “the other” language
761
1,326
sr
369
65
sl
uk
266
sk
sv
420
ru
28
452
ro
269
pt
6
1,251
494
pl
872
720
mk
28
65
lv
no
127
lt
nl
497
it
28
496
hu
12
963
28
421
fr
hr
197
fi
hi
505
es
6
1,080
en
1,081
de
28
249
da
248
2,153
cs
34
ca
2,153
820
28
be
28
bg
be
ar
34
ar
368
405
368
900
237
297
149
28
519
395
374
297
92
81
149
374
405
526
265
289
460
455
81
900
289
365
71
sl
sr
3,409
1,742
8,824
362
684
1,687
1,659
871
4,438
2,290
3,449
2,321
75
268
2,557
2,236
4,125
205
1,804
976
3,663
3,995
4,547
1,660
8,824
1,801
2,621
1,505
32
1,929
8,138
1,859
410
342
1,236
402
613
2,567
1,724
2,322
1,316
104
145
1,862
1,478
2,686
15
1,415
662
2,558
1,998
2,774
815
8,138
796
1,453
453
sv
5,054
1,605
2,970
339
499
1,399
278
644
3,587
1,553
2,540
1,913
65
69
2,166
1,590
2,692
155
1,485
667
2,314
2,567
2,556
1,366
5,054
1,016
2,186
756
uk
InterCorp – a look behind the façade of a parallel corpus
29
Alexandr Rosen
30
ar
1
be
3
bg
19
ca
cs
1
1
3 19
cs da de
1
1
8
4
13
9
1
27
16
3
12
1 267
da
6
de
85
en
25
es
1
11
fr
36
hi
2
1
es
fi
fr
hi hr hu it
lt
lv mk nl no pl
1
1
3
4
2
2
3
9 134 242 127 24
95
9
5
1 20
1
7
1 30
65
10
1
4 125
1
4
1
1
6
7
1
8
29 126
1
12
1
10
83
1
1
2 25
6
7
2
1
2
1
1
49 21
39
2
2
3
1
1
6
1
4
2
1
1
1
sv uk
1
1
Σ
1
39
2
68
45 1
56
3
8
58
6 1257
2
1
3
5
327
5
4
177 1
3
213 1
2
57 1
2
137
1
it
4
4
21
lt
8
2
2
lv
22
2
1
mk
15
1
16
nl
24
3
33
7
3
3
no
11
5
21
4
1
3
pl
36
8
97
10
8
2
pt
6
ro
7
5
12
ru
9
1
22
sk
55
2
5
sl
7
1
2
sr
11
7
33
9
3
7
2
sv
11
4
23
7
2
1
1
6
1
31
3
5
2
3
2
23
26
6
9
1
3
19
1
3
2
52
1
4
1
5
9
2
1
15
6 39
11
7
3
16
2
sl sr
27
71
Σ
sk
12
126
1
2 26
1
hu
uk
pt ro ru
3
1
1
25
Fi
hr
en
other
→ ar be bg ca
orig
text
↓
1
7
1
1
1
7
1
1
3
1
3
14
3
1
2
6
3
1
8
71
3
46
68 1
17
36
2
3
2
3
2
8
213 2
1
3
2
1
1
2
1
30
1
4
2
2
1
7
4
6
1
4
49
6
119
1
54
5
231 1
15
3
1
1
1
1
2
1
1
1
29
1
1
1
22
2
1
3 810 19 349 950 335 57 241
122 18
2
2
4 56
2 89
3
5
5 18
62 1
56
1
4
33 3
3
3 84 22 128 72
10
1
3
119 118
5
2
15
2
97 3
50
99 1
5
6
67
6 26 164 12
Table 5. The number of texts in InterCorp by language of the text and of the original
(for core texts)
Ca
6
697
317
2
1,052
992
1,974
826
2,093
193
545
757
2,628
463
617
811
513
lv
mk
nl
no
pl
pt
ro
ru
sk
sl
sr
sv
uk
de
28
274
71
215
792
1,435
2,106
en
107
994
6,544
16
295
606
77
26
66
413
551
341
219
32
3
3
506
286
1,051
76
100
587
2,384
1,954
3,091
171
1,216
1,117
1,144
961
8,765
1,656
3,418
1,576
2
73
2,665
1,762
4,143
203
926
706
2,786
263 10,546
11,547
1,816
831 10,968 20,583
da
621
116
fi
265
243
275
158
399
766
40
411
1,050
421
815
826
1,094
316
224
200
115 1,397
9,818
901
8,635 1,610
es
fr
195
72
146
68
15
509
159
117
13
254
811
246
17
5,061
438
251
266
5,102
202
347
12
hi
31
10
87
66
1,517
139 3,192
82
57 1,482
hr
hu
396
371
188
191
684
165
192
439
262
38
1,482
157
601
233
143
809
40
873
35 8,715
6
29 1,452
it
lt
9
2
2
1
2
2
lv
567
2
2
273
1
2
288
nl
pl
58
153
pt
34
167
ru
48
237
209
sk
43
169
183
3
3
174
67
114
326
275
127
49
81
140 2,509
632
221
230
115
45
305
111
194
169
926
198
914
473
306
256
139
293
224 1,295
142
1,239
234
172
166
150
135 1,198
246
45
94
26
297
40
172
72
3,354
2
2
2
2
624 2,758 1,453 2,872 3,419
no
182 4,500 2,312 7,051 5,034 9,839 6,895
100
134
75
166
1,638
70
366
113
161
337
73 1,338
109
mk
Table 6. The size of the corpus by language of the text and of the original (in thousands of words for core texts)
179 46,977 1,933 28,619 84,539 26,186 4,530 14,301
274
lt
279 2,575
254
it
Total
1,038
4,131
hr
hu
62
hi
29
2,473
fr
1,504
es
587
2,212
en
fi
5,263
de
61
207
da
1,038
cs
53 13,451
1,277
138 1,269
141
bg
cs
1
1
be
65
ar
ca
bg
be
orig →
↓ text
ar
sl
339
86
49
223
503
335
651
104
42
22
552
4,317
189
111
206
511
171
656
184
573
928
130
608
377
515
4,347
sv
409 2,290 14,439
68
140
201
sr
34
5,054
8,138
8,438
900
7,393
3,338
3,050
2,393
17,514
4,816
9,962
3,742
1,337
358
7,074
5,388
15,207
409
9,170
3,426
17,366
15,387
27,656
3,017
84,109
4,511
5,241
2,153
Total
386
9
383
49
174
272
110
102
422
122
other
852 276,579 2,028
429
423
uk
InterCorp – a look behind the façade of a parallel corpus
31
32
Alexandr Rosen
Except for Czech, the table does not actually show the size of texts in a specific
language aligned with texts in another specific language, because the cells do
not show figures for texts available as translations from a third language.
The size of a language-specific part of the corpus aligned with one or
more specific languages can be found in Table 4 (in words for specific language
pairs) or from the search interface,12 where the results are presented in the
number of tokens (i.e., including punctuation symbols) rather than words. For
instance, the Polish-German pair includes 7,392 thousand Polish tokens. When
parallel texts in English are added, the number drops to 4,000 thousand tokens.
For a combination of four languages, including additional parallel texts in Spanish, the texts available in Polish include 2,640 thousand tokens.
3. Some other parallel corpora
InterCorp is not the only project of its kind. Table 7 below shows InterCorp
in comparison with some other resources offering access to parallel texts. For
each of the resources the table includes some basic information on the types
of texts available, languages included, size (in Billions or Millions of words or
sentences), annotation (Morphology, Syntax, Semantics), alignment level (Sentences, Words), human intervention in the text processing (Proofread), on-line
Search and Download option, and availability of Metadata.
It is perhaps the combination of features that makes InterCorp different
from the other corpora. On the one hand, there are some very large, massively
multilingual resources such as Opus, compiled from as many freely available
texts as possible, with the Czech part reaching at least 150 million words. On
the other hand, there are much smaller resources including literary texts from
specific domains, such as ParaSol and ASPAC. In InterCorp, the user can find
texts of either type, processed according to the same methodology and offered
within the same search and display interface.
12 Visit https://kontext.korpus.cz, select the appropriate combination of languages, restrict to the
Core group and click the button “Refine selection“.
InterCorp – a look behind the façade of a parallel corpus
Name
Types
Langs
Size
Annot
Aligned
Proofread
Search
Download
Metadata
33
Linguee13
Glosbe14
SKE15
DGT-TM16
Pelcra17
RNC18
SNK19
CzEng20
PCEDT21
Kačenka22
Opus23
ParaSol24
ASPAC25
InterCorp
legal
varia
varia
legal
varia
varia
fiction
varia
news
fiction
varia
fiction
fiction
varia
25
100+
38
22
31
6
7
en,cs
en,cs
en,cs
100+
31
25
32
?
1Bs
cs:217Mw
cs:3.7Mw
pl:58Mw
9Mw
sk:388Mw
en:233Mw
1.2Mw
3.3Mw
4.7Bw
27Mw
68 texts
1.6Bw
no
no
no
no
no
M
M
M,Sy
M,Sy,Se
no
M,Sy
M
no
M
S,W
S,W
S
S
S,W
S
S
S
S,W
S
S,W
S
P
S
no
no
no
yes
part
part
no
no
yes
yes
no
part
yes
part
yes
yes
yes
no
yes
yes
yes
yes
yes
no
yes
yes
no
yes
no
no
yes
yes
yes
?
part
yes
yes
yes
yes
?
?
yes
yes
yes
yes
no
yes
yes
yes
no
yes
yes
no
yes
yes
yes
Table 7. Some other parallel corpora in comparison to InterCorp
4. Using InterCorp
Most users interact with the corpus data via KonText,26 the web-based interface
built on top of the corpus query engine Manatee.27 This interface is now used for all
CNC corpora, superseding Park, a search interface dedicated to parallel corpora.
The interface offers a number of options for pre-selecting texts before
making a query according to languages and all available metadata, such as text
13 Online search through bilingual texts – http://www.linguee.com
14 Translation Memory Online – http://glosbe.com/tmem/
15 Sketch Engine – http://www.sketchengine.co.uk
16 Translation Memory of the EC’s Directorate-General for Translation –
http://ipsc.jrc.ec.europa.eu/?id=197
17 Polish & English Language Corpora for Research & Applications – http://pelcra.pl/new/.
For its new parallel search interface see http://paralela.clarin-pl.eu and Pęzik (this volume).
18 Russian National Corpus – http://www.ruscorpora.ru
19 Slovak National Corpus – http://korpus.juls.savba.sk/par.html
20 Czech-English parallel corpus – http://ufal.mff.cuni.cz/czeng,
https://lindat.mff.cuni.cz/services/kontext/run.cgi/first_form?corpname=czeng_10_cs_a
21 Prague Czech-English Dependency Treebank –
http://ufal.mff.cuni.cz/prague-czech-english-dependency-treebank
22 English-Czech Corpus of the Department of English Studies, Faculty of Arts,
Masaryk University Brno – http://www.phil.muni.cz/angl/kacenka/kachna.html
23 An open source parallel corpus – http://opus.lingfil.uu.se
24 A Parallel Corpus of Slavic and other languages – http://www.slavist.de
25 The Amsterdam Slavic Parallel Corpus – http://home.medewerker.uva.nl/a.a.barentsen
26 See http://kontext.korpus.cz. KonText is developed by the CNC team led by Tomáš Machálek.
27 See Rychlý (2007) and Kilgarriff et al. (2014).
34
Alexandr Rosen
type, source language or publication year. These options can also be used to create custom subcorpora. Queries can be made about a single language or in parallel, using single forms, lemmas, form strings or CQL expressions. In addition
to a number of other options, concordances can be filtered, exported, sorted,
flagged for further processing, or be used for producing frequency distributions
or finding collocations.
Some research tasks require full texts rather than sets of concordances
in response to corpus queries. Not even statistics based on a part of the corpus
or on the concordances can meet such needs. This applies mainly to the use of
corpus data in NLP applications such as machine translation, but also to some
studies spanning sentence or even paragraph boundaries. The only solution is
some form of access to full texts. After signing a non-profit license agreement,28
texts from InterCorp can be acquired as bilingual files. Each file is extracted
from a specific text and includes alignment pairs of sentences in blocks up to
100 words (per language), with the blocks shuffled in random order to prevent
the use of texts in violation of copyright, while retaining some text structure.
The effect is the same as in results produced by the concordancer – only quotations in a restricted context are available, never a copy of a larger piece of text.
Parallel texts can be seen as interpreting or even ‘annotating’ each other
through the medium of another natural language. This applies to segments of
different sizes: texts, paragraphs, sentences, phrases or words. A practical use
of this obvious observation rests on the availability of alignment at the level
of such units. Existing methods and tools29 can align words, producing results
with a reasonable error rate, usable for tasks such as the extraction of glossaries
of translation equivalents. The CNC site now offers lists of such equivalent pairs
(lemmas or base forms) in Czech and most other languages, sorted primarily
by their frequency in the corpus.30 This is just one of many possible applications
using the parallel corpus and offering the results from the corpus site.31
28 The license restricts the use of the data to educational and research purposes and prohibits
re-distribution.
29 E.g., Och, Ney (2003).
30 See http://treq.korpus.cz. See also Kaczmarska (this volume), Kaczmarska et al. (2015) and
Rosen et al. (2014) for examples of research based on these results.
31 The site shows the following list of top Polish equivalents with frequencies of the Czech noun
bouře ‘storm’: burza (353), sztorm (44), śnieżyca (35), wichura (16), szturm (11), nawałnica (9),
huragan (8), zamieć (7), zawierucha (7), wiatr (6), burzyć (5), zawieja (4), wichr (4), zamieszka (4),
bunt (4), ulewa (3), wicher (2), wrzawa (2), salwa (2), padać (2), fala (2), sztormowy (2); a similar
list in German for the Czech verb křičet ‘to cry’ is: schreien (2145), rufen (379), brüllen (132),
anschreien (46), Schrei (40), schreiend (32), laut (17), kreischen (17), aufschreien (16),Schreien (13),
Geschrei (12), geschrien (8), ausstoßen (6), schrein (5), zurufen (5), brüllend (4), ausrufen (4),
sprechen (4), angeschrien (4), geschrieen (3), losschreien (3), grölen (3), herumschreien (3), lärmen (3),
Schrein (3), anschrien (3), zuschreien (3), Ruf (3), anschreie (3), zuschrie (2), herrschen (2),
Lärm (2), weinen (2), nachrufen (2), losbrüllen (2), toben (2), schriest (2), verlangen (2), Sie (2).
InterCorp – a look behind the façade of a parallel corpus
35
5. Pre-processing of texts
Most texts in the core of InterCorp pass through the following stages: acquisition, scanning and character recognition, proofreading, segmentation (sentence
boundary detection), sentential alignment, proofreading and checking of segmentation and alignment and morphosyntactic markup. Texts acquired in an
electronic form, especially texts in the collections, bypass some of these steps.
Each of the steps has some impact on the quality of the corpus. Acquisition as the first step (including the choice of texts) determines the corpus content. It has recently been subjected to a new policy aimed at achieving a more
balanced representation of languages and text types and remedying the lack of
original texts.32 A selected text that cannot be acquired in the electronic form
is digitized. After OCR the text is proofread in a text editor with a special focus
on aspects critical to text processing for the corpus, such as paragraph boundaries, quotes, diacritics, punctuation and spaces, the latter crucial for tokenization and detecting sentence boundaries. A proofread text is then exported
as plain text with XML-like markup, and a bibliographical record is stored in
the project database. The steps above are the responsibility of the coordinator
for the specific language, who usually employs students for tasks such as postOCR proofreading. Texts in most languages are segmented into sentences using
Punkt, a tool based on an unsupervised learning algorithm,33 followed by language-specific fixes. Automatically detected sentence boundaries are checked
and (if necessary) corrected by a set of regular expressions, targeting contexts
where automatic tools tend to fail.
Parallel versions of the text are sentence-aligned using Hunalign.34 The
aligned texts are accessible within InterText, a parallel text editor.35 Segmentation and alignment can then be checked and corrected, together with any
remaining typos. Automatic sentence segmentation typically fails because of an
unknown abbreviation, a missing space, or a lower quotation mark improperly
recognized as comma(s). Alignments may be incorrect as a result, but some
texts can be difficult to align even for humans. All corrections, usually done by
research assistants, are logged, checked by the coordinator in charge of the specific language and finally by the project coordinator.
32 For details see Hebal-Jezierska et al., this volume.
33 See Kiss and Strunk (2006: 485–525), the implementation is due to http://nltk.org/. The training data consist of previously processed texts.
34 See Varga et al. (2005) and http://mokk.bme.hu/en/resources/hunalign/.
35 See Vondřička (2010) and http://wanthalf.saga.cz/intertext. Intertext can edit sentence-level
alignment, sentence segmentation, paragraph boundaries and typos, and is integrated with
Hunalign. Changes of the text structure in Czech are projected to all alignments. Other features
include change logs, export, searching, bookmarking and support for user classes with different
privileges. There are two versions: server and personal, and both are available under the GNU
GPL v3 license.
36
Alexandr Rosen
Throughout the process, all the core text are registered in the project
database with links to available Czech texts. The language coordinators are
responsible for including the bibliographical data, which are crucial for
text filtering in the corpus search interface. A missing or incorrect piece of
information can have a negative impact on research results. The database also
tracks the passage of each text through the pre-processing stages. The finished
texts are matched with the bibliographical data from the project database and
indexed by the corpus manager. So far, only team members can access the
database, but a subset of the database will be available to all corpus users in the
foreseeable future.
Linguistic annotation of the texts is still restricted to lemmatization and
tagging of word forms by morphosyntactic and morphological categories. Moreover, not all languages are annotated in this way: in InterCorp release 8 there are
20 languages with tags including Czech, of which 17 have lemmas. Once again,
we adopt an opportunistic strategy of using available tools (tokenizers, taggers, lemmatizers), including tokenization principles hard-wired into the tool,
tagsets designed elsewhere by experts on the given language and annotation
models and trained elsewhere.36 This approach frequently leads to very different
language-specific tagsets as well as non-uniform tokenization and lemmatization principles across the languages.37
These achievements come at a price. Luckily, the whole Czech National
Corpus project has enjoyed continuous support from Charles University and
the Czech government over an extended period, allowing for a steady development of InterCorp since 2005. The costs of text acquisition and processing
are approximately 55,000 EUR per year, including the core texts – about 180
EUR on average per text (the sum for both the Czech and a foreign version and
all the steps), as well as the processing of packages. However, the total costs are
much higher and harder to estimate, because some overheads are shared by all
CNC teams. In addition to two full-time dedicated positions, InterCorp uses the
CNC infrastructure and managerial facilities and also relies on the work of other
CNC staff in the development of corpus methods and tools.
6. Wishlists and issues
In this section we sum up the expectations, wishes and complaints of corpus
users with regard to the limitations of corpus design and other constraints on
the side of the corpus builders. We start with content, perhaps the most critical
36 See http://ucnk.ff.cuni.cz/intercorp/?lang=en for an overview, including the tools used.
37 For more about issues of annotation, see Section 1.5 in Hebal-Jezierska, this volume.
InterCorp – a look behind the façade of a parallel corpus
37
aspect of any corpus and the main reason for users’ concerns about whether their
research results are well-founded or whether their intended research is possible
at all. Indeed, they would like to see a more representative and/or balanced core
in terms of languages, text types, the ratio of originals vs. translations, authors,
translators – all of it useful for both contrastive and translatological studies.
But it is hard to decide in general which is more important: the proportions or
the size of the corpus. The answer depends very much on the type of research
being conducted. Assuming that users are able to determine an optimal mix
relative to their research goals and can select texts from the corpus accordingly,
the optimal strategy is the more the better, even if that means the result is far
from balanced. For some research goals, when two relatively well-represented
languages such as German or English are studied in a pair, the overlap of texts
in the core may be too small.
For many types of research, the distinction between originals and
translations is crucial. Original texts may be the only texts of interest. However,
even when only translations from a third language are compared, the original
text should still be available. Unfortunately, this is too often not the case (see
Table 5). A priority of the new text selection policy is to remedy this situation.
A related issue is the option of including multiple translations in a single language, which is available, e.g. in the ParaSol corpus.38 This interesting
feature requires some profound changes in the corpus design and its implementation is not envisaged in the near future.
InterCorp’s search interface is one of the most advanced tools available
among those available for the parallel corpora listed in Table 7. Still there are
a number of wishlist items concerning the interface. Some of them are actually
small things that can boost user experience, but are not top priority for the
developers at the moment, such as charts to see the setup of the selected corpus
and to prevent the frequent shortcoming of significantly skewed data, a list of
sample queries for inspiration and time saving, a few keyboard shortcuts for
more advanced users, context help on tags, text type codes etc., and – last but
not least – automatic switching to CQL type query when typing a character
such as “[” to prevent frequent attempts to search the corpus inadvertently for
a string which is actually a CQL expression. Some other missing features may
not be so trivial or simple to implement, but still very useful, such as biKWiC –
highlighting keyword equivalent, information about the alignment type (1:1 or
other) and quality (manual or automatic with a confidence score), or labeling/
annotating concordances. Another missing feature is related to the possibility
of building a subcorpus from texts in a specific language aligned with texts in
38 See http://www.slavist.de and von Waldenfels (2006, 2011).
38
Alexandr Rosen
another language, or even for a specific language pair. Some features are actually beyond the mere search and display options, such as statistical comparison
across text types, languages, corpora, or lexical profiles, preferably adapted to
parallel texts (Belica, 2011; Kilgarriff et al., 2014).
Issues of search and display are very much connected with the need for
complete, effective and correct annotation. So far, languages differ in tagsets
and tokenization rules and a number of languages are still without any linguistic annotation.39 Finally, although the quality of alignment and metadata has
improved, it is not 100% reliable.
7. Lessons learned and perspectives
The bottom line of all the lessons is the importance of user feedback and interaction with the community of users in general. Although InterCorp started
out with the idea of being a general resource, serving the needs of disparate
users and research types, ultimately the requirements of each individual type
must be considered and properly addressed. The purpose of the corpus matters,
even if it is meant to be a resource for many. There are some obvious questions
such as who the users are, what are their needs, how many languages should be
included, whether “the more the better” or “the best balance” is a better strategy
(in languages, text types, authors, translators, originals/translations/translations
for a third language). Perhaps a comparable rather than a parallel corpus is the
answer to some research goals. And although all languages should be equal, it is
very hard to achieve comparable levels in size, annotation, and representativeness. Strict criteria may be applicable only to a small group of languages.
Parallel corpora, including InterCorp, have proven to be a very useful
resource for many tasks. Still we believe that their full potential, embodied in the
meaning links between expressions across languages and useful for theoretical
research, linguistic practice and software applications, has yet to be discovered.
Users’ needs and wishes may be an important stimulus, but further progress
may have an independent motivation. In addition to a larger and more representative pool of texts, more precise, complete and sophisticated annotation
is a clear priority. We need to advance the quality of alignment and sentence
segmentation, also by crowdsourcing (encouraging users to flag errors). Alignment by words, multi-word units, and phrases are all realistic goals. Linguistic
markup should bring better quality for as many languages as possible, including
consistent tokenization of contractions and multi-word expressions, a method
for reconciling disparate language-specific tagsets, and syntactic annotation.
39 See Hebal-Jezierska et al. (this volume) for more details on issues relating to linguistic annotation and takenization in InterCorp.
InterCorp – a look behind the façade of a parallel corpus
39
Many plans involving a specific parallel corpus make better sense if
pursued as a joint effort with other similar projects due to a high synergy in
infrastructure and content: many problems are similar across languages; texts
in foreign languages may exist elsewhere and native speakers are the best corpus builders. Cooperation can have many forms and levels, from the exchange
of know-how, tools, or texts between centers, through virtual integration of
content, a common search interface (federated search), and a common text
dissemination policy, and even a single center providing coordination and
infrastructure for all languages. We hope that the existing ties between parallel corpora both within and across national borders will thrive and develop
towards a network of parallel resources. As a small step in this direction we
plan to release Czech from its pivot role and no longer insist on the presence of
a Czech version of the text.
References:
Belica, Cyril (2011): Semantische Nähe als Ähnlichkeit von Kookurenzprofilen. In: Andrea ABEL, Renata ZANIN (eds.): Korpusinstrumente in
Lehre und Forschung. Bozen-Bolzano: University Press, 155–178.
Brown, Keith, (ed.) (2005): Encyclopedia of Language & Linguistics. 2nd edition.
Amsterdam and Philadelphia, PA: Elsevier.
Čermák, František, Rosen Alexandr (2012): The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics 13(3),
411–427.
Kaczmarska, Elżbieta, Rosen, Alexandr, Hana, Jirka, Hladká, Barbora
(2015): Syntactico-semantic analysis of arguments as a method for establishing equivalents of Czech and Polish verbs expressing mental states.
Prace Filologiczne XVII, 151–174.
Kilgarriff, Adam, Baisa, Vít, Bušta, Jan, Jakubíček, Miloš, Kovář, Vojtěch,
Michelfeit, Jan, Rychlý, Pavel, Suchomel, Vít (2014): The Sketch
Engine: ten years on. Lexicography, 1(1), 7–36.
Kiss, Tibor, Strunk, Jan (2006): Unsupervised multilingual sentence boundary
detection. Computational Linguistics, 32(4), 485–525.
Och, Franz Josef, Ney, Hermann (2003): A systematic comparison of various
statistical alignment models. Computational Linguistics, 29(1), 19–51.
Rosen, Alexandr, Kaczmarska, Elżbieta, Škodová, Svatava (2014). Zdrobnienia jako element kultury i pułapka glottodydaktyczna. Czeskie i polskie
deminutiva w ujęciu konfrontatywnym na podstawie badań korpusowych. In: Elżbieta Kaczmarska, Andrzej Zieniewicz (eds.): Glottodydaktyka wobec wielokulturowości. Warszawa: Wydział Polonistyki
Uniwersytetu Warszawskiego, 51–66.
40
Alexandr Rosen
Rosen, Alexandr, Vavřín, Martin (2012): Building a multilingual parallel corpus for human users. In: Nicoletta Calzolari, Khalid CHOUKRI,
Thierry DECLERCK, Mehmet Uğur DOĞAN, Bente MAEGAARD,
Joseph MARIANI, Asuncion MORENO, Jan ODIJK, Stelios PIPERIDIS
(eds.): Proceedings of the Eight International Conference on Language
Resources and Evaluation (LREC 2012). Istanbul: European Language
Resources Association (ELRA), 2447–2452.
Rychlý, Pavel (2007): Manatee/Bonito – a modular corpus manager. In: 1st
Workshop on Recent Advances in Slavonic Natural Language Processing.
Brno: Masaryk University, 65–70.
Varga, Dániel, Halácsy, Péter, Kornai, András, Nagy, Viktor, Németh,
László, Trón, Viktor (2005): Parallel Corpora for Medium Density
Languages. In: Galia ANGELOVA, Kalina BONTCHEVA, Ruslan MITKOV, Nicolas NICOLOV, Nikolai NIKOLOV (eds.) Proceedings of International Conference “Recent Advances in Natural Language Processing”
(RANLP 2005), 590–596.
Vondřička, Pavel (2010): TCA2 – nástroj pro zpracovávání překladových korpusů. In: František Čermák, Jan Kocek (eds.): Mnohojazyčný korpus
InterCorp: Možnosti studia. Praha: Lidové noviny, 225–231.
von Waldenfels, Ruprecht (2006): Compiling a parallel corpus of Slavic
languages. Text strategies, tools and the question of lemmatization in
alignment. In: Bernhard Brehmer, Vladislava Ždanova, Rafał Zimny
(eds.), Beiträge der Europäischen Slavistischen Linguistik (POLYSLAV) 9.
München: Verlag Otto Sagner, 123–138.
von Waldenfels, Ruprecht (2011): Recent developments in ParaSol: Breadth
for depth and XSLT based web concordancing with CWB. In: Daniela
Majchráková, Radovan Garabík (eds.): Natural Language Processing, Multilinguality. Proceedings of Slovko 2011 Bratislava: Trilbum EU,
156–162.
Milena Hebal-Jezierska
Uniwersytet Warszawski
Elżbieta Kaczmarska
Uniwersytet Warszawski
Alexandr Rosen
Univerzita Karlova, Praha
Between the devil and the deep blue sea or between users’ needs
and the compilers’ powers: An analysis of the Czech-Polish part
of the parallel corpus InterCorp
Między młotem a kowadłem, czyli czego potrzebuje użytkownik
korpusu równoległego, a jakie są możliwości twórców korpusów
(na przykładzie czesko-polskiej części korpusu równoległego
InterCorp)
Streszczenie
Celem artykułu jest próba porównania oczekiwań użytkownika
korpusu równoległego co do możliwości prowadzenia różnego typu
badań, zwłaszcza analiz konfrontatywnych oraz translatologicznych
z technicznymi możliwościami twórców korpusu.
Autorzy rozpoczynają rozważania od szczegółowego opisu problemów twórców InterCorp. Wskazują na największe bolączki polegające na braku proporcji pomiędzy liczbą tekstów w poszczególnych
językach umieszczonych w korpusie, a także na tym, że teksty reprezentują różne poziomy anotacji i tagowania. Szczegółowo opisana
została polska część korpusu InterCorp. Autorzy podają dane statystyczne dotyczące poszczególnych wersji korpusu. Wiele miejsca
poświęcono również problemowi anotacji i tokenizacji (znakowania).
Zauważono, że dużym utrudnieniem jest brak jednolitego systemu
znakowania dla wszystkich obecnych w InterCorpie języków.
Na przedstawione w skrócie problemy twórców korpusu nakładają się trudności, jakie napotykają jego użytkownicy oraz ich oczekiwania względem jego zasobów. Osoby korzystające np. z zasobów
polsko-czeskiej części InterCorpu narzekać mogą na zestawienie tekstów. O ile literatura piękna jest opracowywana ręcznie, o tyle tzw.
kolekcje tekstów (Acquis, PressEurope, Europarl, Open Subtitles)
są opracowywane tylko automatycznie. Paradoksalnie więc teksty,
które nie sprawiają kłopotów twórcom korpusu, są dla niektórych
Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen
42
użytkowników mniej przydatne. Nie można na przykład przeprowadzić szeregu badań opartych na materiale korpusowym, jeżeli nie da
się ustalić kierunku przekładu albo języka źródłowego. Dotyczy to
wszystkich analiz translatologicznych. Również niedostateczna wielkość korpusu stanowi dla użytkowników dużą przeszkodę. Zbyt mała
liczba poświadczeń może uniemożliwić całkowicie przeprowadzenie
badań nad konkretnym zjawiskiem leksykalnym czy gramatycznym
(przykłady podane zostały w artykule).
Użytkownicy sięgają jednak do korpusów paralelnych, ponieważ,
mimo wszelkich niedociągnięć, stanowią one niezwykłe narzędzie
służące do poszukiwania ekwiwalentów, a także porównywania znaczeń jednostek językowych. Dopasowanie odpowiedniego tematu
badania do możliwości korpusu jest w tym przypadku podstawową
czynnością poprzedzającą samo badanie, a jednocześnie gwarantem
wiarygodności wyników.
Sposób rozbudowywania InterCorpu jest sprawą powodującą
prawdopodobnie największe kontrowersje pomiędzy twórcami
a użytkownikami korpusu. Korzystającym z części polsko-czeskiej czy
czesko-angielskiej zależy na tym, aby twórcy poświęcili jak najwięcej
uwagi tej konkretnej parze języków, tę część rozbudowywali i doskonalili. Twórcy natomiast chcą uwzględnić w korpusie jak najwięcej
języków. Z puntu widzenia użytkowników to zabieg mniej ważny,
z punktu widzenia twórców to działanie przyszłościowe. Zarówno
użytkownik korpusu, jak i jego twórca, znajdują się w sytuacji pomiędzy tym, co mogą i tym, co by chcieli – między swoistym młotem
i kowadłem.
Keywords: parallel corpus, Polish, Czech, comparative studies, lexical
equivalents
Słowa kluczowe: korpus równoległy, język polski, język czeski, badania komparatywne, ekwiwalenty leksykalne
1. Introduction
The aim of this paper is to confront expectations of users of a multilingual parallel corpus with the potential available to corpus compilers. The idea arose from
discussions of the first two co-authors as corpus users with several compilers of
InterCorp,1 especially with the third co-author. These discussions mainly arise
from the fact that the corpus compilers’ efforts (aimed, i.a., at a steady growth
of text volumes and improvements in corpus search tools) do not quite meet
users’ specific research needs. Our comments are presented from two points of
view: the compilers’ perspective (Section 2) and the users’ perspective, based on
comparative analyses and translatological studies (Section 3).
1 For more details about InterCorp see Rosen, this volume.
Between the devil and the deep blue sea or between users’ needs and the compilers’ powers...
43
2. Problems faced by InterCorp’s compilers
InterCorp was born with the aim to provide software infrastructure, know-how
and some managerial and financial support for linguistic departments at Charles
University’s Faculty of Arts interested in building parallel corpora suited to their
needs and preferences. The principle of subsidiarity was at its foundations: at
first, the project consisted of a set of unconnected parallel texts in Czech and
a foreign language, collected and built to a large extent by the departments, who
were responsible for most tasks of the workflow, including the choice of texts to
be included in the corpus.
Even after its integration into a single, on-line searchable corpus with
shared formats, pre-processing workflow and tools, the birthmarks of InterCorp
are still visible. In addition to the distributed mode of building the corpus, it
represents a general pragmatic approach to corpus design:2
• a sub-optimal variety of texts in the corpus, mainly across but also
within the individual languages, due to the individual preferences of
the coordinators for a specific language, but also to the lack of suitable
translations from or into a given language
• large differences in volume, due mainly to the availability of texts for
a given language, but also to the availability and research priorities of
the coordinators
• an opportunistic approach to the choice of methods and tools used for
building the corpus
• preference for fiction as the source of the richest and most diverse
language
In the following sub-sections, we focus on the constraints faced by InterCorp’s
compilers given the (real or expected) complaints of corpus users listed below:
1. content – inadequate representation of texts with certain properties
(originals/translations, genres, authors, translators)
2. size – insufficient volumes of texts
3. searching – missing or unintuitive features of the search interface
4. segmentation, alignment and typos – typos and errors in sentence segmentation and alignment
5. annotation – faulty, inconsistent, unintuitive linguistic annotation,
incompatible across languages, including tokenization
2 For a discussion concerning the design of InterCorp, including the idea that comparisons with
other languages, preferably based on a parallel corpus, are very useful even for monolingual research, see Čermák and Rosen (2012).
Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen
44
2.1 Content
The content is largely determined by the project goals, the availability of
texts and time/manpower/financial constraints. Another factor to consider is
whether to include only copyright-free texts or rather to prevent a misuse of
copyrighted texts by technical means. If a parallel corpus is to include contemporary fiction, the answer must be the latter option. Especially for some less
common language pairs, a pragmatic – rather than principled – decision is also
necessary in the choice of texts. However, some representative mix of genres,
periods, originals/translations, authors, or even translators is needed for both
contrastive and translatological studies. Facing the elusive ideal of a balanced
parallel corpus, the solution could be custom-created, ad-hoc but reproducible
subcorpora, drawn from a pool of all available texts, possibly with a few readymade selections.
Concerns about the contents of InterCorp have recently led to a revision
of the policy for including new texts. If only experts for a given language decide,
the common goal of a single multilingual corpus with a substantial shared and
representative core is hard to achieve. Moreover, a text may not be a priority
from the perspective of the language of the original, yet it is desirable to have
its original in the corpus. On the other hand, the project management lacks the
expertise to decide about the specific literature and research needs. So the new
policy is a compromise: proposals for new texts by the experts are submitted
each year with two priority levels and reviewed by the corpus management. The
criteria for the final approval are as follows:
1. The original of the text is present in the corpus or is already included
in the plan. If not, the coordinator for the language of the original is
encouraged to include texts that are not of her immediate interest. This
has recently been the case of texts such as Hemmingway’s Farewell to
Arms, Kerouac’s On the Road, Styron’s Sophie’s Choice or Pasternak’s
Doctor Zhivago.
2. The text is important for the language, as shown by the assigned priority.
3. The text does not exceed the limit of new texts per year for the language.
4. The text is already included in the corpus in multiple other languages.
5. The text adds to the diversity of the corpus.
In the first round of this selection process, more than 200 texts in 16 languages
were proposed, 60% with high priority. About 85% were approved, the rest put
on the waiting list, mainly because of the original text missing.
Between the devil and the deep blue sea or between users’ needs and the compilers’ powers...
45
2.2 Size
Even with the rapidly rising volumes of all bi- and multilingual resources on
the web, parallel corpora will always be lagging behind monolingual corpora
in size. So it seems that “the more the better” is the right approach. Indeed, in
InterCorp the numbers may still be too low, especially for lexically more specific
studies or less frequent syntactic structures. This applies even to the best-represented languages such as German or Spanish. While the Czech version is available for all texts, the situation is much worse for language pairs not including
Czech or for more than two languages. The overlap of Polish and English in the
core part is 5.2 million tokens, as opposed to 21.7 million tokens (17.5 million
words) in the Polish core or 18.3 million tokens (15.5 million words) in the
English core alone.3 On the other hand, there are reasons why the hunger for
ever more words should be kept under control, and these are quality concerns.
This applies especially to some freely available multilingual sources, which may
include texts that are flawed in both formal and content-related ways, such as
garbled character encoding, tokenization or segmentation, as well as duplicated
texts, pieces of text in a foreign language, suboptimal and/or unidentified choice
of translation.4
Let us look more closely at the statistics for Polish in InterCorp. With
17.5 million words in the core, and 79 million words in total (including all available collections of texts except Project Syndicate) it belongs to the best-represented languages in InterCorp. The Polish part of the core includes 232 texts,
18% of the total of 1282 texts in the Czech part. Polish originals (50) slightly
prevail over Czech originals (38), the rest are translations from a different language. Table 1 shows that a Polish version is always available among the 27 texts
present in 15 or more languages. The last row shows that 110 Polish texts have
at least 4 counterparts in a different language.
Languages available
Texts available:
≥ 20
≥9
≥ 15
≥ 27
≥ 10
≥ 55
≥5
≥ 186
Table 1. Texts available in many languages in InterCorp
Texts including
Polish available:
≥9
≥ 27
≥ 47
≥ 110
3 Unless specified otherwise, all figures here and below are from InterCorp release 8.
4 See, e.g., A massively parallel corpus: the Bible in 100 languages (http://christos-c.com/bible/),
which does not provide metadata about the translations and sometimes picks dated or less widely
known translations, such as Bible kralická for Czech (http://gospelgo.com/u/czech_bible.htm), or
Biblia Gdańska for Polish: (http://biblehub.com/pol/).
Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen
46
Table 2 shows the growth of the Polish part of InterCorp across the successive
versions in the context of other languages. Perhaps most telling is the comparison with the average size for a foreign language. An average foreign language is
outnumbered by a rising factor starting from the first release. Figures 1-3 highlight some of the developments in the corpus size.
Release Foreign Foreign Czech Czech Polish Polish Foreign Foreign
date
core
total
core
total
core
total avg core avg total
v0
11/08 25.138 25.138 22.924 22.924
2.066
2.066
1.323
1.323
v1
04/09
34.464
34.464
27.427
31.927
2.244
2.244
1.723
1.723
5
v2
10/09
39.826
49.293
33.503
35.077
2.422
2.422
1.896
2.347
v3
02/11
62.813
72.280
39.766
41.340
4.716
4.716
2.855
3.285
v4
09/11
71.479
92.290
43.207
46.196
5.462
6.173
3.249
4.195
v5
06/12
91.528 542.640
52.651
75.926
8.396
29.571
3.390
20.098
v6
04/13 138.779 867.287
61.962
99.547
12.710
47.640
4.477
27.977
v7
12/14 173.225 1390.105
77.122 165.425
16.009
77.683
4.559
36.582
v8
05/15 194.055 1423.098
84.718 174.364
17.516
79.905
5.107
37.450
Table 2. A history of InterCorp in millions of words 5
Figure 1. The growth of the Polish part of InterCorp from release 0 to 8
5 Some of the figures for v2 are estimated.
Between the devil and the deep blue sea or between users’ needs and the compilers’ powers...
Figure 2. The growth of the Polish core, compared to an average foreign language core
Figure 3. The growth of the Polish total, compared to an average foreign language total
47
Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen
48
2.3 Searching
There are a number of issues related to the specific concordancer and the search
interface that are currently used to search InterCorp. Most of the issues will
be resolved in their future release, depending on their priority status and the
amount of effort necessary to fix them. The following list shows some of the
issues waiting for a solution. Hopefully, by the time the list reaches the Reader,
some items may no longer be relevant.
• The present InterCorp infrastructure cannot accommodate multiple
translations in a single language. This is an obvious drawback, especially for users interested in translational research.
• The biKWiC feature, highlighting the keyword equivalent in the other
language, is missing. Ideally, it could be based on word-to-word alignment, but solutions are available identifying the most likely keyword
equivalent from the set of current concordances.
• Although the corpus data include information on the alignment geometry (1:1 / 2:1 / 1:2), neither a flag on whether the alignment has been
checked by a human, nor an alignment confidence score, produced by
the automatic aligner, can be used and/or displayed while interacting
with the corpus using the concordancer.
• It is not possible to create a subcorpus of Czech (the pivot language)
including only documents aligned with a specific language. The Czech
part of the corpus is restricted to alignments with another language in
the query interface, but statistics such as items per million (ipm) relate
to the whole corpus of Czech.
• Context-based help on morphosyntactic tags is only available for positional tagsets and currently implemented only for the Czech tagset.
• The user, especially a novice, might appreciate more help or alerts, such
as pie charts showing the setup of the selected corpus (users are often
unaware of the pitfalls of using a skewed corpus), a list of sample queries, keyboard shortcuts, more context help, including help on text type
codes, display of the tag and the lemma of a word below the pointer
(mouse hovering), or automatic switching to CQL type query when
typing a character such as [.
• Other options beyond mere search would be welcome, such as comparisons across text types, languages and corpora, or collocational profiles,
both monolingual and contrastive.6
6 See Kilgarriff et al. (2014), Belica (2014), Pęzik (2014), Baisa (2014).
Between the devil and the deep blue sea or between users’ needs and the compilers’ powers...
49
2.4 Segmentation, alignment, typos
The texts in the core part of InterCorp are proofread for typos, sentence boundaries and alignment. The results will never be 100% error-free, but errors should
be rare and their reporting or flagging in order to crowd-source improvements
is now partially implemented in the search interface. On the other hand, the
collections are released without human intervention. Rosen and Vavřín (2012)
report that in a sample of about 2×180 thousand sentences the number of misaligned segments was at most 8.1% and the percentage of wrongly assigned
sentence boundaries was at most 2.9%, while some cases of wrongly identified
sentence boundaries actually lead to the misalignments. The percentage of sentences including typos and similar errors was estimated at maximum 3.1%. The
figures depend on the type of text, but misalignments, wrong sentence boundaries and typos do not seem to represent a major concern, except in special
cases, such as in some novels by Bohumil Hrabal, abounding in long sentences,
sometimes spanning over several pages.
2.5 Annotation
Unlike in monolingual corpora, the precision of morphosyntactic tags and
lemmas assigned to the tokens is not the main concern in parallel corpora. It
is rather the diversity of language-specific tagsets and tokenization rules. Both
may be different even for closely related languages, such as Polish and Czech:
contractions can be split or left intact, POS classification may be based on morphological or syntactic priorities or represent a parochial view, the format of
tags may be very different and confusing to a novice’s eye.
The corpus would be limping without another important part of annotation – complete and correct metadata. Omissions and errors hamper filtering
of texts for queries and subcorpora as well as providing precise information
about concordance sources. Although they are the responsibility of the language
coordinators, a bulk of metadata has been corrected and complemented centrally for release 8.
The present priority is to extend morphosyntactic annotation to as
many languages as possible. This is the main reason why the corpus does not
offer any syntactic annotation at the moment.
2.5.1 Tokenization
Some queries may not return expected results due to language-specific tokenization.7 Some taggers are based on specific assumptions about contracted
7 For an overview of issues and a solution to conflicting tokenization see Chiarcos et al. (2012).
50
Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen
or hyphenated items8 such as French |aux|, |dit|-il|, |cure-dents|; English
|ca|n’t|, |I|’m|, |children|’s|, |parents|’|; German |zum|, |deutsch-französisch|,
|Jelzin-Ära|; Polish |na|ń|, |że|by|śmy|, |niemiecko|-|rosyjski|, |ty|ś|, |zrobiłe|ś|;
Czech |padne|-|li|, |Tchaj|-|wan|, |naň|, |abychom|, |tys|, |udělals| or even
about space-separated multi-word items, such as Spanish |Estados Unidos|,
|a lo largo de| or |al mismo tiempo|. Note that cognates or similar phenomena
often receive different tokenization across the languages. Hyphenated compounds are treated as a single unit in Bulgarian9 |Avstro-ungarskiA-pi|, Dutch
|Frans-Duitse103|, English |Franco-GermanNP|, French |franco-allemandeADJ|,
German |deutsch-französischADJA|, Italian |franco-tedescoADJ|, and Spanish
|franco-alemanaNC|, but not in Czech |francouzskoA2--------A|-Z:|německýAANS3----1A|,
Hungarian | angolADJ|-PUNCT|japánADJ |, Polish |niemieckoadja|-interp|rosyjskiadj:sg:nom:m1:pos |
and Russian | frankoNcmsny|--|germanskijAfpmsnf |.
Within a language, the treatment of hyphenation is fairly consistent. The German and French taggers prefer not to split: |Jelzin-ÄraNN|,
|gut-ausgearbeitetenADJA|, |cure-dentsNOM|, unlike the Czech tagger:
|padneVB-S---3P-AA|-Z:|liTT|, |TchajAAXXX----1A|-Z:|wanuNNIS2-----A|. Yet, care must be taken
in specific cases, as in the following German and French examples: |Rechts-TRUNC|
|undKON| |EntwicklungsbewegungNN|, |ditVER:pres|-ilPRO:PER|.
Tokenization of strings including an apostrophe may not be straightforward either: |childrenNNS|’sPOS|, |parentsNNS|’POS|, |IPP|’mVBP|, |caMD|n’tRB|.
In some cases, even contiguous strings of alphabetic characters are
split and each part is assigned a tag and lemma of its own. This is what happens to Polish (orthographic) words with the agglutinative auxiliary attached,
as in zrobiłeś ‘(you) made’: |zrobiłzrobić/praet:sg:m1:perf|eśbyć/aglt:sg:sec:imperf:wok|. A single
orthographic word such as żebyśmy ‘that we would’ is split into three parts:
|żeże/conj|byby/qub|śmybyć/aglt:pl:pri:imperf:nwok|.10
On the other hand, Czech enclitic s as a second person singular
auxiliary, spelt together with the preceding form, is treated on a par with
inflectional endings. An orthographic concatenation of an l-participle with
8 Vertical bar in the examples indicates token boundaries, as determined by the tokenizers bundled with taggers currently used in InterCorp for the given language.
9 The examples are followed by subscripts indicating morphosyntactic tags.
10 A single orthographic word can have different interpretations depending on the way
it is tokenized. The form miałem can be tagged either as |miałemmiał/subst:sg:inst:m3| ‘dust’ or
|miałmieć/praet:sg:m1:imperf|embyć/aglt:sg:pri:imperf:wok| ‘had’. Similarly with |gdzieśgdzieś/qub| ‘somewhere’ or
|gdziegdzie/qub|śbyć/aglt:sg:sec:imperf:nwok| ‘where have (you been)’. Unfortunately, the tagger’s choice is not
reliable and the present version of the corpus manager cannot see the original orthographic
words. This means that searching for such words may involve more than one attempt – a query
for its non-split version and another one for its split version.
Between the devil and the deep blue sea or between users’ needs and the compilers’ powers...
51
enclitic auxiliary udělals ‘(you) made’ is tagged as a single form of the l-participle
|udělalsudělat/VpYS---2R-AA| (2nd person singular masculine, past tense, affirmative,
active voice). The complementizer + enclitic auxiliary žes ‘that (you) are’ is
tagged as subordinate conjunction in 2nd person singular |žesže/J,-S---2|. However,
the second person singular pronoun ty is specified for person even without the
clitic |tyty/PP-S1--2|, so the form with the clitic attached is distinguished by additional
specifications for tense, polarity and voice, irrelevant for either the pronoun or
the clitic auxiliary |tysty/PP-S1--2P-AA|. The German and French contractions of preposition and article (zum, aux) are similar examples of the same phenomenon.
A single token can be searched using any of the query types (Basic,
Lemma, Phrase, Word Form, Character or CQL). However, when querying for
Estados only the Character query type would show all occurrences of Estados
Unidos. To search only for Estados Unidos, the two words should be treated
as a single token. The opposite is true about contractions with internal token
boundaries: a query for can’t, żebyśmy, padne-li etc. must treat the strings as
two or more tokens, i.e. as the Phrase or CQL query type, including the internal
boundary identified by space in Phrase, i.e. as can ’t, że by śmy, padne - li.
This snag is not present in the Poliqarp search engine, used in the
National Corpus of Polish: the query for nań or na ń gives the same result.11
The concordancer currently used for searching InterCorp does not allow
for this option, i.e. for distinguishing between the two levels of tokenization
(orthographical and morphological/syntactical).
2.5.2 Morphosyntactic tags
Currently (in release 8), word forms in 21 languages (including Czech) are
assigned morphosyntactic tags while 18 of them are also lemmatized. The language-specific tools (morphological analyzers, taggers, lemmatizers) have been
acquired ready-made, trained elsewhere on a language-specific tagset. Each of
the tools may thus represent a different conceptual and practical solution to
lemmatization, patterning of word classes and morphological categories. While
some of the decisions reflect real contrasts between individual languages, other
show differences in theoretical backgrounds and formal approaches.
Table 3 below compares the annotation of a sample prepositional phrase
such as in the best apartments across some of the available languages.
11 See Przepiórkowski et al. (2004). However, it seems that only agglutinative forms of być allow
for this choice. Contractions such as żeby(śmy) and niemiecko-rosyjski are only found when
entered as multiple tokens.
Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen
52
Language
Bg
Cs
De
En
Es
Et
Fi
Fr
Hu
Is
It
Lt
Nl
No
Pl
Pt
Ru
Sk
Sl
Sv
Preposition
R
RR-6
APPR
IN
PREP
P--s3
Adv:Up
PRP
ART
Aþ
PRE
Prln
600
Prep
prep:loc:nwok
SPS
Sp-l
Eu6
Sl
PP
Determiner
Pde-os-n
PDXP6
ART:Def:Dat:Pl:Fem
DT
ART
DET:ART
ADJ
Favfþ
PRO:demo
Jvrd
370
Det
adj:sg:loc:m3:pos
DA0
P—pl
PFfs6
Pd-nsg
DT:UTR:PLU:DEF
Adjective
Ansi
AAFP6---3A
ADJA:Sup:Dat:Pl:Fem
JJS
NC
A-p-s3
A:Pl:Ine:Foc_kin:Superl
ADJ
ADJ
Lvfþvf
NOM
Bdvr
103
Adj
adj:sg:loc:m3:pos
NCFS
Afp-plf
AAfs6x
Agpfsg
JJ:POS:UTR:PLU:
DEF:NOM
Noun
Ncnsi
NNFP6---A
N:Reg:Dat:Pl:Fem
NNS
ADJ
Nc-s3
N:Pl:Ine
NOM
NOUN(CAS(ILL))
Nvfþ
ADJ
Dktv
000
Subst
subst:sg:loc:m3
AQ0
Ncmpln
SSfs6
Ncnsl
NN:UTR:PLU:
IND:NOM
Table 3. A prepositional phrase annotated by different tagsets
The notational diversity may obscure the fact that even if the tags are translated
into a uniform set of labels, some of the seemingly corresponding labels have
mismatching denotations. Two corresponding tags can share only a part of their
denotations, as in Table 4.
Czech
Polish
v
RR—6
w
prep:loc:nwok
těch
PDXP6
tym
adj:sg:loc:m3:pos
nejodlehlejších
AAFP6----3A
wspaniałym
adj:sg:loc:m3:pos
Zástavbách
NNFP6-----A
Apartamencie
subst:sg:loc:m3
Table 4. Partial overlap – Czech PD vs. Polish adj
Czech těch ‘those’ is tagged as a demonstrative pronoun, undistinguished
between attributive and substantive use, unlike Polish tym ‘that’, which is tagged
as a form of adjectival declension.
In contrast to the Czech tagsets, distinctions in the Polish IPI PAN tagset are based on inflectional classes (Przepiórkowski, Woliński, 2003). Thus the
two tagsets, designed for the two closely related languages, have a very different
concept of word class, with the Czech tagset closer to the traditional view and
mostly more fine-grained and the Polish tagset better defined but lacking some
distinctions.12
12 The original Polish tagset has been slightly modified for the National Corpus of Polish – see
Szałkiewicz and Przepiórkowski (2012) or http://nkjp.pl/poliqarp/help/en.html [accessed 21
February 2016].
Between the devil and the deep blue sea or between users’ needs and the compilers’ powers...
53
A Polish adjective (dziewiątaadj:sg:nom:f:pos ‘ninth’) may correspond to
a Czech ordinal numeral (devátáCrFS1 ‘ninth’), possessive pronoun (swojeadj:pl:ac– svojeP8XP4 ‘his/her/its/their’), demonstrative pronoun (temuadj:sg:dat:m1:pos –
c:m3:pos
tomuPDZS3 ‘that’), or relative pronoun (któryadj:sg:nom:m1:pos – kterýP4YS1 ‘which’). For
examples with some context see (1) – (4).
(1) ordinal numeral or adjective?
cs: devátáCrFS1 hodinaNNFS1
pl: dziewiątaadj:sg:nom:f:pos godzinasubst:sg:nom:f
(2) possessive pronoun or adjective?
cs: svojeP8XP4 rysyNNIP4
pl: swojeadj:pl:acc:m3:pos cechysubst:pl:acc:f
(3) demonstrative pronoun or adjective?
cs: tomuPDZS3 poručíkoviNNMS3
pl: temuadj:sg:dat:m1:pos porucznikowisubst:sg:dat:m1
(4) relative pronoun or adjective?
cs: kterýP4YS1 vyvěsilVpYS---XR-AA praporNNIS4-----A
pl: któryadj:sg:nom:m1:pos wywieszałpraet:sg:m1:imperf flagesubst:sg:acc:f
A Polish tag for non-inflected words may correspond to a Czech tag for particles
(niequb tylkoqub – neTT jenTT ‘not only’), non-gradable adverbs (wtedyqub – tenkrátDb ‘then’), reflexive pronouns (sięqub – seP7-X4 ‘himself/herself/itself/themselves’), subordinating conjunctions (kiedyqub – kdyžJ, ‘when’), or coordinating
conjunctions (czyqub – neboJ^ ‘or’).
Some categorial distinctions are ignored or reflected only implicitly in
the tagset. The Prague tagset implicitly marks reflexivity in personal pronouns
such as sobě ‘himself/herself/itself/themselves’ (P6-X3) and reflexivity plus possessivity in possessive pronouns such as svůj ‘his/her/its/their’ (P8IS1), while
the Polish IPI PAN tagset treats the corresponding forms either as a specific
class – siebie:dat for sobie ‘himself/herself/itself/themselves’ – or as a syntactic
word class – adj:sg:nom:m1:pos for swój ‘his/her/its/their’.
Mismatching tagsets could be harmonized by providing a single tagset as in Multext-East (Erjavec, 2010), or by using an intermediate taxonomy
(Zeman, 2010; Nivre, 2015). Ideally, the task of dealing with multiple tagsets
should be delegated to an abstract ontology of linguistic categories (Chiarcos
et al., 2012), with mismatches between tags properly represented. This would
allow for a principled mapping strategy between languages-specific tagsets, and
for intuitive and underspecified queries.
54
Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen
3. Users’ problems
For many users, the main problem is a transfer of habits acquired from work
with a monolingual corpus to the parallel corpus. This concerns expectations of
the users, accustomed to specific software, annotation, research methodology
and larger amounts of stylistically more varied material. All of the listed features
often result in a disappointment when working with InterCorp. This disappointment pertains especially to the low number of corpus occurrences, a restricted
choice of research topics, and unsatisfactory research results.
Regarding the corpus research methodology, it is particularly important
to be aware of the direction of translation, to realize the potential differences in
the notation and linguistic theory behind the tagsets (e.g. Polish adjectives are
not the same as Czech adjectives), and to be aware that quantitative methodology cannot be applied, as InterCorp is not a reference corpus.13 Ignoring the
direction of translation is one of the problems resulting in incorrect findings
and conclusions (cf. Nádvorníková et al., 2010). This is confirmed by recent user
access statistics: many users seem to prefer the size of the corpus to an appropriate specification of texts to be queried, including the direction of translation (see
Sub-section 3.5 below). Similarly, incorrect identification of a part of speech or
a grammatical category or a failure to apply an appropriate methodology may
produce results which are misleading or at least not representative.
3.1 Content
From the users’ perspective, the content of the Polish-Czech parallel corpus
is far from perfect. While the core is mostly hand-corrected fiction, the rest
of the corpus consists of collections of automatically processed texts (Acquis,
PressEurope, Europarl, Open Subtitles). Paradoxically, the texts that are less
problematic for the corpus builders are less useful for corpus users.
The automatically processed texts, which allow for rapid extension of
the corpus size, are not very useful for the type of research described below
in Sub-section . The Polish-Czech parts of the Acquis, PressEurope and Open
Subtitles do not include any texts with Polish or Czech specified as the source
language. In our translatological studies, where the goal was to find translation
equivalents of specific words, multi-word expressions, and selected syntactic
constructions from Czech/Polish into Polish/Czech, texts unspecified for the
source language cannot be used.
13 Although all CNC corpora are now described as reference corpora, a part of them, including
InterCorp, does not comply with some standard definitions of such corpora, which require that
they are representative and balanced.
Between the devil and the deep blue sea or between users’ needs and the compilers’ powers...
55
However, this does not mean that texts where none of the investigated
languages is the original cannot be used for other tasks. In an attempt to find how
nouns denoting ‘the English’ and ‘the Vietnamese’ are translated from English
into Polish and Czech, a pilot probe into Open Subtitles has shown remarkable
results. Polish translations included many more pejorative names for nationalities than Czech translations. An unmarked lexeme denoting a Vietnamese or
Japanese person in Czech was often translated into Polish by offensive words.
(5) pl: Żółtki będą w was naparzać.
cs: Japonci na vás budou střílet.
(6) pl: Nie, lubiła maklerów i żółtków.
cs: Ne, jela po makléřích a Číňanech.
3.2 Size
Insufficient volumes of available texts are the main problem not only for the
corpus compilers, but also for the corpus users. Although Polish belongs to the
best-represented languages in InterCorp, results obtained from the Polish-Czech
part may not be representative enough. The range of topics is limited, so before
a real start, the researcher should probe the corpus. Our experience shows that
some research topics run into a dead end due to insufficient evidence. Researchers should treat results with caution especially in domains where errors in translations, such as those due to false friends, are more likely. For instance, for cs.
frajer – pl. frajer it is impossible to establish a Czech equivalent (see Table 5).
(pl) frajer
12
blbec
2
blbeček
1
chlápek
1
hošánek
1
trouba
1
frajer
3
error
3
Table 5. The equivalents of the Polish lexeme frajer in the Czech part of InterCorp
In the Polish-Czech part of InterCorp (the core), we found 12 examples of the
Polish word frajer ‘a loser’. From their analysis alone appropriate equivalents
cannot be identified: the number of occurrences is too small, so the relative
frequencies of the equivalent pairs are not conclusive. Moreover, the same word
56
Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen
in Czech has the opposite meaning (an elegant man / boy). Translators of texts
included in InterCorp did not avoid the trap in three cases, where Polish frajer is
rendered into Czech as its false friend frajer.
A similar problem occurs in translations including the orthographic
variants of džez vs. jazz. Research shows that Czech forms including dž occur
more often than their parallels including dż in Polish. It would be interesting to
see how the Czech words including dž are translated into Polish. However, the
lack of sufficient occurrences does not allow for a conclusive answer. Still it is
worth noting that available occurrences show that Czech džez is translated into
Polish jazz (see Hebal-Jezierska, 2013) On the other hand, a similar investigation of džudo vs. judo stumbled over the problem of insufficient occurrences.
Another example concerning insufficiently representative results is
related to translations of the names of nationalities (see (5)(6) pl: Nie, lubiła
maklerów i żółtków.(6)Insufficient volumes of available texts are the main problem not only for the corpus compilers, but also for the corpus users. Although
Polish belongs to the best-represented languages in InterCorp, results obtained
from the Polish-Czech part may not be representative enough. The range of
topics is limited, so before a real start, the researcher should probe the corpus.
Our experience shows that some research topics run into a dead end due to
insufficient evidence. Researchers should treat results with caution especially
in domains where errors in translations, such as those due to false friends, are
more likely. For instance, for cs. frajer – pl. frajer it is impossible to establish
a Czech equivalent (see Table 5).). The question of how the pejorative names
for the English and Vietnamese are translated was not answered due to a small
number of occurrences. Queries targeting żółtek return predominantly homonymous forms denoting genitive plural of ‘yolk’ rather than the pejorative name
for someone of East-Asian origin.
The small number of occurrences also means an increased probability
of error. It appears not only in corpus-based translation studies, but in grammar studies as well, e.g. InterCorp (release 6) found only 18 occurrences of the
structure toužit ‘to desire’ + complement clause.14 These are not sufficient data
for any analysis.
In some cases there is a different situation. For some words the results
may be partly sufficient, e.g. establishing equivalents of the Czech verbs čumět
14 We analysed the valency of the verb toužit and divided the occurrences into groups: toužit
po + human object (37 occurrances), toužit po + abstract object (94), toužit po + real object (14),
toužit + infinitiv (90), toužit (po) + complement clause (18). The occurrences were excerpted from
the Czech-Polish part of InterCorp core. (Kaczmarska, Rosen, 2013, 2015; Kaczmarska et al., 2015;
Kaczmarska, 2014). In the core of InterCorp release 8 restricted to Czech or Polish originals (5,662
thousand tokens), the number of occurrences of the lexeme rose to 27.
Between the devil and the deep blue sea or between users’ needs and the compilers’ powers...
57
and koukat (both belong to the semantic field ‘to see’). A comparison of their
equivalents shows that čumět is more often than koukat translated by the expressive lexeme gapić się ‘to stare’, while koukat is much more often translated by the
unmarked lexeme patrzeć ‘to look’. It is worth noting that the second meaning of
čumět ‘to be stuck’ was not distinctive among the obtained equivalents. On the
first sight the number of occurrences seems to be sufficient, but the distribution
of the Polish equivalents of čumět shows that up to 47% of the translation come
from Škvorecký’s The Cowards. After this finding the results were analysed with
a greater caution.
Apart from problems with sufficient corpus evidence, various other
types of research were successful. The parallel corpus can be helpful for the
identification of equivalents of frequent lexemes not only with specific reference to extra-linguistic reality, but also for ambiguous lexemes whose meaning
is highly dependent on the context. An example is the Czech word snad ‘maybe,
perhaps’, which poses many problems for students of Czech. An analysis of the
translations helps to identify the most common meanings, see Table 6.
chyba
29.0%
może
30.0%
pewnie, na pewno
5.0%
przypadkiem
2.0%
zapewne
3.0%
czyżby
2.5%
Other: no equivalent, indeterminacy, syntactic construction
28.5%
Table 6. Polish equivalents of the Czech lexeme snad
Establishing equivalents of a selected group of words gives even better results.
If the words of choice run into the low frequency problem, the field can be
extended. Interesting results were obtained in the analysis of equivalents of
expressive words, such as those ending in -ák (see Hebal-Jezierska, 2010). The
aim of this study was to examine to what extent the translator tries to capture
the expressiveness of words ending in -ák. Table 7 shows some translations of
such lexemes.
It is worth noting that some translations can be simply wrong or the
translator’s coinages. The Czech word esesák ‘an SS member’15 has two Polish
equivalents in InterCorp: esesman, a word well-known to every Pole, and an
unexpected form esesowiec. Indeed, the corpus shows that esesowiec is a nonce
word used by a single translator in one text.
15 SS is the abbreviation of Schutzstaffel, a powerful paramilitary organization in the former Nazi
Germany.
Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen
58
A parallel corpus can help us find suggestions for equivalents of a given
word. This is particularly important for ambiguous words. The Czech verb zdát
se16 is an opposite example. A traditional dictionary (Siatkowski, Basaj, 2002:
1006–1007) offers four possible Polish equivalents śnić się, wydawać się, zdawać
się, podobać się. The dictionary, however, does not show the context (Kaczmarska, 2012a, 2012b). On the other hand, InterCorp found 978 occurrences
(release 6, Czech-Polish core, Czech originals)17 of the verb and its translations
into Polish (see Table 8, equivalents related the core meaning of the Czech lexeme are in boldface).
Czech word
Meaning of
the Czech
word
montgomerák kind of
waterproof
military coat
montgomerák kind of
waterproof
military coat
březňák
kind of wine
slepák
blonďák
vedlejšák
obhroublý
dobrák
Polish dictionary Meaning of the
translation
Polish translation
wojskowy płaszcz
angielskiego kroju
drelich
Translation found in
the corpus
military coat of
English cut
unmarked MWU
denim
change of meaning:
an expressive word for
a type of material
marcowe
type of wine
change of word form:
univerbation by suffix →
univerbation by ellipsis
Appendix
ślepa kicha
change of word form:
univerbation by suffix →
desintegration
fair-haired blondynek
fair-haired (little) univerbation by suffix →
man
man
diminutive suffix
side job
chałturka
diminutive for side univerbation by suffix →
job
diminutive suffix
coarse good dobroduszny grubas good fat man
change of meaning (misman
take made by the translator): coarse good man →
good fat man
Table 7. Equivalents of some Czech expressive nouns ending in –ák found in InterCorp
Polish equivalents
wydawać się
zdawać się
mieć wrażenie
wyobrażać sobie
sen / śnić się
przyśnić się
przywidzieć się
mieć sny
podobać się
Number of occurrences
509
190
49
1
29
1
1
1
1
Percentage
52.10%
19.42%
5.11%
3.27%
0.20%
16 The tricky Czech verb can be translated into English as: to seem, to appear, to occur, to dream.
17 The current version of InterCorp (release 8, Czech-Polish core, Czech originals) returns 1433
hits including the lemma zdát (se).
Between the devil and the deep blue sea or between users’ needs and the compilers’ powers...
Polish equivalents
być zadowolonym
czuć
poczuć
doznać uczucia
mieć uczucie
myśleć
uznać
mniemać
podejrzewać
pomyśleć
rozumieć
sądzić
uświadamiać sobie
uważać
wyglądać
widać
widzieć
okazywać się
pewnie
usłyszeć
jakby
Other
Error
Omitted in translation
TOTAL
Number of occurrences
1
3
2
3
1
5
1
1
1
2
1
4
1
4
34
4
1
1
1
1
1
58
21
44
978
59
Percentage
0.92%
2.00%
3.99%
0.10%
6.24%
2.15%
4.50%
100,00%
Table 8. Equivalents of the Czech verb zdát se in InterCorp
The results show that more than half occurrences of the verb zdát se are translated into Polish as wydawać się (52%), which seems to be the obvious equivalent. Its synonym – zdawać się – appears in 19,3% occurrences.18 The unit mieć
wrażenie (5%) is semantically close to the two previous Polish verbs, but differs
in terms of style. Other possible equivalents found by InterCorp can be divided
into several groups (see Table 8). These are not straight equivalents of the Czech
unit; they emphasize different semantic components, e.g. visual perception
(wyglądać, widzieć, widać), intelectual aspect (myśleć, mniemać, podejrzewać,
pomyśleć, rozumieć, sądzić, uświadamiać sobie, uważać, uznać, moim zdaniem),
the emotional element of the meaning (czuć, poczuć, doznać uczucia, mieć uczucie), or the component of objectivity and impersonality (wynikać i okazywać
się).19 As many as 58 occurrences contain other units (chyba, najwyraźniej,
18 The verbs wydawać się and zdawać się constitute 70% occurrences and seem to be absolutely
synonymous. It would be worthwhile to consider when (in which contexts) one or the other is
chosen. A Polish corpus (http://nkjp.pl) could be used to investigate several factors: the wider
context showing the experiencer and the object (name / noun / pronoun [I / me]), the type of the
text (dialog / narration) and the stylistic layer. The result of such an analysis may be particularly
important for translators and foreign learners of Polish.
19 The translators, however, used the verbs only in cases when zdát se did not need to be completed by a personal object.
60
Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen
pewnie, prawdopodobnie) as equivalents of the verb zdát se, which include elements of epistemic modality20 – information referring to the way the speakers
communicate their judgments, certainties, guesses, doubts. Of course, InterCorp
also includes evidence of two other meanings of the Czech unit zdát se: śnić się
‘to dream of ’ (przyśnić się, przywidzieć się) and podobać się ‘to enjoy’ (być zadowolonym).21 To conclude, the parallel corpus InterCorp is able to present avenues of possibilities for the choice of the proper equivalent in a given context.
Corpus data can be very useful for the identification of the meaning
of a structure (or a unit) such as the Czech unit být líto. If we use the methods
of Pattern Grammar,22 manual analysis based on InterCorp indicated, i.a., two
patterns of být líto (‘to be sorry’, ‘to regret’), associated with two meanings.
If the unit být líto is combined with two nominal phrases (Dative and Genitive),
it corresponds to the Polish equivalent żal. If combined only with the Dative
nominal phrase, and possibly with the element to, it corresponds to the Polish
equivalent (być) przykro.
żal
Jak mi ho bylo líto!
Jakże mi go było żal!
Je mi ho samozřejmě líto.
Jest mi go oczywiście żal…
Přišlo mi jí prostě líto.
Po prostu zrobiło mi się jej żal.
být líto + NPDAT + NPGEN = żal
(być) przykro
Pak mi je líto.
Wobec tego, przykro mi!
Potom nám to bylo oběma líto.
Potem nam obu było przykro.
…nabídne mi sisinku a já si vezmu, protože by
mu bylo líto, kdybych si nevzala…
...zaprasza mnie na cuksa i ja biorę, bo byłoby
mu przykro, gdybym nie wzięła…
být líto + NPDAT + to / Ø = (być) przykro
Table 9. The patterns of být líto (żal, być przykro)
3.3 Searching
The search interface offers the comfort of the same tools, functions, etc., available for searching both monoligual and parallel corpora. The clickable filtering of the texts, based on the metadata, including the translation direction, is
also intuitive and useful. There is only one disadvantage. Statistics such as ipm
relate to the whole corpus of Czech, rather than to its intersection with Polish.
20 More on the modality: Boniecka (1976), Roszko (1993), Rytel (1982), Wróbel (1991).
21 Zdát se as podobać się (enjoy) is possible only with the negation:
cs: Venca se potil, jak ho Fonda nutil, a nutil ho tak, že si musel dolaďovač trombónu postrčit skoro
o decimetr, až už mu to dál nešlo, ale Fondovi se to pořád nezdálo.
pl: Wacek aż się spocił, tak go Fonda piłował, a piłował go tak, że Wacek musiał stroik puzonu
przesunąć prawie o dziesięć centymetrów, aż już dalej nie szło, ale Fonda ciągle nie był zadowolony.
22 See Ebeling and Ebeling (2013) or Hunston and Francis (2000).
Between the devil and the deep blue sea or between users’ needs and the compilers’ powers...
61
Moreover, a subcorpus of Czech texts aligned with parallel Polish texts cannot
be created.
3.4 Segmentation, alignment, typos and annotation
Errors in alignment and sentential segmentation are often related, but they do
not pose a significant problem, especially in the proofread core part of InterCorp. Most cases of misalignment are easy to spot while parallel concordances
are browsed. To read the whole aligned segment is often unavoidable anyway in
the language which was not queried. Then the parallel keywords are not highlighted, since there are no word-to-word alignments in InterCorp yet.
Misaligned sentences can be recovered in the extended context or even
within the same segment, the latter in case of incorrect alignment of multiple
sentences within a single segment. Typos are relatively few, except for misplaced
pieces of texts in an inappropriate language in collections such as Acquis. In
comparison to previous releases, metadata are now significantly more reliable,
especially in the crucial identification of the language of the original. Unfortunately, the original language is still unknown for many texts in the collections,
which is the main reason why some users prefer to query only the carefully
annotated core part.
On the other hand, linguistic annotation is not problematic due to its
insufficient reliability, but because of the multitude of different tagsets and disparate tokenization rules (see Subsection above). This is clearly one of the main
problems facing the user, who is often unaware of the differences in the tags
beyond mere superficial notational dissimilarity.
3.5 User access statistics
During the first half of 201523 the users of InterCorp made 62 thousand queries,
including 2 thousand (3.26%) queries with Polish as one of the languages. The
most often queried language combination involving Polish was – not surprisingly – Polish and Czech (1.4 thousand queries, 71% of all queries involving Polish). Apart from monolingual queries into the Polish part of InterCorp (6.2%),
other combinations are far less common: Polish and French (2.8%), Polish and
Russian (2.5%), followed by Czech, Polish and Russian (2.2%). Interestingly,
most queries (85.6%) target all available texts. Queries restricted to the core
account for mere 10%. This is still more than the share of core queries for all
languages – 5.7%, compared with queries for all languages unrestricted by the
text type – 91.0%. The high numbers of unrestricted queries both for Polish and
23 More precisely within 1 January – 20 July 2015.
62
Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen
for other languages indicate that most users prefer large data to specific text
types and that collections play an important role in the corpus. As an additional
explanation, at least some users could be suspected of inadvertently ignoring
an important methodological aspect, such as distinguishing the direction of
translation.
4. Conclusions
The problem of insufficient size and disproportionate representation, felt as
important by the corpus users, is quite hard to overcome – translations in the
preferred text type may not be available for a given language pair. Could some of
the problems be resolved by the use of comparable rather than parallel corpora?
On the other hand, the alignment and annotation problem, which the
corpus builders feel is important, does not seem to be a priority for the users,
at least not for some users of the Polish-Czech part. This may be different for
users interested in multiple languages, posing problems such as less reliable or
missing morphosyntactic annotation or incompatible tagsets.
The collections, where the language of the original is very often
unknown and very seldom Czech or Polish, do not seem to help much for this
kind of research, although Open Subtitles was shown to yield interesting results.
Could some methods be adapted to the existing resources, even though they are
not perfect?
The bottom line points to the importance of user feedback. Even though
there is a user forum and an easy way to report problems, to comment, to make
wishes, regular users of InterCorp have been asked recently to participate in
a survey intended to provide a better picture of the users’ preferences to guide
future steps in the development of the corpus.
References
Baisa, Vít (2014): Parallel corpora in Sketch Engine. Paper presented at the 5th
Sketch Engine Workshop. Bolzano, Italy, 14 July, 2014.
Belica, Cyril (2011): Semantische Nähe als Ähnlichkeit von Kookurenzprofilen.
In: Andrea ABEL, Renata ZANIN (eds.): Korpusinstrumente in Lehre
und Forschung. Brixen: Bozen-Bolzano: University Press, 155–178.
Between the devil and the deep blue sea or between users’ needs and the compilers’ powers...
63
Boniecka, Barbara (1976): O pojęciu modalności (przegląd problemów badawczych). Język Polski LVI(2), 99–110.
Chiarcos, Christian, Ritz, Julia, Stede, Manfred (2012): By all these lovely
tokens... merging conflicting tokenizations. Language Resources and
Evaluation 46(1), 53–74.
Chiarcos, Christian (2012): Ontologies of linguistic annotation: Survey and
perspectives. In: Nicoletta Calzolari, Khalid Choukri, Thierry
Declerck, Mehmet Uğur Doğan, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, Stelios Piperidis (eds.): Proceedings of the Eight International Conference on Language Resources and
Evaluation (LREC 2012). Istanbul: European Language Resources Association (ELRA), 303–310.
Čermák, František, Rosen, Alexandr (2012): The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics 13(3),
411–427.
Ebeling, Jarle, Ebeling, Signe O. (2013). Patterns in contrast. Amsterdam/Philadelphia, PA: John Benjamins.
Erjavec, Tomaž (2010): MULTEXT-East Version 4: Multilingual morphosyntactic specifications, lexicons and corpora. In: Nicoletta Calzolari,
Khalid Choukri, Thierry Declerck, Mehmet Uğur Doğan, Bente
Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, Stelios
Piperidis (eds.): Proceedings of the Eight International Conference on
Language Resources and Evaluation (LREC 2012). Istanbul: European
Language Resources Association (ELRA), 2544–2547.
Hebal-Jezierska, Milena (2013): Jazz http://portal.uw.edu.pl/web/approval/
jazz_cz (3 March 2016).
Hebal-Jezierska, Milena: (2010) Jak se překládají české univerbizáty do polštiny
In: František Čermák, Jan Kocek (eds.) Mnohojazyčný korpus InterCorp: Možnosti studia. Praha: Lidové noviny, 261–268.
Hunston, Susan, Francis, Gill. (2000). Pattern Grammar: A corpus-driven
approach to the lexical grammar of English. Amsterdam/Philadelphia,
PA: John Benjamins.
Kaczmarska, Elżbieta (2012a): Czeski czasownik „zdát se” w przekładzie na
język polski (na podstawie badań z wykorzystaniem czesko-polskiego
korpusu równoległego InterCorp). Studia z Filologii Polskiej i Słowiańskiej 47, 247–261.
Kaczmarska, Elżbieta (2012b): Searching for equivalents on the basis of
a Czech – Polish parallel corpus (the case of the verb „zdát se“).
In: Panajot Karagiozov, Kalina Bahneva, Valentin Geshev, Ina Hristova, Margarita Mladenova (eds.): Време и история в славянските
езици, литератури и култури. Sofia: Езикознание, 238–245.
64
Milena Hebal-Jezierska, Elżbieta Kaczmarska, Alexandr Rosen
Kaczmarska, Elżbieta (2014): Czeskie czasowniki oznaczające stany psychiczne
– sposoby ustalania polskich ekwiwalentów na podstawie korpusu
równoległego InterCorp. In: Anna Stolarczyk-Gembiak, Marta
Woźnicka (eds.) Zbliżenia. Językoznawstwo – Literaturoznawstwo
– Translatologia. Konin: Państwowa Wyższa Szkoła Zawodowa
w Koninie, 45–55.
Kaczmarska, Elżbieta, Rosen, Alexandr (2013): Między znaczeniem leksykalnym a walencją – próba opracowania metody ekstrakcji ekwiwalentów
na podstawie korpusu równoległego. Studia z Filologii Polskiej i Słowiańskiej 48, 103–121.
Kaczmarska, Elżbieta, Rosen, Alexandr (2015): Jak najít optimální překlad
polysémních sloves – porovnání metod automatické analýzy paralelních textů. Časopis pro moderní filologii 97(2), 157–168.
Kaczmarska, Elżbieta, Rosen, Alexandr, Hana, Jirka, Hladká, Barbora
(2015): Syntactico-semantic analysis of arguments as a method for
establishing equivalents of Czech and Polish verbs expressing mental
states. Prace Filologiczne XVII, 151–174.
Kilgarriff, Adam, Baisa, Vít, Bušta, Jan, Jakubíček, Miloš, Kovář, Vojtěch,
Michelfeit, Jan, Rychlý, Pavel, Suchomel, Vít (2014): The Sketch
Engine: ten years on. Lexicography, 1(1), 7–36.
Nádvorníková, Olga, Polická, Alena, Šotolová, Jovanka, Vurm, Petr (2010):
Využití InterCorpu ve vyskoškolských kurzech francouzské filologie.
In: František Čermák, Jan Kocek (eds.) Mnohojazyčný korpus InterCorp: Možnosti studia. Praha: Lidové noviny, 232–240.
Nivre, Joakim (2015): Towards a universal grammar for natural language processing. In: Alexander F. Gelbukh (ed.): Proceedings of Computational
Linguistics and Intelligent Text Processing 16th International Conference,
CICLing 2015, Cairo, Egypt, Part I, volume 9041 of Lecture Notes in
Computer Science. New York, NY: Springer, 3–16.
Pęzik, Piotr. (2014): Graph-based analysis of collocational profiles. In: Vida
Jesenšek, Peter Grzybek (eds.): Phraseologie im Wörterbuch und Korpus, Proceedings of Europhras 2012. Maribor: Univerza v Mariboru,
227–243.
Przepiórkowski, Adam, Krynicki, Zygmunt, Dębowski, Łukasz, Woliński,
Marcin, Janus, Daniel and Bański, Piotr (2004): A search tool for corpora with positional tagsets and ambiguities. In: Maria Teresa Lino,
Maria Francisca Xavier, Fátima Ferreira, Rute Costa, Raquel Silva
(eds.): Proceedings of the Fourth International Conference on Language
Resources and Evaluation (LREC 2004). Lisbon: European Language
Resources Association (ELRA), 1235–1238.
Between the devil and the deep blue sea or between users’ needs and the compilers’ powers...
65
Przepiórkowski, Adam, Woliński, Marcin (2003): A flexemic tagset for
Polish. In: Tomaž Erjavec (ed.): MorphSlav ‘03 Proceedings of the
2003 EACL Workshop on Morphological Processing of Slavic Languages.
Budapest: Association for Computational Linguistics, 33–40.
Rosen, Alexandr, Vavřín, Martin (2012): Building a multilingual parallel
corpus for human users. In: Nicoletta Calzolari, Khalid CHOUKRI,
Thierry DECLERCK, Mehmet Uğur DOĞAN, Bente MAEGAARD,
Joseph MARIANI, Asuncion MORENO, Jan ODIJK, Stelios PIPERIDIS
(eds.): Proceedings of the Eight International Conference on Language
Resources and Evaluation (LREC 2012). Istanbul: European Language
Resources Association (ELRA), 2447–2452.
Roszko, Roman (1993): Wykładniki modalności imperceptywnej w języku polskim i litewskim. Warszawa: Instytut Slawistyki PAN.
Rytel, Danuta (1982): Leksykalne środki wyrażania modalności w języku czeskim i polskim. Wrocław: Zakład Narodowy im. Ossolińskich.
Siatkowski Janusz, Basaj Mieczysław (2002): Słownik czesko-polski. Warszawa:
Wiedza Powszechna.
Szałkiewicz, Łukasz, Przepiórkowski, Adam (2012): Anotacja morfoskładniowa. In: Adam Przepiórkowski, Mirosław Bańko, Rafał Górski,
Barbara Lewandowska-Tomaszczyk (eds.): Narodowy Korpus Języka
Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 59–96.
Wróbel, Henryk (1991): O modalności. Język Polski LXXI, 260–270.
Zeman, Daniel (2010): Hard Problems of Tagset Conversion. In: Alex Fang,
Nancy Ide, Jonathan Webster (eds.): Proceedings of the Second International Conference on Global Interoperability for Language Resources.
Hong Kong: City University of Hong Kong, 181–185.
Piotr Pęzik
Uniwersytet Łódzki
Exploring phraseological equivalence with Paralela
Zastosowanie korpusu Paralela w badaniach
ekwiwalencji frazeologicznej
Streszczenie
Paralela to udostępniony niedawno korpus równoległy polskoangielskich i angielsko-polskich tłumaczeń. Korpus zawiera aktualnie
ponad 260 milionów segmentów słów (blisko 11 milionów segmentów
tłumaczeniowych) w wersji polskiej. Dla korpusu opracowano również
dostępną w postaci aplikacji WWW wyszukiwarkę (http://paralela.
clarin-pl.eu), której składnia umożliwia formułowanie zapytań
o pojedyncze wyrazy, frazy oraz wzorce leksykalno-gramatyczne.
Możliwe jest także filtrowanie wyników według kryteriów
typologicznych i bibliograficznych oraz ich eksportowanie w postaci
arkuszy kalkulacyjnych. Szczegółowa zawartość korpusu, zarówno na
poziomie metadanych jak też samych tekstów, może być przeglądana
za pomocą specjalnego modułu wyszukiwarki.
Po przedstawieniu zawartości korpusu oraz funkcjonalności
wyszukiwarki omówiono zastosowanie tych narzędzi w badaniu idiomatyczności tłumaczeń. W tym celu wprowadzone zostało pojęcie
ekwiwalencji frazeologicznej, czyli tendencji do zachowania określonego poziomu idiomatyczności tekstu tłumaczenia. Zjawisko to polega
na stosowaniu utrwalonych w języku tłumaczenia odpowiedników
wielowyrazowych idiomów, kolokacji i innych jednostek frazeologicznych jako ekwiwalentów występujących w języku oryginału połączeń
wyrazowych o podobnym statusie frazeologicznym. W tłumaczeniu
nieidiomatycznym ekwiwalentami jednostek frazeologicznych są syntagmy, czyli doraźne połączenia wyrazów, których znaczenia są analizowane przez odbiorców tekstów poprzez dekompozycję, a nie częściowo
lub całkowite przywoływane z pamięci poprzednich użyć, jak to się
dzieje w przypadku jednostek frazeologicznych. Mimo iż tłumaczenie
za pomocą kompozycyjnych odpowiedników jest czasami nieuniknione, to niska idiomatyczność całego tłumaczenia (w porównaniu
z tekstem oryginalnym) może znacznie utrudniać jego przetworzenie
w sensie psycholingwistycznym, a także zwiększa jego wieloznaczność. Zasada ta dotyczy szczególnie tekstów z gatunku użytkowych,
naukowo-dydaktycznych i prasowych, w których pojawiają się frazemy
Piotr Pęzik
68
mające w podobnym stopniu utrwalone odpowiedniki frazeologiczne
w języku tłumaczenia. Szczególnych trudności z zachowaniem porównywalnego stopnia utrwalenia frazeologicznego w oryginale i tłumaczeniu mogą nastręczać kolokacje, które w odróżnieniu od idiomów
czystych i figuratywnych nie muszą się cechować całkowitą lub częściową niekompozycyjnością.
Na przykładzie korpusu Paralela staram się wykazać, że o ile
lokalna ekwiwalencja frazeologiczna może być badana na poziomie
pojedynczego tłumaczenia, o tyle występowanie frazeologicznej ekwiwalencji globalnej (czyli skonwencjonalizowanego stosowania ekwiwalentów frazeologicznych między parą języków) można badać jedynie,
opierając się na odpowiednio dużych korpusach równoległych. Tezę tę
ilustruję przykładami wybranych idiomów figuratywnych, które występują w korpusie Paralela, zaczerpniętymi z profesjonalnych i amatorskich tłumaczeń.
Keywords: parallel corpus, Polish, English, phraseology, equivalence
Słowa kluczowe: korpus równoległy, język polski, język angielski, frazeologia, ekwiwalencja
1. Introduction
A new parallel Polish-English corpus called Paralela has recently become available as part of the CLARIN-PL infrastructure of Polish language tools and
resources. In this paper, I describe the current contents of this corpus and its
dedicated search engine. I also attempt to show the usefulness of Paralela in the
study of the idiomaticity of English-Polish translations. I conclude that large
parallel corpora for which such specialized search tools are available are indispensible in investigating the phenomenon of global phraseological equivalence
in translation.
2. The corpus
Paralela can be described as an open-ended, opportunistic parallel corpus of
Polish-English and English-Polish translations. It currently contains 262 million
words in 10,877,000 translation segments. When selecting the translations to be
included in the corpus, we initially focused on large, publicly available multilingual text collections and open-source parallel corpora, in order to quickly build
a sizeable collection, which could be used to develop and test a new parallel corpus search engine. The main sources of texts included in the corpus are listed in
Table 1. The largest of these are the automatically aligned Polish-English subsets
imported from the OPUS collection (Tiedemann, 2009), which include: the JRC
Acquis Communautaire, Open Subtitles, European Parliament Proceedings, EU
Books and EMEA corpora.
Exploring phraseological equivalence with Paralela
Subcorpus
JRC-Acquis
RAPID
Open Subtitles
CORDIS
EP Proceedings
EU Books
EMEA
114 Literary Classics
ESO
OSW
Academia
Total
Segments
3 385 142
3 952 181
13 628 985
761 057
693 139
657 938
825 922
448 957
74 852
60 363
17 750
10 877 301
69
Words
72 88 7270
66 304 435
63 048 392
17 162 287
13 026 414
11 596 443
8 883 601
6 292 789
1 447 958
1 335 858
317 426
262 302 873
Alignment
Automatic
Automatic
Automatic
Automatic
Automatic
Automatic
Automatic
Manual
Automatic
Manual
Manual
Table 1. Current contents of the Paralela corpus. Word counts were calculated for the Polish segments only
We have also crawled a number of public domain websites including the European Commission Press Release database (RAPID)1, the Community Research
and Development Information Service (CORDIS)2 and the European Space
Observatory website (ESO)3. The Polish-English texts acquired from these
websites were automatically aligned using the mALIGNa tool (Jassem, Lipski,
2008). In addition to these large, statistically aligned collections, Paralela contains a much smaller, but nevertheless significant number of manually aligned
texts obtained from the publishers of Academia (a popular science journal)
and the Center for Eastern Studies. Last but not least, 114 Polish-English and
English-Polish translations of public domain literary classics were manually
aligned and included in the corpus. The full list of these sources is provided in
the ‘Browse’ section of the Paralela website (http://paralela.clarin-pl.eu). The ten
largest books from this subset of the corpus are listed in Table 2 below:
Source
Potop
David Copperfield
The Pickwick Papers
Ogniem i mieczem
Faraon
Villette
Great Expectations
Quo Vadis
Sons and Lovers
Jane Eyre
Segments
28 301
22 710
18 840
16 515
14904
11448
10850
10252
16297
10421
Words
Table 2. Examples of the 114 manually aligned literary classics indexed in Paralela
1 http://europa.eu/rapid.
2 http://cordis.europa.eu.
3 http://www.eso.org.
430 143
319 289
269 701
247 887
200 035
197 673
178 762
170 850
164 567
164 004
Piotr Pęzik
70
Manual annotation of these texts was a time-consuming task. After developing a special web application called Mantel, we assigned them to trained annotators in order to have them aligned at the level of sentences. The annotators
were instructed to use one of the following alignment markers of equivalence
between source and target text sentences:
1. Simple – used to mark simple sentence to sentence equivalence
2. Merge/Split – used to mark many-to-one or one-to-many alignments
wherever more than one sentence was translated into many sentences
or vice versa
3. Insertion/Deletion – to mark ‘extra’ sentences in either the source or
translation
4. Crosslink – used to mark equivalent sentences separated by one or more
intervening segments
5. Composite – used to mark many-to-many segment blocks with overlapping sentence to sentence equivalence relations
6. Compression – used to mark complex mergers where several sentences
are translated into significantly fewer sentences
7. Paraphrase – a last resort marker used to mark significant adaptations or
paraphrases in the translation which could not be reasonably mapped at
the level of individual sentences.
It is important to note that, in many cases, we had no way of knowing which
edition of a particular classic novel was used by the translator. This may explain
the high incidence of complex alignment types in texts which had several considerably different editions.
The complexity of the manual alignment procedure is illustrated in Figure 1, which shows the alignment of the first 9 sentences of The Adventures of
Tom Sawyer in the user interface of Mantel. There are seven simple alignments
in this section, one deletion and one split. In total, more than 500,000 segments
were manually aligned with this tool and included in the Paralela corpus.
The aligned texts were stored in a relational database, part-of-speech
tagged and then indexed by the Paralela search engine, which was implemented
using the Apache Solr library. In addition to the alignment mark-up, a number
of bibliographic and taxonomic metadata annotations are stored for most texts
in the index. The current list of the metadata fields available for each parallel
segment in the corpus database is shown in Table 3.
Exploring phraseological equivalence with Paralela
71
Figure 1. Manual alignment of The Adventures of Tom Sawyer in Mantel
Field name
Id
text_id_pl
text_id_en
alignment_mode
lang_src
lang_trg
seq
source
genre
medium
word_total
alignment_type
title_m_pl
title_a_pl
title_m_en
title_a_en
authors_en
Explanation
Segment identifier
Polish text identifier
English text identifier
Mode of alignment
Source language
Target language
Sequence in text
Source identifier
NKJP genre tag
NKJP medium tag
Segment size
Type of alignment
Polish monograph title
Polish section title
English monograph title
English section title
English authors
Table 3. Searchable metadata fields in the Paralela index
Example value
gkn9r
ceae
Tja5
MANUAL
eng
pol
140
houndbaskervilles1
typ_lit_proza
kanal_ksiazka
47
SIMPLE
Pies Baskerville’ów
Przeklęty ród
The Hound of the Baskervilles
The Curse of the Baskervilles
Arthur Conan Doyle
Piotr Pęzik
72
As further explained in the next section of this paper, all of the metadata fields
listed in Table 3 can be used as additional metadata filters for corpus span queries. There are also some additional unexposed metadata fields, which are only
used internally for corpus maintenance purposes.
3. Search engine and query syntax
Paralela supports the SlopeQ query syntax, which has been used in previous
corpus projects, such as Spokes (Pęzik, 2014) and the Monco search engine
(http://monitorcorpus.com). The scope of the syntax is illustrated in Table 4
below. Apart from basic surface form queries for single words, it is possible
to search for loosely defined phrases with the so-called slop factor and lexico-grammatical patterns matching morphosyntactic codes.
#
English query
Matches translation segments containing
1
popular
The exact word form ‘popular’
2
popular with
The exact phrase ‘popular with’
3
popular with|among
4
strike**
Either of the two exact phrases: ‘popular with’ /
‘popular among’
Different forms of the lemma ‘strike’ (both nouns or verbs)
5
strike** a balance
11
Phrases with different forms of ‘strike’ followed by the
sequence ‘a balance’
strike**|!striking a balance
Same as above, but not when strike** takes the form of
‘striking’
(strike** a balance)=3
Same as above, but with up to 3 unspecified words between
the query terms, e.g. ‘struck a very delicate balance’
(strike** a balance)~3
Same as above, except that the query terms may occur in
any order
(strike** balance**|deal**)=4 Co-occurrences of different forms of the lemmas ‘strike’
and ‘balance’ or ‘deal’
word**|story** has it that
Different variants of the multiword expression ‘word (or
story) has it that…’
<lemma=strike tag=n.*>
Different forms of the lemma ‘strike’ as a noun
12
<tag=j.*> chance**
13
(<tag=v.*> <tag=j.*>
discovery**)=2
6
7
8
9
10
Co-occurrences of different forms of the lemma ‘chance’
with immediately preceding adjectives
Sequences of a verb, followed by an adjective and followed
by any form of the lemma ‘discovery’ with up to two word
tokes in between
Table 4. Paralela supports the SlopeQ corpus query syntax
It is possible to specify bilingual SlopeQ queries for pairs of aligned segments as
illustrated in Table 5 below. The first three of these queries are examples of how
Exploring phraseological equivalence with Paralela
73
one could search for fully specified formal lexical and phraseological equivalents of original words and phrases.
#
English query
1 chance**
2
3
4
5
Polish query
nadzieja**
Matches translation segments containing
Any inflectional form of ‘nadzieja’ as a possible
equivalent of the lemma ‘chance’
<tag=j.*> chance** <tag=j.*> szansa** Any form of ‘nadzieja’ (when it is preceded by
an adjective) as a possible equivalent of ‘chance’
(similarly pre-modified by an adjective)
(give** to
(dać** do
A relaxed co-occurrence of the phrase ‘dać do
understand)=3
zrozumienia)=3
zrozumienia’ when it is an equivalent of ‘give
someone to understand’.
(reach**
(<tag=v.*>
Verbs co-occurring with the noun ‘porozumienie’
agreement**)~3
porozumienie**)~3 when they are possible equivalents of the English
collocation ‘reach an agreement’
(give** no reason powód**
An English lexico-grammatical pattern when it
to <tag=v.*>)=3
may be translated as a phrase containing the Polish noun ‘powód’.
Table 5. Examples of bilingual span queries
The last two examples in Table 5 show how to specify a query which matches
partly underspecified equivalents. For example, in query 4 any Polish verb is
allowed in the equivalent of the English collocation reach an agreement and in
query 5 we only specify one obligatory term to find potential equivalents of an
English multiword expression. All corpus concordances generated with Paralela
can be exported as Excel files for offline use.
4. Query-based word alignment
The Paralela search engine supports query-based word alignment. Once a monolingual query is entered, possible lexical equivalents of the original query terms
are computed and ranked using the Dice coefficient (Dice, 1945). The highest
scoring matches are then highlighted in the spans retrieved from the index. This
solution eliminates the need for offline word alignment which would be very
costly to compute and update on a regular basis. Word alignment of the results
of bilingual queries is more straightforward: the search engine simply highlights
the spans matching both parts of the queries in the retrieved concordances.
5. Metadata queries and search facets
It is possible to use a conjunction of a span query and a logical metadata query
to filter the results retrieved from the index. Metadata queries can be formulated
Piotr Pęzik
74
using the Apache Solr DisMax syntax4. They are always appended as a logical
conjunction to the obligatory span query. For example, the following metadata
query:
(genre:typ_lit_proza NOT source:wutheringheights AND (alignment:simple OR alignment:paraphrase) AND wc:[5 TO *])
would limit the results of the span query to segments found in literary prose
(except for those from The Wuthering Heights), which are either marked as simple alignments or paraphrases and which contain at least 5 words. This kind of
filters are particularly useful when a particular source or genre of texts contains
a high number of matches of the query and it becomes necessary to explicitly
eliminate such sources from the results.
Because such metadata queries can seem quite complicated to many
users, we have introduced two features, namely query facets and predefined collections, which provide a similar functionality through the standard controls
of the application user interface. Both of those features are shown in Figure 2
below.
Figure 2. Query facets and predefined collections in Paralela
4 See https://cwiki.apache.org/confluence/display/solr/The+Extended+DisMax+Query+Parser.
Accessed on 9th January 2016.
Exploring phraseological equivalence with Paralela
75
Predefined collections are simply a set of metadata queries which users can
select from the drop-down list under the corpus query text box. In the example
above, the user can select a predefined query which limits the results of the
query to texts labeled as ‘practical guides’ (‘Poradniki i informatory’) in the corpus taxonomy.
For every query submitted by the user, the Paralela search engine also
computes a summary of matches found in the different metadata categories in
the entire corpus. These summaries are known as ‘facets’ and they are visualized
as pie charts in the Statistics section of the results screen. They are also presented
in the form of interactive tables as shown in Figure 2. Users can select or deselect some of the categories, thus narrowing down the results of the original span
query. In the example above (Figure 2), having obtained a very large number
of hits for the query ‘unia**’ from the JRC Acquis section of the corpus, the
user decides to deselect all texts which are not marked as literary or scientific
works (‘typ_lit_proza’, ‘typ_nd’). This limits the set of matched occurrences of
the lemma ‘unia’ to segments which occurred in such texts.
6. Phraseological equivalence
So far I have introduced the composition of the Paralela corpus and the search
and exploration features of its search application. In the remaining sections of
this paper, I will try to demonstrate that its query syntax is expressive enough
and that its current size is sufficiently large to facilitate the investigation of subtle bilingual phenomena such as the idiomaticity of translation and the incidence of phraseological equivalence in English-Polish translations.
An idiomatic translation is sometimes defined as one “which has the
same meaning as the source language, but is expressed in the natural form of
the receptor language” and in which “the meaning not the form is retained”
(Larson, 1984:10; cf. Beekman, Callow, 1974). What makes a translation ‘natural’ is often language-specific and only indirectly compositional. Given that idioms are prototypical examples of such specificity, it is understandable that the
adjective ‘idiomatic’ is used in this definition to describe this quality of translation. This type of translation idiomaticity can also be viewed as an aspect of
dynamic equivalence (Nida, 1964) and it is based on a very general understanding of ‘idiomaticity’ according to which almost any ‘natural’ translation could
be described as ‘idiomatic’. 5
5 Idiomaticity and formulaicity are often viewed as fundamentally important aspects of ‘nativelike selection’ (Pawley, Syder, 1983) and ‘language naturalness’ (Sinclair, 1984).
Piotr Pęzik
76
Although such generalizations are useful in that they succinctly express
commonly shared intuitions, it is also possible to define an idiomatic translation
as one which is characterized by a significant presence of idiomatic expressions
which directly correspond to source text phraseological units (PUs). In this
view, idiomaticity is understood in a much more restricted sense with PUs as its
formal exponents. Normally, translators who encounter lexical or terminological units in the source text may try to translate them into equally conventional
target language units to the extent that such simple word-for-word equivalence
is justifiable in a give case. Such equivalence becomes more problematic when
a non-compositional PU has to be translated. For example, when a figurative
idiom found in the source text has no literal equivalent in the target language, it
may require a more ‘dynamic’ translation. Such an equivalent may take the form
of a functionally similar figurative idiom which is based on a different metaphor or metonymy, a single word lexical item, or a compositional paraphrase.
What makes this rather well-known issue interesting is that some idiomatic
equivalents are less ‘dynamic’ (i.e. more conventionalized and predictable) than
they may seem to be in the context of just one translation. The availability of
large parallel corpora makes it possible to observe how conventional pairings of
source and target language idioms and other types of phraseological units are
regularly found in independent translations.
To illustrate this point, let us consider the English idiom “to kill two
birds with one stone”, which may be translated into Polish as “upiec dwie pieczenie przy jednym ogniu” (lit. “to cook two roasts over one fire”). Looking at
a single instance of such a translation, we might be tempted to consider it as
a case of dynamic equivalence in that the original idiom has no literal equivalent in Polish, and so the nearest functional equivalent has to be used to ensure
a desired level of target text ‘idiomaticity’. The figurative meanings of the two
expressions are very close and they can be used in similar registers. This translation may therefore work very well, unless the source text idiom is used in some
humorous wordplay which takes advantage of its literal meaning.
Let us see how the predictability of this equivalent can be validated
against a large parallel corpus. In order to get a sample of naturally occurring
Polish translations of the English idiom in question, we could run the following
query in Paralela:
(kill** bird** stone)=4
This query matches 50 contexts in which the words kill, bird and stone co-occur,
with a maximum of four words in between in original English texts. The query
may seem a little underspecified, but it is in fact optimized to match slight
grammatical variants of the idiom without fetching too many false positives.
Exploring phraseological equivalence with Paralela
77
Although it is difficult to give an exact figure due to the ‘borderline’ cases, about
36 occurrences of the English expression “to kill two birds with one stone” were
translated as “upiec dwie pieczenie na jednym ogniu”. Some of them are shown
in Table 6 below.
#
Example
1 How do we kill two birds with one stone?
Jak upiec dwie pieczenie na jednym ogniu?
2
3
4
Source
Bottoms up
Owner knew he had bad tenants, wanted to kill two birds with
one stone?
Pretty Persuasion
Właściciel wiedział, że ma złych lokatorów i postanowił upiec dwie
pieczenie na jednym ogniu.
I figured I could kill two birds with one stone.
Dance with Somebody
Zdałem sobie sprawę, że mogę upiec dwie pieczenie na
jednym ogniu.
Therefore we are in a very positive situation where we can kill two
birds with one stone.
Proceedings of
Jesteśmy zatem w sytuacji, w której możemy upiec dwie pieczenie European Parliament
na jednym ogniu.
Table 6. A selection of predictable phraseological equivalents of the English idiom “to kill two
birds with one stone”
Given the regularity with which we find this pairing of idioms in corpora of
English-Polish translations, it could be argued that the choice of the Polish
equivalent is largely predictable and similar to the way simple lexical and terminological equivalents are selected in other contexts. Should such translations be
described as ‘dynamic’, or rather, as highly conventionalized and thus, in a sense,
more formal than dynamic? This may sound like a terminological question, but
the conventionality of seemingly dynamic translations is an observation with
very practical implications for translators.
Needless to say, phraseological equivalents are not absolute or nearly as
predictable as terminological equivalents in technical translation. For example,
among the fifty translations of “kill two birds with one stone” there were three
independent occurrences of the Polish idiomatic phrase “łapać dwie sroki za
ogon” (lit. “to catch two magpies by the tail”)6, a partly formulaic paraphrase
“zrobić dwie rzeczy za jednym zamachem” (“to do two things in one go”). There
were also a few partly or entirely literal translations and some idiomatic mistranslations. It has to be noted, however, that most of these variants were found
in amateur subtitle translations. Table 7 below shows some of these examples.
6 Incidently, this translation could be problematic. The Polish expression “łapać dwie|wiele
sroki|srok za ogon” has a predominantly negative connotation of “trying to do too many things
at once.”
Piotr Pęzik
78
#
1
Example
And kill two birds with one stone.
Aha, zabić dwa ptaszki jednym kamieniem?
2
Thought I’d kill two birds with one stone, you know.
Dwa grzyby w barszcz.
3
I guess I’ll kill two birds with one stone.
Chyba upiekę dwa ptaki na jednym ogniu.
Source
El Bola
Notting Hill
Mr. Popper’s Penguins
Table 7. Non-conventional phraseological equivalents
The first translation is literal and difficult to justify as such. The phraseological
status of the original expression is lost and the Polish translation is certainly not
idiomatic. In the second example, an erroneous idiomatic equivalent is used:
the Polish idiom “dwa grzyby w barszcz” (lit. “[to put] two mushrooms in the
borscht”) is normally used to mean “an excess of something”. The third example
is particularly interesting in that it shows how translators may deal with idiom-based word puns. The line “I guess I’ll kill two birds with one stone” comes
from the script of Mr. Popper’s Penguins and it is intentionally ditropic, i.e. its
generally figurative meaning is literal in this case. The translation is based on
the conventional Polish equivalent of the original idiom, but it also does some
justice to the literal meaning of the English original. By replacing the noun
pieczenie (‘roasts’) with ptaki (‘birds’), the translator strikes a delicate balance
between achieving phraseological equivalence and saving some of the original
word play in the translation. Such a systematic parallel corpus-based analysis of the strategies applied by translators to deal with idiomatic expressions
may help us generalize the notion of phraseological equivalence, which I try to
define below.
Phraseological equivalence (PE) can be defined as the tendency for
translators to use a target language phraseological unit, such as an idiom,
a restricted or open collocation as an equivalent of the corresponding source
language phraseological unit. Although this tendency is rarely absolute, a low
level of phraseological equivalence may result in an insufficient level of idiomaticity of the translation. This in turn may have two negative implications. Firstly,
the readers of a non-idiomatic translation may have to invest a larger amount
of cognitive effort in understanding it than the readers of the original. Secondly,
a non-idiomatic translation may be significantly more ambiguous than the original text, whose meaning is constructed, to the extent that it is idiomatic, from
highly conventionalized phraseological units. Furthermore, we can distinguish
between local phraseological equivalence between PUs in a particular text and
global phraseological equivalence across many different texts of the kind illustrated above, which can only be studied through parallel and reference corpora.
Exploring phraseological equivalence with Paralela
79
Such corpora have to be sufficiently large to compensate for the fact, that many
figurative and pure idioms are relatively rare (Moon, 2001).
Although PE can be regarded as a special type of lexical equivalence,
it requires separate consideration, due to the partial compositionality of many
phraseological units. The basic difference between lexical and phraseological
equivalence boils down to the following observation: when translators encounter an orthographic word, they are quite likely to consider using its institutionalized lexical or terminological equivalent. The non-compositionality of words
is a basic fact of derivational morphology (cf. Haspelmath, Sims, 2010: 62). By
contrast, combinations of words are more likely to be compositional and translators are more likely to fail to recognize their phraseological prefabrication. In
other words, phraseological units are not always as easy to recognize as lexical
words. While most idioms, proverbs and speech formulas are relatively easy to
spot as such, the conventionalization of restricted and open collocations can be
much more subtle. The former types of phraseological units are therefore more
difficult to translate idiomatically.
Compared with terminological equivalence, global PE is not usually
a fixed one-to-one relation between lexical entities. It may be primarily a oneto-many, many-to-one or many-to-many relation between source and target
PUs. For example, the abovementioned English idiom “to kill two birds with
one stone” seems to have a Polish equivalent which is much more frequent
than any of its alternatives. In many cases, local PE can be null, which means
that source language phrasemes are translated as target language syntagmas
(i.e. grammatically valid, spurious word combinations with no phraseological status) and vice versa. A high incidence of null PE in a text may result in
a non-idiomatic translation. On the other hand, in some cases, null PE may
be a conscious and well-justified choice. For example, a formally accurate idiomatic equivalent of a multiword unit may not yet exist in the target language:
a regular Polish equivalent of the term “product placement”7 was only recently
established (as “lokowanie produktu”) and the highly institutionalized English
term “road rage” does not seem to have a stable equivalent in Polish. A quick
Paralela query shows that it has a variety of similarly likely equivalents such as
“agresja na drodze,” “gniew na drodze” or “furia drogowa”. Also, a context-dependent, humorous use of a ditropic idiom may require a hybrid equivalent
of the kind illustrated above (cf. Table 7, example 3). Finally, the translator’s
attempt to achieve a state of PE may be unsuccessful (cf. Table 7, example 2). In
other words, the exact choice of the target language PU is just as important as
the recognition of the source language phraseological unit.
7 Although “product placement” could be described as a technical term, it is also a ‘phraseological nomination’ (Gläser, 1998).
80
Piotr Pęzik
The phenomenon of global PE is particularly subtle in the case of hundreds of thousands of restricted and open collocations which contribute to idiomaticity of the source text. Such word combinations are usually semantically
compositional and they can easily be translated into compositional equivalents
(cf. Pęzik, 2011, 2012). It takes a large parallel corpus to study the global PE of
such items and to observe “the underlying rigidity of phraseology, despite a rich
superficial variation” (Sinclair, 1991: 121).
7. Summary and future work
Although currently Paralela is not a balanced corpus, it can already be shown
to contain a sufficiently large sample of different text varieties to be useful in
the analysis of certain equivalence phenomena. The query syntax of its search
engine is particularly useful in investigating phraseological equivalence,
a notion which I have defined and briefly illustrated in this paper with examples extracted from the Paralela corpus. Having developed a scalable search and
storage architecture, in the future we will focus on extending the coverage of the
corpus. This is particularly important in view of the fact that despite the high
incidence of phraseological prefabrication, individual PUs can be too rare to be
spotted as particularly recurrent in small corpora.
Acknowledgments
The work described in this paper has been financed as part of the investment
in the CLARIN-PL research infrastructure funded by the Polish Ministry of
Science and Higher Education. Apart from the author of this paper, the main
developers of the Paralela core database and web application were Łukasz
Dróżdż, Paweł Wilk and Paweł Kowalczyk.
References
Beekman, John, Callow, John (1974): Translating the Word of God. Grand
Rapids, MI: Zondervan Publishing House.
Dice, Lee R. (1945): Measures of the Amount of Ecologic Association Between
Species. Ecology 26(3): 297-302. doi:10.2307/1932409.
Gläser, Rosemarie (1998): The Stylistic Potential of Phraseological Units in the
Light of Genre Analysis. In: Anthony Paul Cowie (ed.): Phraseology :
Theory, Analysis, and Applications. Oxford: Oxford University Press,
124–43.
Exploring phraseological equivalence with Paralela
81
Haspelmath, Martin, Sims, Andrea D. (2010): Understanding Morphology. 2nd
Edition. Understanding Language Series. London: Hodder Education.
Jassem, Krzysztof, Lipski, Jarosław (2008): A New Tool for the Bilingual Text
Aligning at the Sentence Level. In: Proceedings of 16th International Conference on Intelligent Information Systems, 279–86.
Larson, Mildred L. (1984): Meaning-Based Translation: A Guide to Cross-Language Equivalence. Lanham, MD: University Press of America.
Moon, Rosamund (2001): Frequencies and Forms of Phrasal Lexemes in
English. In: Anthony Paul Cowie (ed.) Phraseology : Theory, Analysis,
and Applications. Oxford: Oxford University Press, 79–100.
Nida, Eugene Albert (1964): Toward a Science of Translating: With Special Reference to Principles and Procedures Involved in Bible Translating. Leiden:
Brill Archive.
Pawley, Andrew, Syder, Frances Hodgetts (1983): Two Puzzles for Linguistic Theory: Nativelike Selection and Nativelike Fluency. In: Jack C.
Richards, Richard W. Schmidt (eds.): Language and Communication.
London: Longman, 191–225.
Pęzik, Piotr. (2011): Providing Corpus Feedback for Translators with the PELCRA Search Engine for NKJP. In: Stanisław Góźdź-Roszkowski (ed.):
Explorations across Languages and Corpora : PALC 2009. Łódź Studies
in Linguistics. Frankfurt am Main/ New York: Peter Lang, 135–44.
Pęzik, Piotr. (2012): NKJP w warsztacie tłumacza. In: Adam Przepiórkowski,
Mirosław Bańko, Rafał Górski, Barbara Lewandowska-Tomaszczyk
(eds.): Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo
Naukowe PWN, 301–311.
Pęzik, Piotr. (2014): Spokes – a Search and Exploration Service for Conversational Corpus Data. Paper presented at the CLARIN Annual Conference 2014, Soesterberg, The Netherlands, October 25.
Sinclair, John (1984): Naturalness in Language. Ilha Do Desterro. A Journal
of English Language, Literatures in English and Cultural Studies 5(11),
45–55.
Sinclair, John (1991): Corpus, Concordance, Collocation. Oxford: Oxford University Press.
Tiedemann, Jörg. (2009): News from OPUS – A Collection of Multilingual
Parallel Corpora with Tools and Interfaces. Recent Advances in Natural
Language Processing 5, 237–48.
Marek Łaziński
Uniwersytet Warszawski
Magdalena Kuratczyk
Uniwersytet Warszawski
Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego
The University of Warsaw Polish-Russian Parallel Corpus
Abstract
The Polish-Russian Parallel Corpus has been developed at the University of Warsaw (the Faculty of Polish Studies and the Institute of
Russian Studies) in co-operation with the National Corpus of Polish
and the Russian National Corpus.
The corpus consists of Russian and Polish literary classics (90%),
nonfiction books, legal texts (5%), religious texts (i.e. Bible translations; 4%) and contemporary press articles (1%). Great Russian
realistic novels of the 19th century, together with modern Russian
books which are most popular in Poland, made up a significant part
of the corpus. We have also taken into account these works of Polish literature that are the most widely known in Russia. Looking for
loci communes in the Russian and Polish cultures was an important,
extra-linguistic aspect of the corpus project.
Unfortunately, the novels by Dostoevsky or Tolstoy were translated into Polish only in the thirties and the copyright protection for
the translations – 70 years since the author’s death – is still in force.
Some of the translators’ heirs did not grant their permission to include
the texts in the corpus.
The annotation and search possibilities in the corpus result from
co-operation with the national corpora. However, not all levels of
annotation applied in the source corpora will be used in the parallel
corpus. Two national corpora differ according to grammatical disambiguation of annotated word forms. In the National Corpus of Polish
all texts are disambiguated, in the Russian National Corpus only some
them have undergone this procedure.
The search interface is based on the user-friendly interface of the
Russian National Corpus. It allows formulating lexical and grammatical queries using the tags present in the tag sets of the two national
corpora and is easy for users of both national corpora.
In the second part of the paper some practical applications of the
corpus in the linguistic research, translation practice and foreign language teaching have been shown. The first case is a Russian translation
Marek Łaziński, Magdalena Kuratczyk
84
strategy of the Polish unspecified numeral kilkanaście ‘over a dozen’,
the second – a Polish translation strategy of the Russian adjectives
russkij and rossijskij ‘Russian’.
Słowa kluczowe: korpus równoległy, język polski, język rosyjski, zastosowania praktyczne, leksykografia dwujęzyczna, analiza
kontrastywna
Keywords: parallel corpus, Polish, Russian, practical applications,
bilingual lexicography, contrastive analysis
1. Wprowadzenie
Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego (www.pol-ros.polon.
uw.edu.pl) to reprezentatywny (ze względu na zróżnicowanie tekstów), anotowany morfosyntaktycznie i dezambiguowany (ujednoznaczniony morfologicznie) korpus równoległy opatrzony informacjami bibliograficznymi. Tak jak inne
korpusy równoległe, i ten może być praktyczną pomocą dla tłumaczy, lingwistów, leksykografów, badaczy kultury i literatury.
2. Geneza projektu
Korpus był pierwszym i do roku 2014 jedynym dostępnym publicznie oraz
bezpłatnie korpusem równoległym dwóch języków. Obecnie jest więcej takich
korpusów, m.in. polsko-angielski zbiór Parallela na stronie clarin.eu/pl. Pomysł
stworzenia korpusu powstał w roku 2009 w trakcie prac nad Narodowym Korpusem Języka Polskiego (nkjp.pl). Zwrócili się z nim do polskich środowisk korpusowych lingwiści z Uniwersytetu Pedagogicznego w Ufie: Elena Slobodyan
i Boris Orekhov w porozumieniu z innymi środowiskami korpusowymi w Rosji.
Wkrótce po polskiej stronie złożono wniosek do MNiSW1, który uzyskał
grant na realizację projektu NN104056638. Kierownikiem projektu polskiego
został Marek Łaziński z Instytutu Języka Polskiego UW, ze strony Instytutu
Rusycystyki projekt koordynowała Magdalena Kuratczyk, od początku w projekt była zaangażowana Natalia Godlewska, doktorantka w Instytucie Języka
Polskiego UW. Ze strony rosyjskiej istotnej, a od roku 2012 decydującej pomocy
w powstaniu korpusu udzielał zespół Narodowego Korpusu Języka Rosyjskiego
z Dmitrijem Sičinavą i Svetlaną Minlos. Po polskiej stronie pomocą służył Instytut Podstaw Informatyki, który wcześniej był głównym wykonawcą Narodowego
Korpusu Języka Polskiego. Istotna część tekstów literackich Korpusu Polsko
-Rosyjskiego, była także w zestawie NKJP. W naszym projekcie wykorzystano
1 W roku 2011 agencją wykonawczą dla opisywanego projektu, tak jak dla większości grantów
naukowych, stało się Narodowe Centrum Nauki.
Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego
85
też tager IPIPAN TAKIPI, stosowany w pierwotnej wersji NKJP (obecna wersja
NKJP jest znakowana tagerem Pantera).
Założenia przyjęte na początku projektu zostały opisane w artykule
(Łaziński et al. 2012), a zakończony projekt – w artykule (Łaziński, Kuratczyk, 2015)2.
3. Struktura korpusu
Korpus liczy w całości około 30 milionów segmentów liczonych według tagera
TAKIPI i większości polskich korpusów za segmenty uważa się nie tylko formy
wyrazowe w rozumieniu tradycyjnej gramatyki, lecz także aglutynacyjne morfemy osobowo-liczbowe czasownika w (-em, -eś, -śmy, -ście, każdy morfem się
lub by niezależnie od ich statusu słowotwórczego lub fleksyjnego).
Połowa tekstów jest w wersji polskiej, połowa w rosyjskiej, z nieznaczną
przewagą liczby słów rosyjskich. Jednak liczba polskich tekstów oryginalnych
jest wyższa niż rosyjskich. Osiągnięcie planowanej na początku idealnej równowagi okazało się w toku zbierania tekstów niemożliwe. Ostatecznie mamy 50
procent oryginałów polskich, 33 procent oryginałów rosyjskich i pozostałe 17
procent oryginałów z trzeciego języka (w tym duży udział tekstów biblijnych,
a także przekłady traktatów międzynarodowych).
Projekt korpusu zakładał włączenie znaczącego udziału literatury
pięknej, w tym klasyki dziewiętnastowiecznej, która nie podlega już ochronie majątkowych praw autorskich. Beletrystyka stanowi zresztą zdecydowaną
większość licznych korpusów równoległych, np. ParaSol. W naszym korpusie
teksty literatury pięknej stanowią 90 procent. Staraliśmy się jednak włączyć
doń teksty prasowe: przekłady tekstów rosyjskich pochodzące z tygodnika
„Forum” oraz przekłady tekstów polskich z portalu inosmi.ru. Choć te teksty
to tylko jeden procent korpusu, są one niezastąpionym źródłem do badań najnowszego słownictwa wspólnostylowego i potocznego. Nasz korpus jest pod
tym względem wyjątkiem na tle innych znacznie większych i bardziej znanych.
Np. korpus równoległy InterCorp Czeskiego Korpusu Narodowego zawiera
teksty prasowe z portali PressEurope (presseurop.eu) i Syndicate (projectsyndicate.org), jednak ich tematyka jest ograniczona do polityki Wspólnoty
Europejskiej i spraw tak samo dobrze znanych w całej Europie (zresztą w trakcie tworzenia korpusu projekt PressEurope nie miał wersji rosyjskojęzycznej,
Syndicate – polskojęzycznej).
2 Artykuł ten, napisany po rosyjsku pokrywa się treściowo w dużej części z niniejszym tekstem,
który jest najpełniejszym opisem korpusu w języku polskim.
86
Marek Łaziński, Magdalena Kuratczyk
Korpus zawiera aż 4% tekstów religijnych, w tym najczęściej cytowane
w obu krajach przekłady Biblii: Biblia Tysiąclecia (1965-1971) oraz przekład
synodalny (1867-1876). Choć w sieci jest wiele serwisów proponujących przekłady Biblii w wielu językach, np. biblia.net.pl, biblia.info.pl, bibleonline.ru,
to w żadnym z nich nie znajdujemy jednocześnie tych dwóch przekładów, do
wyjątków należą serwisy zawierające jakiekolwiek przekłady polskie i rosyjskie
jednocześnie (biblegateway.com).
Pozostałe 5 procent korpusu stanowią teksty prawne, literatura popularno-naukowa, wspomnieniowa i szerzej non-fiction.
Około 66 procent tekstów dostępnych jest publicznie bez logowania.
Pozostałe teksty, w sprawie których korespondencja z posiadaczami praw autorskich jeszcze się nie zakończyła, dostępne są lokalnie dla współpracowników
projektu na Uniwersytecie Warszawskim3. W ramach współpracy z Narodowym
Korpusem Języka Rosyjskiego w gromadzeniu części tekstów dla naszego korpusu oraz dla powstającego w Moskwie rosyjsko-polskiego korpusu porównawczego zostawiliśmy ochronę praw autorskich do tekstów rosyjskich (oryginałów
i przekładów z polskiego) partnerom rosyjskim.
Warto zauważyć, że problemy z uzyskaniem zgody posiadaczy praw
autorskich dotyczyły nie tylko tekstów współczesnych, lecz nawet rosyjskiej
klasyki XIX wieku. Powieści Dostojewskiego czy Tołstoja długo nie były tłumaczone na język polski, ponieważ, kiedy się ukazywały, urzędowym językiem nad
Wisłą był rosyjski. Były przekładane już w wolnej Polsce, w latach dwudziestych
i trzydziestych lub po wojnie, przez tłumaczy w większości młodych, którzy
zmarli w latach siedemdziesiątych i później, więc ochrona ich praw majątkowych będzie trwać jeszcze długo (zgodnie z obowiązującą Ustawą o prawie
autorskim – 70 lat po śmierci twórcy).
4. Aspekt kulturowy budowy korpusu
Nasz projekt ma ambicje nie tylko dydaktyczne i naukowe, lecz i kulturowe.
Staraliśmy się zgromadzić teksty autorów rosyjskich szczególnie popularnych
w Polsce i ważnych dla polskiego obrazu Rosji i teksty polskich autorów popularnych w Rosji. Nie przypadkiem zaczęliśmy zbierać teksty rosyjskie Aleksandra Sołżenicyna w przekładzie Jerzego Pomianowskiego (on też – jako pierwszy
spośród tłumaczy, do których się zwróciliśmy – wydał zgodę na wykorzystanie
3 Przy włączaniu tekstów do korpusu przyjęliśmy najbardziej restrykcyjną interpretację Ustawy
o prawie autorskim. Zdaniem części prawników wykorzystanie dowolnych utworów nie wykraczające poza pokazywanie pojedynczych zdań lub akapitów w ogóle nie wymaga zezwolenia,
jednak z drugiej strony, włączenie tekstu do korpusu w celu udostępnianie cytatów wiąże się
z obróbką całości utworu.
Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego
87
w korpusie dokonanego przez siebie przekładu)4. Spośród współczesnych pisarzy rosyjskich nie można było zapomnieć o Wiktorze Jerofiejewie, aktywnym
uczestniku debat o stosunkach polsko-rosyjskich5. Przybliżeniu kultury rosyjskiej w Polsce mają służyć też kilkuzdaniowe opisy bibliograficzne rosyjskich
tekstów literackich daleko wykraczające poza standardowe dane metryczek korpusów. Opisy przygotowali literaturoznawcy z Instytutu Rusycystyki UW.
Rysunek 1. Strona główna Korpusu Polsko-Rosyjskiego Uniwersytetu Warszawskiego
(www.pol-ros.polon.uw.edu.pl)
Polscy uczestnicy projektu mogli także obejrzeć własną tradycję w zwierciadle
kultury rosyjskiej. Pierwszym tekstem, o który poprosili rosyjscy partnerzy na
początku projektu, był wolny od majątkowych praw autorskich Faraon Bolesława Prusa. Z naszego punku widzenia Faraon na pewno nie jest najważniejszą powieścią dziewiętnastowieczną. Powieść dawno znikła z listy szkolnych
lektur obowiązkowych, czytają ją właściwie tylko studenci polonistyki, a większość Polaków zna jedynie film Jerzego Kawalerowicza. Wybór Faraona można
4 Spośród dzieł A. Sołżenicyna w naszym korpusie znalazły się: Archipelag GULAG (3 tomy)
i Krąg Pierwszy (2 tomy) w przekładzie J. Pomianowskiego oraz Zagroda Matriony w tłumaczeniu
A. Wołodźki.
5 Wśród tekstów W. Jerofiejewa przetłumaczonych na język polski w korpusie uwzględnione
zostały: Rosyjska apokalipsa, Bóg X, Mężczyźni i Życie z idiotą.
88
Marek Łaziński, Magdalena Kuratczyk
oczywiście tłumaczyć osobistym gustem rosyjskich partnerów polonistów, ale
bardziej prawdopodobną przyczyną jest zadziwiająca popularność w Rosji tej
powieści celnie opisującej uniwersalne mechanizmy władzy6. Wyszukiwarka
Google znajduje w rosyjskojęzycznym Internecie 23000 stron z Faraonem Prusa
i tylko 2000 z Lalką tego samego autora. Polskojęzyczne Google znajduje 173000
stron z Lalką i 51000 z Faraonem.
5. Tagowanie i dezambiguacja tekstu oraz program wyszukujący
Teksty korpusu przechowywane są w relacyjnej bazie danych. Tabele bazy zawierają informacje o słowach, zdaniach i utworach, do których słowa należą, oraz
o odpowiedniości zdań między językami w wyrównanym tekście. Język zapytań SQL umożliwia pytanie o konkretne formy tekstowe, leksemy lub kategorie
gramatyczne. Każde słowo lub jednostka, o którą pytamy, jest identyfikowana
w zdaniu i system znajduje odpowiednie zdanie w przekładzie.
Do wyrównywania tekstów (alignment) korzystano z programu ABBY
Aligner. Polskie teksty tagowano tagerem TAKIPI, rosyjskie – tagerem Mystem.
Okienkowy interfejs wyszukiwania przypomina interfejs Narodowego
Korpusu Języka Rosyjskiego (ruscorpora.ru). Do wyboru mamy wyszukiwanie słów tekstowych oraz wyszukiwanie morfologiczne. Interfejs wyszukiwania
morfologicznego, w którym wystarczy wybrać odpowiednią kategorię gramatyczną z listy, jest łatwiejszy w obsłudze niż interfejs NKJP i jego sformalizowany język zapytań.
Kategorie gramatyczne oraz części mowy w języku polskim i rosyjskim
są podobne, ale nie identyczne. Tylko polszczyzna ma klasę bezosobników
(form czasownikowych na -no/-to) i rodzaj męskoosobowy w liczbie mnogiej,
tyko język rosyjski ma imiesłowy przymiotnikowe uprzednie czy krótkie formy
przymiotników i imiesłowów biernych. W dodatku tager dla języka polskiego
opiera się na fleksemach – klasach bardziej szczegółowych niż szkolne klasy
części mowy. Wśród form tradycyjnego czasownika niedoświadczony użytkownik korpusu musi najpierw nauczyć się odpowiednich odrębnych tagów
dla form czasu nieprzeszłego [fin], gerundiów [ger], predykatywów [pred] czy
form typu winien [winien]. W wyszukiwaniu rosyjskim mamy zamiast klasy
[fin] odpowiednio czasowniki w czasie teraźniejszym lub przyszłym, a pozostałych wymienionych klas nie ma w ogóle.
6 Wspomnijmy tu, nie nadając temu faktowi wielkiego znaczenia, że Faraon należał do ulubionych powieści Stalina. Wspomina o tym Józef Czapski (Na nieludzkiej ziemi), powołując się na
rozmowy z I. Erenburgiem. Taką informację przynosi też hasło Faraon w rosyjskiej Wikipedii.
Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego
89
Trudność stanowi wyszukiwanie polskich form czasu przeszłego, które
w języku rosyjskim jest tak samo łatwe, jak pozostałych czasów. Tager języka
polskiego interpretuje formy czasu przeszłego 1. i 2. osoby zawsze jako ciąg
imiesłowu przeszłego [praet] oraz aglutynacyjnej końcówki osobowo-liczbowej, czyli aglutynantu [aglt]: -em, -eś, -śmy, -ście. Jak wiadomo, te końcówki są
w polszczyźnie ruchome, a rosyjski nie ma ich wcale. Dlatego, aby znaleźć polską formę 1. os. lp. w czasie przeszłym, trzeba w NKJP szukać ciągu [pos=praet
& person=prim][pos=aglt & person=prim], a w rosyjskim korpusie narodowym wystarczy wybrać czas przeszły (nieodmienny przez osoby). W naszym
korpusie przyjęliśmy drugi sposób wyszukiwania, ale program musi i tak znaleźć odpowiednie ciągi tagów, przy czym końcówki niestojące bezpośrednio po
temacie czasu przeszłego nie zostaną znalezione.
Tagowanie morfosyntaktyczne NKJP skupia się na odmiennych częściach mowy. Wśród nieodmiennych rozróżnia się stosunkowo łatwe do wyodrębnienia według sąsiedztwa przyimki i spójniki oraz stojące przy czasownikach
przysłówki. Tager rosyjski rozróżnia także partykuły.
Tager języka polskiego dezambiguuje tekst, tzn. na podstawie testów
statystycznych oraz sąsiedztwa wyrazów wybiera dla danej formy homonimicznej najbardziej prawdopodobną interpretację gramatyczną, np. dla ciągu
znaków damy tager wybierze interpretację D. lp., M./B./W. lm. od rzeczownika
dama albo 1 os. lm. cz. nieprzeszłego czasownika dać. Rosyjski tager nie dezambiguuje tekstów. W Rosyjskim Korpusie Narodowym dezambiguację przeprowadzono ręcznie dla niewielkiej części tekstów, w prezentowanym korpusie
równoległym teksty nie były dezambiguowane. Dlatego zapytanie o polski leksem dama zwróci wśród wyników kontekst odciski palców obu dam, ale nie:
Dam panu znać. Wyszukiwanie rosyjskiego leksemu дама da nie tylko обеих
дам, ale i nadmiarowe Я вам дам знать.
6. Wyszukiwarki
Korpus został wyposażony w trzy wyszukiwarki:
1. Wyszukiwanie słów – umożliwia szukanie dokładnych form tekstowych bądź fragmentów form. Np. zapytanie o postaci czyta daje dostęp
wyłącznie do tekstów zawierających po stronie polskiej formy 3. osoby czasu
teraźniejszego czasownika czytać.
Marek Łaziński, Magdalena Kuratczyk
90
2. Wyszukiwanie łączne – umożliwia szukanie par tekstów, z których
każdy spełnia określony warunek7. Gdy np. po stronie polskiej wpiszemy czytani.*, a po rosyjskiej – читать, otrzymamy dostęp do takich użyć polskiego
gerundium czytanie, któremu w przekładach odpowiada (lub nie odpowiada,
jeśli skorzystamy z okienka negacji) bezokolicznik читать. W pierwszym
przypadku wśród 65 wyników otrzymamy m.in.:
To już lepiej ogłosić, że odbędzie się czytanie
sztuki. [Komediantka, Reymont W.]
Nie dokończywszy czytania Benedykt rzucił
list na biurko.
[Nad Niemnem, Orzeszkowa E.]
Święte Oficjum nie zabrania czytania. Ani
posiadania ksiąg.
[Narrenturm, Sapkowski A.]
Тогда уж лучше объявить, что пьесу будут
не играть, а читать.
[Комедиантка, Реймонт В.]
Бенедикт перестал читать и положил
письмо на стол.
[Над Неманом, Ожешко Э.]
Святой Официум не запрещает читать
книги и владеть ими.
[Narrenturm, Сапковский А.]
Tabela 1. Wyniki wyszukiwania łącznego
W drugim przypadku (przy zanegowaniu rosyjskiego bezokolicznika) znajdziemy, np.:
W połowie czytania zmarszczył się, zmiął
papier w ręku. [Кról trędowaty, Kossak Zofia]
Однако же дочитав до конца, поморщился
и скомкал листок в руке.
[Король-крестоносец, Коссак Зофья]
Nic mną tak dotychczas nie wstrząsnęło,
Ничто ранее меня так глубоко не изумjak czytanie przygód rozbitka na bezludnej
ляло, как описания приключений Робинwyspie. [Biały Jaguar, Fiedler Arkady]
зона на необитаемом острове.
[Белый ягуар, Фидлер Аркады]
Otóż wiadomo było, że pan dzięki temu, iż
Ведь известно, что император обладал
nie korzystał z umiejętności czytania ani
феноменальной зрительной памятью.
pisania, miał fenomenalnie rozwiniętą pamięć [Император, Капущинский Рышард]
wzrokową. [Cesarz, Kapuściński Ryszard]
Tabela 2. Wyniki wyszukiwania łącznego z warunkiem
3. Wyszukiwanie morfologiczne – pozwala dotrzeć do form zdefiniowanych pod względem gramatycznym. Można też szukać form dowolnych
leksemów o zadanych parametrach, np. męskoosobowych mianownikowych
form liczby mnogiej przymiotników w stopniu najwyższym. Znajdziemy wtedy
m.in. najstarsi, najgorsi, najsprytniejsi, najbliżsi, najlepsi, najulubieńsi wraz
z przekładami.
Wyszukiwanie możliwe jest w całym zbiorze tekstów lub w podzbiorach podzielonych na gatunki (fakt, fikcja, teksty prasowe, teksty prawne), przy
7 To szczególnie przydatny w korpusach równoległych rodzaj wyszukiwarki, której brakuje
w wielu tego typu projektach, nawet zakrojonych na dużą skalę, jak np. w podkorpusie równoległym Narodowego Korpusu Języka Rosyjskiego.
Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego
91
czym w obrębie literatury pięknej w dwóch przedziałach czasowych: w dziełach
napisanych przed rokiem 1945 lub po nim. Można też ograniczyć szukanie do
języka oryginału.
We wszystkich wyszukiwarkach można stosować wyrażenia regularne,
np. kropkę i gwiazdkę: czyta. zamiast czytam, czytaj, czytać, czyta.* zamiast czytajcie, czytalibyście itd.
7. Przykłady zastosowań
7.1 Przykład pierwszy
Korpus równoległy może służyć jako pomocne narzędzie między innymi
w przekładzie, przy budowaniu nowych słowników (jak się okazuje nie tylko
dwujęzycznych, ale również jednojęzycznych typu onomazjologicznego) oraz
przy weryfikacji danych słownikowych (i ocenie jakości przekładów). Pokażmy
te możliwości na konkretnym przykładzie.
Zaimek kilkanaście nie ma w języku rosyjskim dokładnego ekwiwalentu. Trzy wielkie słowniki polsko-rosyjskie podsuwają odmienne rozwiązania przekładowe: более десяти (Hessen, Stypuła, 2004), десятка полтора
(Wawrzyńczyk, red., 2005) i – znaczeniowo najmniej dokładne – несколько
(Chwatow, Timoszuk, red., 2008). Sprawdźmy, jak ten problem przekładowy
rozwiązują tłumacze-praktycy.
Wyszukiwarka morfologiczna wydaje 627 różnych kontekstów użycia
w polskich tekstach leksemu kilkanaście. Rozkład ekwiwalentów proponowanych w wymienionych słownikach przedstawia się następująco: zaledwie w 8
przypadkach kilkanaście przetłumaczone zostało za pomocą wyrażenia более
десяти (1,28 % wszystkich kontekstów), w 34 przypadkach tłumacze wybrali
wyrażenie десятка полтора (6,22 % kontekstów) i aż w 186 przypadkach zdecydowali się na najmniej dokładny ekwiwalent – несколько (29,66 %).
W pozostałych 399 przypadkach tłumacze wykorzystali rozmaite inne
wyrażenia z liczebnikami десять, пятнадцать i двадцать lub rzeczownikiem
десяток, niekiedy z wykorzystaniem inwersji, będącej w ruszczyźnie sposobem
wyrażania liczb przybliżonych. (por. zestawienie ekwiwalentów tekstowych,
w którym w nawiasach w kolejności malejącej podana została liczba ich zastosowań, a wytłuszczonym drukiem zaznaczono ekwiwalenty słownikowe):
92
Marek Łaziński, Magdalena Kuratczyk
Ekwiwalenty przekładowe zaimka kilkanaście
w Polsko-Rosyjskim Korpusie UW
более десяти, больше десяти
десять (z możliwą inwersją), десять с лишним, десять-пятнадцать, десять-пятнадцать (z możliwą inwersją), десять
и больше, больше чем десять, едва ли десять, десять,
а то и двадцать, десять-двенадцать
десяток, несколько десятков, десятка два, больше десятка,
второй десяток, два десятка, с десяток, десятки, более
десятка, десяток-другой, десяток с лишним, добрый десяток, около двух десятков, целые десятки, десяток с небольшим, десяток-два, какой-нибудь десяток, не меньше
десятка, немногим больше десятка, около десятка, пара
десятков, два-три десятка
десятка полтора (z możliwą inwersją)
Przykładów
ogółem
12
26
%
1,91
4,15
133
21,22
48
7,66
27
4,31
пятнадцать (z możliwą inwersją), около пятнадцати, пятнадцать, пятнадцать-восемнадцать, пятнадцать-двадцать
(z możliwą inwersją)
двадцать (z możliwą inwersją), каких-нибудь двадцать,
около двадцати, почти двадцать, хоть двадцать, что-то
около двадцати, не менее двадцати, двадцать-тридцать
Несколько
Inne
41
6,54
186
69
29,66
11,00
Brak przekładu
Razem
85
627
13,55
100%
Tabela 3. Ekwiwalenty przekładowe zaimka kilkanaście w Polsko-Rosyjskim Korpusie UW
Źródło: Opracowanie własne.
Jak wynika z zestawienia, w 85 przypadkach tłumacze podjęli decyzję o opuszczeniu ekwiwalentu (w tabeli rubryka: Brak przekładu), natomiast w 69 rozstrzygnęli problem w sposób indywidualny, mniej lub bardziej udany (rubryka:
Inne). Dość skrajnym przypadkiem nieporadności wydaje się tłumaczenie
wyrażenia kilkanaście stóp wysokości na чуть ли не метр (czyli dosłownie:
‘bodaj metr’)8.
Zebrane w korpusie wyrażenia mogą stać się podstawą opracowania
słownika onomazjologicznego, w tym przypadku obejmującego środki wyrażania wybranych liczb przybliżonych.
Na szczególną uwagę i uwzględnienie w przyszłych słownikach polsko
-rosyjskich zasługują niektóre odpowiedniości przekładowe pozostające dotąd
poza polem widzenia leksykografów. Chodzi mianowicie o połączenia rozważanego zaimka z liczebnikiem głównym, typu sto kilkanaście, dwieście kilkanaście
8 Por.: Z gąszczu kaktusów, dochodzących niekiedy do kilkunastu stóp wysokości, dolatywały
mnie wesołe szczebioty i pogwizdy ptaków. [A. Fiedler: Biały Jaguar] – Из зарослей кактусов, достигавших порой чуть ли не метра в высоту, доносился веселый щебет птиц.
[Белый ягуар].
Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego
93
itd., których przekład wymaga sięgnięcia po środki, jakich żaden z istniejących
słowników nie proponuje. Spójrzmy na przykłady:
Stu kilkunastu nas dołożyło ramienia.
[Popioły, Żeromski S.]
W parę tygodni czasu z naszego batalionu,
który tysiąc miał ludzi, zostało nas stu
kilkunastu. [Popioły, Żeromski S.]
Zaledwie trzeciego dnia zebrała się koło
niego wataha złożona z dwustu kilkunastu
mołojców (...).
[Ogniem i mieczem, Sienkiewicz H.]
Сто с лишним человек помучились с ним.
[Пепел, Жеромский С.]
Через две недели из батальона, в котором
было тысяча человек, осталось нас сто
с небольшим. [Пепел, Жеромский С.]
Только на третий день около него собралась ватага казаков из двухсот
с небольшим человек (...).
[Огнем и мечом, Сенкевич Г.]
Tabela 4. Ekwiwalenty tłumaczeniowe zaimka kilkanaście w Polsko-Rosyjskim Korpusie UW
Liczne tego rodzaju odpowiedniości upoważniają do zaproponowania następującej reguły przekładowej, którą można włączyć do słownika dwujęzycznego:
sto (dwieście, trzysta itd.) kilkanaście сто (двести, триста и т.д.)
с небольшим, сто (двести, триста и т.д.) с лишним.
Jak pokazują materiały korpusu, zasługującym na uwagę chwytem tłumaczeniowym, dość często stosowanym przy przekładzie połączeń zaimka kilkanaście z rzeczownikami oznaczającymi jednostki czasu (sekunda, minuta, godzina,
dzień, miesiąc), jest oddawanie ich w ruszczyźnie za pomocą konstrukcji z rzeczownikami oznaczającymi odpowiednio większe odcinki czasu (полминуты,
четверть часа, сутки, неделя, год), por. np.:
– Teraz Rühtgard był wyraźnie zablokowany
i minęło kilkanaście sekund, zanim wyrzucił
z siebie: – Jedynym zresztą, jakiego miałem
i mam... [Widma w mieście, Krajewski M.]
– У Рютгарда вдруг будто язык отнялся,
прошло чуть ли не полминуты, прежде
чем ему удалось договорить. – Единственный друг за всю мою жизнь...
[Призраки Бреслау, Краевский M.]
Po kilkunastu minutach przechadzki
Побродив с четверть часа, Никодим
Nikodem wybrał jedną z nich, znajdującą się выбрал одну из них, в густой тени, и сел.
w gęstym cieniu, i usiadł. [Kariera Nikodema [Карьера Никодима Дызмы, Доленга-МоDyzmy, Dołęga-Mostowicz T.]
стович Т.]
Od kilkunastu godzin straciliśmy panowanie Почти сутки мы без руля.
nad sterem. [Biały Jaguar, Fiedler A.]
[Белый ягуар, Фидлер А.]
W Minturnae, gdzie znów śpiewał publicznie, В Минтурнах, где он опять пел при
zabawił dni kilkanaście, a nawet znów się
публике, он провел недели две и даже стал
namyślał, czy nie wrócić do Neapolu (…)
подумывать о том, не вернуться ли в Неа[Quo Vadis. Powieść z czasów Nerona,
полис (…) [Камо грядеши, Сенкевич Г.]
Sienkiewicz H.]
Kilkanaście miesięcy przynajmniej mieć
Ребенку было уже, вероятно, больше года,
musiało, skoro już mówiło i przedmioty
так как он уже говорил и умел различать
rozpoznawać mogło (...).
предметы (...). [Хам, Ожешко Э.]
[Cham, Orzeszkowa E.]
Tabela 5. Ekwiwalenty tłumaczeniowe zaimka kilkanaście w Polsko-Rosyjskim Korpusie UW
94
Marek Łaziński, Magdalena Kuratczyk
I w tym przypadku można się pokusić o zaproponowanie ogólniejszej reguły
przekładowej.
7.2 Przykład drugi
Wyszukajmy te zdania rosyjskie, w których występuje trudny do zrozumienia
dla Polaków przymiotnik российский (zapisany za pomocą wyrażeń regularnych
российск.*|Российск.*), ale takie, których odpowiedniki polskie nie zawierają
przymiotnika rosyjski (rosyjs.*|Rosyjs.*). Są 32 takie zdania, czyli 15% ze 195
wszystkich wystąpień przymiotnika российский. Analogiczne porównanie dla
przymiotnika русский bez odpowiednika rosyjski po stronie polskiej daje 650
wyników, czyli 37% z 1757 wszystkich wystąpień przymiotnika русский. Przymiotnik российский jest częściej niż русский zastępowany w polskim przekładzie
przez przydawkę dopełniaczową Rosji (np. российское влияние – wpływy Rosji,
российский премьер – premier Rosji), bywa też pozostawiany bez odpowiednika
(np. „Польскую” часть захватили немцы, а после войны она вместе с другими трофеями была перевезена в Москву и теперь находится в Российском государственном военном архиве. [Коммерсантъ, 2011/35] – „Polską”
część w czasie okupacji zagarnęli Niemcy, po II wojnie światowej została przewieziona do Moskwy i zdeponowana w Państwowym Archiwum Wojskowym. [Forum
2011/40]), ale w 85% procentach jest tłumaczony na neutralny przymiotnik rosyjski (np. Теперь важно дождаться реакции российских официальных лиц (…)
[politcom.ru 29.07.2011] – Teraz czekamy na reakcję rosyjskich czynników oficjalnych (...) [Forum 2011/31]). Przymiotnik русский jest częściej tłumaczony inaczej niż rosyjski (w co trzecim użyciu), ponieważ w opisach rzeczywistości dawnej
i w tekstach stylizowanych potocznie odpowiada mu polski przymiotnik ruski,
ponadto w użyciu rzeczownikowym русский to po polsku Rosjanin.
8. Znaczenie korpusu i perspektywy jego rozwoju
Korpus Polsko-Rosyjski UW jest efektem zamkniętego projektu badawczego,
ale nie wyklucza to jego rozwoju i rozbudowy. Już w tej chwili spełnia on ważną
funkcję w dydaktyce rusycystycznej w Polsce (np. Kuratczyk, 2013, 2014; Kuratczyk, 2015) oraz w badaniach naukowych (np. Łaziński, 2015). Ze względu na
cechy szczególne korpusów równoległych, tj.: bogaty opis bibliograficzny tekstów literackich czy też udział tekstów prasowych o tematyce lokalnej, korpus
mógłby stać się cennym składnikiem większego polskiego projektu korpusów
równoległych lub nawet podstawą takiego projektu. Przyszłość korpusu zależy
w pewnym stopniu od przyszłości zainteresowania językiem i kulturą rosyjską w Polsce. Jego twórcy mają nadzieję, że przyczynili się do zwiększenia tego
zainteresowania.
Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego
95
Literatura
Chwatow, Sergiusz, Timoszuk, Mikołaj (red.) (2008): Wielki słownik rosyjsko-polski, polsko-rosyjski. Warszawa: REA.
Hessen, Dymitr, Stypuła, Ryszard (2004): Wielki słownik polsko-rosyjski, tom
1-2. Warszawa: Wiedza Powszechna.
Kuratczyk, Magdalena (2013): Polsko-rosyjskie korpusy równoległe i przykład ich wykorzystania w gramatyce konfrontatywnej. Komunikacja
Specjalistyczna. Tropy lingwistyki 6, 44–62.
Kuratczyk, Magdalena (2014): Параллельные польско-русские корпуса
в обучении переводу юридического текста. Komunikacja Specjalistyczna. Languages for Special Purposes – a Tool of Modern Science 7,
111–128.
Kuratczyk, Magdalena (2015): Параллельные корпуса с русским и польским
языками и их использование в сопоставительной лингвистике
и лингводидактике. Русский язык и литература в пространстве
мировой культуры, Материалы XIII конгресса МАПРЯЛ в 15
томах, Гранада, Испания, 13-20 сентября 2015, Granada: Universidad de Granada, XI, 153–157.
Łaziński, Marek, Kuratczyk, Magdalena (2015): Польско-русский параллельный корпус Варшавского университета и его использование
в лингвистическом исследовании. W: Dorota Szumska, Krzysztof
Ozga, (red.). Язык и метод. Русский язык на грани методологического срыва. Kraków: Wydawnictwo Uniwersytetu Jagiellońskiego,
95–103.
Łaziński, Marek, Kuratczyk, Magdalena, Orekhov, Boris, Słobodjan, Elena
(2012): The Polish-Russian Parallel Corpus and Its Application in the
Linguistic Analysis. Prace Filologiczne LXIII, 209–218.
Łaziński, Marek (2015): Функции инфинитива в польском и русском языках на фоне корпусов. W: Dorota Szumska, Krzysztof Ozga, (red.).
Язык и метод. Русский язык на грани методологического срыва.
Kraków: Wydawnictwo Uniwersytetu Jagiellońskiego, 157–168.
Wawrzyńczyk, Jan (red.) (2005): Wielki słownik polsko-rosyjski. Warszawa:
PWN.
Andreas Meger
Johannes Gutenberg-Universität Mainz
Michał Woźniak
Polska Akademia Nauk
Ruprecht von Waldenfels
University of California, Berkeley
Jak stworzyć korpus równoległy „dla wszystkich”?
O pracy nad Polsko-Niemieckim i Niemiecko-Polskim
Korpusem Równoległym
How to create a parallel corpus “for all”?
About the building of the Polish-German and German-Polish
Parallel Corpus
Abstract
The article summarizes the Polish-German and German-Polish
Parallel Corpus currently under development under the auspices of
the University of Mainz, Germany. The corpus includes about 1 million tokens in texts in both translation directions and from various
genres; at the moment mainly including press and fictional prose.
In the future, it is planned to be expanded to other genres, e.g. legal
documents and other specialized text types. The text is tagged, lemmatized and automatically sentence and word aligned using standard tools (UPlug, Hunalign). The article focuses on a new interface
that was developed on the basis of the existing ParaVoz interface and
published as open source. This new query interface aims to be “for
all” in the sense that it includes a graphical query builder as well as it
allows the user to directly input sophisticated CQP queries, thus providing both ease of use and access to the full possibilities of the CQP
query language, a close relative of the query language used with the
IPI PAN query interface to the NKJP.
Besides being convenient, the interface has an educational aspect:
inexperienced users can observe correct CQP queries being constructed on the fly reflecting the choices in the graphical interface,
helping them to learn what is a straightforward, but also rather strict
formal and technical query language. The interface thus flattens what
is often a rather steep learning curve for users that are not used to
such query languages, like many traditionally inclined linguists. The
interface is available in German, Polish and English and implemented
Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels
98
using AngularJS, a modern framework that affords smooth interaction and uncomplicated customization and servicing of the interface.
Search facilities offer queries by lemma and grammatical tag, as well
as the filtering of results on the basis of metadata, including, for example, a choice of the source language and different genres.
The queries generated in this interface are then evaluated by an
OpenCorpusWorkbench (CWB) backend, which is modified to output XML. The output is transformed to HTML using client-based
XSLT. A difference to earlier versions of the interface is that word
alignment is now routinely visualized: the equivalents of the word
forms that were found by the query string in the first language are
highlighted in the results in the second language. The article gives an
in-depth description of the rationale and solutions taken, and concludes with an outlook on future developments.
Słowa kluczowe: korpus równoległy, język polski, język niemiecki,
przetwarzanie tekstu, ParaVoz, przyjazny interfejs
Keywords: parallel corpus, Polish, German, text technology, ParaVoz, user-friendly interface
1. Wprowadzenie
Sformułowanie „dla wszystkich” okaże się zapewne intrygujące dla niektórych
czytelników naszego artykułu. Niemniej taki cel – stworzenie korpusu równoległego „dla wszystkich” – przyświecał i w dalszym ciągu przyświeca jego autorom.
Korpusy równoległe to – jak pokazują von Waldenfels (2006, 2012),
Čermák i Rosen (2012) oraz Łaziński (2014) – w porównaniu z korpusami jednojęzycznymi nowa i rzadsza forma korpusów językowych; są one przy tym
o wiele mniejsze od korpusów jednojęzycznych. Dla języka polskiego i niemieckiego – jako pary językowej – brak do chwili obecnej korpusu równoległego,
zawierającego teksty polskie wraz z ich niemieckimi tłumaczeniami i vice versa.
Jedynym publicznie dostępnym korpusem równoległym, obejmującym między
innymi takie teksty, jest wielojęzyczny korpus równoległy ParaSol (von Waldenfels, Meyer, 2006-2015, zob.: http://www.parasolcorpus.org/). Jednakże korpus ten, zawierający obecnie więcej niż 30 mln słów, składa się przede wszystkim
z tekstów beletrystycznych, przy czym teksty polskie i niemieckie, a także ich
odpowiednie tłumaczenia, stanowią raczej niewielką część całości.
W dobie badań naukowych opierających się na danych korpusowych
brak takiego narzędzia (niezbędnego do badań komparatystycznych, przekładoznawczych czy kulturoznawczych) dla obydwu tak dużych języków sąsiednich,
budzi zdziwienie i jest boleśnie odczuwany w codziennej pracy translatorycznej
Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim...
99
i dydaktycznej1. W związku z tym wśród naukowców polskich i niemieckich
powstała idea stworzenia równoległego korpusu polsko-niemieckiego i niemiecko-polskiego. Korpus ten powinien być przeznaczony „dla wszystkich”,
przy czym nie chodzi tu wyłącznie o swobodny dostęp przez Internet, ale także
o przystępność, prosty interfejs i łatwość użycia. Obecnie przeprowadzenie
wyszukiwań w większości korpusów jedno-, dwu- i wielojęzycznych wymaga
nie tylko znajomości gramatyki, lecz także umiejętności stosowania odpowiedniej (dość skomplikowanej) składni zapytania (por. niżej wyszukanie CQP),
co stanowiło i stanowi barierę odstraszającą od używania korpusów przez
niefachowców (np. studentów, tłumaczy itd.)2. Stworzenie prostego w użyciu
interfejsu oraz małego korpusu próbnego (pilotażowego) umożliwił Fundusz
Promocji Badań (niem. In­ner­uni­ver­si­tä­re Forschungsförderung) Uniwersytetu
im. Jana Gutenberga w Moguncji (Niemcy), który w la­tach 2014-15 prace te
finansował3. Korpus oraz interfejs są w chwili obecnej dostępne przez następującą stronę: http://www.fb06.uni-mainz.de/polnisch/331.php.
2. Struktura i forma anotacji Polsko-Niemieckiego i Niemiecko-Polskiego
Korpusu Równoległego
Utworzony na przełomie 2014/15 roku pilotażowy korpus próbny zawiera teksty polskie i niemieckie oraz ich tłumaczenia (ok. 1 mln słów tekstowych – po
500 tys. w części polsko-niemieckiej i niemiecko-polskiej, stan z lutego 2016 r.).
Znajdują się w nim teksty z literatury polskiej i niemieckiej XIX i XX w. oraz
z prasy XXI w. (kilka numerów polsko-niemieckiego czasopisma DIALOG).
Korpus ten jest zalążkiem planowanego „dużego” korpusu równoległego dla
obu języków (ok. 10 mln słów), składającego się przede wszystkim z pochodzących z ostatnich 250 lat tekstów z literatury pięknej, literatury faktu oraz
z prasy. Tak duży przekrój czasowy pozwoli także na przeprowadzenie badań
1 Brak takiego instrumentu badawczego, służącego jako solidna korpusowa baza nie tylko do
prac licencjackich czy magisterskich, lecz także jako pomoc w dydaktycznych zajęciach translatorycznych (tj. w zajęciach z tłumaczenia tekstów spe­cja­li­stycznych i niespecjalistycznych na oba
języki) potwierdza współautor artykułu zajmujący się uniwersytecką dy­daktyką translatoryczną
języków polskiego i niemieckiego na Wydziale Translatologii, Lingwistyki i Kul­tu­ro­znaw­stwa
w Germersheim (Uniwersytet w Moguncji).
2 Pierwszy krok w kierunku zlikwidowania tej przeszkody podjęli autorzy Polsko-Rosyjskiego
i Rosyjsko-Polskiego Korpusu Równoległego, który powstał w latach 2010-12 na Uniwersytecie
Warszawskim pod kie­rownictwem Marka Łazińskiego (zob.: http://pol-ros.polon.uw.edu.pl/
index.php?id=01&lang=pl). Nieco upraszczając, struktura in­ter­fej­su tego korpusu umożliwia
wykonanie zapytania po prostu poprzez wpisanie szukanej formy wyrazowej lub jej sekwencji,
albo – w wyszukiwaniu morfologicznym – wybór odpowiednich części mowy czy kategorii gramatycznych za pomocą rozwijanej listy, co bardzo ułatwia korzystanie z tego korpusu przez niefachowców (Łaziński, 2014: 203).
3 Nad stworzeniem interfejsu i pilotażowego korpusu próbnego pracowali Andreas Meger
(Uniwersytet w Moguncji), Ruprecht von Waldenfels (IJP PAN), przy aspektach technicznych –
Michał Woźniak (koncepcja i oprogramowanie interfejsu) oraz Dorota Sieroń (obróbka tekstów)
(oboje IJP PAN).
100
Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels
diachronicznych. Ponadto zaplanowany jest specjalistyczny podkorpus tekstów
prawniczych (ok. 2 mln słów dla obu języków). Stworzenie „dużego” korpusu
jest bilateralnym projektem Uniwersytetu im. Jana Gu­ten­ber­ga w Moguncji
i Uniwersytetu Warszawskiego. Prace mają rozpocząć się w 2016/17 r. i być
kierowane ze strony polskiej przez Marka Łazińskiego, a ze strony niemieckiej
przez Andreasa Megera.
Korpus pilotażowy (jak i zaplanowany „duży” korpus) jest wyrównany
na poziomie zdań (sentence alignment) oraz anotowany morfosyntaktycznie
za pomocą tagsetów dla języka polskiego (zgodnego z NKJP, zob.: http://nkjp.
pl/poliqarp/help/ense2.html) i niemieckiego (zgodnego z STTS, tj. tagesetem
Uniwersytetów w Stuttgarcie i Tybindze, zob.: http://www.cis.uni-muenchen.
de/~schmid/tools/TreeTagger/). Poza tym został on wyrównany na poziomie
słów (word alignment) – patrz też niżej: word alignment. Termin „wyrównanie”
oznacza tu, że dla każdego segmentu (zdania lub wyrazu) w tekście wyjściowym
korpus dysponuje informacją na temat jego odpowiednika w tekście docelowym.
Jeśli chodzi o techniczne aspekty interfejsu polsko-niemieckiego korpusu równoległego, to bazuje on na pakiecie ParaVoz stworzonym w latach
2006-2014 przez Meyera, von Waldenfelsa i Zemana (zob.: https://bitbucket.
org/rvwfels/paravoz) dla wielojęzycznego korpusu ParaSol (zob.: www.parasolcorpus.org). ParaVoz jest pakietem pozwalającym na stworzenie własnego
korpusu równoległego w postaci serwisu internetowego. Składa się z trzech niezależnych modułów: bazy danych i oprogramowania służącego do komunikacji
z nią, interfejsu graficznego i modułu prezentującego wyniki. Pierwszy moduł,
będący „silnikiem” korpusu oparty jest na CWB (Corpus Workbench – zob.:
http://cwb.sourceforge.net/) – zestawie narzędzi do tworzenia i odpytywania
bazy danych zaprojektowanej z myślą o dużych korpusach tekstowych. Korpusową bazę danych można przeszukiwać za pomocą komend w języku zapytań
CQP. Wyniki zapytania przedstawiane są w wygodnym formacie XML. Standard CWB pozwala na definiowanie własnych atrybutów charakteryzujących
wyrazy, co wykorzystane zostało przy wyrównywaniu korpusu na poziomie
wyrazów (word alignment) – każdy wyraz posiada atrybut zawierający jego tłumaczenie (lub tłumaczenia) w innym języku. Interfejs graficzny, dostępny za
pomocą przeglądarki internetowej stworzony został w oparciu o współczesne
technologie sieciowe (m.in. AngularJS). Moduł prezentujący wyniki działa na
bazie języka XSLT, który umożliwia przekształcenia i modyfikacje dokumentów
w formacie XML. Komunikację między modułami zapewniają skrypty PHP –
por. rysunek 1.
Niżej przedstawiamy najważniejsze możliwości wykorzystania naszego
korpusu oraz funkcje jego interfejsu.
Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim...
101
Rysunek 1. ParaVoz – schemat działania
3. Interfejs Polsko-Niemieckiego i Niemiecko-Polskiego Korpusu Równoległego i jego możliwości
Jak już wspominaliśmy, jednym z głównych założeń Polsko-Niemieckiego i Niemiecko-Polskiego Korpusu Równoległego jest prostota jego użycia, co w dużym
stopniu zależy od odpowiedniego interfejsu. Drugim aspektem jest jak największa „elastyczność” interfejsu, umożliwiająca kombinację różnych form zapytania dla każdego z języków w jednej kwerendzie.
Rysunek 2. Interfejs Polsko-Niemieckiego i Niemiecko-Polskiego Korpusu Równoległego
Interfejs korpusu stworzony został w trzech wersjach językowych (polskiej,
niemieckiej i angielskiej). Składa się z dwóch głównych okien na zapytanie dla
języka polskiego i niemieckiego, w których znajdują się pola umożliwiające
wpisywanie prostych lub złożonych zapytań oraz/lub ograniczanie wyników dla
obu języków. W obrębie każdego okna znajdują się cztery sekcje pozwalające na
(1) ustawienie języków, (2) wyszukiwanie podstawowe, (3) wybór metadanych
oraz (4) wyszukiwanie CQP. Na dole interfejsu użytkownik znajdzie dodatkową
funkcję, umożliwiającą mu eksport wyników w formie XML – por. rysunek 2.
Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels
102
3.1 Ustawienie języków
W części Zapytanie dla języka polskiego / niemieckiego każdy z języków może być
ustawiony jako język główny i/lub język oryginału, tj. język wyjściowy. Pierwsza opcja (język główny) ustawia wybrany język w interfejsie oraz w okienku
z wynikami po lewej stronie – por. niżej rysunek 10. Dla języka głównego można
określać metadane – tj. ustawić filtrowanie wyników według którejś z metadanych, a także wybrać te, które powinny być pokazywane w wynikach – por. niżej
rysunek 9. Funkcje język główny i język oryginału mogą być łączone, co oznacza,
że język główny niekoniecznie musi być językiem oryginału. Dla badań przekładoznawczych kwestia ustalenia języka wyjściowego i docelowego jest jednak
kluczowa, co skłoniło autorów do umieszczenia tej funkcji na tak widocznym
miejscu.
3.2 Wyszukiwanie podstawowe
W Wyszukiwaniu podstawowym użytkownik ma wybór między trzema opcjami:
może swoją kwerendę przeprowadzić za pomocą wpisania (a) tokena, tj. słowa
tekstowego, (b) leksemu, tj. szukać wszystkich form danego leksemu, lub
(c) tagów gramatycznych w formie skrótów pochodzących z użytych tagsetów.
Przy wpisywaniu wybranych możliwości w pierwszych dwóch przypadkach
pojawia się lista, zawierająca odpowiednio formy słów i leksemy pasujące do
wpisywanego tekstu i występujące w zasobach korpusu – por. rysunki 3a. i 3b.
Powyższe możliwości można łączyć, przy czym zapytanie takie zostanie zinterpretowane jako koniunkcja warunków (muszą być spełnione wszystkie warunki
określone w poszczególnych polach).
Rysunek 3a. Przykład wyszukiwania podstawowego według tokena
Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim...
103
Rysunek 3b. Przykład wyszukiwania podstawowego według leksemu
Funkcje „początek” / „końcówka” w formie przycisku wyboru (checkbox)
umożliwiają szukanie quasi-morfologiczne, ponieważ po wpisaniu początku
lub końcówki tokena odpowiadających prefiksowi lub sufiksowi otrzymujemy
wszystkie słowa mające dany początek lub daną końcówkę. Zapytanie to może
być łączone z wpisaniem tagu gramatycznego (zgodnie z odpowiednim formatem) w odpowiednim polu, co uściśla wyniki: uwzględniane są jedynie słowa
zaczynające lub kończące się na wpisany ciąg znaków i należące do danej kategorii gramatycznej – por. rysunek 4a. z kwerendą dla końcówki -łszy jako jednej
z dwóch możliwych morfemów imiesłowu przysłówkowego uprzedniego.4
Wpisując końcówkę -szy i łącząc ją z tagiem pant:perf (dla aspektu
dokonanego czasowników)5 w rubryce „tag gramatyczny” otrzymujemy wyniki
wszystkich znajdujących się w korpusie zdań z imiesłowem przysłówkowym
uprzednim, kończących się na morfemy ‑łszy lub ‑wszy – por. rysunek 4b.
4 Kwerendy pokazane na rysunkach 4.-7. przeprowadzone są dla języka polskiego lub niemieckiego jako wyjściowego, tj. języka oryginału; tym samym – ze względu na czytelność – pokazywane
są wyniki wyłącznie ze strony danego języka wyjściowego. Większość zapytań uwidoczniających
funkcje naszego korpusu wykonaliśmy – ze względu na język i większość czytelników niniejszego
artykułu – dla języka polskiego.
5 Funkcja ta nie jest jeszcze w pełnym stopniu udoskonalona, ponieważ tagi gramatyczne muszą
być wpisywane ręcznie według określonego formatu (różnego dla różnych języków). Planujemy
dodanie funkcji wyświetlającej użytkownikowi dostępne tagi, umożliwiając mu wybór spośród
dostępnych na liście.
104
Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels
Rysunek 4a. Przykład wyszukiwania quasi-morfologicznego i jego wyniki
Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim...
Rysunek 4b. Przykład wyszukiwania quasi-morfologicznego łączonego z tagiem
gramatycznym oraz jego wyniki
105
106
Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels
Funkcja ta jest dość ważna także dla zapytań dla języka niemieckiego, gdyż
umożliwia wyszukanie np. drugich członów złożeń (compositum) – por. rysunek 5. z kwerendą za niemieckimi złożeniami z drugim członem ‑angst (strach).
Rysunek 5. Przykład wyszukiwania i jego wyniki dla języka niemieckiego
Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim...
107
Dodatkowo istnieje możliwość wyszukiwania sekwencji dwóch lub więcej słów
oraz złożonych ciągów słów w jednej kwerendzie. Naciśnięcie przycisku „+”
dodaje kolejny wiersz zawierający pola wyszukiwania (token, lemat, tagi gramatyczne), które odnoszą się do kolejnego wyrazu. Wszystkie omówione wyżej
możliwości wyszukiwania można dowolnie łączyć, co oczywiście prowadzi do
różnych wyników – por. przykłady na rysunkach 6a.‑6e.:
Rysunek 6a. Kombinacja wyszukiwania leksemu list i tokena (słowa) biskupów
108
Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels
Rysunek 6b. Kombinacja wyszukiwania leksemu list i początku tokena (słowa) biskup-
Rysunek 6c. Wyniki wyszukiwania podstawowego dla leksemu list i tokena biskupów / początku
tokena biskup-
Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim...
Rysunek 6d. kombinacja wyszukiwania tokena (słowa) list i leksemu biskup
109
110
Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels
Rysunek 6e. kombinacja wyszukiwania początku tokena (słowa) list i leksemu biskup
Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim...
111
Rysunek 7a. wyniki wyszukiwania leksemów list i biskup przy ustaleniu od 0 do 5 tokenów (słów)
między szukanymi leksemami
112
Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels
Rysunek 7b. wyniki wyszukiwania leksemów list i biskup przy ustaleniu od 0 do 10 tokenów
(słów) między szukanymi leksemami
Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim...
113
W kwerendzie ustawić można także ilość możliwych tokenów znajdujących
się między dwoma słowami, leksemami lub tagami gramatycznymi (domyślnie
dystans jest zerowy – poszukiwane wyrazy powinny następować po sobie) –
por. rysunki 7a. i 7b. Funkcja ta umożliwia m.in. także wyszukiwanie związków
frazeologicznych mających różne formy, jak np. mieć dobre / niezłe / celne oko.
Dotychczasowe przykłady pokazywały wyłącznie możliwości szukania
po stronie języka głównego. Możliwe jest jednak formułowanie bardziej złożonych kwerend przez dodatkowe wpisanie (części) słów, leksemów lub skrótów tagów (= kategorii gramatycznych) po stronie języka docelowego, gdzie
znajdują się te same funkcje i rubryki jak na polu języka głównego z wyjątkiem metadanych. Określenie zapytania w tej sekcji umożliwia wyszukanie np.
wszystkich par zdań, w których po stronie polskiej znajduje się słowo pies, a po
stronie niemieckiej jego ekwiwalent Hund. Ważną funkcją jest także możliwość
wykluczenia z wyników słów, leksemów, kategorii gramatycznych wpisanych
w języku docelowym poprzez zaznaczenie w polu wyboru komendy wyklucz
(znajdź wszystko oprócz zapytania). Funkcja ta umożliwia wyszukanie wszystkich par zdań, w których występuje słowo pies i którym odpowiadają niemieckie
niezawierające słowa Hund – por. rysunek 8.
W sekcji Wyszukiwanie podstawowe dla języka głównego została
umieszczona także funkcja filtrowania gatunków tekstów, które zawarte są
w metadanych tekstów korpusu. W metadanych uwzględniono 4 gatunki tekstów: teksty prasowe (prasa), teksty literatury pięknej (literatura), teksty faktu
(fakt) oraz teksty prawnicze (prawo) – por. np. rysunek 8. Filtrowanie wyników
zapytania według gatunków tekstów umożliwi dość wygodne przeprowadzenie
kwerend np. w tekstach prawniczych.
3.3 Metadane
Sekcja zawierająca metadane jest standardowo ukryta – por. rysunki 2.‑8. Po
rozwinięciu ukazują się kategorie metadanych zawarte w tekstach znajdujących
się w korpusie: autor (author), tytuł (title), tytuł oryginału (original title), tłumacz (translator), gatunek tekstu (type), rok publikacji (publication year), rok
tłumaczenia (translation year) oraz język oryginału, tj. wyjściowy (source language) – por. niżej rysunek 9. Ta część interfejsu ma dwojakie przeznaczenie.
Po pierwsze umożliwia ograniczenie wyników do takich, które spełniają odpowiednie kryteria: np. są dziełem konkretnego autora albo opublikowane zostały
w odpowiednim roku. Odpowiednie informacje użytkownik może wpisać
w pole tekstowe interesującej go kategorii metadanych. Po drugie istnieje możliwość określenia, które z kategorii będą pokazywane w wynikach wyszukiwania – służy temu pole wyboru znajdujące się obok pola tekstowego. Domyślnie
Rysunek 8. Przykład wyszukiwania łączonego w dwóch językach
114
Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels
Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim...
115
Rysunek 9. Przykład wyszukiwania podstawowego według metadanych
pokazywane są kategorie autor, tytuł i rok publikacji. Przykładowo, jeśli użytkownik chce ograniczyć wyniki do dzieł autorstwa Sienkiewicza, powinien
w rubryce author wpisać Henryk Sienkiewicz. Jeżeli chciałby również poznać
rok tłumaczenia jego dzieł na język niemiecki, może zaznaczyć pole wyboru
w kategorii translation year.
3.4 Wyszukiwanie CQP
Dane dotyczące wyszukiwania, które zostały wprowadzone poprzez pola
wyszukiwania w sekcji Wyszukiwanie podstawowe, metadane lub dostępne
przyciski, są „przekładane” na komendę w języku CQP. Komenda ta tworzona
jest na bieżąco i odzwierciedla natychmiast wszystkie zmiany w zapytaniu. Jest
także widoczna w polu tekstowym w sekcji Wyszukiwanie CQP – patrz wyżej
rysunki 4.‑8. Doświadczony użytkownik, znający składnię CQP może na własną rękę modyfikować znajdujące się tu zapytanie (lub po prostu tworzyć zapytanie wyłącznie za pomocą tego pola), co ułatwia szybkie korekty i daje dostęp
do bardziej zaawansowanych funkcji (jak np. ograniczanie liczby wyników).
116
Andreas Meger, Michał Woźniak, Ruprecht von Waldenfels
Istotną zaletą tego pola jest możliwość nauki „przez przykład”. Użytkownik, tworząc zapytanie w sekcji Wyszukiwanie podstawowe, ma możliwość
obserwacji procesu tworzenia komendy CQP, dzięki czemu przyswaja sobie
podstawy języka zapytań i oswaja się z jego składnią.
4. Wyrównanie na poziomie słów (word alignment)
Jak już wyżej wspominaliśmy, Polsko-Niemiecki i Niemiecko-Polski Korpus
Równoległy wyrównany jest nie tylko na poziomie zdań (sentence alignment)
lecz także słów (word alignment), co pozwala na wyróżnienie kolorem poszukiwanego słowa i jego odpowiednika w języku docelowym w wynikach kwerendy
– por. rysunek 10. Aczkolwiek wyniki word alignment nie są bezbłędne, funkcja ta została udostępniona w korpusie. Należy ona do stałych ustawień interfejsu i jej aktywizacja jest widoczna jako znak „@” w wyszukiwaniu CQP – por.
rysunki wyżej. Funkcję tę można wyłączyć, kasując ręcznie znak „@“.
5. Desiderata, czyli czego (jeszcze) brak...
Fakt, że interfejs i pilotażowy korpus próbny udostępnione zostały w Internecie nie oznacza, że prace nad nimi się zakończyły. Aczkolwiek forma i funkcje interfejsu są w dużym stopniu gotowe, brak jeszcze kilku funkcji. Pożądana
byłaby możliwość wyboru formy prezentacji wyników. Oprócz możliwego eksportu wyników w formacie XML brak jeszcze funkcji umożliwiającej prezentację wyników sortowanych chronologicznie lub alfabetycznie (według nazwiska
autora) albo według różnych gatunków tekstów zawartych w korpusie.
Jako twórcy interfejsu i pilotażowego Polsko-Niemieckiego i Niemiecko-Polskiego Korpusu Równoległego jesteśmy świadomi faktu, że największa
część pracy jeszcze przed nami – najlepsze założenia i pomysły niewiele dają,
jeśli korpus nie opiera się na wystarczającej ilości dobrze dobranych tekstów.
Jednocześnie wszyscy autorzy korpusów wiedzą, że akwizycja tekstów to jedna
z najtrudniejszych części pracy nad korpusem, zwłaszcza jeśli mamy do czynienia z tekstami i ich tłumaczeniami chronionymi prawem autorskim, gdzie
każdy tekst musi być „zdobywany podwójnie”. Mamy jednak nadzieję, że opisana idea stworzenia korpusu równoległego przeznaczonego w różnych – wyżej
opisanych – aspektach „dla wszystkich” znajdzie więcej zwolenników. Pozytywnym tego sygnałem są prace nad – obecnie jeszcze niedostępnym w Internecie
– korpusem polsko-włoskim oraz tworzenie na Wydziale Lingwistyki Stosowanej Uniwersytetu Warszawskiego polsko-szwedzkiego i szwedzko-polskiego
korpusu równoległego, wzorującego się na tych samych zasadach co korpus
polsko-niemiecki.
Jak stworzyć korpus równoległy „dla wszystkich”? O pracy nad Polsko-Niemieckim...
Rysunek 10. Przykład zrównoleglenia na poziomie słów
117
Literatura
Čermák, František, Rosen, Aleksandr (2012): The Case of Intercorp, a multilingual parallel corpus. International Journal of Corpus Linguistics 13(3),
411–427.
Łaziński, Marek (2014): Praktyczny przewodnik po korpusach równoległych.
Wiadomości wstępne. Korpus ParaSol i Korpus Polsko-rosyjski UW.
W: Milena Hebal-Jezierska (red.): Praktyczny przewodnik po korpusach języków słowiańskich, Warszawa: Wydział Polonistyki Uniwersytetu Warszawskiego, 198–206.
von Waldenfels, Ruprecht (2006): Compiling a parallel corpus of slavic languages. Text strategies, tools and the question of lemmatization in
alignment. W: Bernhard Brehmer, Vladislava Ždanova, Rafał Zimny
(red.): Beiträge der Europäischen Slavistischen Linguistik (POLYSLAV) 9.
München: Kubon & Sagner, 123–138.
von Waldenfels, Ruprecht (2012): ParaSol: Introduction to a Slavic Parallel
Corpus. Prace Filologiczne LXIII, 293–301.
Danuta Roszko
Polska Akademia Nauk
Roman Roszko
Polska Akademia Nauk
Polsko-litewskie korpusy równoległe. Elementy anotacji
semantycznej z zakresu modalności możliwościowej
i kwantyfikacji zakresowej
Polish-Lithuanian parallel corpora: Elements of the semantic
annotation related to hypothetical and imperceptive modalities
and scope quantification.
Abstract
The authors present two Polish-Lithuanian parallel corpora:
(1) experimental EKorpPL-LT and (2) KorpPL-LT_CLARIN.
EKorpPL-LT is the first extended bilingual Polish-Lithuanian corpus
whose resources have been divided into two subcorpora: parallel and
comparable. The parallel subcorpus is widely applied in contrastive
studies carried out at the Institute of Slavic Studies, Polish Academy
of Sciences by the Corpus Linguistics and Semantics Team. Parallel
EKorpPL-LT contains various texts being mutual translations between
these two languages. KorpPL-LT_CLARIN is based on vast fragments
of translations of fiction writings and specialist texts. It is created
within the framework of the Polish scientific consortium being a section of the pan-European research infrastructure called CLARIN. For
both corpora, basic applications established by their authors are presented. Next, the authors portray the archaic nature of the Lithuanian
language, which is of benefit to the structure of multilingual corpora.
For this purpose the basic assumptions of semantic categories such
as (a) definiteness/indefiniteness, (b) modality (b1) hypothetical and
(b2) imperceptive are described. Next, under the distinguished categories and on the basis of the Lithuanian language distinctive features,
the possibility to extend the description of the Polish corpora resources is discussed.
The authors present some examples of a new semantic annotation
(developed by Violetta Koseska and Roman Roszko – for scope quantification and Danuta Roszko and Roman Roszko – for modality). The
authors distinguish the following three semantic units:
Danuta Roszko, Roman Roszko
120
• A neutral degree (I1) and an enhanced degree (I2) of
imperceptiveness,
• A degree of the lowest probability (H1), particular degrees of growing probability (H2–H5) and a degree of the highest probability
(H6) of hypothetical modality,
• Uniqueness, existentiality (E1), real existentiality, habitual universality and real universality (categories of scope quantification).
The authors assume that the conservative nature of the Lithuanian
language, manifesting itself in (i) the stability of forms, (ii) relations
between the form and its function, (iii) narrowed specialization of
forms, much more advanced than in the Polish language, not only
allows to extend the description of the resources, but also considerably affects the development of linguistics and all applied sciences
based on language (such as the process of teaching the language, traditional and machine translation etc.).
Słowa kluczowe: korpus równoległy, język polski, język litewski, anotacja semantyczna, automatyzacja przekładu
Keywords: parallel corpus, Polish, Lithuanian, semantic annotation,
automation of translation / machine translation.
1. Dwa polsko-litewskie korpusy równoległe
Polsko-litewskie zasoby tekstowe są częścią wielu korpusów wielojęzycznych
(np. Emea, InterCorp, KDE4, Opus, ParaSol i in.). Jednak w tym artykule
zamierzamy zwrócić uwagę na dwa korpusy, które zaplanowano z myślą
o konkretnych zastosowaniach. Pierwszy z nich to eksperymentalny korpus
polsko-litewski (dalej EKorpPL-LT). Drugi z nich to polsko-litewski korpus
równoległy (dalej KorpPL-LT_CLARIN), powstający w ramach zadań polskiego
konsorcjum naukowego, będącego częścią ogólnoeuropejskiej infrastruktury
badawczej CLARIN.
1.1 Eksperymentalny korpus polsko-litewski EKorpPL-LT
Korpus EKorpPL-LT był intensywnie rozwijany w latach 2010–2012. Inicjatorami i głównymi wykonawcami tego korpusu są autorzy tego artykułu. Kiedy
jednak ci sami autorzy przystąpili do prac nad nowym korpusem KorpPL-LT_
CLARIN, rozwój EKorpPL-LT został wstrzymany. Jednak w krótkim czasie okazało się, że rozwijanie korpusu eksperymentalnego jest uzasadnione i celowe.
Zadecydowały o tym dwa – jak się później okazało – wzajemnie wykluczające
się czynniki. Pierwszy z nich był związany z przeświadczeniem, że nowy korpus KorpPL-LT_CLARIN – jako „spadkobierca” korpusu eksperymentalnego
– będzie doskonalszym narzędziem w ręku językoznawcy i tłumacza. Drugi zaś
Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej...
121
czynnik, to przyjęte w korpusie KorpPL-LT_CLARIN założenie włączenia do
zasobów korpusowych tylko tekstów licencjonowanych, które spowodowało
istotne ograniczenia liczby potencjalnych do zamieszczenia w korpusie tekstów.
Uzyskanie licencji na włączenie tekstu (nawet jego fragmentu) do korpusu jest
zadaniem trudnym do spełnienia. Dlatego w roku 2014 wznowiono prace nad
EKorpPL-LT. Obecne parametry korpusu to: 2 006 021 słowoform tekstów beletrystycznych i 14 210 323 słowoform współczesnych tekstów specjalistycznych,
będących w dużej mierze tłumaczeniami wzajemnymi (tj. z języka polskiego na
litewski lub odwrotnie). Szczególną uwagę w doborze materiału skupiono na
tekstach specjalistycznych. Zadbano, by w EKorpPL-LT znalazły się reprezentatywne dla poszczególnych dziedzin teksty, charakteryzujące się poprawną stylistyką i terminologią w obu wersjach językowych (por. tabela 1.) z przykładami
tekstów, które nie spełniły wymagań autorów EKorpPL-LT.
Przykład tekstu w języku
polskim
litewskim
Zawartość frazy stałej NMR
Kietos frazės NMR skaičius
20 st. C 20–28%
20ºC 20–28%
Przyczyna odrzucenia tekstu
Obcy skrótowiec NMR
(por. ang. nuclear magnetic
resonance) w obu językach
dot. spektroskopii magnetycznego rezonansu jądrowego.
Zapis polski 20 st. C
zamiast 20ºC.
Wymagane jest oprzyrząReikia turėti laboratorinius
Obce skrótowce w tekście poldowanie laboratoryjne do
bandomosios medžiagos ir
skim (GLC, MS i NMR).
analizy chemicznej substancji transformavimo produktų
Brak gramatycznego
badanej i produktów przeanalizės prietaisus (pvz., dujų i kontekstowego powiązania
mian (np.: chromatografia
ir skysčių chromatografijos
w tekście polskim fragmentu
gazowo-cieczowa (GLC),
(DSC), masių spektroskopijos w nawiasach (np.: chromatospektroskopia masowa (MS), (MS), magnetinio branduografia gazowo-cieczowa (GLC),
magnetyczny rezonans
lių rezonanso (MBR) ir t. t.
spektroskopia masowa (MS),
jądrowy (NMR) itp.), włącza- įrangą), atitinkamas aptikimo magnetyczny rezonans jądrowy
jąc w to układy do wykrywa- sistemas žymėtosioms arba
(NMR) itp.) z poprzedzającym
nia substancji chemicznych
nežymėtosioms medžiago kontekstem.
znakowanych i nieznakowagoms analizuoti.
Brak formy urządzenia w teknych radioizotopami.
ście polskim w przytoczonym
wyżej fragmencie w nawiasach.
Tabela 1. Wyjątki z tekstów, które nie zostały włączone do zasobów korpusowych EKorpPL-LT ze
względów formalnych
Dziedziny najlepiej reprezentowane w korpusie EKorpPL-LT to: przemysł
energetyczny, stoczniowy, budowlany, spożywczy, chemiczny, farmaceutyczny,
naftowy, biotechnologiczny, metalurgiczny, bankowość, rachunkowość, bezpieczeństwo i higiena pracy, ochrona środowiska, medycyna, prawo i sądownictwo, ustawodawstwo unijne, urządzenia elektrotechniczne (użytku domowego
Danuta Roszko, Roman Roszko
122
i przemysłowe), komunikacja w ruchu lądowym i powietrznym, wykaz działalności i towarów. Jak można zauważyć, uwaga twórców EKorpPL-LT skupia się
na tekstach zawierających najnowszą terminologię, która nie została uwzględniona w żadnym polsko-litewskim słowniku drukowanym czy elektronicznym.
W związku z tym oczywisty staje się cel powstania tego korpusu, mianowicie
budowa pamięci tłumaczeniowych1 (por. tabela 2.) oraz jego wykorzystanie
w pracach nad planowanym w Instytucie Slawistyki PAN wielojęzycznym słownikiem nowej generacji.
Litera
Termin polski
Termin litewski
B
badania dodatkowe
kiti bandymai
badania makroskopowe
makroskopinis tyrimas
badania radiograficzne
radiografinis bandymas
badania wizualne
apžiūrimoji kontrolė
blacha
plokštė
próba łamania
laužimo bandymas
próba rozciągania
tempimo bandymas
próba zginania
lenkimo bandymas
P
Tabela 2. Wyciąg z pamięci tłumaczeniowej. Terminy z zakresu spawalnictwa (fragmenty)
1.2 Polsko-litewski korpus równoległy KorpPL-LT_CLARIN2
Ten korpus, o zaplanowanej na rok 2016 objętości przekraczającej sześć milionów słowoform, bazuje na obszernych fragmentach licencjonowanych utworów
beletrystycznych, różnorodnych tekstach specjalistycznych, w tym pochodzących z domeny publicznej. KorpPL-LT_CLARIN wpisuje się w standardy
obowiązujące w lingwistyce korpusowej. Zaplanowano ręczne naniesienie
eksperymentalnej anotacji semantycznej (dotyczącej kwantyfikacji zakresowej
na poziomie fraz nominalnej i werbalnej) w tekstach ciągłych do łącznej objętości 4 000 zdań. Szerzej na temat stosowanej w KorpPL-LT_CLARIN anotacji semantycznej (por. Koseska-Toszewa, 2013; Roszko, D., Roszko, R., 2013;
1 Autorzy zawodowo zajmują się tłumaczeniami. W pracy translatorskiej kierują się zasadą konsekwentnego stosowania adekwatnej i spójnej terminologii oraz unikania ponownego tłumaczenia identycznych lub podobnych fragmentów. W tym celu tworzą pamięci tłumaczeniowe oraz
stosują oprogramowanie wspomagające tłumaczenie.
2 KorpPL-LT_CLARIN powstaje w ramach zadań polskiego konsorcjum naukowego, będącego
częścią ogólnoeuropejskiej infrastruktury badawczej CLARIN (nr projektu 131241). Liderem
konsorcjum jest Politechnika Wrocławska (kierownik – Maciej Piasecki). KorpPL-LT_CLARIN
jest zadaniem włączonym do modułu 9, realizowanym przez Zespół Lingwistyki Korpusowej
i Semantyki Instytutu Slawistyki PAN (kierownik Zespołu i koordynator ze strony IS PAN –
Violetta Koseska-Toszewa, główni wykonawcy: Danuta Roszko i Roman Roszko).
Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej...
123
Koseska, Roszko, 2015). Docelowym odbiorcą tego korpusu są przedstawiciele
szeroko pojętych nauk humanistycznych.
2. Zachowawczy charakter języka litewskiego i wynikające z tego faktu
korzyści, mogące mieć zastosowanie w rozbudowie samych korpusów oraz
w doskonaleniu algorytmów przekładu maszynowego
Jak dotąd, oczywiste dla bałtystów i indoeuropeistów cechy języka litewskiego
nie zostały dostrzeżone jako potencjalne źródło sprzyjające (a) automatyzacji
prac nad budową wielojęzycznych korpusów oraz (b) identyfikacji znaczeń
doskonale odzwierciedlonych na płaszczyźnie formalnej. Aby umożliwić zrozumienie zachowawczego charakteru języka litewskiego, omówmy prostą polsko
-litewską parę odpowiedników: syn – sūnus ‘syn’. Zachowawczy charakter języka
litewskiego pozwala w sposób prosty wyprowadzić nawet ze współczesnej litewskiej formy sūnus postać prasłowiańską i późniejszą polską syn. W slawistyce
oczywiste jest przewartościowanie długiego ie. ū w prasłowiańskie y, które bez
zmian jest obserwowane we współczesnej polskiej formie syn. Następnie, powodowana prawem sylab otwartych (inaczej prawem wzrastającej dźwięczności)
fleksja mianownikowa -s została zredukowana (utracona), zaś wygłosowe krótkie u uległo zmianie w jer (ъ), który – będąc w absolutnym wygłosie – również uległ zanikowi. Cały proces można przedstawić w ciągu: *sūnus → *sūnu →
synъ → syn. Dla formy dopełniaczowej można przedstawić następujący proces:
*sūnaus → *sūnau → synu → syna, gdzie ponadto stwierdzamy dobrze w literaturze opisany proces monoftongizacji dyftongu *au do u, a następnie zmianę
fleksji dopełniaczowej u (pod wpływem odmiany na a krótkie) do postaci a.
Tym razem nieco rozbudujmy wyjściową parę do postaci słodki syn
– saldus sūnus ‘słodki syn’. W tym wypadku dochodzą kolejne zmiany, które
doprowadziły nie tylko do utraty pierwotnej postaci w wyniku zmian fonetycznych, lecz również utajniły inne procesy, takie jak dodanie elementu -k-3 (por.
również bułg. сладък, ros. сладкий), czy rozbudowę o kolejny element tym
razem pochodzenia zaimkowego *-jis, który całkowicie zlany z rdzeniem przyczynił się do ukształtowania zupełnie nowej odmiany przymiotników w języku
polskim. Dawne znaczenie wnoszone przez kontynuant *-jis zostało zupełnie
zatarte we współczesnej polszczyźnie4. Przedstawiona zatem wyżej para ekwiwalentów słodki syn – saldus sūnus powinna (tylko z formalnego punktu widzenia) przybrać następującą postać: słodki syn – saldusis sūnus, gdzie w formie
3 Przypuszcza się, że wzbogacanie form o element -k- w językach słowiańskich było zabiegiem
czysto formalnym, mającym rozróżnić przymiotniki i rzeczowniki, por. chociażby współczesną
postać niem. süß bez -k-, a także inną analogiczną polsko-litewską odpowiedniość: gorzki – kartus.
4 Por. archaiczne polskie postacie zdrów (a zdrowy), rad (a rady) i in., w których nie stwierdza się
kontynuantu dawnego *-jis.
124
Danuta Roszko, Roman Roszko
litewskiej wyraźnie obserwujemy element -jis, por. saldus+jis → saldusis. Na
płaszczyźnie znaczeniowej litewskie saldusis w opozycji do saldus jest wykładnikiem znaczeń kwantyfikacyjnych jednostkowości (‘ten słodki …’) i ogólności
zwyczajowej ‘zazwyczaj każdy słodki …’, por. analogiczne zjawisko w językach
rodzajnikowych oraz zaobserwowane w nich funkcje tzw. rodzajnika określonego (Karolak, 2001).
Przedstawione w wielkim skrócie polsko-litewskie odpowiedniości
dokumentują znaczne zmiany form polskich leksemów. Jak można zauważyć
chociażby w formie syn, ulega zanikowi dawna fleksja (np. mianownikowa
-s), także tematyczne -u. Natomiast w formie słodki odnotowujemy istotne
w naszych rozważaniach zlanie się form (zatarcie granic między morfemami).
Dawne *-jis zostało wkomponowane w postać poprzedzającej formy. Pierwotne
znaczenie wnoszone przez *-jis zostało utracone i faktycznie stało się wyznacznikiem odmiany przymiotnikowej.
Zatem uproszczenia i zmiany w strukturze formalnej polskich leksemów (w tym przede wszystkim rozmycie granic między morfemami), doprowadzające do zachwiania stabilności wnoszonych przez poszczególne morfemy
znaczeń, prowadzą do utraty bezpośredniego powiązania morfemu/formantu
ze znaczeniem oraz umacniania się struktur nieprzejrzystych formalnie. Zacieranie granic między morfemami (również gramatycznymi) narusza prostą
odpowiedniość formy i jej znaczenia – tym samym ten proces prowadzi do
zahamowania, zaniku pewnych znaczeń oraz wykształcenia nowych, jak można
zaobserwować, nie zawsze konsekwentnego w całym paradygmacie, por. chociażby polską kategorię deprecjacji ograniczoną do wybranych leksemów rzeczownikowych oraz form przypadkowych.
Formy litewskie w odróżnieniu od polskich są stabilne. Wyniki analiz kategorii semantycznych w języku litewskim, (por. Roszko, R., 1993, 2004;
Roszko, D., 2006, 2015) ujawniają również inną cechę języka litewskiego – wraz
z zachowaniem pierwotnej struktury formalnej wyrazu zostaje zachowana łączność (w tym stabilność) między poszczególnymi formantami a ich znaczeniem.
Tę właśnie cechę współczesnej litewszczyzny zamierzamy wykorzystać w identyfikacji nieujawnionych na płaszczyźnie formalnej polszczyzny znaczeń i włączenie takim sposobem ustalonych znaczeń do opisu, definiowanego tu jako
anotacja semantyczna.
Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej...
125
3. Przykłady anotowanych struktur semantycznych
3. 1 Kwantyfikacja zakresowa – semantyczna kategoria
określoności-nieokreśloności
Jest to kategoria zdaniowa (tj. dotyczy zarówno frazy nominalnej jak i werbalnej) z wyróżnioną opozycją jednostkowości: niejednostkowości. Określoność
odpowiada treściom jednostkowości (z podziałem na jednostkowość elementu
i zbioru), natomiast nieokreśloność – niejednostkowości, obejmującej znaczenia egzystencjalności (ograniczonej i właściwej) i ogólności (zwyczajowej/
ograniczonej i właściwej), (por. Koseska-Toszewa, 1982; Косеска-Тошева,
Гаргов, 1990; Roszko, R., 2004; Roszko, D., 2015). W definicji trzech podstawowych pojęć wykorzystano powszechnie znane znaczenia kwantyfikatorów
logicznych (kwantyfikatora szczegółowego i ogólnego) oraz jota-operatora.
W opisie wykładników tej kategorii posłużono się również pojęciem niedopowiedzenia kwantyfikacyjnego, zauważonym przez Ajdukiewicza (1965). Szczegóły dotyczące semantycznej kategorii określoności-nieokreśloności oraz opis
jej wykładników (leksykalnych, morfologicznych i składniowych) zarówno we
frazie nominalnej jak i werbalnej w językach polskim i litewskim (por. Roszko,
R., 2004; Roszko, D., 2015).
Nie jest naszym celem szczegółowe referowanie poszczególnych znaczeń kwantyfikacyjnych. Zamierzamy jednak ukazać przydatność języka
litewskiego w procesie automatyzacji nanoszenia anotacji semantycznej,
w szczególności w ujednoznacznianiu wieloznacznych polskich wykładników.
Podkreślmy, niedopowiedzenie kwantyfikacyjne jest bardzo rozpowszechnione
w języku polskim, dlatego odwołanie się do przejrzystych formalnie litewskich
jednoznacznych wykładników znaczeń kwantyfikacyjnych okazuje się bardzo
pomocne nie tylko w opisie samego języka polskiego, lecz również w procesie
tworzenia algorytmów na potrzeby przekładu maszynowego.
Analiza danych korpusowych (EKorpPL-LT) ujawnia między innymi
taką polsko-litewską zależność: polskim zaimkom z cząstką -ś odpowiadają
litewskie zaimki albo z cząstką kaž- albo z cząstką nors, por.:
Pol.
Lit.
Ale potrzebne są jakieś na to świadectwa …
Bet juk reikia kokių nors įrodymų …
Pol.
Lit.
Bezdomnemu przydarzyło się coś, co można porównać jedynie do paraliżu.
Benamį ištiko kažkas panašaus į paralyžių.
Szczegółowa analiza płaszczyzny semantycznej tego typu zdań dostarcza
następujących wniosków. Polskim zaimkom z cząstką -ś użytym w znaczeniu
egzystencjalnym właściwym odpowiadają litewskie zaimki z cząstką kaž-.
Danuta Roszko, Roman Roszko
126
Natomiast polskim zaimkom z cząstką -ś użytym w znaczeniu ogólnym
zwyczajowym/ograniczonym odpowiadają litewskie zaimki z cząstką nors5.
Zaobserwowany i przytoczony wyżej fakt pozwala zautomatyzować opis semantyczny wieloznacznych jednostek (tj. jednostek o niedopowiedzianej kwantyfikacji) we wszystkich wielojęzycznych korpusach, w których jednym z języków
jest właśnie język litewski.
Warto w tym miejscu przytoczyć przykład na możliwość wykorzystania litewskich jednoznacznych wykładników kwantyfikacji zakresowej również
w grupie werbalnej w ujednoznacznianiu polskich odpowiedników, por.:
Pol.
Lit.
Od wczesnego rana świeciły jego siwiejące włosy i niebie-
skie oczy.
Tad nuo ankstyvo ryto šviesdavo jo žilstantys plaukai ir mėlynos akys.
Zawarta w powyższym zdaniu polskim forma werbalna świeciły jest wieloznaczna. Jednak w oparciu o litewską formę šviesdavo, z charakterystycznym
sufiksem -dav-, jesteśmy w stanie jednoznacznie określić typ kwantyfikacji
i znaczenie. Mianowicie – kwantyfikacja ogólna i znaczenie ogólne zwyczajowe.
Oczywiście niekiedy w polskim tekście znaczenia ogólne zwyczajowe zostają
wyeksponowane, por.:
Pol.– Mówił bywało: „Krysiu, poczekaj tylko! Jak wukonomem mnie zrobią, ożenię się z tobą.”
Lit.– Sakydavo: „Ule, palūkėk tiktai! Kai padės mane urėdu, vestuves kelsiva!“.
3.2 Modalność możliwościowa
Cechą charakterystyczną zdań modalnych możliwościowych jest obecność
funktora możliwości. Poniżej zostaną przedstawione dwa typy modalności możliwościowej: hipotetyczna i imperceptywna. Typowym wykładnikiem znaczeń
obu kategorii w języku polskim są leksemy. W języku litewskim obok leksemów występują również regularne wykładniki morfologiczne (formy tzw. trybu
modus relativus). Obecność tychże powoduje, że w tekście litewskim można
jednoznacznie określić granice między tekstem nacechowanym modalnie a tekstem nienacechowanym, por.:
Pol.
Lit.
Podobno przyjechał z rodziną pod wieczór. Spotkał się z burmistrzem nad morzem.
Tas su šeima atvažiavęs vakare. Jis susitikęs su meru prie jūros.
5 Szerzej o poszczególnych znaczeniach kwantyfikacyjnych (por. Roszko, D., 2015).
Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej...
127
W polskim tekście leksem podobno – wykładnik znaczeń imperceptywnych
– pojawia się tylko w zdaniu pierwszym. W litewskim wariancie tekstu nacechowanie imperceptywne jest obecne w obu zdaniach. Dlatego już sam ten
fakt można wykorzystać do wzbogacenia opisu polskich jednostek. W danym
wypadku można polskiej formie spotkał się przypisać wartość imperceptywną.
Być może dla przeciętnego użytkownika języka polskiego będzie to niewiele
wnosząca informacja, jednak kiedy trzeba to polskie zdanie przetłumaczyć na
język bułgarski, wówczas informacja ta będzie niezwykle przydatna w wyborze
tzw. formy nieświadka w języku bułgarskim.
3.2.1 Modalność hipotetyczna
Jest to kategoria zdaniowa służąca wyrażeniu subiektywnego stosunku nadawcy
do wypowiadanych przez siebie sądów (Maldžieva, 2003). Maldžieva (2003),
podobnie D. Roszko (2015), wyróżnia 6 poziomów stopnia prawdopodobieństwa. Szerzej o samej kategorii (por. Maldžieva, 2003) oraz o wykładnikach
w językach polskich i litewskich (por. Roszko, D., 2015).
Przyjrzyjmy się poniższym zdaniom:
Pol.– Musiałeś go gdzieś zostawić – rzekł Kubuś Puchatek.
– Ktoś musiał mi go zabrać – powiedział Kłapouchy. – I jak tu mieć dla nich serce? – dodał po dłuższej chwili
milczenia.
Lit.– Būsi ją kur nors palikęs, tarė Pūkuotukas.
– Kas nors bus pasiėmęs, – pasakė Nulėpausis. – Va kokie,
– pridūrė ilgokai patylėjęs.
Polskim wieloznacznym konstrukcjom musi + bezokolicznik (musiałeś zostawić,
musiał zabrać) odpowiadają jednoznaczne litewskie konstrukcje morfologiczne,
służące wyrażeniu znaczeń hipotetycznych (būsi palikęs, bus pasiėmęs). Zatem,
tak jak w wypadku znaczeń kwantyfikacji zakresowej, również i tu można zastosować projekcję znaczeń hipotetycznych odczytywanych z jednoznacznych
litewskich wykładników na wieloznaczne polskie ekwiwalenty.
Warto również w wyżej przytoczonych zdaniach zwrócić uwagę na
formy zaimkowe i przysłówkowe: wieloznaczne pol. gdzieś, ktoś i jednoznaczne
lit. kur nors, kas nors (por. wyżej p. 3.1.).
Z przedstawionej przez D. Roszko (2015: 246) analizy zasobów korpusowych wynika również, że choć liczba leksykalnych wykładników hipotetyczności okazała się zdecydowanie wyższa w języku polskim niż w języku
Danuta Roszko, Roman Roszko
128
litewskim6, to jednak różnorodność ich użycia w tekście zdecydowanie przemawia na korzyść języka litewskiego. O ile w wypadku języka polskiego można
mówić o wyraźnie dominujących wykładnikach-przedstawicielach swoich grup
(por. pol. chyba obejmujące 95% użyć wszystkich wykładników w grupie H4, pol.
na pewno z 78% użyć w ramach grupy H6 czy pol. może z 49% użyć w ramach
grupy H5), o tyle w języku litewskim – już nie. Litewski wykładnik o najwyższej
częstotliwości użycia w ramach swojej grupy charakteryzuje wielkość 35% (lit.
gal, grupa H5), kolejne zaś to już 17% (lit. žinoma, również należący do grupy
H5) i 14% (lit. tikriausiai, grupa H6).
3.2.2 Modalność imperceptywna
Jest to kategoria zdaniowa służąca wyrażeniu subiektywnego stosunku aktualnego nadawcy do powtórnie wypowiadanych treści, (por. Korytkowska, 1978;
Korytkowska, Roszko, R., 1997). Korytkowska, D. Roszko oraz R. Roszko
wyróżniają 2 poziomy stopnia prawdopodobieństwa (neutralny i wzmocniony),
(por. Korytkowska, Roszko, R., 1997; Roszko, R., 1993; Roszko, D., 2015). Szerzej o samej kategorii (por. Korytkowska, Roszko, R., 1997) oraz o wykładnikach w językach polskim i litewskim (por. Roszko, R., 1993; Roszko, D., 2015).
O tym, że do wyrażenia treści imperceptywnych dochodzi zdecydowanie rzadziej w języku polskim niż w litewskim świadczą chociażby dysproporcje
w użyciu polskich i litewskich leksemów-wykładników imperceptywności zarejestrowane w EKorpPL-LT, por.:
Pol.
Lit.
Kiedy – przestraszony sztuczkami Korowiowa, który ukazał mu kota, trzymającego na widelcu marynowany grzyb
– stracił przytomność w mieszkaniu wdowy po jubilerze,
leżał tam, dopóki Korowiow, natrząsając się zeń, nie wcisnął mu na głowę wojłokowego kapelusza i nie wysłał go na
moskiewskie lotnisko, uprzednio zasugerowawszy oczekującym tam na Stiopę przedstawicielom wydziału śledczego, że
Stiopa wysiądzie z samolotu, który przyleciał z Sewastopola.
Apalpęs juvelyro našlės bute, kur buvo išgąsdintas Korovjovo triuko su katinu, pasimovusiu ant šakutės marinuotą
grybą, jis pragulėjo tame bute tol, kol Korovjovas tyčiodamasis užmaukšlino jam ant galvos veltinę skrybėlę ir
nudangino jį į Maskvos aerouostą, pirma dar įteigęs Stiopą
sutinkantiems kriminalinės paieškos atstovams, kad Stiopa
neva išlipęs iš lėktuvo, atskridusio iš Sevastopolio.
W litewskim wariancie obok wykładnika leksykalnego neva pojawia się wykładnik morfologiczny išlipęs. W polskim tekście nie ma żadnego wykładnika
6 Polskich 88 do 72 litewskich. W podanych liczbach uwzględniono tylko te wykładniki, które
zarejestrowano przynajmniej dziesięciokrotnie.
Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej...
129
wskazującego na treści imperceptywne. Te treści, jak widać, pozostają niewyrażone w języku polskim. Z analizy odrzuconych tekstów z EKorpPL-LT wynika,
że przeciętny polski tłumacz języka litewskiego oddałby litewskie …kad Stiopa
neva išlipęs iš lėktuvo… polskim *…że podobno Stiopa wysiądzie z samolotu…,
natomiast tłumacząc polskie …że Stiopa wysiądzie z samolotu… – litewskim …
kad Stiopa išlips iš lėktuvo… W obu wypadkach stwierdza się podążanie tłumacza za formą oraz brak refleksji nad semantyczną strukturą zdania. W pierwszym
wypadku pod wpływem podwojonego wykładnika znaczeń imperceptywnych
w języku litewskim, te zostałyby „przemycone” do języka polskiego. W drugim
(odwrotnym) wypadku – znaczenia imperceptywne zostałyby „wyrugowane”
z treści zdania litewskiego. Podobny proces „typowych” przekładów między
językami polskim i bułgarskim (w którym istnieje morfologiczny wykładnik
znaczeń modalności imperceptywnej) stwierdzają M. Korytkowska i R. Roszko
(Koseska, Korytkowska, Roszko, 2007).
Analiza ekwiwalentnych zdań polskich i litewskich (zawierających tylko
morfologiczny wykładnik imperceptywności) ujawnia kolejną zależność. Jest
nią brak jakiegokolwiek wykładnika imperceptywności w języku polskim, jeśli
w zdaniu litewskim zostaje zastosowany morfologiczny wykładnik niewzmocnionych znaczeń imperceptywnych, por.:
Pol.
Uderzenie było tak mocne, że pojazd dosłownie wjechał pod ciężarówkę.
Lit.Smūgis buvęs toks stiprus, kad automobilis tiesiogine pra
sme palindo po sunkvežimiu.
Litewskie buvęs – to morfologiczny wykładnik znaczeń imperceptywnych.
Z kolei, gdy w języku litewskim zostaje zastosowany wykładnik wzmocnionych znaczeń imperceptywnych, to wówczas w języku polskim stwierdza się
użycie imperceptywnego wykładnika leksykalnego, ewentualnie leksykalnego
sprzężonego z wieloznaczną konstrukcją paramorfologiczną ma + bezokolicznik, por.:
Pol.
Lit.
Jan powiedział, jakoby brat miał się zatrzymać u ciotki.
Jonas pranešė, kad tasai esąs apsigyvenęs pas tetą.
Anotacja semantyczna w wypadku wieloznacznych polskich wykładników okazuje się ułatwiona, gdy zestawimy konkretne odpowiadające sobie zdania polskie i litewskie, por.:
Pol.
Lit.
oraz
Miał przyjechać.
Jis turėjo atvažiuoti.
Danuta Roszko, Roman Roszko
130
Pol.
Miał przyjechać.
Lit.Jis atvažiavęs.
Dla pierwszej pary zdań, w oparciu o postać litewską, stwierdza się brak znaczeń
imperceptywnych, tym samym wieloznaczna polska konstrukcja ma + bezokolicznik nie jest w danym wypadku wykładnikiem znaczeń imperceptywnych.
Natomiast w parze drugiej litewski jednoznaczny morfologiczny wykładnik
niewzmocnionych znaczeń imperceptywnych atvažiavęs wskazuje na imperceptywne nacechowanie polskiej konstrukcji ma + bezokolicznik
4. Podsumowanie
Zachowawczy charakter języka litewskiego przyczynia się do przejrzystości
struktur formalnych oraz powiązań między formą a jej funkcją. W języku polskim (szerzej słowiańskim) wprowadzony na pewnym etapie rozwoju języka
element funkcjonalny nierzadko w wyniku zmian fonetycznych zaciera swą
postać, ta zaś po latach zostaje uwolniona od pierwotnego znaczenia nierzadko
nim dojdzie do pełnego jego (znaczenia) zgramatykalizowania. Zachodzące
więc w językach słowiańskich zmiany fonetyczne, w tym także w języku polskim, sprawiają, że pewne wartości semantyczne nie są ujawnione na poziomie
formalnym, por. pol. Niech minister się schowa. i dwa możliwe warianty litewskie: Tegul ministras (r.m.) nesilygina. i Tegul ministrė (r.ż.) nesilygina., w których
zauważamy rozróżnienie osób płci żeńskiej i męskiej. Podobne „niedoskonałości” polszczyzny można wskazać na przykładzie form deminutatywnych.
W wyniku ograniczeń formalnych pewne polskie formy imienne nie posiadają form deminutatywnych, lub jeśli je tworzą, to z pewnością nie są one stylistycznie neutralne, por. pol. Polska i *--- oraz lit. Lietuva `Litwa’ i Lietuvėlė
(zdrobnienie od Lietuva ‘Litwa’). Takie przykłady można mnożyć, por. jeszcze
jeden – litewskie auti i polskie już dzisiaj raczej sporadyczne obuwać, w którym
w odniesieniu do litewskiej formy obserwujemy zarówno proces perfektywizacji i wtórnej imperfektywizacji. O odpowiedniku fonetycznym litewskiego
dyftongu au pisaliśmy w punkcie 2. – jest nim w językach słowiańskich u. Zatem
prosty odpowiednik lit. auti w języku polskim mógłby mieć nadal postać *uć,
przybrał jednak postać niewyobrażalnie złożoną ob-u-wa-ć.
Kwantyfikacja zakresowa jest istotnym elementem semantycznej struktury zdania. Dlatego w obliczu charakterystycznego dla języka polskiego niedopowiedzenia kwantyfikacyjnego zestawienie tekstów polskich z litewskimi
pozwala tę wieloznaczność usunąć. Podobny efekt ujednoznacznienia form
polskich można osiągnąć w zakresie modalności możliwościowej, zwłaszcza
przedstawionej tu imperceptywności.
Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej...
131
Prezentowana tu idea polegająca na automatyzacji opisu funkcji polskich form w oparciu o jednoznaczne litewskie wykładniki z zakresu kwantyfikacji zakresowej czy modalności możliwościowej jest w naszym rozumieniu
jedynie wstępem do przyszłego nieuniknionego procesu łączenia nadal rozproszonych zasobów korpusowych do postaci korpusów wielojęzycznych,
w których przedstawiona tu w przykładach anotacja znaczeń (anotacja opisująca nie morfologiczne parametry formy, lecz jej aktualne funkcje wynikające
z użycia) może zostać zastosowana z pożytkiem nie tylko dla pełniejszego opisu
poszczególnych języków czy badań wybitnie językoznawczych (np. opisowych,
kontrastywnych), lecz również dla ustalania algorytmów międzyjęzykowej
ekwiwalencji ze wszelkimi tego konsekwencjami dla wszelkich nauk stosowanych bazujących na języku (takich jak proces nauczania języka, przekład tradycyjny czy maszynowy i in.).
Nie zakładamy, że to właśnie język litewski ma być podstawą do automatyzacji procesu anotacji semantycznej. Każdy bowiem język posiada pewne
jednoznaczne wykładniki określonych znaczeń, które można dołączać do uniwersalnej już wówczas podstawy. Opierając się na jednoznacznych wykładnikach w jednym języku można zawęzić materiał w drugim języku do zgodnego
z założonymi parametrami (wyznaczonymi przez jednoznaczne wykładniki
języka wyjściowego) i w ramach tak wyselekcjonowanego materiału szukać
reguł, które – niezauważane przy tradycyjnym podejściu do języka – mogą
zostać ujawnione.
Proponowane tu podejście opisu znaczeń (funkcji) poszczególnych
form w wielojęzycznych korpusach wydaje się nieuniknioną przyszłością wielojęzycznych zasobów. Jak już niejednokrotnie w literaturze przedmiotu było
podnoszone, tym, co łączy języki nie są formy (i ich własności gramatyczne),
lecz płaszczyzna znaczeniowa – inaczej funkcje form (por. np. Weinsberg, 1983).
Literatura
Ajdukiewicz, Kazimierz (1965): Logika pragmatyczna. Warszawa: Państwowe
Wydawnictwo Naukowe.
Karolak, Stanisław (2001): Od semantyki do gramatyki. Warszawa: Slawistyczny Ośrodek Wydawniczy.
Korytkowska, Małgorzata (1978): Ze studiów nad modalnością w języku bułgarskim. Studia z Filologii Polskiej i Słowiańskiej XVII, 263–288.
132
Danuta Roszko, Roman Roszko
Korytkowska, Małgorzata, Roszko, Roman (1997): Gramatyka konfrontatywna bułgarsko-polska, tom 6, część 2. Modalność imperceptywna.
Warszawa: Slawistyczny Ośrodek Wydawniczy.
Koseska-Toszewa, Violetta (1982): Semantyczne aspekty kategorii określoności/nieokreśloności (na materiale z języka bułgarskiego, polskiego i rosyjskiego). Wrocław: Zakład Narodowy im. Ossolińskich.
Koseska-Toszewa, Violetta (2013): About Certain Semantic Annotation in
Parallel Corpora. Cognitive Studies | Études cognitives 13, 67–78. DOI:
10.11649/cs.2013.004.
Koseska-Toszewa, Violetta, Korytkowska, Małgorzata, & Roszko, Roman
(2007): Polsko-bułgarska gramatyka konfrontatywna. Warszawa:
Wydawnictwo Akademickie „Dialog”.
Koseska-Toszewa, Violetta & Roszko, Roman (2015): On Semantic Annotation in Clarin-PL Parallel Corpora. Cognitive Studies | Études cognitives
15, 211–236; DOI: 10.11649/cs.2015.016.
Maldžieva, Vjara (2003): Gramatyka konfrontatywna bułgarsko-polska, tom 6,
część 3. Modalność: hipotetyczność, irrealność, optatywność i imperatywność, warunkowość). –Warszawa: Slawistyczny Ośrodek Wydawniczy.
Roszko, Danuta (2006): Funkcjonalne odpowiedniki litewskiego perfectum
w litewskiej gwarze puńskiej i w języku polskim. Warszawa: Slawistyczny
Ośrodek Wydawniczy.
Roszko, Danuta (2015): Zagadnienia kwantyfikacyjne i modalne w litewskiej
gwarze puńskiej (na tle literackich języków polskiego i litewskiego). Warszawa: Slawistyczny Ośrodek Wydawniczy.
Roszko, Danuta & Roszko, Roman (2013): Experimental Polish-Lithuanian
Corpus with the Semantic Annotation Elements. Cognitive Studies |
Études cognitives 13, 97–111; DOI: 10.11649/cs.2013.006
Roszko, Roman (1993): Wykładniki modalności imperceptywnej w języku polskim i litewskim. Warszawa: Slawistyczny Ośrodek Wydawniczy.
Roszko, Roman (2004): Semantyczna kategoria określoności/nieokreśloności
w języku litewskim (w zestawieniu z językiem polskim). Warszawa: Slawistyczny Ośrodek Wydawniczy.
Weinsberg, Adam (1983): Językoznawstwo ogólne. Warszawa: Państwowe
Wydawnictwo Naukowe.
Косеска-Тошева, Виолетта & Гаргов, Георги (1990): Българско-полска
съпоставителна граматика. (том 2. Семантичната категория
определеност/неопределеност). – София.
Natalia Kotsyba
Polska Akademia Nauk
Polsko-Ukraiński Korpus Równoległy PolUKR
i jego następca PolUKR-2
Polish-Ukrainian Parallel Corpus PolUKR
and its successor PolUKR-2
Abstract
The paper discusses the present stage of development of one of the
aspects of an ongoing project aiming at creating electronic resources
for the Ukrainian language. Parallel corpora make an important part
of this project. The Polish-Ukrainian Parallel Corpus (PolUKR) was
developed in 2004-2010, first in the Institute of Slavic Studies of the
Polish Academy of Sciences, later at the faculty “Artes Liberales” of the
University of Warsaw. The first two versions of PolUKR are available
for search online at http://domeczek.pl/~polukr.
PolUKR consists of texts written originally either in Polish or
Ukrainian, i.e., it does not contain any texts translated from a third
language, but only immediate translations of its own texts. It had been
aligned at the level of sentences automatically, afterwards the alignments were edited manually. Both the Polish and Ukrainian sentences
had been supplied with the morphosyntactic layer of annotation. The
characteristic feature of PolUKR is its purpose-built morphosyntactic categorical apparatus, common for the two corpus languages, and
its morphosyntactic tagsets based on it. The tagsets are also used in
the multilingual European project MULTEXT-East (1996-2010), version 4 “MONDILEX”, available at http://nl.ijs.si/ME/V4/.
While the pilot versions of PolUKR concentrated rather on developing corpus-making technologies, in both their technical and theoretical linguistic aspects, the new version, presently developed in
cooperation with the National University of Lviv and Lviv Polytechnical University in Ukraine, aims at: 1) first of all, extending the size
of the corpus up to 30 million words (as previously, with the biggest
possible attention to original Polish or Ukrainian texts, but without
a strict limitation on this feature); 2) optimalization of the morphosyntactic description for the Ukrainian language, i.e., disambiguation
of ambiguous interpretations and extension of the grammatical dictionary for new, unknown words. Work on the shallow syntax for
Natalia Kotsyba
134
Ukrainian is also planned. PolUKR-2 will be used as a basic corpus
resource for creating a great Ukrainian-Polish dictionary with ca. 80
thousand entries.
Słowa kluczowe: korpus równoległy, język polski, język ukraiński,
tagset morfoskładniowy, MULTEXT-East, PolUKR
Keywords: parallel corpus, Polish, Ukrainian, morphosyntactic
tagset, MULTEXT-East, PolUKR
1. Wprowadzenie
Polsko-Ukraiński korpus równoległy (PolUKR) był rozwijany1 w latach 20042011 w Instytucie Slawistyki PAN oraz na wydziale „Artes Liberales” Uniwersytetu Warszawskiego najpierw jako projekt eksperymentalny. Dwuletni grant
NCN 2007-2009 oraz roczny udział jego autorów w projekcie europejskim
MONDILEX (2008-2009) umożliwiły istotny postęp projektu pod względem
jakości. Wersja pilotażowa oraz fragment pierwszej wersji PolUKRu są dostępne
do przeszukiwania pod adresem: http://domeczek.pl/~polukr.
PolUKR był wzorowany na korpusie IPIPAN (Przepiórkowski, 2004),
co oznaczało docelowo podobną strukturę, format i poziom anotacji oraz
dostępność do przeszukiwania w Internecie. Podobnie do tekstów korpusu
IPIPAN teksty w PolUKR-ze są podzielone na zdania, zaopatrzone w informacje morfoskładniowe i zapisane w formacie XML (XCES) zgodnym z TEI.
PolUKR zawiera tylko autentyczne teksty napisane w języku polskim albo ukraińskim i ich bezpośrednie tłumaczenia. Żeby zapewnić możliwie wysoką jakość
materiału korpusowego, wyrównania tekstów były dokonywane na poziomie
zdań, przy czym wyniki wyrównań automatycznych zostały sprawdzone ręcznie. W celu umożliwienia wiarygodnych badań w zakresie gramatyki konfrontatywnej opracowano i zastosowano w korpusie wspólny tagset morfoskładniowy
ze spójną anotacją dla obu języków. Wśród zadań, wykraczających poza możliwości czasowe i finansowe dotychczasowej realizacji projektu znalazło się ujednoznacznienie morfoskładniowe dla języka ukraińskiego oraz dopracowanie
wersji internetowej wyszukiwarki POSHUK. Brak dostępnych zasobów językowych (głównie dla języka ukraińskiego) oraz odpowiedniego oprogramowania
do opracowania tekstów korpusu na czas opracowania pierwszej wersji korpusu
spowodował skierowanie istotnej części wysiłków autorów i dostępnych zasobów finansowych na ich uzupełnienie. Z tym wiąże się względnie mała objętość
wersji korpusu dostępnej do przeszukiwania: do ostatecznego stadium opracowania doszło ok. 600 tys. słów z zebranych pierwotnie 3 milionów.
1 Historia powstania projektu oraz podstawowe programy, stworzone w trakcie prac nad nim
i udostępnione publicznie, zostały opisane w (Kotsyba, 2012).
Polsko-Ukraiński Korpus Równoległy PolUKR i jego następca PolUKR-2
135
2. Pozyskiwanie tekstów
Podczas pierwszych prac eksperymentalnych teksty były pozyskiwane bezpośrednio od tłumaczy albo z bibliotek internetowych. Preferowane było pierwsze źródło, ponieważ dostarczało materiały przeważnie bardzo dobrej jakości
oraz jednocześnie pozyskiwana była zgoda na publiczne wykorzystanie tekstu
za pośrednictwem wyszukiwarki. Biblioteki internetowe dziesięć lat temu oferowały o wiele skromniejsze zasoby niż obecnie nie tylko ilościowo, lecz także
pod względem jakości: obecne w nich teksty były pozyskiwane drogą skanowania i zastosowania automatycznego OCR dla źródeł papierowych; bardzo często
tak uzyskane pliki nie podlegały dalszej redakcji. Oprogramowanie, z którego
korzystano w tamtych czasach (najczęściej to był program FineReader), pozostawiało dużo błędów2. Skutkiem tego był znacznie wydłużony czas redakcji
tekstów, czasami też odrzucano teksty najgorszej jakości, ponieważ ich poprawianie było mniej opłacalne od ponownego przepisywania.
Oportunistyczne podejście do pozyskania tekstów miało wpływ na
ogólną reprezentatywność i zawartość korpusu. Z literatury pięknej znalazły
się w nim współczesne teksty postmodernistyczne, które zawierają specyficzne
słownictwo (w tekstach ukraińskich są to liczne wtrącenia takie, jak surżyk oraz
transliterowane zdania w językach obcych, głównie w języku rosyjskim), nietypową budowę zdań (w utworach współczesnych ukraińskich autorów Oksany
Zabużko i Jurija Andruchowycza nie są rzadkością ponadstronicowe zdania).
Teksty te nie odzwierciedlają typowego języka, dlatego nie są zbyt praktyczne
dla badań ogólnojęzykowych. Nietypowe teksty, jak i teksty z błędami po OCR,
czasami stwarzają więcej problemów przy przetwarzaniu przez programy, np.
surżyk i liczne neologizmy czy okazjonalizmy nie są opisane w słownikach
gramatycznych, długie rozbudowane zdania bywają trudne do podziału, a tym
samym także do sparsowania.
Otrzymane wsparcie grantowe, które umożliwiło m.in. zakup papierowych wersji utworów literatury pięknej, odzwierciedlającej język literacki,
opłacenie usług skanowania i wyczytywania tekstów po zastosowaniu OCR,
pozwoliło na dobór tekstów, który był lepiej nakierowany na przyszłe korpusowe potrzeby badawcze. Największy nacisk jednak, jak już wspomniano wyżej,
był położony na tworzenie brakującego oprogramowania oraz opracowanie
i wdrożenie zasad analizy lingwistycznej.
2 Np. FineReader 6.0 nie rozpoznawał dużej ukraińskiej litery Ї, która pojawia się na początku
np. takich wyrazów o wysokiej frekwencji jak formy zaimków „jej, ją, ich”, co skutkowało później
błędami przy podziale na zdania; numery stron trzeba było usuwać ręcznie; program też zostawiał łącznik w miejscu podziału słów na sylaby. Większość z tych wad została usunięta w późniejszych wersjach FineReadera.
136
Natalia Kotsyba
3. Oprogramowanie korpusowe3
3.1 Podział na zdania
Do podziału tekstów na zdania został utworzony program SentSplit, który
bazuje na ręcznie opisanych regułach. Jest to edytowalny skrypt w języku
Python, który umożliwia dodawanie skrótów używanych z kropką dla obu
języków w miarę ich znajdowania4. Ze względu na swoją specyfikę regułową
SentSplit ma pewne wymagania względem formatowania i zawartości tekstów
wejściowych, co stanowi dodatkowy czynnik wspomagający kontrolowanie
ich jakości. Jednocześnie wyniki podziału na zdania uzyskane przez program
trzeba często poprawiać – jednak w sytuacjach, nieprzewidzianych przez reguły,
program podaje komunikat o błędzie. Najczęściej problemy tego rodzaju są spowodowane błędami formatowania albo obecnością niealfanumerycznych znaków, które pozostają po błędach w OCR-ze.
3.2 Wyrównanie
Wyrównanie lub inaczej zrównoleglanie (ang. alignment) tekstów w wersji eksperymentalnej dokonywane było na poziomie akapitów, przy czym program do
przeszukiwania tekstów „zakładał”, że podział na akapity był identyczny w obu
wariantach językowych. Bliskość struktury tłumaczonych i oryginalnych, krótkich publicystycznych tekstów, które weszły do pilotażowej wersji korpusu,
praktycznie nie wymagała ingerencji w autorski podział na akapity. Natomiast
przy większych tekstach rozbieżności znacząco rosły. Ponadto akapity były
jednostkami tekstu, które tworzyły kontekst przy wyszukiwaniu, co nie było
specjalnie wygodne przy akapitach większych rozmiarów. W pierwszej wersji PolUKRu wyrównanie zostało dokonane już na poziomie zdań za pomocą
ogólnie dostępnego programu Hunalign (Varga et al., 2005). Wyniki działania
tego programu zawierały błędy, które były poprawiane ręcznie przez redaktorów. W tym celu został stworzony program do edycji wyrównań PLUczeK5.
Wszystkie wyrównania tekstów w PolUKR-ze zostały poprawione za pomocą
tego edytora. Dodatkowym plusem jego działania było konwertowanie tekstów
wyjściowych do standardowego formatu XML (XCES).
3.3 Morfoskładnia
Informacje morfoskładniowe dla języka polskiego zostały wprowadzone do tekstów za pomocą jednej z pierwszych wersji tagera TaKIPI, opracowanego na
3 http://www.domeczek.pl/~polukr/index.php?option=software.
4 SentSplit opiera się na dość uniwersalnych regułach budowy zdań, dlatego może być stosowany
dla innych języków, m.in. był pomyślnie sprawdzany także na tekstach angielskich, niemieckich,
francuskich, bułgarskich i rosyjskich. Autorką programu jest Oresta Tymczyszyn.
5 Program PLUczeK jest dostępny pod adresem: http://www.domeczek.pl/~polukr/parcor/
pluczek.html.
Polsko-Ukraiński Korpus Równoległy PolUKR i jego następca PolUKR-2
137
Politechnice Wrocławskiej (Piasecki, 2007). Informacje te następnie były modyfikowane i konwertowane do docelowego formatu za pomocą specjalnie stworzonego konwertera KIPI2MTE6, zob. (Kotsyba et al., 2009). Anotacja tekstów
ukraińskich została dodana za pomocą programu UGTag (Kotsyba et al., 2011),
który wykorzystuje dane Ukraińskiego Słownika Gramatycznego autorstwa
Igora Szewczenki (Шевченко et al., 2005) zmodyfikowane na potrzeby opracowanego wspólnego tagsetu.
W ramach prac nad ujednoliceniem opisów morfoskładniowych obu
języków został najpierw stworzony wspólny tagset polsko-ukraiński, wzorowany na bardziej czytelnym i intuicyjnym sposobie zapisu tagów Korpusu
IPIPAN (Kotsyba et al., 2008). W PolUKR-ze jednak ostatecznie znalazł zastosowanie inny, częściowo wzorowany na poprzednim, wspólny tagset, opracowany
w ramach wielojęzycznego (17 języków) projektu europejskiego MULTEXT-East (MTE), wersja 4 „MONDILEX”, dostępny pod adresem http://nl.ijs.si/ME/
V4/ (Erjavec, 2012) razem z przykładowym, oznakowanym za jego pomocą,
korpusem i leksykonem7.
Potrzeba wspólnego tagsetu wynikła z jednego z pierwotnie stawianych celów tworzenia korpusu, mianowicie, zastosowania go do gramatycznych
i semantycznych badań konfrontatywnych. Podobne rozumienie terminologii
morfoskładniowej w porównywanych językach jest przydatne także w szeregu
zastosowań maszynowych. Na przykład przy automatycznym generowaniu
słowników dwujęzycznych porównywane są charakterystyki morfoskładniowe
wyrazów. Wobec tego, samo podobieństwo formalne przy różnym rozumieniu
terminów albo różne nazywanie podobnych zjawisk prowadzi do powstawania
błędów, których przy uspójnionym opisie można uniknąć.
Samo ustalanie tagsetu już należy do badań konfrontatywnych. Nawet
kwestie pozornie nieskomplikowane, jak np. definicja i zakres rzeczownika,
mogą dostarczyć problemów użytkownikom korpusu równoległego, w którym
użyto różnych tagsetów8. Do informacji morfoskładniowej obu języków korpusu
wykorzystano źródła o konceptualnie odmiennych podejściach do ekstrakcji
informacji oraz jej organizacji i zapisu, a także różny stopień granulacji tych
informacji. W każdym przypadku takiego zróżnicowania trzeba było podjąć
decyzję dotyczącą docelowości kodowania informacji. Z jednej strony należało
liczyć się z ewentualną stratą informacji (czego zamierzaliśmy unikać), z drugiej
6 Konwerter jest dostępny na stronie http://www.domeczek.pl/~polukr/mte-conv/, zob. też
http://clip.ipipan.waw.pl/LRT.
7 Leksykon polski jest zmodyfikowanym i przekonwertowanym fragmentem słownika gramatycznego autorstwa Marcina Wolińskiego, Zygmunta Saloniego, Jana Tokarskiego i in. Zob. notkę:
http://nl.ijs.si/ME/V4/msd/html/msd-pl.introduction.html.
8 Problem znacznie się powiększa z rozszerzeniem o kolejne języki (Derzhanski, Kotsyba, 2009;
Rosen, 2010).
138
Natalia Kotsyba
strony pojawiła się konieczność uzupełnienia brakujących informacji w drugim
języku. Często zastosowanie takiej brzytwy Ockhama uzasadniane było nie tyle
potrzebami teoretyczno-lingwistycznymi, ile praktycznymi możliwościami. Dla
porównania podajemy wybrane statystyki, dotyczące dwóch początkowych tagsetów: tylko 6 kategorii gramatycznych9 było tożsamych formalnie; 21 kategorii
było specyficznych dla języka ukraińskiego, 23 kategorie były specyficzne dla
języka polskiego, przy czym suma kategorii w obu tagsetach stanowiła 50 jednostek. Jako przykład źródła takich różnic można przytoczyć to, że ukraiński
tagset traktował przymiotniki i przysłówki stopnia wyższego i najwyższego jako
osobne “techniczne” części mowy, podczas gdy w polskim były one opisywane
pod wspólnymi fleksemami. Oba tagsety zawierały kategorię predykatywu, ale
jej traktowanie istotnie się różniło, co czyniło formalne podobieństwo kategorii
praktycznie bezużytecznym10.
Rysunek 1. Mapowanie tagów Korpusu IPIPAN (IPIC) do tagsetu MTE-PL.
W porównaniu z tagsetem Korpusu IPI PAN stworzony tagset MTE-PL ma rozbudowany system znaczników zaimkowych, bardziej zbliżone do tradycyjnych
kategorie części mowy, ruchome końcówki i wskaźniki modalne typu „by” traktowane są w nim wspólnie z podstawą. Z 1298 oryginalnych tagów 101 otrzymało więcej niż jedną projekcję na tagset MTE: 60 tagów przymiotnikowych
otrzymało po 13 projekcji w MTE; 18 tagów substantywów – po 2–7 MTE;
9 W polskim są to odpowiednio fleksemy (Przepiórkowski, Woliński, 2003), w ukraińskim –
części mowy.
10 Predykatyw był jednym z największych źródeł problemów przy pracy nad wspólnym tagsetem ze względu na różne rozumienie tego terminu. Dla porównania: Korpus IPIPAN zawiera 26
predykatywów (wyliczenia własne za pomocą wyszukiwarki Poliqarp), Ukraiński Słownik Gramatyczny zawiera 176 predykatywów (Derzhanski, Kotsyba, 2008).
Polsko-Ukraiński Korpus Równoległy PolUKR i jego następca PolUKR-2
139
qubliki zostały podzielone na 7 kategorii z 27 tagami; predykatywy zostały
podzielone na 3 kategorie i 4 tagi (Kotsyba et al., 2009).
3.4 Wyszukiwarki dedykowane
Dla wersji pilotażowej korpusu sporządzona została prosta wyszukiwarka internetowa, która obsługiwała wówczas 35 par krótkich tekstów publicystycznych,
wyrównanych na poziomie akapitów. Możliwe było wyszukiwanie za pomocą
wyrażeń regularnych, co uzupełniało częściowo brak lematyzacji, ale język zapytań był niezbyt przyjazny dla użytkownika. Do pierwszej pełnej wersji korpusu
stworzona została w języku Java stacjonarna wyszukiwarka POSHUK, w której
zaimplementowano wyszukiwanie według metainformacji oraz prostych tagów,
zob. rys. 2. Wyszukiwarka ta później nie była rozwijana. Wśród wyszukiwarek webowych, z którymi eksperymentowano, żeby umożliwić dostęp do korpusu przez Internet, warto wymienić Park11 – jeden z pierwszych programów
tego typu projektu Intercorp12. Obecnie dostępny korpus korzysta z CWB13
i ParaVozu (Meyer et al., 2014).
Rysunek 2. Interfejs wyszukiwarki POSHUK.
11 http://parcor.ibi.uw.edu.pl/Park/. Od kwietnia 2015 roku autorzy Intercorpu całkowicie zrezygnowali z tego programu na rzecz nowej, dużo szybszej i zintegrowanej z korpusem jednojęzycznym wyszukiwarki Kontext: https://kontext.korpus.cz/.
12 http://ucnk.ff.cuni.cz/intercorp/.
13 http://cwb.sourceforge.net/.
140
Natalia Kotsyba
4. PolUKR-2
Następca tytułowego projektu, PolUKR-2, ma na celu istotne rozbudowanie ilościowe korpusu tak, aby umożliwić na szeroką skalę badania leksykologiczne
i gramatyczne, a także wspomóc prace nad powstającym dużym słownikiem
ukraińsko-polskim14. Planowana jest objętość od 10 do 30 milionów wyrazów
w zależności od możliwości finansowych. Dotychczas opracowano kolejne 6,5
milionów wyrazów. Dobrane zostały głównie oryginalne teksty polskie, napisane w XIX bądź XX wieku, i ich tłumaczenia ukraińskie. Wyrównanie nowych
tekstów zostało dokonane w ramach warsztatów tłumaczeniowych studentów
filologii polskiej (Uniwersytet Narodowy im. Iwana Franki we Lwowie). Prace
trwały przez dwa semestry (2013/2014).
Jeszcze jeden projekt badawczo-dydaktyczny skierowany na rozwiązanie problemu ujednoznaczniania został zorganizowany w ramach zajęć praktycznych w Katedrze Lingwistyki Stosowanej Politechniki Lwowskiej. Prace
z ręcznego ujednoznaczniania tekstów trwały jeden semestr (jesień 2013 r.)15.
Jednocześnie prowadzone były prace nad tworzeniem reguł ujednoznaczniania w ramach formalizmu Constraint Grammar (Karlsson, 1990). Opracowano
m.in. reguły ujednoznaczniania wybranych przyimków.
5. Podsumowanie
W ciągu ostatnich dziesięciu lat od początku prac nad projektem sytuacja
w lingwistyce korpusowej zmieniła się na korzyść: jest więcej dostępnych tekstów lepszej jakości w postaci elektronicznej, pojawiły się kolejne tłumaczenia.
Ponadto podobne projekty korpusowe są rozwijane przez wiele ośrodków, co
daje możliwość wymiany tekstów. Jakość działania programów służących do
opracowania tekstów (np. FineReader 10.0) też znacznie się poprawiła. Pojawiły
się nowe dostępne wyszukiwarki i wyrównywarki. Tendencje te są dowodem, że
wysiłki zainwestowane w teorię lingwistyczną i rozwój technologii były trafnym
posunięciem, o wiele lepszym niż ekspansja ilościowa – koszt opracowania tej
samej ilości tekstów obecnie jest dużo niższy, co znaczy, że nadszedł właściwy
czas, żeby zająć się powiększeniem korpusu. Najbardziej pozytywną zmianą jest
jednak rosnące zainteresowanie korpusami ze strony językoznawców, leksykografów, tłumaczy, co zwiększa motywację do kontynuacji prac nad projektem.
14 http://clip.ipipan.waw.pl/UkrPolDict.
15 Ilość przerobionych tekstów wciąż nie wystarcza dla danych treningowych tagera, ale planowane są kolejne prace w tym zakresie.
Polsko-Ukraiński Korpus Równoległy PolUKR i jego następca PolUKR-2
141
Literatura
Derzhanski, Ivan, Kotsyba, Natalia (2008): The Category of Predicatives in
the Light of Consistent Morphosyntactic Tagging. W: Lexicographic
Tools and Techniques, Proceedings of MONDILEX First Open Workshop,
Moscow, Russia, 3-4 October 2008, 68–79. http://domeczek.pl/:natko/
papers/ID_NK_tagSlav.pdf, (01-03-2016).
Derzhanski, Ivan, Kotsyba, Natalia (2009): Towards a Consistent Morphological Tagset for Slavic Languages: Extending MULTEXT-East for Polish,
Ukrainian and Belarusian. W: Radovan Garabík (red.): Metalanguage
and Encoding Scheme Design for Digital Lexicography. MONDILEX
Third Open Workshop, Bratislava, Slovakia, 15–16 April 2009, 9–26.
Erjavec, Tomaž (2012): MULTEXT-East: morphosyntactic resources for Central and Eastern European languages. Language Resources and Evaluation 46(1), 131–142.
Karlsson, Fred (1990): Constraint Grammar as a Framework for Parsing Unrestricted Text. W: Hans Karlgren (red.): Proceedings of the 13th International Conference of Computational Linguistics, Volume 3. Stroudsbug,
PA: Association for Computational Linguistics, 168–173.
Kotsyba, Natalia (2012): PolUKR (a Polish-Ukrainian Parallel Corpus) as
a Testbed for a Parallel Corpora Toolbox. Prace Filologiczne LXIII,
181–196.
Kotsyba, Natalia, Shypnivska, Olha, Turska, Magdalena (2008): Linguistic
principles of organizing a common morphological tagset for PolUKR
(Polish-Ukrainian Parallel Corpus). W: Mieczysław Kłopotek (red.):
Proceedings of the International Conference on Intelligent Information
Systems, 16-18 June 2008, Zakopane, Poland, 475–484.
Kotsyba, Natalia, Radziszewski, Adam, Derzhanski, Ivan (2009): Integrating the Polish language into the MULTEXT-East family: morphosyntactic specifications, converter, lexicon and corpus. W: Tomaž Erjavec
(red.): Proceedings of Research Infrastructure for Digital Lexicography:
MONDILEX Fifth Open Workshop, October 14, 2009, Ljubljana, Slovenia, 37–55.
Kotsyba, Natalia, Mykulyak, Andriy, Shevchenko Ihor V. (2011):
UGTag: morphological analyzer and tagger for Ukrainian language.
W: Stanisław Goźdź-Roszkowski (red.): Explorations across Languages
and Corpora, Frankfurt am Main: Peter Lang, 69–82.
Meyer, Roland, von Waldenfels, Ruprecht, Woźniak, Michał, Zeman,
Andreas (2006-2015): ParaVoz – a simple web interface for querying
parallel corpora. Second Version. Bern, Regensburg, Berlin, Kraków.
https://bitbucket.org/rvwfels/paravoz, (17 October 2015).
Piasecki, Maciej (2007): Polish Tagger TaKIPI: Rule Based Construction and
Optimisation. Task Quarterly 11(1-2), 151–167.
142
Natalia Kotsyba
Przepiórkowski, Adam, Woliński, Marcin (2003): A Flexemic Tagset for Polish. W: The Proceedings of the Workshop on Morphological Processing of
Slavic Languages, EACL 2003, Budapest: Association for Computational
Linguistics, 33–40.
Przepiórkowski, Adam (2004): Korpus IPI PAN. Wersja wstępna / The IPI
PAN Corpus: Preliminary version. http://nlp.ipipan.waw.pl/~adamp/
Papers/2004-corpus/, (03-03-2016).
Rosen, Alexandr (2010): Mediating between Incompatible Tagsets. W: Lars
Ahrenberg, Jörg Tiedemann and Martin Volk (red.) Proceedings of
the Workshop on Annotation and Exploitation of Parallel Corpora AEPC
2010 December 2, 2010, Tartu, Estonia, 53–62.
Varga, Daniel, Németh, Péter, Halácsy, Péter, Kornai, András, Trón, Viktor,
Nagy, Viktor (2005): Parallel corpora for medium density languages.
W: Galia Angelova, Kalina Bontcheva, Ruslan Mitkov, Nicolas
Nicolov, Nikolai Nikolov (red.) Proceedings of the International Conference on Recent Advances on Natural Language Processing, 590–596.
Шевченко, ИГорь, ШирОков, ВОлодимир, Рабулець, АЛександр (2005):
Электронный грамматический словарь украинского языка.
W: Труды международной конференции «Megaling’2005. Прикладная лингвистика в поиске новых путей». 27 июня – 2 июля 2005
года. Меганом, Крым, Украина, 124–129.
Marianna Petrincová
Univerzita Palackého v Olomouci
Wyszukiwanie ekwiwalentów
w Polsko-Słowackim Korpusie Równoległym
Searching for equivalents in the Polish-Slovak Parallel Corpus
Abstract
This paper deals with a comparison of two closely related languages, Polish and Slovak, and focuses on prefixed verbs, in the case of
which this proximity is especially visible, and which may cause problems for translators and lexicographers. In the paper the prefixed
verbs are treated as a lexicographic problem and a possible solution is
presented that involves searching for equivalents in real translations.
A small parallel Polish-Slovak corpus was created for the purpose
of this research. In the paper the process of compiling the corpus is
described, starting with the acquisition of parallel texts, through texts
processing and choosing corpus tools, and ending with the annotation and lemmatization of texts.
Next, an analysis of the equivalents of prefixed verbs found in the
corpus was carried out to measure their lexicographic potential, i.e.
their suitability to be included in the dictionary, based on their accuracy and frequency in different contexts and with different arguments.
Four different levels of lexicographic potential are distinguished: high,
average, low and zero lexicographic potential.
The paper presents the preliminary results of corpus analysis of
the lexicographic potential of the Slovak equivalents of Polish prefixed verbs which focuses on suitable lexicographic material. Since
this paper presents a small part of more extensive research on verbs
with different prefixes, only an analysis of equivalents of verbs with
prefix u- and roz- (ubierać, ubrać, ukrywać, ubolewać, rozciągać się,
rozlec się) is presented.
The last part of the paper discusses problems found along the
way, and it considers the adjustments to the evaluation process. The
problems include, among others: the size of the corpus, the number
of occurrences, the evaluation method as such (where the goal is to
adjust it so as it is the most objective method possible but without
compromising the intuitions of native or proficient speakers of the two
languages), and, finally, the inconsistency of the information provided
Marianna Petrincová
144
by the Word Sketch tool in the Sketch Engine, which produces slightly
different results for the Polish and Slovak reference corpora.
Overall, the presented analysis demonstrates how parallel corpora
can be used to improve the quality of bilingual dictionaries by providing translation equivalents from the real translations.
Słowa kluczowe: korpus równoległy, język polski, język słowacki,
ekwiwalent, czasowniki przedrostkowe, leksykografia dwujęzyczna,
transfer językowy
Keywords: parallel corpus, Polish, Slovak, equivalent, prefixed verbs,
bilingual lexicography, linguistic interference
1. Wstęp
Polsko-Słowacki Korpus Równoległy został zbudowany w celu stworzenia bazy
materiałowej do badań nad słowackimi ekwiwalentami tłumaczeniowymi polskich czasowników przedrostkowych.
Między językiem polskim i słowackim, jako bliskimi językami, często
zachodzi transfer językowy rozumiany jako naruszenie normy językowej pod
wpływem elementów z drugiego języka, polegający najczęściej na błędnym
przejmowaniu struktur gramatycznych z jednego języka do drugiego
(Marićová, 2008: 93).
Grupa słów, w której zarejestrowaliśmy wysoką częstotliwość
występowania negatywnego transferu językowego, to czasowniki przedrostkowe. Ich słowotwórstwo w obu językach jest formalnie identyczne (w obu językach poprzez dodawanie przedrostka do czasownika), zasób przedrostków jest
formalnie prawie identyczny i to samo dotyczy też podstawowych czasowników,
z których większość istnieje w obu językach tylko z małymi różnicami formalnymi. Wspominany transfer powoduje zmiany znaczeniowe czasowników przedrostkowych w obu językach. Transfer językowy z języka polskiego do języka
słowackiego często polega na użyciu słowackiego przedrostka identycznego
z polskim przedrostkiem, z tym że czasownik podstawowy jest tłumaczeniem
polskiego czasownika podstawowego lub jego słowackim homonimem. Występowanie negatywnego transferu językowego zauważyliśmy zarówno w tłumaczeniach, jak i w pracach leksykograficznych (uciąć – uťať, unosić – unášať).
Uważamy tę kwestię nie tylko za problem tłumaczeniowy, ale także leksykograficzny. Naszym celem jest wyszukanie w utworzonym korpusie równoległym wystarczającej liczby ekwiwalentów przekładowych w celu poddania ich
dalszej analizie pod kątem przydatności jako ekwiwalentów słownikowych.
Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym
145
2. Utworzenie Polsko-Słowackiego Korpusu Równoległego
Korpus równoległy utworzony został z tekstów w języku polskim i słowackim.
Korpus jest jednokierunkowy: językiem tekstów wyjściowych jest język polski, a językiem docelowym język słowacki. O jednokierunkowym charakterze
korpusu zdecydował charakter i cel pracy, którym jest wyszukiwanie ekwiwalentów słowackich.
Wybór tekstów do korpusu został uwarunkowany możliwościami
pozyskiwania tekstów równoległych w badanych językach, rodzajem tekstów,
które są tłumaczone z polskiego na słowacki, ich dostępnością, a także pożądaną jakością tłumaczenia, która może stanowić problem ze względu na bliskość języków i spowodowane tym interferencje. Z wymienionych powodów
do korpusu zostały wybrane teksty opublikowane w postaci książkowej, co
znaczy, że poza tłumaczem w tłumaczeniu brała udział przynajmniej jedna
dodatkowa osoba (redaktor, ewentualnie korektor lub weryfikator). Teksty do
korpusu uzyskane zostały bezpośrednio od tłumaczy literatury polskiej (w ten
sposób udało się pozyskać 10 książek z liczbą około 700 tysięcy słów – tokenów
w części słowackiej). Następnie nawiązano kontakt z autorami tekstów polskich.
Niestety, nie przyniosło to oczekiwanych rezultatów, gdyż udało się pozyskać
tylko jedną książkę. Kilku autorów nie miało do dyspozycji ostatecznej wersji
tekstu i poleciło kontakt z wydawnictwem. W niektórych przypadkach w ogóle
nie udało się nawiązać kontaktu z autorem. W pozostałych wypadkach kontaktowaliśmy się z wydawnictwami (Znak, W.A.B, Noir sur Blanc i Czarne),
w których, z wyjątkiem dwóch książek, udało się pozyskać wszystkie. Całkowita
liczba słów w tekstach słowackich, dla których pozyskaliśmy odpowiedniki polskie, wynosi około 610 tysięcy. Wśród tekstów książek, które ostatecznie znalazły się w korpusie, znajdują się powieści (4 książki), eseje (2 książki), literatura
faktu (1 książka) i literatura dla dzieci (1 książka). Nieco później natknęliśmy się
na polskie czasopismo Miłujcie się! wydawane w różnych wersjach językowych,
także w języku słowackim. Redakcja była chętna udostępnić nam teksty polskie i słowackie dwudziestu pięciu numerów czasopisma. Jednak ze względu na
objętość już istniejącego korpusu oraz na to, że teksty ze wspomnianego czasopisma wymagałyby poszukiwań odpowiadających sobie tekstów w poszczególnych językach (tj. tekstów wyjściowych i docelowych) na razie zrezygnowano
z ich włączenia do korpusu.
Oryginalne teksty otrzymaliśmy częściowo w formacie doc, a w większej
części w formacie pdf. Te ostatnie trzeba było zapisać jako pliki doc i formalnie
ujednolicić z tłumaczeniem. W plikach konwertowanych z formatu pdf
potrzebna była kontrola znaków diakrytycznych, a także usunięcie znaków, które
nie były częścią samego tekstu. Następnie teksty zostały zapisane w formacie
146
Marianna Petrincová
txt z kodowaniem UTF-8 i zrównoleglone na poziome zdań za pomocą oprogramowania LF_aligner opartego na oprogramowaniu hunalign, który służy
do obsługi formatów takich jak txt, doc, docx, rtf, html, pdf z formatami wyjściowymi – tmx, txt i xls. W przypadku polsko-słowackiego korpusu plik wyjściowy był w formacie xls, ze zdaniami tekstu polskiego w pierwszej kolumnie
i zdaniami słowackiego tłumaczenia w drugiej.
Rysunek1. Zrównoleglony plik xls
Rysunek 2. Sketch Engine z korpusami własnymi (powyżej) i korpusami użytkownika (poniżej)
Zrównoleglenie za pomocą oprogramowania LF_aligner jest bardzo skuteczne.
Podczas ręcznego sprawdzania znaleziono tylko kilka błędów spowodowanych
przede wszystkim niestandardowymi znakami na końcach i początkach
Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym
147
zdań (cudzysłowy, trzy kropki itp.), ewentualnie opuszczeniami całych zdań
dokonanymi przez tłumaczy. W tym przypadku polskie zdania, które znalazły
się bez tłumaczenia słowackiego, zostały usunięte.
Jako oprogramowanie korpusowe wybraliśmy komercyjne oprogramowanie online Sketch Engine, w którym można tworzyć własne korpusy, w tym
także korpusy równoległe.
Rysunek 3. Oznakowany i zlematyzowany plik wertykalny.
3. Wyszukiwanie w korpusie równoległym
Do wyszukiwania planowaliśmy wykorzystać wyrażenia regularne, dlatego
należało tekst oznakować i lematyzować. Oznakowanie i lematyzowanie zostało
wykonane w Centrum przetwarzania języka naturalnego na Wydziale Informatyki Uniwersytetu Masaryka w Brnie. Rezultatem są pliki wertykalne, które
można zapisać do Sketch Engine i w ten sposób otrzymać oznakowany i lematyzowany korpus.
Marianna Petrincová
148
Do wyszukiwania zastosowano wyrażenia regularne w formie: [lemma=”u.*” & tag=”inf.*|fin.*|praet.*|imps.*|pact.*|ppas.*|pcon.*|impt.*”], co
znaczy, że wyszukane zostały słowa z przedrostkiem u-, morfologicznie oznakowane jako bezokolicznik, czasownik w czasie teraźniejszym, czasownik w czasie
przeszłym, w formie bezosobowej czasu przeszłego, imiesłów przymiotnikowy
czynny i bierny, imiesłów przysłówkowy i czasownik w trybie rozkazującym.
Liczba znalezionych pojedynczych form jest bardzo wysoka (tysiące wystąpień dla większości przedrostków), należało więc zadecydować, które formy
będą dalej analizowane. Na wstępie z wyrażenia regularnego usunięte zostały
formy imiesłowów i jego obecna forma, tj.: [lemma=”u.*” & tag=”inf.*|fin.*|praet.*|imps.*|impt.*”]. Część mowy ekwiwalentu, jak i jego częstotliwość w tekście, też prawdopodobnie będą czynnikami decydującymi, ponieważ określają
jego zdolność do pełnienia roli ekwiwalentu słownikowego.
Do tej pory wykonano wyszukiwania i analizę czasowników
z przedrostkami u-, roz- i do-. Rezultaty pojedynczych wyszukiwań były eksportowane w formie pliku tekstowego. Następnie wykonano selekcję par ekwiwalentowych do analizy. Ze znalezionych par usunięto te, w których ekwiwalenty
są identyczne z ekwiwalentami znajdującymi się w słowniku polsko-słowackim,
ponieważ celem analizy jest znalezienie nowych ekwiwalentów. Zostały również usunięte czasowniki polskie z kombinacją liter roz-, do- lub z literą u- na
początku, w których nie pełnią one roli przedrostka (np. w czasownikach rozumować, rozumieć itp.).
4. Potencjał leksykograficzny
Ponieważ, jak wspomniano, celem analizy jest znalezienie słowackich ekwiwalentów leksykograficznych dla polskich czasowników przedrostkowych, wykonano ocenę zdolności ekwiwalentów pochodzących z korpusu równoległego
do pełnienia roli ekwiwalentu słownikowego. Ta zdolność była mierzona jako
potencjał leksykograficzny. Termin ten został zaczerpnięty od Magdaleny Perdek (Perdek, 2011: 262), która analizuje polskie ekwiwalenty angielskich czasowników frazowych. Definiuje ona potencjał leksykograficzny jako zdolność
ekwiwalentu do włączenia go do słownika. Zdolność ta opiera się na dokładności
i zdolności do zastosowania w różnych kontekstach i z różnymi argumentami.
Perdek rozróżnia cztery stopnie potencjału leksykograficznego (Perdek,
2011: 262-263):
1. Wysoki PL – synonimiczny z ekwiwalentem leksykograficznym i z bardzo wysokim zastosowaniem w różnych kontekstach i z najczęstszej
występującymi argumentami.
Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym
149
2. Średni PL – semantycznie podobny do ekwiwalentu leksykograficznego, ale ze względu na różnice w strukturze i odmienne kolokacje, ma
ograniczony zasięg.
3. Niski PL – ekwiwalent korpusowy jest tłumaczeniem wykładu, co ogranicza konteksty i argumenty, w których można go zastosować i czasami
rozszerza lub zawęża jego oryginalne znaczenie.
4. Zerowy PL – ekwiwalent korpusowy jest ograniczony tylko do jednego
kontekstu i nie jest możliwe jego rozszerzenie na więcej kontekstów lub
argumentów. Do tej grupy należą też ekwiwalenty, które są rezultatem
błędnego tłumaczenia.
5. Metoda oceny
Ocenę wykonywano w postaci identyfikacji znaczenia, w którym zastosowano
polski czasownik i jego tłumaczenie. Jako materiał referencyjny zastosowano
Słownik języka polskiego (http://sjp.pwn.pl) i słowackie słowniki dostępne online
pod adresem (slovnik.juls.savba.sk). Następnie zostało ocenione i porównane
„zachowanie” kolokacyjne polskiego i słowackiego czasownika w korpusach
referencyjnych (plTenTen12 i skTenTen11 – https://the.sketchengine.co.uk) za
pomocą narzędzia Word Sketch, które generuje automatyczny przegląd gramatycznego i kolokacyjnego „zachowywania” się słowa w tekstach. Jako leksykograficzny materiał referencyjny zastosowano Poľsko-slovenský a slovensko-poľský
slovník (Stano, Buffa, 1975).
6. Analizy ekwiwalentów tłumaczeniowych
W następnej części przedstawimy kilka przykładów analizowanych par
czasownikowych.
ubierać
I kiedy w Boże Narodzenie
ubieraliśmy drugą choinkę
– pierwszą u siebie w domu,
drugą w Oliwie...
zdobiť
Wysoki
A keď sme na Božie narodenie Obliekať
zdobili ďalšiu jedličku – prvú
u nás doma a druhú v Oliwe...
Tabela 1. Ekwiwalent tłumaczeniowy czasownika ubierać
Czasownik ubierać użyty jest w znaczeniu: ‘ozdobić, przystroić’ (Słownik języka
polskiego [s.a.]). Hasło w polsko-słowackim słowniku ma tylko jedno znaczenie
i tylko jeden ekwiwalent: obliekať (Stano, Buffa, 1975: 354). Według narzędzia
Word Sketch jedynym przedmiotem dla tego znaczenia jest właśnie rzeczownik
Marianna Petrincová
150
choinka. Słowackiego czasownika zdobiť używa się z rzeczownikami, które
są nazwami przedmiotów, takimi jak stena, fasáda, priečelie, interiér, ale też
stromček, kraslica. Ekwiwalent w tym znaczeniu ma szersze zastosowanie, ale
możemy mu przypisać wysoki potencjał leksykograficzny.
ubrać
Wrócił fagas, a za nim weszły
dwie kobiety ubrane do kostek
i w chustkach.
zahaliť
zerowy
Vrátil sa lokaj a za ním vošli
obliecť
dve ženy zahalené v šatách po
členky a v šatkách.
Tabela 2. Ekwiwalent tłumaczeniowy czasownika ubrać
Polski czasownik ubrać użyty jest w znaczeniu: ‘włożyć na kogoś ubranie, obuwie, nakrycie głowy i p. ’ (Słownik języka polskiego [s.a.]). Jak wspomnieliśmy
wcześniej, hasło w słowniku polsko-słowackim ma tylko jeden ekwiwalent
obliecť (Stano, Buffa, 1975: 354). Ekwiwalent zahaliť (okryć) jest motywowany
kontekstem do kostek i w chustkach i dobrze określa wizualny obraz, który się
nasuwa po przeczytaniu zdania. W innych zwykłych użyciach czasownika ubrać
– nie użylibyśmy tego ekwiwalentu, jeżeli nie byłby spełniony warunek odpowiedniego kontekstu.
ukrywać
Partia, bolszewicki wynalazek
wcale przez wynalazców
nieukrywany, nie była
w moim guście.
tajiť
Strana, boľševický vynález,
ktorým sa jej vynálezcovia
vôbec netajili, absolútne
nebola v mojom štýle.
średni
ukrývať, skrývať
Tabela 3. Ekwiwalent tłumaczeniowy czasownika ukrywać
Polski czasownik ukrywać użyty jest w znaczeniu: ‘nie ujawnić swoich myśli,
uczuć, zamiarów’ (Słownik języka polskiego [s.a.]). Hasło w polsko-słowackim
słowniku ma tylko jedno znaczenie z ekwiwalentami ukrývať, skrývať (Stano,
Buffa, 1975: 357). Polskiego czasownika używa się często z rzeczownikami
będącymi nazwami emocji np: radość, satysfakcja, duma, wzruszenie, pogarda,
zazdrość, zadowolenie, zachwyt, ale też z innymi, takimi jak tożsamość i orientacja. Słowackiego ekwiwalentu, według narzędzia Word Sketch, używa się
częściej z rzeczownikami takimi jak dych, nevera, tehotenstvo, orientácia, identita, a rzadziej z przedmiotami oznaczającymi uczucia. Tych ostatnich używa się
raczej z czasownikiem skrývať.
ubolewać
Walentin Rasputin,
prawdziwy wielkoruski
patriota, skądinąd autor
znakomitej prozy, ubolewa
nad wrogością świata wobec
patriotyzmu rosyjskiego.
žialiť
wysoki
Valentin Rasputin, skutočný
ľutovať (niekoho, niečo),
veľkoruský vlastenec, inak
nariekať (nad niekým, niečím)
autor vynikajúcej prózy, žiali
nad nepriateľstvom sveta voči
ruskému vlastenectvu.
Tabela 4. Ekwiwalent tłumaczeniowy czasownika ubolewać
Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym
151
Czasownik ubolewać użyty jest w znaczeniu: ‘odczuwać i wyrażać żal, współczucie lub niezadowolenie’ (Słownik języka polskiego [s.a.]). W haśle w polsko-słowackim słowniku przytoczone są ekwiwalenty ľutovať (koho, čo), nariekať (nad
kým, čím) (Stano, Buffa, 1975: 354). Według narzędzia Word Sketch czasownika
ubolewać najczęściej używa się z przyimkiem nad i łączy się z rzeczownikami:
fakt, brak, los, strata, upadek, czyli ze słowami, które zawierają semantyczną cechę
wartości negatywnej. Słowacki czasownik žialiť łączy się z kilkoma przyimkami,
z których najczęściej występuje przyimek nad, łączący się z słowami takimi jak
strata, smrť, odchod, osud, neúspech. Znów są to więc słowa z semantyczną cechą
wartości negatywnej lub takie, które mogą taką cechę nabyć w kontekście.
ubolewać
Czytam emfatyczny wstęp
Károla Kincsesa, który
ubolewa nad tym, że
żaden z fotografów, którzy
zostali w kraju, nie zrobił
światowej kariery.
vyslovovať ľútosť
Čítam emfatický úvod
Károla Kincsesa, ktorý
vyslovuje ľútosť nad tým, že
nikto spomedzi fotografov,
čo zostali doma, neurobil
svetovú kariéru.
niski
ľutovať (niekoho, niečo),
nariekať (nad niekým, niečím)
Tabela 5. Ekwiwalent tłumaczeniowy czasownika ubolewać
W tym przypadku słowackiego ekwiwalentu używa się podobnie jak polskiego
czasownika, ale zgoda znaczeniowa jest tylko częściowa, ponieważ czasownik
słowacki zawiera jedynie komponent ‘wyrażać’ natomiast nie zawiera komponentu ‘odczuwać’ (Słownik języka polskiego [s.a.]). Ze względu na tę różnicę oraz
dlatego, że ekwiwalentem jest wyrażenie składające się z kilka słów, przyznajemy mu niski potencjał leksykograficzny.
ubolewać
Odpowiadam: Myślę, że
sądy są wciąż niezawisłe, nad
czym najwyraźniej ubolewają
premier Jarosław Kaczyński
i minister sprawiedliwości
Zbigniew Ziobro.
smútiť
Odpovedám: Myslím si,
že súdy sú stále nezávislé,
nad čím evidentne smútia
premiér Jarosław Kaczyński
a minister spravodlivosti
Zbigniew Ziobro.
wysoki
ľutovať (niekoho, niečo),
nariekať (nad niekým, niečím)
Tabela 6. Ekwiwalent tłumaczeniowy czasownika ubolewać
Ekwiwalentu smútiť, podobnie jak žialiť, używa się z formami po przyimkach.
Według narzędzia Word Sketch najczęstszym przyimkiem jest za, a drugim nad.
Rzeczowniki łączące się z tymi przyimkami to przede wszystkim strata, smrť,
minulosť, osud, láska, tragédia, život. Sytuacja jest podobna jak przy ekwiwalencie žialiť, natomiast na korzyść ekwiwalentu smútiť przemawia o wiele wyższa
częstotliwość. W korpusie skTenTen11 jest ona prawie sześć razy wyższa.
Marianna Petrincová
152
ubolewać
Oto przed kilku laty
redaktor jednego z pism
katolickich o kierunku
konserwatywnym, ubolewając,
że nie przeprowadzono
szczegółowych badań
dotyczących udziału
Żydów w aparacie władzy
komunistycznej, wypowiedział
pogląd wart zacytowania:
lamentovať
Napríklad pred niekoľkými
rokmi redaktor jedného
z katolíckych konzervatívne
zameraných časopisov,
lamentujúc nad tým, že
sa neuskutočnili detailné
vyšetrovania týkajúce sa
podielu Židov v aparáte
komunistickej moci, vyslovil
názor hodný citovania:
średni
ľutovať (niekoho, niečo),
nariekať (nad niekým, niečím)
Tabela 7. Ekwiwalent tłumaczeniowy czasownika ubolewać
Ekwiwalent lamentovať najczęściej występuje razem z formami po przyimkach
z wyraźną przewagą przyimka nad, który się łączy z rzeczownikami o negatywnym nacechowaniu lub takimi, które je mogą nabyć pod wpływem kontekstu,
jak na przykład zdravotný stav, následky, situácia, nešťastie, život, osud, minulosť. Czasownik lamentovať w języku słowackim jest rzadszy i również mocniej
nacechowany niż polskie ubolewać. To potwierdza też Krátky slovník slovenského jazyka: ‚expr. nahlas prejavovať žiaľ, nespokojnosť, bolesť ap., horekovať,
bedákať, nariekať‘ (Kačala, Pisárčiková, Považaj, 2003). Ze względu na różnicę
w nacechowaniu jego potencjał leksykograficzny oceniono jako średni.
ubolewać
Dowiaduję się o artykułach
w węgierskiej skrajnie
prawicowej prasie, których
autorzy ubolewali nad tym, że
Węgry nie wykorzystały wojen
bałkańskich do odzyskania
przynajmniej części
dawnych ziem.
žalostiť
średni
Dozvedám sa o článkoch
ľutovať (niekoho, niečo),
v maďarskej krajne pravicovej nariekať (nad niekým, niečím)
tlači, ktorých autori
žalostia nad tým, že Maďari
nevyužili balkánske vojny na
znovuzískanie aspoň časti
stratených území.
Tabela 8. Ekwiwalent tłumaczeniowy czasownika ubolewać
Ekwiwalent žalostiť ma ze wszystkich przytoczonych ekwiwalentów czasownika
ubolewać najmniej wystąpień. Najczęściej występował w konstrukcjach z przyimkami, przede wszystkim z przyimkiem nad z wyrazami takimi jak: osud, sa
(sebou), ty (tebou), nespravodlivosť. Czasownik žalostiť ma w słowniku Krátky
slovník slovenského jazyka kwalifikator stylistyczny ‚kniž.‘ (książk.) i jego definicję słownikową wyrażają synonimy: ‚žialiť, smútiť, nariekať, bedákať‘ (Kačala,
Pisárčiková, Považaj, 2003). Ze względu na wyższe nacechowanie stylistyczne
jego potencjał leksykograficzny oceniono jako średni.
Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym
ubolewać
Ale jeżeli należy ubolewać nad
tym, że na froncie politycznym
w Polsce giną Żydzi, to trzeba
ubolewać również nad tym, że
giną, i to w znacznie większej
ilości, Polacy.
bedákať
Ale ak treba bedákať nad
tým, že na politickom fronte
v Poľsku sa strácajú Židia,
takisto treba bedákať aj nad
tým, že miznú, a to v oveľa
väčšom množstve, Poliaci.
153
średni
ľutovať (niekoho, niečo),
nariekať (nad niekým, niečím)
Tabela 9. Ekwiwalent tłumaczeniowy czasownika ubolewać
Ekwiwalent bedákať, podobnie jak inne tutaj przytoczone ekwiwalenty, najczęściej występuje w wyrażeniach przyimkowych z wyraźną przewagą przyimka
nad z rzeczownikami: úbohosť, nespravodlivosť, zloba, osud, bieda, nešťastie.
W porównaniu z polskim czasownikiem ubolewać czasownik słowacki bedákať
zawiera komponent semantyczny nawiązujący do czynności płakania, co
wpływa na różnicę między nimi.
rozciągać się
Widok z okna na zachód
rozciągał się aż do
ulicy Bandurskiego.
tiahnuť sa
Výhľad z okna na
západ sa tiahol až po
Bandurského ulicu.
średni
-
Tabela 10. Ekwiwalent tłumaczeniowy czasownika rozciągać się
Czasownik rozciągać się jest użyty w znaczeniu: ‘zajmować pewną przestrzeń’
(Słownik języka polskiego [s.a.]). Prototypowym ekwiwalentem dla tego znaczenia jest czasownik rozkladať sa. Najczęstszymi połączeniami polskiego czasownika rozciągać się są rzeczowniki: widok, panorama, park, krajobraz. Jeśli
spojrzymy na słowacki czasownik tiahnuť sa, wśród rzeczowników, z którymi
się łączy, nie znajdziemy rzeczownika výhľad, i tak samo odwrotnie (wśród
czasowników używanych z rzeczownikiem výhľad nie znajdziemy czasownika
tiahnuť sa (to samo potwierdzają wyszukiwania na www.google.sk.). Natomiast z innymi wspomnianymi rzeczownikami czasownik tiahnuť sa może być
używany. Są to zazwyczaj rzeczowniki, które oznaczają rodzaj krajobrazu naturalnego lub stworzonego przez człowieka – pobrežie, pláž, pohorie, hrebeň, polostrov, múr.
rozlec się
Nawiązując do stwierdzenia
Winstona Churchilla,
napisałeś, że jeśli w obecnej
Polsce gdzieś o szóstej rano
rozlegnie się dzwonek u drzwi,
to nikt już nie może być
pewny, że to tylko mleczarz.
zazvoniť
niski
V súvislosti s konštatovaním Winstona Churchilla si napísal,
že ak v súčasnom Poľsku
niekde o šiestej ráno zazvoní
zvonček pri dverách, už si
nikto nemôže byť istý, že je to
len mliekar.
Tabela 11. Ekwiwalent tłumaczeniowy czasownika rozlec się
Marianna Petrincová
154
Czasownik rozlec się użyty jest w znaczeniu ‘dać się słyszeć’ (Słownik języka polskiego [s.a.]). Ekwiwalent zazvoniť jest tłumaczeniem czasownika razem ze znaczeniem rzeczownika, z którym został użyty, jest więc kontekstowo ograniczony
do tych argumentów, które wyrażają dany dźwięk, przede wszystkim dzwon lub
dzwonek.
rozlec się
I tak trwaliśmy do północy
w ogólnej niepewności, aż
rozległ się ogłuszający huk,
słyszalny nawet w piwnicy.
rozľahnúť sa
średni
A tak sme čakali do polnoci
v úplnej neistote, až sa
rozľahol ohlušujúci huk, ktorý
bolo počuť aj v pivnici.
Tabela 12. Ekwiwalent tłumaczeniowy czasownika rozlec się
Polski czasownik rozlec się jest tu użyty w tym samym znaczeniu jak w poprzednim przykładzie. Ekwiwalent rozľahnúť sa jest ograniczony do użycia z rzeczownikami, które oznaczają bardzo głośne dźwięki lub ticho.
7. Ocena fazy pilotażowej
W analizie przedstawionej w tej prezentacji pokazano, jak równoległe korpusy mogą być zastosowane do podniesienia jakości słowników dwujęzycznych dzięki dostarczeniu ekwiwalentów tłumaczeniowych wyekscerpowanych
z przekładów. Ze względu na to, że przedstawione tu badania wciąż znajdują się
na etapie początkowym, staramy się dostosowywać procedury oceny ekwiwalentów do pojawiających się problemów. Przede wszystkim należy wziąć pod
uwagę wysoką liczbę znalezionych czasowników; zmieniono także formułę
wyrażenia regularnego. Kolejnym krokiem będzie prawdopodobnie zastosowanie metody próbkowania. Istotnym problemem jest ciągła potrzeba dostosowywania metody oceny tak, żeby była ona jak najbardziej obiektywna, ale bez
rezygnacji z wiedzy i świadomości rodzimego użytkownika badanych języków
lub użytkownika na poziomie zaawansowanym. Wreszcie ostatnim z zauważonych problemów jest jakość i ilość informacji dostarczanych przez narzędzie
Word Sketch, ponieważ wyniki, które są otrzymywane, mają umiarkowanie
odrębny charakter dla polskiego i słowackiego korpusu referencyjnego.
Mimo problemów napotykanych w trakcie prowadzenia badań, mamy
nadzieję, że otrzymany materiał będzie można wykorzystać do pracy nad przyszłymi słownikami polsko-słowackimi.
Wyszukiwanie ekwiwalentów w Polsko-Słowackim Korpusie Równoległym
155
Literatura
Kačala, Ján, Pisárčiková, Mária, Považaj, Matej (2003): Krátky slovník slovenského jazyka. 4. vydanie. slovnik.juls.savba.sk, (25-03-2015).
Marićová, Anna (2008): Slovesné predpony v slovenčine a srbčine. Báčsky Petrovec: Slovenské vydavatel.centrum.
Perdek, Magdalena (2011): English phrasal verbs in translation: A lexicographic
and corpus study of equivalence. (rozprawa doktorska). Poznań: Uniwersytet im. Adama Mickiewicza.
plTenTen12. Sketch Engine [s.a.]: http://www.sketchengine.co.uk, (25-03-2015).
skTenTen11. Sketch Engine [s.a.]: http://www.sketchengine.co.uk, (25-03-2015).
Słownik języka polskiego [s.a.]: sjp.pwn.pl, (25-03-2015).
Stano, Mikuláš, Buffa, Ferdinand (1975): Poľsko-slovenský a slovensko-poľský
slovník. –Bratislava: Slovenské pedagogické nakladateľstvo.
Krzysztof Wołk
Polsko-Japońska Akademia Technik Komputerowych, Warszawa
Emilia Rejmund
Polsko-Japońska Akademia Technik Komputerowych, Warszawa
Krzysztof Marasek
Polsko-Japońska Akademia Technik Komputerowych, Warszawa
Multi-domain machine translation enhancements
by parallel data extraction from comparable corpora
Poprawa jakości tłumaczenia maszynowego dla wielu domen
poprzez ekstrakcję danych równoległych z korpusów
porównywalnych
Streszczenie
Teksty równoległe to zasób językowy spotykany stosunkowo
rzadko, jednak stanowiący bardzo użyteczny materiał badawczy
o szerokim zastosowaniu np. podczas międzyjęzykowego wyszukiwania informacji oraz w statystycznym tłumaczeniu maszynowym.
Niniejsze badanie prezentuje i analizuje opracowane przez nas nowe
metody pozyskiwania danych z korpusów porównywalnych. Metody
te są automatyczne i działają w sposób nienadzorowany, co czyni je
użytecznymi w budowie korpusów równoległych na szeroką skalę.
W niniejszym badaniu proponujemy metodę automatycznego przeszukiwania sieci w celu zbudowania korpusów porównywalnych
zrównoleglonych na poziomie tematu, np. na podstawie danych
z Wikipedii czy strony Euronews.com. Opracowaliśmy również nowe
metody pozyskiwania równoległych zdań z danych porównywalnych
oraz proponujemy metody filtracji korpusów równoległych zdolne
selekcjonować niezgodne ze sobą lub tylko częściowo ekwiwalentne
pary zdań. Za pomocą naszych metod można pozyskać zasoby równoległe dla dowolnej pary języków. Ewaluację jakości zbudowanych
korpusów przeprowadzono poprzez analizę wpływu ich użycia na
systemy statystycznego tłumaczenia maszynowego przy wykorzystaniu typowych miar jakości tłumaczenia. Eksperymenty zostały
zaprezentowane na przykładzie pary językowej polski-angielski dla
różnego typu tekstów, tj. wykładów, rozmówek turystycznych, dialogów filmowych, zapisów posiedzeń Europarlamentu oraz tekstów
zawartych w ulotkach leków. Przetestowaliśmy także drugą metodę
tworzenia korpusów równoległych na podstawie danych z korpusów
Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek
158
porównywalnych, pozwalającą automatycznie poszerzyć istniejący
korpus zdań z danej tematyki, wykorzystując znalezione między nimi
analogie. Metoda ta nie wymaga posiadania wcześniejszych zasobów
równoległych celem stworzenia i dostosowania klasyfikatora. Wyniki
naszych eksperymentów są obiecujące. Z artykułów Wikipedii udało
się pozyskać prawie pół miliona zdań równoległych i niespełna 5.000
z portalu Euronews.com (z wykorzystaniem pierwszej z metod) oraz
114.000 z Wikipedii, wykorzystując analogie między artykułami.
Pozyskane dane wpłynęły pozytywnie na jakość tłumaczenia maszynowego, która została zmierzona popularnymi miarami automatycznymi tj. BLEU, NIST, TER oraz METEOR. Jednak dane pozyskane
automatycznie po manualnej analizie okazały się „zaszumione”, dlatego też podjęto próbę ich automatycznego przefiltrowania. Metodę
filtrowania danych zbadano, porównując jej wyniki z wynikami uzyskanymi przy zastosowaniu metody polegającej na ocenie ludzkiej,
a także badając jej wpływ na tłumaczenie maszynowe. Filtrowanie
okazało się skuteczne, gdyż polepszyło ostateczne wyniki statystycznego tłumaczenia maszynowego.
Keywords: parallel corpus, Polish, English, machine learning, comparable corpora, NLP
Słowa kluczowe: korpus równoległy, język polski, język angielski,
uczenie maszynowe, korpusy porównywalne, NLP
1. Introduction
Parallel sentences are an invaluable information resource especially for machine
translation systems as well as for other cross-lingual information-dependent
tasks. Unfortunately, such a type of data is quite rare, even for the Polish-English language pair. On the other hand, monolingual data for those languages
is accessible in far greater quantities. We can classify the similarity of data as
four main corpora types (Wu, Fung, 2005). The most rare is a parallel corpus.
It is a collection of texts, each of which is translated into one or more languages
other than the original. Such data should be aligned at least at the sentence
level. A noisy-parallel corpus contains bilingual sentences that are not perfectly
aligned or which have not been precisely translated. Nevertheless, they should
mostly contain translations of specific phrases within a document. A comparable corpus is built from non-sentence-aligned and not-translated bilingual
documents, but the documents should be topic-aligned. A quasi-comparable
corpus includes very heterogeneous and very non-parallel bilingual documents
that can – but do not have to – be topic-aligned (Wu, Fung, 2005).
In this article we present methodologies that allow us to obtain truly
parallel corpora from data sources, which have not been sentence-aligned, such
Multi-domain machine translation enhancements by parallel data extraction...
159
as noisy-parallel or comparable corpora. For this purpose, we used a set of specialized tools for obtaining, aligning, extracting and filtering text data, combined together into a pipeline that allows us to complete the task. We present
the results of our initial experiments based on text samples obtained from Wikipedia dumps and the Euronews web page. We chose Wikipedia as a source of
data because of a large number of documents that it provides (1,047,423 articles
on PL Wiki and 4,524,017 on EN Wiki at the time of writing this article). Furthermore, Wikipedia contains not only comparable documents, but also some
documents that are translations of each other. The quality of our approach is
measured by improvements in machine translation (MT) results.
The second method is based on sequential analogy detection. We seek
to obtain parallel corpora from unaligned data. Such an approach was presented in literature (Koehn, Haddow, 2012; Chu, Nakazawa, Kurohashi, 2013),
but all applications concern similar languages with similar grammars like English-French, Chinese-Japanese. We try to apply this method for English-Polish corpora. These two languages have different grammar, which makes our
approach innovative and can easily be adapted for different languages pairs. In
our approach, to enhance the quality of identified analogies, sequential analogy
clusters are sought.
2. Review of literature
The development on Statistical Machine Translation (SMT) systems for Polish
has progressed slower than for other more popular languages in recent years.
The tools used for mainstream languages were not adapted for Polish. As far as
comparable corpora are concerned, many attempts have been made (especially
for Wikipedia), but none of them for the Polish language.
Two main approaches for building comparable corpora can be distinguished. Probably the most common approach is based on the retrieval of
cross-lingual information from texts. In the second approach, source documents need to be translated using any machine translation system. The documents translated in that process are then compared with documents written in
the target language in order to find the most similar document pairs.
Skadiņa and Aker (2006) suggested obtaining only the title and some
meta-information, such as publication date and time for each document instead
of its full contents in order to reduce the cost of building the comparable corpora (CC). The cosine similarity of title term frequency vectors were used to
match titles and contents of matched pairs.
160
Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek
An interesting idea for mining parallel data from Wikipedia was
described in Adafree and de Rijke (2014). The authors propose two separate
approaches. The first idea is to use an online machine translation (MT) system
to translate Dutch Wikipedia pages into English and they try to compare original EN pages with the translated ones. The idea, however interesting, is most
likely computationally unreasonable and this is an example of the chicken-andegg problem. The second idea uses a dictionary generated from Wikipedia titles
and shared hyperlinks between documents. Unfortunately, the second method
was reported to return numerous noisy sentence pairs.
Kilgarriff, Avinesh and Pomikalek (2011) improve the BootCat method
that was proven to be fast and effective as far as corpus building is concerned.
The authors try to extend this method by adding support for multilingual data
and also present a pivot evaluation.
Interwiki links were utilized by Tyer and Pienaar (2008). Based on the
Wikipedia link structure a bilingual dictionary is extracted. In their work they
measured the mismatch between linked Wikipedia pages. They found that their
precision is about 69-92% depending on a language.
Smith, Quirk and Toutanova (2010) try to advance the state of the art
in parallel data mining by modeling document level alignment using the observation that parallel sentences can most likely be found in close proximity. They
also use annotation available on Wikipedia and an automatically induced lexicon model. The authors report precision of about 90 percent.
What is more Pal, Pakray and Naskar (2014) introduce an automatic
alignment method of parallel text fragments by using a textual entailment technique and a phrase-base Statistical Machine Translation (SMT) system. The
authors state that a significant improvement in SMT quality was obtained (an
increase in BLEU by 1.73) by using mined data.
Strotgen and Gertz (2012) introduce a document similarity measure
that is based on events. In order to count the values of this metric, documents
are modeled as sets of events that are temporal and geographical expressions are
found in the documents. Target documents are ranked based on temporal and
geographical hierarchies.
In this research a Yalign tool is used (described in detail in section 4.1).
The solution is far from perfect but after improvements that were made during
this study, it supplied the SMT systems with bi-sentences of good quality in
a reasonable amount of time.
Multi-domain machine translation enhancements by parallel data extraction...
161
3. Preparation of the data
Our procedure starts with a specialized web crawler implemented by us. Because
PL Wiki contains less data of which almost all articles have their corresponding
entries on EN Wiki, the program crawls data starting from the non-English site
first. The crawler can obtain and save bilingual articles of any language supported
by Wikipedia. The tool requires at least two Wikipedia dumps in different languages and information about language links between the articles in the dumps.
For Euronews.com another web crawler was used. It generates a database of parallel articles in two selected languages in order to collect comparable data from it.
Before a mining tool processes the data the texts must be prepared.
First, all the data is saved in a database. Secondly, the tool aligns pairs of articles
and removes the articles that do not exist in both languages from the database.
Such topic-aligned articles are filtered in order to remove any HTML, XML tags
or noisy data (tables, references, figures, etc.). Finally, bilingual documents are
tagged with a unique ID and form a topic-aligned comparable corpus.
For the experiments in statistical machine translation we choose the
domain of TED lectures, specifically the PL-EN TED1 corpora prepared for the
IWSLT (International Workshop on Spoken Language Translation) 2013 evaluation campaign by the FBK (Fondazione Bruno Kessler). This domain is very
wide and covers many subjects and areas. The data contains almost 2,5M untokenized words (Cetollo, Girardi, Federico, 2012). Additionally, we choose two
more narrow domains: The first parallel corpus is made out of PDF documents
from the European Medicines Agency (EMEA) and medicine leaflets (Tiedemann, 2009). The second was extracted from the proceedings of the European
Parliament (EUP) (Tiedemann, 2012). We also conducted experiments on the
Basic Travel Expression Corpus (BTEC), a multilingual speech corpus containing
tourism-related sentences similar to those that are usually found in phrasebooks
for tourists going abroad (Marasek, 2012). Lastly, we used a corpus built from
the movie subtitles Open Subtitles (OPEN) (Tiedemann, 2009). Table 1 presents
details of the numbers of unique words (WORDS) and their forms as well as of
the numbers of bilingual sentence pairs (PAIRS) in each of the corpora.
CORPORA
BTEC
TED
EMEA
EUP
OPEN
Table 1. Corpora specification
1 https://www.ted.com/talks
PL WORDS
50,782
218,426
148,230
311,654
1,236,088
EN WORDS
24,662
104,117
109,361
136,597
749,300
PAIRS
220,730
151,288
1,046,764
632,565
33,570,553
162
Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek
As mentioned, our procedure can be divided into three main steps. First the
data is collected, then it is aligned at the article level, and lastly the results of
the alignment are mined for parallel sentences. The last two steps are not trivial
because of the disparities between Wikipedia documents. Based on the Wikipedia statistics we know that an average article on PL Wiki contains about 379
words, whereas on EN Wiki it has 590 words. The corpus might also contain
imprecise or indirect translations or totally new texts making the alignment difficult. Thus, alignment is crucial for accuracy of the mining process. Sentence
alignment must also be computationally feasible in order to be of practical use
in various applications.
The Polish language presents a particular challenge to the application
of such tools. It is a complicated West-Slavic language with relatively complex
lexical elements and complicated grammatical rules. In addition, Polish has
a large vocabulary due to prefixes and many endings representing word declension. These characteristics have a significant impact on the data and data structure requirements.
In contrast, English is a position-sensitive language. The syntactic order
(the order of words in a sentence) plays a significant role, and inflection of
words is limited (due to the lack of declension endings). The position of a word
in an English sentence is often the only indicator of its function. The sentence
order follows the Subject-Verb-Object (SVO) schema, with the subject phrase
preceding the predicate. On the other hand, no specific word order is imposed
in Polish, and the word order has little effect on the meaning of a sentence. The
same idea can be expressed in several ways. It must be noted that such differences exist in many language pairs and need to be dealt with in some way (Wołk,
Marasek, 2013a).
With this methodology we were able to obtain 4,498 topic-aligned articles from Euronews and 492,906 from Wikipedia.
4. Parallel data mining
In order to extract parallel sentence pairs, we decided to try two different strategies. The first one is facilitated by the Yalign tool2 and the second is based on
analogy detection. The MT results we present in this article were obtained with
the first strategy. The second method is still in its development phase, nevertheless the initial results are promising and worth mentioning.
2 https://github.com/machinalis/yalign
Multi-domain machine translation enhancements by parallel data extraction...
163
4.1 The Yalign tool
The Yalign tool was designed in order to automate the parallel text mining process by finding sentences that are close translation matches from the comparable
corpora. This opens up avenues for harvesting parallel corpora from comparable sources like bilingual documents and the web. What is more, Yalign is not
limited to any language pair, however the creation of unique alignment models
for two required languages is necessary.
The Yalign tool was implemented using a sentence similarity metric that
produces a rough estimate (a number between 0 and 1) of how likely it is for
two sentences to be a translation of each other. Additionally, it uses a sequence
aligner that produces an alignment that maximizes the sum of the individual
(per sentence pair) similarities between two documents. Yalign’s algorithm is
actually a wrapper before the standard sequence alignment algorithm3.
For the sequence alignment, Yalign uses a variation of the Needleman-Wunch algorithm4 (originally used for DNA sequences) to find an optimal
alignment between the sentences in two given documents. The algorithm has
polynomial time worst-case complexity and it produces an optimal alignment.
Unfortunately, it cannot handle alignments that cross each other or alignments
from two sentences into a single one4.
Since the sentence similarity calculation is a computationally-expensive operation, the implemented variation of the Needleman-Wunch algorithm
uses the A* approach to explore the search space instead of using the classical
dynamic programming method that would require N * M calls to the sentence
similarity matrix.
After the alignment, only sentences that have a high probability of being
translations of each other are included in the final alignment. The result is filtered
in order to deliver high quality alignments. To do this, a threshold value is used,
such that if the sentence similarity metric is too low, the pair is excluded. For
the sentence similarity metric, the algorithm uses a statistical classifier’s likelihood output and adapts it into the <0,1> range. The classifier must be trained in
order to determine if a pair of sentences is a translation of each other or not. The
particular classifier used in the Yalign project was the Support Vector Machine
(SVM). Besides being an excellent classifier, SVMs can provide a distance to
the separation hyperplane during classification, and this distance can be easily
modified using the Sigmoid Function to return the likelihood between 0 and 1
3 http://yalign.readthedocs.org/en/latest/
4 https://www.cs.utoronto.ca/~brudno/bcb410/lec2notes.pdf
164
Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek
(Thorsten, 2005). The use of a classifier means that the quality of the alignment
depends not only on the input but also on the quality of the trained classifier.
Unfortunately, the Yalign tool is not computationally feasible when
large-scale parallel data mining is concerned. The standard implementation
accepts as input plain text or web links that need to be accepted, and for each
pair alignment the classifier is loaded into memory. In addition, Yalign is single-threaded. In order to improve the performance, we developed a solution
that supplies Yalign tool with articles from the database within one session, with
no need to reload the classifier each time. What is more, our solution facilitated
multithreading and proved to increase the mining time by the factor of 5 (using
a 4 core, 8 thread Core i7 CPU).
To train the classifier, a good quality parallel data was necessary as well
as a dictionary with translation probabilities included. For this purpose, we
used TED talks (Cetollo, Girardi, Federico, 2012) corpora enhanced by us during the IWSLT’13 Evaluation Campaign (Wołk, Marasek, 2013a). In order to
obtain a dictionary, we built a phrase table and extracted 1-grams from it. We
used the MGIZA++ tool for word and phrase alignment. The lexical reordering was set to use the msd-bidirectional-fe method and the symmetrisation
method was set to grow-diag-final and for word alignment processing (Wołk,
Marasek, 2013). We used the four previously-described corpora as bilingual
training data. We obtained four different classifiers and repeated mining procedure with each of them.
Using this method, we successfully mined about 80MB corpora from
Wikipedia and 0,3MB from Euronews. Each of the parallel data sets were combined together into one big corpus on which the MT experiments were conducted. The detailed results for Wikipedia are presented in Table 2.
During the empirical research we realized that, as in the case of machine
translation in which different results and quality measures are obtained depending on whether the system was trained from foreign to native language or opposite, Yalign suffers from a similar problem. In order to cover as much parallel
data as possible during mining, it is also necessary to train the classifiers bidirectionally as far as specific language pairs are concerned. By doing so, additional bi-sentences can be found. Some of them will be repeated, however, in
our opinion, the potential increase of the size of parallel corpora is worth that
effort. Table 3 demonstrates how many sentences were obtained in the second
phase of mining as well as how many of them were overlapping. The number of
additionally-mined data is counted as well.
Multi-domain machine translation enhancements by parallel data extraction...
Classifier Value
TED
Size in MB
No. of sentences
No. of words
No. of unique words
BTEC
Size in MB
No. of sentences
No. of words
No. of unique words
EMEA
Size in MB
No. of sentences
No. of words
No. of unique words
EUP
Size in MB
No. of sentences
No. of words
No. of unique words
OPEN
Size in MB
No. of sentences
No. of words
No. of unique words
165
PL
41,0
357,931
5,677,504
812,370
3,2
41,737
439,550
139,454
0,15
1,507
18,301
7,162
8,0
74,295
1,118,167
257,338
5,8
25,704
779,420
219,965
EN
41,2
357,931
6,372,017
741,463
3,2
41,737
473,084
127,820
0,14
1,507
21,616
5,352
8,1
74,295
1,203,307
242,899
5,7
25,704
854,106
198,599
Table 2. Data mined from Wikipedia for each classifier
Classifier
TED
BTEC
EMEA
EUP
OPEN
Value
Recognized sentences
Overlapping sentences
Newly obtained
Recognized sentences
Overlapping sentences
Newly obtained
Recognized sentences
Overlapping sentences
Newly obtained
Recognized sentences
Overlapping sentences
Newly obtained
Recognized sentences
Overlapping sentences
Newly obtained
Table 3. Corpora statistics obtained in the second mining phase
Data Mined
132,611
61,276
71,335
12,447
9,334
3,113
762
683
79
23, 952
21,304
2,648
11,751
7,936
3,815
Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek
166
4.2 The analogy-based method
This method is based on sequential analogy detection. Based on a parallel corpus we detect analogies that exists between both languages. In order to enhance
the quality of identified analogies, sequential analogy clusters are sought.
However, our current research on the Wikipedia corpora shows that
it is both extremely difficult and machine-time-consuming to seek clusters of
higher orders. Therefore, we limited our search to simple analogies such as A is
to B in the same way as C is to D.
A:B::C:D
Such analogies are found using distance calculation. We seek such sentences
that:
dist(A,B)=dist(C,D)
and
dist(A,C)=dist(B,D)
An additional constrain was added that requires the same relation of occurrences of each character in the sentences. For example, if the number of character “a” in sentence A is equal to x and equal to y in sentence B then the same
relation must occur in sentences C and D.
We used the Levenshtein metric in our distance calculation. We tried to
apply it directly to the characters in a sentence, or consider each word in a sentence as an individual symbol, and calculate the Levenshtein distance between
symbol-coded sentences. The latter method was employed because it had earlier
been tested on the Chinese and Japanese languages (Yang, Lepage, 2014) which
use symbols to represent entire words.
After clustering, the data from clusters are compared to each other to
find similarities between them. For each four sentences
A:B::C:D
we look for such E and F that:
C:D::E:F and E:F::A:B
However, no such sentences were found in our corpus, therefore we limited
our analysis to small clusters of the size of 2 pairs of sentences. In every cluster,
matching sentences from the parallel corpus were identified. It let us generate
new sentences similar to the ones which are in our corpus and add them to
the resulting data set. For each of sequential analogies which were identified,
Multi-domain machine translation enhancements by parallel data extraction...
167
a rewriting model is constructed. This is achieved by string manipulation. Common prefixes and suffixes for each of the sentence pairs are calculated using the
LCS (Longest Common Subsequence) method.
A sample of the rewriting model is shown in this example (the prefix
and the suffix are shown in bold)
Poproszę koc i poduszkę. ↔ A blanket and a pillow, please.
Czy mogę poprosić o śmietankę i cukier? ↔ Can I have cream and sugar?
The rewriting model consists of a prefix, a suffix and their translation. It is now
possible to construct a parallel corpus form a non-parallel monolingual source.
Each sentence in the corpus is tested for a match with the model. If a sentence
contains a prefix and a suffix, it is considered a matching sentence.
Poproszę bilet. ↔ A unknown, please.
In the matched sentence some of the words remain untranslated but the general
meaning of the sentence is conveyed. Remaining words may be translated wordby-word while the translated sentence will remain grammatically correct.
bilet ↔ ticket
By substituting unknown words with their translations, we are able to create
a parallel corpus entry.
Poproszę bilet. ↔ A ticket, please.
As a result of the sequential analogy-detection-based method we mined 8,128
models from our Wikipedia parallel corpus. This enabled us to generate 114,000
new sentence pairs to build a parallel corpus. The sentences were generated from
the Wikipedia comparable corpus that contains extracts of Wikipedia articles.
Therefore, we have articles in Polish and English on the same topic, but sentences are not aligned in any particular way. We use rewriting models to match
sentences from the Polish article to sentences in English. Whenever the model
can be successfully applied to a pair of sentences, this pair is considered to be
parallel resulting in the generation of a quasi-parallel corpus (‘quasi’, since the
sentences are aligned artificially using the approach described above). These
parallel sentences can be used to extend parallel corpora in order to improve the
quality of the SMT system.
168
Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek
5. Evaluation
In order to evaluate the corpora, we divided each corpus into 200 segments and
randomly selected 10 sentences from each segment. This methodology ensured
that the test sets covered the entire corpus. The selected sentences were removed
from the corpora. We trained the baseline system, as well as the system with
extended training data with the Wikipedia corpora and next we used Modified
Moore Levis Filtering for the Wikipedia corpora domain adaptation. Additionally,
we used the monolingual part of the corpora as a language model and we tried
to adapt it for each corpus by using linear interpolation (Koehn, Haddow, 2012).
Summing up, the evaluation was done using test sets built from 2,000
randomly selected bi-sentences taken from each domain. For scoring purposes
we used four well-known metrics that show high correlations with human
judgments. Among the commonly used SMT metrics are: Bilingual Evaluation
Understudy (BLEU), the U.S. National Institute of Standards & Technology
(NIST) metric, the Metric for Evaluation of Translation with Explicit Ordering
(METEOR), and Translation Error Rate (TER).
According to Tiedemann (2012) BLEU uses textual phrases of varying
length to match SMT and reference translations. The scoring with this metric is
determined by the weighted averages of these matches.
To evaluate infrequently-used words, the NIST (Wołk, Marasek, 2014a)
metric scores the translation of such words higher and uses the arithmetic mean
of n-gram matches. Smaller differences in phrase length incur a smaller brevity
penalty. This metric has shown advantages over the BLEU metric.
The METEOR (Wołk, Marasek, 2014a) metric also changes the
brevity penalty used by BLEU, uses the arithmetic mean like NIST, and
considers matches in word order through examination of higher order
n-grams. These changes increase the score based on recall. This metric also
considers best matches against multiple reference translations when evaluating the SMT output.
TER (Wołk, Marasek, 2014a) compares the SMT and reference translations to determine the minimum number of edits a human would need to make
the sentence pairs equivalent in both fluency and semantics. The closest match
to a reference translation is used in this metric. There are several types of edits
considered: word deletion, word insertion, word order, word substitution, and
phrase order.
Multi-domain machine translation enhancements by parallel data extraction...
169
6. Experimental results
A set of experiments was performed to evaluate various versions for our SMT
systems. Each experiment involved a number of steps. The corpora were processed, including tokenization, cleaning, factorization, lowercasing, splitting,
and final cleaning after splitting. Training data was processed, and the language
model was developed. Tuning was performed for each experiment. Lastly, the
experiments were carried out.
The baseline system testing was done using the Moses open source
SMT toolkit with its Experiment Management System (EMS) (Wołk,
Marasek, 2013b). The SRI Language Modeling Toolkit (SRILM) (Wołk,
Marasek, 2013b) with an interpolated version of the Kneser-Key discounting
(–interpolate –unk –kndiscount) was used for 5-gram language model training.
We used the MGIZA++ tool for word and phrase alignment. KenLM (Heafield
et al., 2013) was used to binarize the language model, with a lexical reordering
using the msd-bidirectional-fe model. The symmetrisation method was set to
grow-diag-final-and for word alignment processing.
Starting from baseline systems (BASE) tests in the PL to EN and EN to
PL directions, we improved translation score through:
•
extending the language model (LM),
•
interpolating it (ILM)
•
extending corpora with additional data (EXT)
•
filtering additional data with Modified Moore Levis Filtering (MML)
(Koehn, Haddow, 2012).
It must be noted that the extension of language models was done on the systems
with the corpora after MML filtration. The results of the experiments are shown
in Tables 4 and 5.
Corpus
TED
BTEC
System
BASE
EXT
MML
LM
ILM
BASE
EXT
MML
LM
ILM
BLEU
16,96
16,96
16,84
17,14
17,64
11,20
12,96
12,80
13,23
13,60
NIST
5,26
5,29
5,25
5,27
5,48
3,38
3,72
3,71
3,78
3,88
TER
67,10
66,53
67,55
67,66
64,35
77,35
74,58
76,12
75,68
74,96
METEOR
49,42
49,66
49,31
49,95
51,19
33,20
38,69
38,40
39,16
39,94
Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek
170
Corpus
EMEA
EUP
OPEN
System
BASE
EXT
MML
LM
ILM
BASE
EXT
MML
LM
ILM
BASE
EXT
MML
LM
ILM
BLEU
62,60
62,41
62,72
62,90
62,93
36,73
36,16
36,66
36,69
36,72
64,54
65,49
65,16
65,53
65,87
NIST
10,19
10,18
10,24
10,24
10,27
8,38
8,24
8,32
8,34
8,34
9,61
9,73
9,62
9,70
9,74
TER
36,06
36,15
35,98
35,73
35,48
47,10
47,89
47,25
47,13
47,28
32,38
32,49
33,79
32,94
32,89
METEOR
77,48
77,27
77,47
77,63
77,87
70,94
70,37
70,65
70,67
70,79
77,29
77,27
76,45
77,00
77,08
NIST
3,95
3,84
3,97
4,01
4,14
2,73
2,71
2,74
2,78
2,86
9,41
9,28
9,26
9,23
9,30
6,54
6,38
6,38
6,33
6,41
5,46
5,46
5,46
5,46
5,46
TER
74,87
75,67
74,12
73,93
73,12
85,27
84,45
83,84
82,30
82,65
40,88
42,15
42,18
42,58
42,05
58,08
59,40
59,34
59,74
59,27
62,24
62,06
62,13
62,61
62,43
METEOR
33,64
33,80
33,77
34,12
34,23
27,22
27,14
27,30
27,39
28,29
70,38
69,47
69,23
69,10
69,61
48,46
47,44
47,40
47,24
47,64
47,47
47,26
47,31
47,29
47,33
Table 4. Polish to English MT experiments
Corpus
TED
BTEC
EMEA
EUP
OPEN
System
BASE
EXT
MML
LM
ILM
BASE
EXT
MML
LM
ILM
BASE
EXT
MML
LM
ILM
BASE
EXT
MML
LM
ILM
BASE
EXT
MML
LM
ILM
BLEU
10,99
10,86
11,01
11,54
11,86
8,66
8,46
8,50
8,76
9,13
56,39
55,61
55,52
55,38
55,62
25,74
24,93
24,88
24,64
24,94
31,55
31,49
31,33
31,22
31,39
Table 5. English to Polish MT experiments
Multi-domain machine translation enhancements by parallel data extraction...
171
The results shown in Tables 4 and 5, specifically the BLEU, Meteor and TER
values in the TED corpus, were checked for relevant differences. We measured
the variance due to the BASE and MML set selection. It was calculated using
bootstrap resampling5 for each test run. The result for BLEU was 0.5, and 0.3
and 0.6 for METEOR and TER respectively. The results over 0 mean that there is
a significant difference between the test sets and it indicates that a difference of
this magnitude is likely to be generated again by a random translation process,
which would most likely lead to better translation results in general. (Clark,
Dyer, Lavie, Smith, 2011)
In order to verify above conclusion, we decided to train an SMT system
using only data extracted from comparable corpora (not using the original in
domain data). The mined data were used also as a language model. The evaluation was conducted on the same test sets that were used in Tables 4 and 5. We
wanted to check how such a system would cope with a translation of domain
specific text samples. This experiment would possibly verify the influence of
additional data on translation quality and analyze the similarity between mined
data and in-domain data. Tables 6 and 7 present these results. The rows named
BASE show the results for baseline systems trained on original in-domain data,
the rows named MONO show systems trained only on mined data in one direction, and finally the rows named BI present the results for system trained on
data mined in two directions with duplicate segments removed.
Corpus
TED
BTEC
EMEA
EUP
OPEN
System
BASE
MONO
BI
BASE
MONO
BI
BASE
MONO
BI
BASE
MONO
BI
BASE
MONO
BI
BLEU
16,96
10,66
11,90
8,66
8,46
8,50
56,39
13,72
14,07
25,74
15,52
16,61
31,55
9,90
10,67
NIST
5,24
4,13
4,13
2,73
2,71
2,74
9,41
3,95
4,05
6,54
5,07
5,24
5,46
3,08
3,21
Table 6. PL to EN translation results using bi-directional mined data
5 https://github.com/jhclark/multeval
TER
67,04
74,63
74,59
85,27
84,45
83,84
40,88
89,58
89,12
58,08
7155
71,08
62,24
84,02
83,12
METEOR
49,40
41,02
42,46
27,22
27,14
27,30
70,38
39,23
40,22
48,46
51,01
52,49
47,47
32,88
34,35
Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek
172
Corpus
TED
BTEC
EMEA
EUP
OPEN
System
BASE
MONO
BI
BASE
MONO
BI
BASE
MONO
BI
BASE
MONO
BI
BASE
MONO
BI
BLEU
9,97
6,90
7,14
8,66
8,46
8,76
56,39
13,66
13,64
25,74
9,92
9,35
31,55
6,32
6,53
NIST
3,87
3,09
3,18
2,73
2,71
2,78
9,41
3,95
3,93
6,54
4,10
4,02
5,46
2,23
2,27
TER
75,36
81,21
78,83
85,27
84,45
82,30
40,88
77,82
77,47
58,08
72,51
72,54
62,24
92,40
89,03
METEOR
32,82
27,00
27,76
27,22
27,14
27,39
70,38
32,16
32,83
48,46
32,06
31,65
47,47
22,72
22,94
Table 7. EN to PL translation results using bi-directional mined data
The results of SMT systems based only on mined data were not surprising.
Firstly, they confirm the quality and a high level of parallelism of the corpora
that can be concluded from the high translation quality measured during experiments, especially for the TED data set. Only a two- BLEU-point gap can be
observed when comparing the systems trained on the strict in-domain (TED)
data and the mined data, when it comes to the EN – PL translation system.
It lso seems natural that the best SMT scores were obtained on the TED data. It
is not only most similar to the Wikipedia articles and overlaps with it in many
topics, but also the Yalign’s classifier trained on the TED data set recognized
most of parallel sentences. In consequence it can also be observed that the
METEOR metric rises in some cases whereas other metrics decrease. The most
likely reason for this is the fact that other metrics suffer, in comparison to the
METEOR, from the lack of scoring mechanism for synonyms. Wikipedia is very
rich not only when we consider its topics but also its vocabulary, which leads
to a conclusion that mined corpora are a good source for extending sparse text
domains. It is also the reason why the test sets originating from wide domains
outscore narrow-domain ones. In addition, it is the most likely explanation why
sometimes training on larger mined data slightly decreases results on test sets
from very specific domains. Nonetheless, it must be noted that after a manual
analysis we conceded that in many cases translations were good but automatic
metric became lower because of the usage of synonyms. We also confirm once
more that bi-directional mining has a positive influence on the output corpora.
Multi-domain machine translation enhancements by parallel data extraction...
173
Using the corpus of sentences generated with the analogy detection
method, we obtained results presented in Table 8. We used the TED corpus
for the experiments. Expanding the corpus with newly-generated sentences
gave decreased results for all metrics. We seek a reason of this phenomenon
and as a solution we tried to use sentences generated by the analogy method as
a training corpus. The results of the experiment with the corpus obtained by this
approach are presented in Table 8.
PL-EN
TED Baseline
Analogy corpus
EN-PL
TED Baseline
Analogy corpus
BLEU
19,69
16,44
BLEU
9,97
9,74
NIST
5,24
5,15
NIST
3,87
3,84
TER
67,04
68,05
TER
75,36
75,21
MET
49,40
49,02
MET
32,82
32,55
Table 8. Results on the TED corpus trained with an additional analogy based corpus
As a reason of such results we conclude that the analogy method is designed
to extend existing parallel corpora from non-parallel data available. However,
in order to establish a meaningful baseline, we decided to test a noisy-parallel
corpus mined independently using this method. Therefore, the results are less
favorable then the ones obtained using the Yalign method. Had we done otherwise, filtering effects would not have shown up in the test scores as the corpora
differ significantly in size. As a solution to this problem, we decided to apply two
different methods of filtering described in more detail in section 7.
7. Discussion and conclusions
Nowadays, bi-sentence extraction is becoming increasingly popular in unsupervised learning for numerous specific tasks. The method overcomes the disparities between English and Polish or any other West-Slavic languages. It is
a language independent method that can easily be adjusted to a new environment, and it only requires parallel corpora for initial training. The experiments
show that the method performs well. The obtained corpora increased the MT
quality in wide text domains. A decrease or very small score differences in narrow domains are understandable because such a wide text domain as Wikipedia
most likely adds unnecessary n-grams to a very specific domain that do not exist
in test sets. Nonetheless, we can assume that even small differences can have
a positive influence on real-life rare translation scenarios. In addition, we have
demonstrated that mining data using two classifiers trained from a foreign to
native (PL to EN) language and in the opposite direction (EN to PL) can significantly improve the quantity of the mined data even if some repetition occurs.
174
Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek
Such bi-directional mining, which is logical, found additional data mostly for
domains if wide range. In narrow text domains, the potential gain was not
worth the effort. From the practical point of view, the method neither requires
expensive training nor requires language-specific grammatical resources, while
producing satisfactory results. We are able to replicate such mining for any language pair or text domain.
Nevertheless, there is still some room for improvement in two areas. In
the presented experiments the amount of obtained data is not completely satisfactory. It must be mentioned that the classifier that was trained on the wide
TED Talks corpora provided the biggest parallel corpus. When the classifier was
trained with corpora from other narrow domains, like e.g. proceedings of the
European parliament, medical texts, etc., the results of mining differed in size
and content. The texts were narrowed just to the scope of one specific domain.
Although a small improvement in translation quality was demonstrated, the
limitation of the classifier domain provided data that did not extend the original
corpora, as we had anticipated. Because of that it is of interest to train universal
models and combine extracted corpora together in order to cover more translation scenarios. Moreover, developing a tuning script for acceptance parameters
in the Yalign tool would most likely provide better results.
Unfortunately, it has to be noted that the final corpora contain noisy
data. They contain mostly good translations but also some badly-aligned ones
as well as some that are about the same topic but the translation is far too indirect to improve the MT quality. This is also the most likely reason for a small
decrease in translation quality for tnarrow text domains. Filtering out such
noisy data would certainly improve the influence of corpora on translations. We
are currently working on a tool that should be able to filter such data.
Our strategy is to find a correct translation of each Polish line using any
translation engine. We translate all lines of the Polish file (src.pl) with a translator and put each translation line in an intermediate English translation file (src.
trans). This intermediate translation helps us find the correct line in the English
translation file (src.en) and put it in the correct position or remove incorrect
pairs from the corpora. However, there are additional complexities that must
be addressed. Comparing the src.trans lines with the src.en lines is not easy,
and it becomes harder when we want to use the similarity rate to choose the
correct, real-world translations. There are many strategies to compare two sentences. We can split each sentence into tokens and find the number of words in
both sentences. However, this approach has some problems. For example, let
us compare “It is origami.” to these sentences: “The common term origami is
about how we use paper to create a form from it.” and “This is origami.” Is such
Multi-domain machine translation enhancements by parallel data extraction...
175
a case a sentence “This is origami.” would be considered as less similar, which is
obviously wrong.
Firstly, it is necessary to deal with stop words before comparing two
sentences. Another problem is that sometimes we find words with the same
stem in sentences, for example “boy” and “boys.” The next comparison problem
is word order in sentences, which is free in the Polish language. During the comparison phase synonyms should also be taken into account.
For finding equivalent words we used the NTLK Python module and
WordNet6 in order to find synonyms for each word and to use these synonyms
in comparing sentences. Using synonyms for each word, we created multiple sentences from each original sentence and compared them as a many-tomany relation.
To obtain the best results, our script makes it possible to have multiple functions with multiple acceptance rates. Fast functions with lower quality
results are tested first. If they can find results with a very high acceptance rate,
we accept their selection. If the acceptance rate is not sufficient, we use slower
but higher accuracy functions (Wołk, Marasek, 2014b).
The data is quite noisy and the corpora contain redundant parallel lines
that contain just numbers or symbols. Additionally, it is easy to find improper
translations e.g. “U.S. Dept.” is surely not a translation of the sentence “Na
początku lat 30”, which in Polish means “At the beginning of the 30s”. What
is more, some translations are too indirect or too distinct from each other. An
example to such a pair can be “In all other cases it is true.” and “W przeciwnym
razie alternatywa zdań jest fałszywa.”, which in Polish means “Otherwise, the
alternative of the sentences is false.”.
Although most of the corpora contain good translations, the problematic data should be removed. We conducted an initial experiment based on
1,000 randomly selected bi-sentences from the corpora. The data was processed
by our filtering tool. Most of the noisy data was removed, but also some good
translations were lost. Nevertheless, results are promising and we intend to filter
the entire corpora in the future. It also must be noted that the filtering tool was
not adjusted to this specific text domain. The results are presented in Table 9.
Number of sentences in the base corpus
Number of poor sentences in the test corpus
Number of filtered poor sentences
Number of filtered good sentences
Table 9. Initial filtering results
6 http://www.nltk.org/howto/wordnet.html
1000
182
154
12
Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek
176
We do not find the analogy-based results satisfactory. The reason is the low
quality of the newly generated corpus. In our opinion the problem is that, in
contrast with the Yalign method, the analogy-based method does not mine
domain specific data. Additionally, we noticed that it suffers from duplicates
and a relatively big amount of noisy data. As a solution to this problem, we
decided to apply two different methods of filtering. The first one is easy, based
on length of sentences in a corpus. We removed duplicates and very short (fewer
than 10 characters) sentences as non-significant. As a result, we obtained 58,590
sentences in the corpus. We report the results in Table 11 as FL1 results. Secondly, we applied the filtration method described above (FL2). The results are
showed in Table 11. The number of unique EN tokens before filtration was equal
to 137,262 and PL to 139,408, after filtration we obtained 28,054 and 22,084
unique tokens respectively. Such filtrations improved SMT results concerning
the analogy-based corpora showed in Table 11.
Number of sentences in the base corpus
Number of rewriting models
Bi- sentences in the base corpus
Bi-sentences after duplicates removal
Remaining bi-sentences after filtration (FL1)
Remaining bi-sentences after filtration (FL2)
3 800 000
8128
114107
64080
58590
6557
Table 10. Filtration results of the analogy-based method (number of bi-sentences)
In order to evaluate the influence of filtration on the analogy-based corpora, we
trained SMT systems for each of the domains described above. The low SMT
results confirmed our opinion that the obtained corpus is not domain specific
and that it can be used for general purposes. The results are presented in Table
11. The row meanings are the same as in Table 10. An interesting fact is that the
EMEA test set provided higher baseline and filtered results. The source of such
a phenomenon can be attributed to the similarity between the textual content of
the Wikipedia and EMEA corpora.
TED
Analogy corpus
FL1
FL2
EUP
Analogy corpus
FL1
FL2
BLEU
PL-EN
NIST
TER
MET
BLEU
EN-PL
NIST
TER
MET
1,87
1,26
1,91
1,55
1,02
1,70
93,92
87,94
91,62
17,88
14,15
18,98
0.91
0.96
1.02 0.97
1.02
0.97
99.68
99.48
94.45
10.77
11.19
11.40
3,35
2,08
2,64
1,96
1,49
1,79
94,49
90,21
90,53
22,63
13,67
20,08
2.06
2.08
1.90
1.38
1.49
1.24
96.44
90.21
99.21
12.88
13,67
12.82
Multi-domain machine translation enhancements by parallel data extraction...
EMEA
Analogy corpus
FL1
FL2
OPEN
Analogy corpus
FL1
FL2
BLEU
PL-EN
NIST
TER
MET
BLEU
177
EN-PL
NIST
TER
MET
5,75
8,75
8,08
2,16
2,59
2,46
99,19
87,40
97,39
22,01
21,69
23,19
8.61
8.75
9.45
2.50
2.59
2.54
89.99
87.40
88.59
20.83 21,69
22.01
1,41
1,20
3,15
1,12
0,93
1,28
104,60
98,58
98,30
14,06
11,77
11,77
2.40
1.20
2.47 0.92
0.93
1.03
98.03
98.58
97.31
11.17
11.77
12.9
Table 11. Results in SMT on analogy based sentences, filtrated corpus: FL1, FL2
References
ADAFRE, Sisay Fissaha, DE RIJKE, Maarten (2006): Finding similar sentences
across multiple languages in Wikipedia. In: EACL ‘06 Proceedings of
the Eleventh Conference of the European Chapter of the Association for
Computational Linguistics: Posters & Demonstrations. Stroudsburg,
PA: Association for Computational Linguistics, 62–69.
CETTOLO, Mauro, GIRARDI, Christian, FEDERICO, Marcello (2012): Wit3:
Web inventory of transcribed and translated talks. In: Mauro CETOLLO,
Marcello FEDERICO, Lucia SPECIA, Andy WAY (eds.): Proceedings of
the 16th Conference of the European Association for Machine Translation
(EAMT), 28-30 May, Trento, Italy, 261–268.
CHU, Chenhui, NAKAZAWA, Toshiaki, KUROHASHI, Sadao (2013): Chinese–Japanese parallel sentence extraction from quasi–comparable
corpora. In: Proceedings of the Sixth Workshop on Building and Using
Comparable Corpora. Sofia: Association for Computational Linguistics,
34–42.
CLARK, Jonathan H., DYER, Chris, LAVIE, Alon, SMITH, Noah A. (2011):
Better hypothesis testing for statistical machine translation: Controlling
for optimizer instability. In: Lin DEKANG (ed.): Proceedings of the 49th
Annual Meeting of the Association for Computational Linguistics: Human
Language Technologies: Short papers. Volume 2. Stroudsburg, PA: Association for Computational Linguistics, 176–181.
HEAFIELD, Kenneth, POUZYREVSKY, Ivan, CLARK, Jonathan H., KOEHN,
Philipp (2013): Scalable Modified Kneser-Ney Language Model Estimation. In: Pascale FUNG, Massimo POESIO (eds.): Proceedings of the 51st
Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), Sofia: Association for Computational Linguistics,
690–696.
178
Krzysztof Wołk, Emilia Rejmund, Krzysztof Marasek
KILGARRIFF, Adam, PVS, Avinesh, POMIKÁLEK, Jan (2011): BootCatting
comparable corpora. In: Kyo KAGEURA, Pierre ZWEIGENBAUM
(eds.): Proceedings of the 9th International Conference on Terminology
and Artificial Intelligence, 123–126.
KOEHN, Philipp, HADDOW, Barry (2012): Towards effective use of training
data in statistical machine translation. In: Chris CALLISON-BURCH,
Philipp KOEHN, Christof MONZ, Matt POST, Radu SORICUT, Lucia
SPECIA (eds.): Proceedings of the Seventh Workshop on Statistical
Machine Translation. Montreal: Association for Computational Linguistics, 317–321.
MARASEK, Krzysztof (2012): TED Polish-to-English translation system for
the IWSLT 2012. In: Eiichiro SUMITA, Dekai WU, Michael PAUL,
Chengqing ZONG, Chiori HORI (eds.): Proceedings of the 9th International Workshop on Spoken Language Translation IWSLT, 126–129.
PAL, Santanu, PAKRAY, Partha, NASKAR, Sudip Kumar (2014): Automatic
Building and Using Parallel Resources for SMT from Comparable
Corpora. In: Proceedings of the 3rd Workshop on Hybrid Approaches to
Translation (HyTra). Gothenburg: Association for Computational Linguistics, 48–57.
SKADIŅA, Inguna, AKER, Ahmet, MASTROPAVLOS, Nikos, SU, Fangzhong,
TUFIS, Dan, VERLIC, Mateja, PARAMITA, Andrejs, PINNIS, Marcis
(2012): Collecting and using comparable corpora for statistical machine
translation. In: Nicoletta CALZOLARI, Khalid CHOUKRI, Thierry
DECLERCK, Mehmet Uğur DOĞAN, Bente MAEGAARD, Joseph
MARIANI, Asuncion MORENO, Jan ODIJK, Stelios PIPERIDIS (eds.):
Proceedings of the 8th International Conference on Language Resources
and Evaluation (LREC). Istanbul: European Language Resources Association (ELRA), 438–445.
SMITH, Jason R., QUIRK, Chris, TOUTANOVA, Kristina (2010): Extracting parallel sentences from comparable corpora using document level
alignment. In: Human Language Technologies: The 11th Annual Conference of the North American Chapter of the Association for Computational
Linguistics. Los Angeles, CA: Association for Computational Linguistics, 403–411.
STRÖTGEN, Jannik, GERTZ, Michael (2012): Temporal Tagging on Different Domains: Challenges, Strategies, and Gold Standards. In: Nicoletta CALZOLARI, Khalid CHOUKRI, Thierry DECLERCK, Mehmet
Uğur DOĞAN, Bente MAEGAARD, Joseph MARIANI, Asuncion
MORENO, Jan ODIJK, Stelios PIPERIDIS (eds.): Proceedings of the
8th International Conference on Language Resources and Evaluation
(LREC). Istanbul: European Language Resources Association (ELRA),
3746–3753.
Multi-domain machine translation enhancements by parallel data extraction...
179
TIEDEMANN, Jörg (2009): News from OPUS-A collection of multilingual parallel corpora with tools and interfaces. In: Recent advances in natural
language processing, 237–24.8
TIEDEMANN, Jörg (2012): Parallel Data, Tools and Interfaces in OPUS. In:
Nicoletta CALZOLARI, Khalid CHOUKRI, Thierry DECLERCK, Mehmet Uğur DOĞAN, Bente MAEGAARD, Joseph MARIANI, Asuncion MORENO, Jan ODIJK, Stelios PIPERIDIS (eds.): Proceedings of
the 8th International Conference on Language Resources and Evaluation
(LREC). Istanbul: European Language Resources Association (ELRA),
2214–2218.
THORSTEN, Joachims (1998): Text Categorization with Support Vector
Machines: Learning with Many Relevant Features. In: Celine ROUVEIROL, Claire Nedellec (eds.): Lecture Notes in Computer Science, Volume
1398. Berlin: Springer Berlin, 137–142
TYERS, Francis M., PIENAAR, Jacques A (2008): Extracting bilingual word
pairs from Wikipedia. In: Collaboration: interoperability between people
in the creation of language resources for less-resourced languages, 19–22.
WOŁK, Krzysztof, MARASEK, Krzysztof (2013a): Polish – English Speech Statistical Machine Translation Systems for the IWSLT 2013. In: Joy Ying
ZHANG (eds.): Proceedings of the 10th International Workshop on Spoken Language Translation, 113–119.
WOŁK, Krzysztof, MARASEK, Krzysztof (2013b). Alignment of the Polish-English Parallel Text for a Statistical Machine Translation. In: Computer
Technology and Application 4, 575–583.
WOŁK, Krzysztof, MARASEK, Krzysztof (2014a): Real-Time statistical speech
translation. In: Álvaro ROCHA, Ana Maria CORREIA, Felix . B TAN,
Karl . A STROETMANN (eds.): New Perspectives in Information Systems and Technologies, Volume 1. Cham: Springer, 107–113.
WOŁK, Krzysztof, MARASEK, Krzysztof (2014b): A Sentence Meaning Based
Alignment Method for Parallel Text Corpora Preparation. In: Álvaro
ROCHA, Ana Maria CORREIA, Felix . B TAN, Karl . A STROETMANN (eds.): New Perspectives in Information Systems and Technologies, Volume 1. Cham: Springer, p. 229–237.
WU, Dekai, FUNG, Pascale (2005): Inversion transduction grammar constraints for mining parallel sentences from quasi-comparable corpora. In: Robert DALE, Kam-Fai WONG, Jian SU, Oi Yee KWONG
(eds.): Natural Language Processing–IJCNLP 2005. Berlin/Heidelberg:
Springer, 257–268.
YANG, Wei, LEPAGE, Yves (2014): Inflating a training corpus for SMT by using
unrelated unaligned monolingual data. In: Adam PRZEPIÓRKOWSKI,
Maciej OGRODNICZUK (eds.): Advances in Natural Language Processing: Proceedings of the 9th International Conference on NLP, PolTAL
2014. Cham: Springer, 236–248.
Silvia Bonacchi
Uniwersytet Warszawski
Mariusz Mela
Uniwersytet Warszawski
Multilingwalny (polsko-niemiecki) korpus języka mówionego
MCCA dla celów analizy kulturologicznej i suprasegmentalnej
(nie)grzeczności językowej
Multilingual (Polish-German) corpus of spoken language
(MCCA) for the purposes of a culturological and suprasegmental
analysis of linguistic (im)politeness.
Abstract
In the article, we will present our experiences with – and problems that we came across while – working on a multilingual corpus of
speech data (Polish and German) and conducting its pragmalinguistic and suprasegmental analysis. Furthermore, we will present some
reflections on the notions of parallelity and comparability in this context. Creating corpora of spoken language constitutes a great challenge for the researcher due to the elusive nature of speech. Spoken
data can be accessed by the researcher either in the form of transcripts
of audio/video recordings (according to the methods of multimodal
analysis) or in the form of notes from speech interactions (according to the ethnographic method). The researcher who wants to collect
data for his/her specific purposes − for example if he/she wants to
investigate (im)politeness − has to create a setting, a context of interaction and a situation in which a given phenomenon can be elicited.
The need for a phonetic analysis makes it necessary to make audio
or video recordings of data. These need to be made in a recording
studio in order to ensure quality suitable for such an analysis (e.g. one
channel per speaker, no background noises). Participants in recording
sessions do not behave as naturally as they would in a natural setting
(i.e. without microphones or cameras). What is more, spoken language is characterised by phenomena that are exclusively typical for it
when compared to written language. They include: anacoluthons, corrections, repairs, hearer signals, speaker signals, particles, discourse
markers etc., i.e. phenomena that are treated as communicative ‘disturbances’ in written language but are fundamental in face-to-face-interactions. Considering the above requirements, one can state that
Silvia Bonacchi, Mariusz Mela
182
creating corpora of spoken language requires a completely different
approach than corpora of written language. In the following article,
a bilingual (Polish and German) corpus of spoken language is presented. The corpus has been created as part of the MCCA: Multimodal
Communication: Culturological Analysis project for the purposes
of culturological and suprasegmental analysis and consists of three
types of recordings. They are: dyadic conversations, scripted monologues (where the participants were supposed to intonate sentences
in order to achieve a certain result), and extracts from TV talk shows.
The recordings have further been transcribed using the Folker programme and GAT2 (GesprächsAnalytisches Transkriptionssystem)
conventions, annotated (by means of the ELAN programme) and
phonetically analysed (using Praat programme).
Słowa kluczowe: korpus języka mówionego, język polski, język niemiecki, analiza konwersacyjna, (nie)grzeczność językowa, transkrypcja, anotacja.
Keywords: spoken language corpus, Polish, German, conversational
analysis, linguistic (im)politeness, transcription, annotation.
1. Wprowadzenie
Tworzenie korpusów języka mówionego stanowi ogromne wyzwanie dla badaczy ze względu na jego ulotny charakter1. Wypowiedzi realizowane ustnie są,
w odróżnieniu od tekstów pisanych, nietrwałe i muszą zostać udostępnione
badaczowi albo w postaci mniej lub bardziej dokładnych notatek (np. według
metody etnograficznej) albo środków technicznych (nagrań audio i video), których stopień przydatności do dalszych działań badawczych wymaga dokładnego
planowania i realizacji. O ile wywołanie niektórych sytuacji komunikacyjnych
jest stosunkowo łatwe, jak to bywa w przypadku zadań typu maptask (głównie
ze względu na tematycznie ukierunkowaną strukturę informacyjną tego typu
sytuacji), o tyle w przypadku innych sytuacji (np. takich, w których występują
grzeczność, niegrzeczność lub agresja językowa) nie jest to już takie proste.
Wynika to z wielu powodów. Po pierwsze probanci niechętnie zachowują się
nieuprzejmie, gdy wiedzą, że są nagrywani. Po drugie dla sytuacji komunikacyjnych realizowanych za pomocą języka mówionego kluczowe są zjawiska
językowe (anakoluty, korektury, reparacje, sygnały słuchacza i mówiącego,
partykuły i markery dyskursywne itp.), które dla języka pisanego są nietypowe
i w języku pisanym nawet mogą powodować “zakłócenia” w komunikacji.
Konieczność utrwalenia fonetycznej realizacji interakcji komunikacyjnej sprawia, że nagrania takie muszą być realizowane w warunkach kontrolowanych,
tj. w studiu nagrań (tzw. lab-speech, zob. Xu, 2010). Biorąc pod uwagę wyżej
1 Zob. Rancew-Sikora 2007: 19n; odnośnie corpus-design zob. Pęzik 2012; odnośnie problemów
związanych z transkrypcją w analizie konwersacyjnej zob. Frei 2013; Bonacchi, Mela 2014.
Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA...
183
wymienione uwarunkowania, można stwierdzić, że korpusy języka mówionego wymagają innego podejścia niż korpusy języka pisanego. Pojęcia „porównywalność” oraz „równoległość” zyskują w ich przypadku nowe znaczenie.
„Równoległość” (paralelność) rozumiana jako dosłowna odpowiedniość jest
w rozmowach w praktyce nieosiągalna. Przeprowadzenie eksperymentu, polegającego na stworzeniu korpusów języka mówionego, które byłyby „porównywalne”, wiąże się z danymi zainteresowaniami badawczymi i jest realizowany
poprzez ustalenie kilku warunków takich, jak na przykład ukierunkowanie
tematyczne (interaktanci rozmawiają na „narzucony” im temat), umieszczenie
w kontekście (dana jest pewna rama interakcyjna), zorientowanie na zadanie
(należy rozwiązać dane zadanie).
W niniejszym artykule przedstawiony zostanie bilingwalny (polskoniemiecki) korpus języka mówionego utworzony w ramach projektu MCCA:
Multimodal Communication: Culturological Analysis, dla celów analizy kulturologicznej i suprasegmentalnej. Podjęta została przy tym próba ustalenia stopnia, w jakim korpusy w obu językach (polskim i niemieckim) spełniają kryteria
porównywalności i paralelności. Opisane zostaną warunki, w jakich powstawał
korpus, tworzące go typy nagrań (nagrania audio rozmów2 diadycznych, nagrania audio „aktorskie” i nagrania video mediatyzowane, tj. takie, które wcześniej
transmitowane były w mediach) oraz wybrany sposób analizy korpusu.
2. Opis projektu i klasyfikacja korpusu MCCA
Projekt MCCA opiera się na współpracy naukowców z Uniwersytetu Warszawskiego i Uniwersytetu Kraju Saary w Saarbrücken (Niemcy)3. Projekt stawia sobie
za cel kulturologiczną i suprasegmentalną analizę multilingwalnego korpusu
nagrań audio nacechowanych grzecznością i niegrzecznością językową w interakcjach twarzą-w-twarz. Obecnie korpus obejmuje języki polski i niemiecki
(w przypadku wszystkich trzech typów nagrań), przewidziane jest jednak jego
rozszerzenie o język włoski (obecnie korpus zawiera jedynie nagrania „aktorskie” w tym języku, zob. rozdział 2.2.) i bułgarski. Dalszymi zamierzeniami
Projektu jest generacja i transfer wiedzy lingwistycznej o mechanizmach, które
utrudniają komunikację intra- i interkulturową lub jej sprzyjają, wytworzenie
2 Różnicę pomiędzy wyrazami „rozmowa”, „dialog”, „konwersacja” wyjaśniają m.in. Żydek-Bednarczuk (1994), Wilkoń (2002). Szczegółowy przegląd polskiej literatury dotyczącej klasyfikacji
form dialogowych w komunikacji ustnej i pisemnej przedstawia Ślawska (2011).
3 Pełny tytuł projektu: Analiza kulturologiczna i suprasegmentalna interakcji komunikacyjnych
nacechowanych (nie)grzecznością. Projekt finansowany jest przez Narodowe Centrum Nauki,
UMO DEC-2012/04/M/HS2/0055. Kierownikiem projektu po stronie polskiej jest Silvia Bonacchi (Uniwersytet Warszawski), po stronie niemieckiej Bistra Andreeva (Uniwersytet Kraju Saary,
Niemcy).
Silvia Bonacchi, Mariusz Mela
184
technik badawczych dla celów analizy multimodalnej (transkrypcja, anotacja)
oraz promocja rozwoju młodej kadry badawczej4.
Naukowcy zajmujący się badaniem (nie)grzeczności językowej stoją
przed kilkoma problemami. Po pierwsze, (nie)grzeczność jest prymarnie przedmiotem badań o pragmalingwistycznym charakterze, tzn. badany jest przy
tym wymiar pragmatyczny języka, z naciskiem na użycie wyrażeń językowych
w zależności od mówców i ramy interakcji, stąd (nie)grzeczność językowa jest
zjawiskiem wysoce zależnym od kontekstu. Ważne jest zatem nie tylko to, co
jest mówione, lecz też, jak jest mówione, kto mówi do kogo i w jakiej sytuacji. Te same zdania (np. „dobra robota!” lub „nie chcę przeszkadzać”) mogą
być różnie interpretowane w zależności od kontekstu zewnętrznego (rozumianego jako setting interakcji) i wewnętrznego (w rozumieniu Sperbera, Wilsona,
2002)5. Ponadto (nie)grzeczność językowa jest zjawiskiem, które konstytuuje się
w dialogowości i interakcji. Mimo że istnieją formy (nie)grzeczności w języku
pisanym, zjawisko to jest przede wszystkim charakterystyczne dla języka
mówionego. W przeciwieństwie do innych przedmiotów badań, istotnych także
dla badaczy języka, takich jak struktura informacyjna, strategie argumentacyjne, strategie narracyjne, badacz zajmujący się (nie)grzecznością językową
napotyka kilka problemów. W odróżnieniu od stosunkowo często występujących rutyn i formuł grzecznościowych (np. „przepraszam”, „dziękuję”, formy
powitania i adresowania) spontanicznej (nie)grzeczności nie da się łatwo uzyskać. Tym samym niezmiernie ważny jest nie tylko dokładny tzw. „design korpusu” i staranne przygotowanie warunków do przeprowadzenia eksperymentu,
lecz ponadto połączenie ze sobą różnych korpusów, które wykazują się różnym
stopniem spontaniczności i reprezentacyjności badanego zjawiska.
Korpus MCCA został stworzony w celu reprezentatywnego odwzorowania obszarów językowych grzeczności, niegrzeczności i agresji językowej6.
Obejmuje on następujące typy nagrań:
1. Rozmowy diadyczne
2. Nagrania „aktorskie” (sarkazm i efekt banter)
3. Interakcje mediatyzowane (talk-shows, debaty polityczne)
4 Bezpośrednio z Projektem MCCA związane jest Laboratorium Komunikacji Multimodalnej
LAKOM, powstałe w Instytucie Komunikacji Specjalistycznej i Interkulturowej WLS UW. Jego
nadrzędnym celem jest szkolenie studentów i doktorantów z zakresu użycia programów komputerowych do analizy danych mówionych: Folker, ELAN i Praat.
5 Por. Sperber i Wilson (2002: 132): „the context used to process new assumptions is […] a subset of the individual’s old assumptions, with which the new assumptions combine to yield a variety of contextual effects”.
6 Teoretyczne podstawy tego zjawiska przyjęto za Bonacchi 2013, gdzie znajduje się również dalsza odnośna literatura.
Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA...
185
4. Korpus projektu MCCA jest zatem „korpusem złożonym”, ponieważ
każdy typ nagrań umożliwia osiągnięcie pewnych celów badawczych.
2.1. Rozmowy diadyczne
Pierwszym typem nagrań są rozmowy diadyczne. Są to nagrania interakcji twarzą w twarz, uwarunkowane tematycznie, tzn. tematy rozmów (np. warunki
studiowania w Niemczech i Polsce, użycie żeńskich form rzeczowników
utworzonych za pomocą przyrostków będących nazwami zawodów i funkcji,
eutanazja) zostały zaproponowane przez realizatorów nagrań i zrealizowane
w warunkach studyjnych. Niemiecka część korpusu nagrań diadycznych
powstała w Niemczech na Uniwersytecie Kraju Saary i obejmuje obecnie ok.
4 godzin nagrań, w których wzięło udział ośmioro mówców. Przed każdą sesją
nagraniową zebrano metadane uczestników rozmów. Polska część korpusu
została nagrana w Warszawie w Instytucie Lingwistyki Stosowanej Uniwersytetu Warszawskiego i podobnie jak korpus niemiecki obejmuje ok. 4 godzin
nagrań, zrealizowanych przy udziale 8 mówców, od których zebrane zostały
metadane. Co ważne, nagrania w korpusie rozmów diadycznych są nagraniami
dwukanałowymi o wysokiej jakości technicznej, co umożliwia przeprowadzenie szczegółowej analizy fonetycznej głosu każdego z rozmówców, m.in. analizę
dynamiki kolejności mówienia (turn-taking), mówienia symultanicznego (overlapping), przerywania, sygnałów mówiącego (speaker’s signals) i słuchającego
(hearer’s signals, backchannel-signals), sygnały wahania się (hesitation signals),
poprawki (repairs).
Nagrania pierwszego typu poddane zostały etapami transkrypcji
i następnie anotacji przy użyciu programów komputerowych Praat (Boersma,
Weenink, 2015), Folker (Schmidt, Schütte, Hartung, 2010) i ELAN (Sloetjes,
2015)7. W pierwszej kolejności przeprowadzono transkrypcję nagrań niemieckich i polskich za pomocą programu Folker (www.agd.ids-mannheim.de/folker.
shtml). Przy transkrypcji korzystano z konwencji GAT2 (GesprächsAnalytisches
Transkriptionssystem, zob. Selting et al., 2009), które przy niewielkich modyfikacjach okazały się również przydatne w transkrypcji danych w języku polskim, mimo że pierwotnie stworzone zostały dla transkrypcji danych w języku
niemieckim. Podczas stosowania tych konwencji w transkrypcji napotkaliśmy
jednak kilka problemów. Były nimi:
•
brak jednolitego inwentarza tzw. pauz wypełnionych (sygnałów wahania się) i sygnałów słuchacza (backchannel signals), które różnią się między językami (por. np. niemieckie ‘ähm’ z polskim ‘hmm’);
7 Por. Bonacchi, Mela 2014.
Silvia Bonacchi, Mariusz Mela
186
•
anotacja jednostek nieleksykalnych lub quasi-leksykalnych lub paralingwistycznych dźwięków (takich jak kliknięcia i uderzenia, zob. Karpiński, 2012).
Mimo że transkrypcja w innych polskich grupach badawczych (zob. Pęzik,
2012) wykonywane są często bezpośrednio w programie ELAN, uznaliśmy za
konieczne wykonanie transkrypcji jako osobnego kroku za pomocą programu
Folker stworzonego w Instytucie Języka Niemieckiego (IDS) w Mannheim,
który umożliwia modyfikację transkrypcji w dowolnym momencie jej tworzenia i wczytanie jej jako płaszczyzny analizy w programie ELAN. Ponadto
program ten jest dużo prostszy w obsłudze (może być więc używany w celach
dydaktycznych w ćwiczeniach ze studentami) i bardziej “stabilny” niż ELAN,
gdyż nie wymaga dużej pamięci komputerowej. Transkrypcja wykonana w Folkerze może zostać wyeksportowana w formacie, który następnie może zostać
wczytany w programie ELAN8. Poniżej znajduje się wyciąg transkrypcji wykonanej w programie Folker. Jest to sekwencja, w której rozmówczyni wyraża brak
zgody za pomocą środków werbalnych łagodzonych przy odpowiednim użyciu
środków suprasegmentalnych (przede wszystkim prozodii):
{02:25}
001 M
{02:31}
002 K
{02:39}
003 M
no albo wszyscy się zrzucamy nie wiem co jest gorsze to taki wybór
mniejszego zła
no niby tak ale no nie wiem mi się to nie za bardzo podoba nie podoba mi
się to że y: [znaczy ja chodzi mi tutaj]
[to odwrócę pytania]
Rysunek 1. Okno programu Folker z transkrypcją danych w języku polskim
8 Dokładniejszy opis znajduje się w Bonacchi i Mela (2014).
Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA...
187
Dzięki oscylogramowi Folker możliwe jest dokładne zaznaczenie segmentu,
który należy poddać transkrypcji (rysunek 1. i 2.). Umożliwia on także wskazanie momentów, w których wypowiedzi rozmówców na siebie nachodzą, co
pomaga badaczowi m.in. zauważyć regularności i wzajemne zależności pomiędzy wypowiedziami uczestników konwersacji (np. to, który z rozmówców,
w którym momencie i jak często przerywa drugiemu rozmówcy). W ten sposób
funkcja ta umożliwia przegląd zjawisk lingwistycznych, które należy poddać
anotacji w programie ELAN.
Rysunek 2. Widok programu Folker z transkrypcją danych w języku niemieckim
Rysunek 3. Okno programu ELAN z wczytaną transkrypcją programu Folker
188
Silvia Bonacchi, Mariusz Mela
Transkrypcja wykonana w programie Folker może zostać zapisana w kilku
formatach (tj. różnych rodzajach tzw. outputs) i może zostać wyeksportowana
w formatach kompatybilnych z innymi programami w celu dalszej analizy.
Pod koniec procesu transkrypcji za pomocą programu Folker uzyskany
zostaje plik o rozszerzeniu *.flk, który można wyeksportować w formatach
kompatybilnych z innymi programami do anotacji, tj. albo jako EXMARaLDA
Basic Transcription (*.exb, *.xml), jako PRAAT TextGrid (*.textGrid), jako F4
Transcript (*.rtf, *.txt), jako Audacity label file (*.txt), jako Plain text subtitles
(*.txt), jako ELAN annotation file (*.eaf), jako TEI file (*.xml) – ten ostatni format umożliwia oznaczenie tekstu pod względem syntaktyki. Powyższa grafika
(rysunek 3.) przedstawia transkrypcję wykonaną w programie Folker przeimportowaną do programu ELAN wraz z dalszymi płaszczyznami anotacji:
Folker oferuje również możliwość zapisania transkrypcji w formacie
*.html z listą lub partyturą segmentów, jako compact score z dźwiękiem audio,
jako listę wypowiedzi lub listę wypowiedzi z odtwarzaczem audio (rysunek 4.),
jako GAT Basic Transcript lub quantification (sumę danych ilościowych, takich
jak numer i długość wypowiedzi, liczba i typ tokenów, liczba wdechów i wydechów, pauzy, itd.).
Rysunek 4. Wyciąg z transkrypcji danych w języku polskim w formacie z odtwarzaczem audio
“compact score with audioplayer”
Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA...
189
Drugim krokiem była anotacja danych audio w programie ELAN (http://www.
lat-mpi.eu/tools/elan). Anotacja ta miała charakter pragmalingwistyczny i skupiała się na wyszukiwaniu wystąpień zjawisk komunikacyjnych takich jak:
• formuły grzecznościowe (grzeczność rutynowa),
• markery grzeczności i niegrzeczności,
• partykuły modalne,
• markery dyskursywne,
• rodzaj zdań i akty mowy,
• leksyka,
• formy adresatywne,
• backchannel signals,
• reguły podejmowania kolejek9 (system turn-taking): kooperatywne
i konkurencyjne,
• cechy fonetyczne.
Stworzona została struktura złożona z płaszczyzn anotacji (tiers), która umożliwiła jakościową i ilościową analizę różnych zjawisk językowych. Równolegle do
analizy kulturologicznej (pragmatyczno-konfrontatywnej) została przeprowadzona analiza segmentalna i suprasegmentalna przez zespół niemiecki z użyciem
programu Praat. Zbadane zostały różne właściwości mowy danego rozmówcy,
takie jak tempo mówienia, iloczas sylab, intensywność oraz frekwencja podstawowa, istotne dla powstania efektu (nie)grzeczności danej wypowiedzi językowej.
Na poniższej grafice (rysunek 5.) przedstawiony został fragment analizy
przeprowadzonej przy użyciu programu Praat. Widoczna jest na niej sekwencja,
Rysunek 5. Praat-TextGrid analizowanego fragmentu
9 Polskiej nazwy „kolejka” jako odpowiednika wyrazu „turn” przyjęliśmy za Frei (2013) i Rancew-Sikora (2007).
Silvia Bonacchi, Mariusz Mela
190
w której mówczyni przy użyciu środków grzeczności językowej (“no niby tak
ale” łagodzi brak zgody wobec swojego partnera komunikacyjnego).
Analiza rozmów diadycznych w językach polskim i niemieckim wykazała, że na powstanie efektu (nie)grzeczności składa się zespół cech, które dotyczą wielu płaszczyzn wyrażeń językowych:
1. Chodzi nie tylko o to, co jest mówione (lokucja), lecz również o to,
w jaki sposób się mówi i co się przy tym robi, a zatem nie tylko o pozajęzykowe czynniki kontekstowe, lecz również o czynniki, warunkujące
fonetyczną realizację danego wyrażenia werbalnego. Display werbalny
i wokalny (Sager, 2004) tworzą jedność, których koherencja jako wyrażenia (nie)grzecznościowego zależy od współdziałania wielu czynników.
2. To, co jest wypowiadane (lokucja) i jest zamierzonym działaniem językowym (illokucja) zawsze odzwierciedla się w językowej realizacji. Nie
wystarczy użyć pewnych słów, gdyż akty (nie)grzeczności są zawsze
aktami multimodalnymi (zob. Bonacchi, Karpiński, 2014). Intencja
suportywna może być realizowana też przy użyciu wyrażeń derogatywnych (Arndt, Janney, 1985; Bonacchi, 2013, 2014; Bonacchi, Andreeva,
2015) przy zastosowaniu odpowiednich cech fonetycznych.
2.2. Nagrania „aktorskie”
Dzięki analizie rozmów diadycznych zidentyfikowano szereg zmiennych, dlatego doszliśmy do wniosku, że należy zbadać zmienność cech fonetycznych
przy stałości werbalnej. Stworzyliśmy zatem koncepcję eksperymentu, w którym realizacja fonetyczna przy niezmienności warstwy werbalnej była decydująca dla powstania efektu (nie)grzeczności. Oznacza to, że ten sam wyraz może
mieć różne znaczenia pragmatyczne w zależności od realizacji fonetycznej.
W celu zmierzenia wagi każdego składnika mowy (frekwencja podstawowa,
tempo mówienia, intensywność mówienia) w przypadku powstania efektu (nie)
grzeczności zdecydowaliśmy się na eksperyment, w którym display werbalny
(lokucja) uzyskać może wartość suportywną, tj. uprzejmą w szerokim rozumieniu tego słowa lub derogatywną, tj. nieuprzejmą w szerokim rozumieniu tego
słowa, w zależności od fonetycznej realizacji. W ten sposób zbadaliśmy zjawisko
wyrażeń z funkcją banterową, tj. wyrażeń posiadających derogatywną strukturę
powierzchniową i suportywną strukturę głęboką (mock impoliteness opisaną
m.in. przez Leech’a (1983) – zob. Bonacchi (2013, 2014) – w celu znalezienia
odnośników do dalszej literatury fachowej) oraz wyrażenia typu mock politeness
– tj. wyrażenia z pozytywną strukturą powierzchniową i derogatywną strukturą
Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA...
191
głęboką (tj. sarkazmu, zjawiska opisanego m.in. w Culpeper (199610). Poprosiliśmy uczestników o wypowiedzenie tych samych par zdań w celu uzyskania
efektu uprzejmości, a innym razem nieuprzejmości:
A. Mock impoliteness:
DT1: Du bist ein Arsch!
IT1: Che merda che sei!
PL1: Ale z ciebie pies na baby!
DT2: Hey, Alter, was machst
du denn hier?
IT2: Sei un bastardo!
PL2: Ty draniu!
DT3: Du hast es geschafft, du
Sau!
IT3: Ci sei riuscito?
Che figlio di puttana!
PL3: Ty, diable! Zniszczyłeś
całą konkurencję!
DT4: Ach, du hast ja sowieso
immer eine Eins, du Penner!
IT4: Sei un/a bella/o stronza!
Che stronzo!
PL4: Ale ty zaliczasz te
laseczki, ty złamasie!
DT1: Danke!
IT1: Grazie!
PL1: Dziękuję!
DT2: Tolle Arbeit!
IT2: Bel lavoro!
PL2: Świetna robota!
B. Mock politeness:
Nagrania te następnie poddaliśmy ocenie 100 ankietowanych dla każdego języka
i poprosiliśmy ich o zaznaczenie na specjalnie skonstruowanej platformie internetowej za pomocą specjalnego suwaka, na ile oceniają daną wypowiedź jako
przyjazną lub nieprzyjazną. Takiej ocenie poddane zostały 32 wypowiedzi (zob.
Bonacchi, Andreeva, 2015).
Badanie to pozwoliło nam dojść do wniosku, że negatywna lub pozytywna wartość wypowiedzi może zostać poprawnie zrekonstruowana na podstawie cech fonetycznych także bez informacji dotyczących kontekstu (zob.
też House, 2006), co relatywizuje hipotezę o „rekontekstualizacji” Culpepera
(2011), zgodnie z którą mock impoliteness może zostać wyjaśniona następująco:
“an understanding on the part of a participant that the contextual conditions that sustain genuine impoliteness do not apply”
(Culpeper, 2011: 208).
Ponadto wynik badania potwierdza tezę o „otwartej ewaluacji konwersacyjnej”11 i dysambiguacji multimodalnej:
„mock impoliteness can be understood as potentially genuine
impoliteness behavior that is continuously open to conversational
evaluation as both potentially genuine impoliteness or potentially
non-impolite and supportive behavior.”
(McKinnon, Prieto, 2014: 188)
10 Zob. też Haiman (1998), Kaufer (1981), Rockwell (2000, 2006), Wartenberg (1990), Leggit
i Gibbs (2000).
11 Zob. również Brown i Levinson (1987: 104) oraz McKinnon i Prieto (2014: 190).
192
Silvia Bonacchi, Mariusz Mela
Wyniki badań pokazały, że użytkownicy różnych języków korzystają z dostępnych parametrów fonetycznych (frekwencja podstawowa, tempo i intensywność
mówienia) w różny sposób w celu realizacji efektu (nie)grzeczności. Chodzi
przy tym zawsze o wiązkę cech, a zatem o współgranie różnych elementów,
które działają w sposób dysambiguacyjny. Relatywizuje to teorię Johna Ohali
(1993) o kodach biologicznych („frequency codes”, „biological codes”), zgodnie
z którą sama podwyższona frekwencja podstawowa przyczynia się do powstania
efektu uprzejmości, zaś niska efektu agresji (zob. też Gussenhoven. 2004: 102;
Bonacchi, Andreeva, 2015).
2.3. Nagrania video mediatyzowane
Podczas analizy pierwszych dwóch typów nagrań ważne okazały się nie tylko
warstwa werbalna i fonetyczna realizacja, lecz również szereg informacji dotyczących kontekstu i warstwy niewerbalnej. Z tego powodu korpus poszerzono
o nagrania video, których analiza pomogła zweryfikować dotychczasowe
założenia.
Zdecydowaliśmy się na interakcje mediatyzowane (głównie programy
typu talk-show polityczne i in.), które przeanalizowano za pomocą programu
ELAN przy użyciu szablonu MCCA-Standard Template, służącego do analizy
interakcji nacechowanych (nie)grzecznością i agresją językową. Poniżej znajduje się grafika przedstawiająca fragment analizy polskiego talk-show politycznego dokonanej w programie ELAN (rysunek 6.):
Rysunek 6. Przykład multimodalnej anotacji interakcji konfliktowej w programie ELAN
Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA...
193
3. Wnioski
Jeśli chodzi o klasyfikację naszego korpusu, to w przypadku rozmów diadycznych i interakcji mediatyzowanych możemy mówić o korpusie porównywalnym,
natomiast w przypadku nagrań „aktorskich” o korpusie równoległym. Dzięki
Projektowi opracowana została technika pragmalingwistycznego badania języka
mówionego, która, jak wierzą autorzy, mogłaby zostać wykorzystana do badania innych aspektów komunikacji (np. konfliktów, negocjowania i in.). Projekt
jest w toku – powstają dalsze anotacje pragmalingwistyczne oraz fonetyczne
nagrań, które dadzą wgląd w mechanizm funkcjonowania zjawisk grzeczności i niegrzeczności językowej. Kolejnym krokiem będzie rozszerzenie zakresu
badań o display kinetyczny i stworzenie wytycznych do całościowej analizy
multimodalnej.
Podziękowania
Projekt MCCA jest finansowany ze środków przyznanych przez Narodowe
Centrum Nauki (NCN, UMO-2012/04/M/HS2/00551), dzięki którym możliwe
było powstanie niniejszego artykułu.
Literatura
Arndt, Horst, Janney, Richard Wayne (1985): Politeness revisited: cross modal
supportive strategies. International Review of Applied Linguistics in Language Teaching 23(4), 281–300.
Boersma, Paul, Weenink, David (2015): Praat. Version 5834_win64. www.fon.
hum.uva.nl/praat, (20-04-2015).
Boersma, Paul, Weenink, David (2015): Praat: Doing phonetics by computer.
Version 5.3.51 http://www.praat.org, (20-04-2015).
Bonacchi, Silvia (2013): (Un)Höflichkeit. Eine kulturologische Analyse Deutsch
-Italienisch-Polnisch. Frankfurt am Main: Peter Lang.
Bonacchi, Silvia (2014): Scheinbeleidigungen und perfide Komplimente: kulturologische Bemerkungen zur obliquen Kommunikation in interkultureller Perspektive. W: Katarzyna Lukas, Izabela Olszewska (red.):
Deutsch im Kontakt und im Kontrast. Festschrift für Andrzej Kątny zum
65. Geburtstag. Frankfurt am Main: Peter Lang, 341–356.
Bonacchi, Silvia, Andreeva, Bistra (2015): Freundlich oder feindlich? Zur
illokutionären Struktur und phonetischen Realisierung von indirekten
supportiven und derogativen Sprechakten am Beispiel von Scheinbeleidigungen (mock impoliteness). Lingwistyka Stosowana 15(4), 1–19.
194
Silvia Bonacchi, Mariusz Mela
Bonacchi, Silvia, Karpiński, Maciej (2014): Remarks about the use of the term
‘multimodality’. Journal of Multimodal Communication Studies 1, 1–7.
Bonacchi, Silvia, Mela, Mariusz (2014): Practical remarks about the interoperability of the computer programmes Folker, ELAN and Praat for transcription and multimodal linguistic annotation from the user’s point of
view. Journal of Multimodal Communication Studies 2, 18–29.
Bonacchi, Silvia, Mela, Mariusz (2015): Multimodal Analysis of Conflict:
A proposal of a Dynamic Model. W: Francesca D’Errico, Isabella
Poggi, Alessandro Vinciarelli, Laura Vincze (red.): Conflict and
Multimodal Communication. Berlin: Springer, 267–294.
Brown, Penelope, Levinson, Stephen C. (1987): Politeness: Some universals in
language use. Cambridge: Cambridge University Press.
Culpeper, Jonathan (1996): Towards an anatomy of impoliteness. Journal of
Pragmatics 25(3), 349–367.
Culpeper, Jonathan (2011): “It‘s not what you said, it’s how you said it!”: Prosody and impoliteness. W: Linguistic Politeness Research Group
(red.): Discursive Approaches to Politeness. Berlin: de Gruyter, 57–83.
Frei, Robert (2013): Analiza konwersacyjna – Zarys metody. W: Beata Sierocka
(red.): Via Communicandi. Wrocław: Atut, 35–51.
Gussenhoven, Carlos (2004): The Phonology of Tone and Intonation. Cambridge: Cambridge University Press.
Haiman, John (1998): Talk is cheap: Sarcasm, alienation and the evolution of
language. New York, NY: Oxford University Press.
House, Jill (2006): Constructing a context with intonation. Journal of Pragmatics 38(10), 1542–1558.
Karpiński, Maciej (2012): The Boundaries of Language: Dealing with Paralinguistic Features. Lingua Posnaniensis LIV(2), 37–54.
Kaufer, David S. (1981): Understanding ironic communication. Journal of
Pragmatics 5, 495–510.
Leech, Geoffrey (1983): Principles of Pragmatics. London: Longman.
Leggitt, John S., Gibbs, Raymond (2000): Emotional reactions to verbal irony.
Discourse Processes 29, 1–24.
McKinnon, Sean, Prieto, Pilar (2014): The role of Prosody and Gesture in the
Perception of Mock Impoliteness. Journal of Politeness Research 10(2),
185–219.
Ohala, John J. (1994): The frequency codes underlies the sound symbolic
use of voice pitch. W: Leanne Hinton, Johanna Nichols, and John J.
Ohala (red.): Sound Symbolism. Cambridge University Press, 325–347.
Multilingwalny (polsko-niemiecki) korpus języka mówionego MCCA...
195
Pęzik, Piotr (2012): Język mówiony w NKJP. W: Adam Przepiórkowski, Mirosław Bańko, Rafał Górski, Barbara Lewandowska-Tomaszczyk
(red.): Narodowy Korpus Języka Polskiego. Warszawa: Państwowe
Wydawnictwo Naukowe, 37–47.
Rancew-Sikora, Dorota (2007): Analiza konwersacyjna jako metoda badania
rozmów codziennych. Warszawa: Trio.
Rockwell, Patricia (2000): Lower, slower, louder: Vocal cues of sarcasm. Journal
of Psycholinguistics Research 29, 483-495.
Rockwell, Patricia (2006): Sarcasm and other mixed messages. The ambiguous ways people use language. New York, NY: The Edwin Mellen Press.
Sager, Sven F. (2004): Kommunikationsanalyse und Verhaltensforschung.
Grundlage einer Gesprächsethologie. Tübingen: Stauffenburg Verlag.
Schmidt, Thomas, Schütte, Wilfried, Hartung, Martin (2015): Folker, Version 1.2. agd.ids-mannheim.de/folker.shtml, (01-03-2016).
Selting, Margret, Auer, Peter, Barth-Weingarten, Dagmar, Bergmann,
Jörg, Bergmann, Pia, Birkner, Karin et al. (2009): Gesprächsanalytisches Transkriptionssystem 2 (GAT2). Gesprächsforschung-Online-Zeitschrift zur verbalen Interaktion 10, 353–402.
Ślawska, Magdalena (2011): Formy dialogowe w gatunkach prasowych
(rozprawa doktorska). Katowice: Uniwersytet Śląski.
Sloetjes, Han [s.a.] ELAN (Eudico Linguistic Annotator), Version 4.7.3. http://
www.lat-mpi.eu/tools/elan, (01-03-2016).
Sperber, Dan, Wilson, Deidre (2002): Relevance: Communication and Cognition. Cambridge, MA: Harvard University Press.
Wartenberg, Thomas E. (1990): The Forms of Power: From Domination to
Transformation. Philadelphia: Temple University Press.
Wilkoń, Aleksander (2002): Spójność i struktura tekstu. Kraków: Universitas.
Xu, Yi (2010): In defense of lab speech. Journal of Pragmatics 38(3), 329–336.
Żydek-Bednarczuk, Urszula (1994): Struktura tekstu rozmowy potocznej, Katowice: Wydawnictwo Uniwersytetu Śląskiego.
Łucja Biel
Uniwersytet Warszawski
Mixed corpus design for researching the Eurolect: a genre-based
comparable-parallel corpus in the PL EUROLECT project
Mieszana struktura korpusu do badania eurolektu – gatunkowy
korpus porównawczo-równoległy w ramach projektu
PL EUROLECT
Streszczenie
W artykule opisano mieszaną strukturę gatunkowego korpusu porównawczo-równoległego budowanego w ramach projektu
PL EUROLECT finansowanego przez NCN (grant SONATA BIS,
2015-2018). Celem projektu jest kompleksowe zbadanie polskiego
eurolektu, nowej hybrydowej odmiany języka polskiego powstającej w wyniku tłumaczenia i stosowanej w kontekście unijnym oraz
dogłębne zrozumienie procesów i czynników go kształtujących,
a także jego wpływu na poakcesyjną polszczyznę urzędową. Podstawą
korpusu będzie struktura gatunkowa obejmująca cztery gatunki
uznane za reprezentatywne dla komunikacji unijnej (akty prawne,
orzeczenia, sprawozdania i urzędowe strony internetowe dla obywateli) podzielone na podgatunki – np. w ramach korpusu aktów
prawnych wydzielone zostaną podkorpusy rozporządzeń, dyrektyw
i decyzji. Struktura gatunkowa korpusu umożliwi zbadanie zróżnicowania wewnętrznego eurolektu i uzyskanie bardziej precyzyjnych
danych ilościowych. Na strukturę gatunkową zostanie nałożony dwujęzyczny korpus równoległy zawierający wyrównane teksty w języku
angielskim i polskim oraz jednojęzyczny korpus porównawczy zawierający nieprzetłumaczone teksty administracyjne w języku polskim,
a także – jako punkt odniesienia – zrównoważona próba Narodowego
Korpusu Języka Polskiego. Mieszana struktura korpusu ma umożliwić badanie dwóch fundamentalnych relacji, tj. ekwiwalencji – relacji
eurolektu do tekstów źródłowych (korpus równoległy) oraz dopasowania tekstowego – relacji eurolektu do nieprzetłumaczonych tekstów
w języku docelowym (korpus porównawczy). W strukturze korpusu
uwzględniony zostanie również korpus diachroniczny polszczyzny
urzędowej sporządzony dla poszczególnych gatunków z okresu przedakcesyjnego i poakcesyjnego w celu zbadania wpływu eurolektu na
urzędową odmianę języka polskiego. Uzyskane dane ilościowe będą
Łucja Biel
198
rejestrować stan eurolektu i polszczyzny w przekroju gatunkowym
w konkretnych przedziałach czasowych, i stanowić punkt odniesienia
dla innych badaczy. Gatunkowe dane ilościowe otrzymane z analizy
korpusowej zostaną poddane triangulacji z danymi jakościowymi
(analiza dyskursu, semiotyka społeczna, badania prawnoporównawcze terminologii). Celem metodologicznym jest opracowanie interdyscyplinarnego modelu teoretycznego do badania odmian języka
powstających z udziałem tłumaczy.
Keywords: parallel corpus, comparable corpus, genre-based corpus,
Polish, English, Eurolect, institutional translation
Słowa kluczowe: korpus równoległy, korpus porównawczy, korpus gatunkowy, język polski, język angielski, eurolekt, tłumaczenie
instytucjonalne
1. Introduction
The main objective of this paper is to discuss the mixed design of a translation-driven corpus for researching the Polish Eurolect and changes in administrative Polish after Poland’s accession to the European Union. The corpus will be
built as part of the project entitled The Eurolect: an EU variant of Polish and its
impact on administrative Polish (an abbreviated name: PL Eurolect), funded by
the Polish National Science Centre (NCN) with a SONATA BIS 4 grant awarded
to the author to build a research team in the years 2015-2018. It is a follow-up
of the Eurofog project funded by the Polish Ministry of Science and Higher
Education in 2010-2012, the results of which were published in the book Lost in
the Eurofog. The Textual Fit of Translated Law (Biel, 2014). The Eurofog project,
which analysed the JRC Acquis corpus of regulations and directives (translations
up to 2006) against national Polish law, is treated as a pilot since it uncovered
a number of areas requiring deeper studies and, above all, the need for a better
calibrated and controlled genre-based corpus of a mixed design.
2. The Eurolect – a hybrid variant of national languages and its genres
EU texts are produced in a multilingual environment with 24 official languages,
which implies a constant switching and ‘fusion’ of languages. They are often
a result of a delicate political compromise between 28 Member States and are
produced under a complex array of political, procedural, institutional, legal
and cultural constraints. EU texts are considered to have developed a specific
language, perceived as a new legal variant of the official languages (cf. Koskinen, 2000: 53; Salmi-Tolonen, 2004: 1187). The hybridity of EU discourse is
closely connected with multilingualism, leading to a constant interplay between
the supranational and national elements in translation. On the one hand, EU
Mixed corpus design for researching the Eurolect...
199
drafting and translation demonstrate reduced embedding in national cultures
and their neutralization; on the other hand, such de-territorialization creates
a new territory, with the pan-European culture based on acquis – the body of
EU law, and constituent national cultures.
Despite its scale and social impact, the Eurolects are a surprisingly rare
object of research within Translation Studies and other disciplines. The existing studies are usually small-scale and descriptive, rarely based on systematic
empirical research, and, to a certain degree, findings are repetitive or superficial.
In fact, very little is known about the Eurolects, not only in respect of Polish,
for which this is a new phenomenon, but also for other official EU languages.
Such knowledge is a prerequisite for understanding Eurolects and their impact
on national languages. Another shortcoming is that most studies are legicentric
as they concern EU law (including my previous project Eurofog), with other
genres being heavily under-researched. This project intends to fill in this gap in
order to get an in-depth insight into various generic layers of the Polish Eurolect,
which may be generalisable to the Eurolects of other official languages.
The EU discourse community has developed its specific genres which
have evolved as a collective multilingual effort, with the predominant influence
of the procedural languages – French, English and, to a lesser extent, German.
A genre is understood as “a more or less stabilized and habitual linguistic way
of acting and interacting, characterized by a distinctive linguistic form or structure, associated with specific communicative purposes, and with particular
social or institutional contexts” (Fairclough, 2006: 32). EU genres are therefore
conventionalised uses of language associated with distinct goal orientation and
practices. Four genres have been selected for the analysis as most prototypical
and hence representative of EU communication: legislation, judgments, reports,
and official websites for citizens. They are subject to different language policies
and translation procedures.
EU legislation enjoys a very special status: it is adopted in all 24 official
languages and is applicable in 28 Member States. Under the principles of multilingualism and equal authenticity, all language versions have an authoritative
status, which means that they are equally valid and presumed to have the same
meaning; in fact, they altogether form a single legal instrument (cf. Šarčević,
1997: 64). The ultimate goal is to ensure the uniform interpretation and application of the EU law in all the Member States (cf. Šarčević, 1997: 73). Drafting and
translation are concurrent, multistage and multilingual (cf. Doczekalska, 2009:
360): proposals are drafted mainly in English and next translated into official
languages in most cases in-house by the EU institutions.
200
Łucja Biel
The genre of judgments will be illustrated with the Court of Justice of
the European Union, which has only one working language – French. Its Rules
of Procedure provide for “the language of a case”, which may be any of the 24
EU official languages. The language of the case is used in the parties’ written and
oral pleadings and in the minutes and decisions of the Court. Only documents
prepared in the language of the case are authentic. In the case it is impossible
to provide direct translation, pivot languages are used, e.g. German for Polish
(cf. McAuliffe, 2012). Case law is translated mainly in-house by lawyer linguists
who have legal training and know at least 2 official languages.
Reports of EU institutions are an example of professional communication between experts. As documents which are not legally binding, they are
usually available in English, French and German. Reports may be translated
into other languages depending on the target audience and importance of information. They may be translated in-house or by external contractors.
EU institutional websites are the main channel of communication
between the EU (the institutions) and citizens of the European Union. They
provide information about the EU and inform citizens of their rights and obligations; but their ‘hidden’ task is to promote the positive image of the European Union. The most representative example is EUROPA, an official website of
the European Union run by the Communication Department of the European
Commission on behalf of the EU institutions. Websites are prepared by the dedicated service with the requirement that they should be citizen-oriented, userfriendly and euro-jargon free (cf. European Commission, 2009). The language
policy is evidence-based to decide which content is translated into all languages
(i.e. if users would be seriously disadvantaged or if it is legally required) and
which into only most frequent or selected languages (e.g. short-lived or specialised content)1. Websites are translated by a specialised unit within the Directorate-General for Translation.
3. Research objectives of the PL Eurolect project
As for the Polish Eurolect, compared to the Eurolects of the old Member States
(EU-15), it is a newly emerging phenomenon, a hybrid variety of administrative Polish. It started to form in the early 2000s when Poland began to translate acquis communnautaire, the EU body of law, as a precondition for the 2004
accession. After the accession the translation process was institutionalised,
when it was taken over by the EU institutions, such as the European Commission, the Council of the European Union, the European Parliament, and the
Court of Justice. The nature of the Polish Eurolect is constrained by the fact
1 http://ec.europa.eu/ipg/content/multilingualism/index_en.htm.
Mixed corpus design for researching the Eurolect...
201
that it is an outcome of translator-mediated communication, translated from
the EU procedural languages, currently mainly English, and a by-product of
the unequal interaction between a majority EU culture and a minority Polish
culture (cf. Biel, 2014).
Having regard to the foregoing, the main objective of the PL Eurolect
project is (1) to extensively investigate the Polish Eurolect in order to understand the processes and factors behind its formation, and (2) to track the impact
of the Eurolect on post-accession Polish. This objective will be researched via
the following questions:
1. External variation (the textual fit): How does the Eurolect differ from
naturally occurring, nontranslated administrative Polish?
2. Internal generic variation: How does the Eurolect vary internally
across the four genres (legislation, judgments, reports, official websites
for citizens)? 3. Variables: How is the Eurolect affected by a genre, source language,
institutionalisation of translation process, translator profile and translation universals2?
4. Europeanisation of administrative Polish: How has post-accession
Polish been affected by the huge inflow of EU translations (a comparison
of pre-accession Polish (1999/2000) and post-accession Polish (2015))?
The methodological objective is to develop and test an interdisciplinary theoretical model for researching translator-mediated variants of language, a model
which would be of general applicability extending beyond a specific language
and genre.
4. The mixed corpus design
The project will be conducted in the area of Corpus-Based Translation Studies (CBTS), a strand of Translation Studies which applies corpus linguistics as
methodology. The corpus-based methodology allows for inductive data-driven
studies based on quantitative data. Its major advantages include: reduced subjectivity and the potential to verify hypotheses systematically on much more
extensive material.
Although corpora of EU translations are abundant, the previous project
has shown that the available resources should be used with care and in order to
2 The hypotheses of translation universals (also more recently known as typical features, tendencies, patterns of translations) include: explicitation, simplification and disambiguation, normalisation, standardisation, conventionalisation, levelling-out (lower variation), unique items, and
untypical collocational patterns (cf. Baker, 1993; Chesterman, 2004).
Łucja Biel
202
research more detailed questions, corpora have to be built anew based on carefully controlled criteria.
4.1. Genre-based corpus
The rationale for designing a genre-based corpus is connected with the importance of the concept of a genre as revealed by recent corpus-based studies in
the domain. Studies into legal language have demonstrated a high variation of
lexical bundles across legal genres (cf. Goźdź-Roszkowski, 2011); while empirical studies into translation show that differences between translations and
nontranslations (in particular features of translations) are dependent on genres
(Teich, 2003: 147; Delaere et al., 2012; de Sutter et al., 2012).
The core corpus of the Polish Eurolect has a genre-based structure (Figure 1). It will comprise the four prototypical genres of EU communication: legislation, judgments, reports and official websites for citizens (cf. Section 2). The
core corpus is intended to be sufficiently large to allow for a variety of data.
Relevant methods and tests will be applied to ensure its representativeness, balance and comparability. The detailed structure of the corpus is shown in Table
1 below.
EU legislation
A subcorpus of regulations (which are directly applicable) and a subcorpus
of directives (which are subject to transposition into national law). However,
other types of instruments may be added at a later period. Since the pilot study
has shown large differences in the distribution of lexico-grammatical patterns
in non-enacting (preambles) and enacting terms (the normative part), the
directives and regulations will be divided into 3 sections – preambles/citations,
enacting terms and annexes, to ensure a better comparability of the Eurolect to
the national language of the law, which has a different structure without extensive non-normative preambles. It was identified as one of the limitations in the
Eurofog project (cf. Biel, 2014: 309).
The corpus will also be divided into two time spans to measure the effect of
institutionalisation on the translation process and the evolution of the Polish
Eurolect from its formative stage to the current developed stage. The 1A corpus
will contain pre-accession translations coordinated by the Polish government
while the 1B corpus will contain post-accession translations from the period
2014-2015 coordinated by the EU institutions.
1A: JRC Acquis corpus, Version 3.0, which contains Polish regulations (ca.
14 million words) and Polish directives (ca. 7 million words). The JRC Acquis
corpus was built by the European Commission’s Joint Research Centre
and it contains texts from 1958 to 2006. The corpus design is discussed in
Steinberger et al. (2006). The corpus was used in the pilot study; in this study
we intend to extract pre-accession translations, that is up to 2004.
1B: the corpus of Polish-language regulations and directives with a time span
of 2014-2015, when translation quality may be deemed to have stabilised.
The corpus will be compiled as part of the project. Files will be downloaded
in html from the EUR-Lex portal.
Mixed corpus design for researching the Eurolect...
203
EU judgments
The Polish version of judgments and other decisions of the Court of Justice and
the General Court to be downloaded from the Curia portal and sorted according
to the so-called authentic language (language of the case, source language) –
English, German and French. Such sorting will enable us to analyse the impact
of source language on Polish translations (i.e. SL-specific interference)
EU reports
Technical reports prepared by the European Commission and other EU
institutions; expert-to-expert communication
Official
Polish versions of websites of EU institutions, e.g. Europa portal, the website
websites for EU of the European Parliament and the European Commission. Special attention
citizens
will be paid to pages which explain legal rights and obligations (semilegal language).
Table 1. The core corpus: the genre-based structure of the Polish Eurolect corpus
Except for the EU law component, the remaining sections of the Eurolect corpus will exclude pre-accession translations.
4.2 Parallel, comparable and reference corpora
Owing to the involvement of translation, the core corpus of the Polish Eurolect
will be embedded in a combination of monolingual comparable/reference and
bilingual parallel corpora. Corpus-Based Translation Studies tend to use either
the technique of parallel corpus or of a comparable corpus. While comparable
corpora are useful for analysing the textual fit of translations, that is how they
differ from nontranslations in the target language, parallel corpora give insight
into equivalence, that is the relation of translations to source texts. Both relations
– textual fit and equivalence – are fundamental in translations and essential to
understanding their nature (cf. Chesterman, 2004). The technique of researching translations against non-translations via comparable monolingual corpora
was pioneered by Mona Baker in the early 1990s (1993); however, it has lately
been criticised as one-sided and methodologically flawed due to the exclusion
of source texts (STs) from the study of translations and the resulting impossibility to account for ST interference in translated language (cf. Bernardini, Zanettin, 2004: 59; Pym, 2010: 82; Bernardini, Ferraresi, 2011: 228). More recent
approaches to translation recommend combining two types of corpora, that is
comparable and parallel ones. This approach has for example been advocated by
Hansen-Schirra and Teich, who refer to such a mixed-design corpus as a multilingually comparable corpus (2009: 1162). In my opinion this name, which is
popular especially among German scholars, does not fully reflect the nature
of the corpus; therefore, I propose to use a more explicit name – a comparable-parallel corpus. The structure of the Eurolect comparable-parallel corpus
is shown in Figure 1.
204
Łucja Biel
Figure 1. A genre-based comparable-parallel corpus: the PL Eurolect corpus
As for the parallel corpus, it will comprise the core corpus of the Polish Eurolect
aligned with corresponding English texts for all the four genres. In most cases,
these are “source texts”, especially for the pre-accession period; however, it may
not be excluded that translations were rendered from other languages, in particular French or that a text went through a mixture of languages (the multilingual drafting process). The selection of English also accounts for the fact that
it dethroned French as the key working language in the 2000s and has become
a lingua franca in the multilingual EU (cf. Pozzo, 2012). Since the techniques of
analysing parallel corpora are far less sophisticated than those of comparative
corpora, the parallel corpus will be smaller to enable an in-depth analysis and
will be built only for selected sections of the core Eurolect corpus. The parallel
corpus will be used to study key areas of interference, causes of overrepresentation and other typical features of translations as identified through comparable
corpora. Thus, it will be built at a later phase of the project in 2016-2017.
The comparable corpus of Administrative Polish will be built according to the same design criteria as the core Eurolect corpus to ensure that, wherever possible, the two corpora “match each other in terms of proportion, genre,
domain and sampling period” (McEnery et al., 2006: 48). The corpus will be
genre-based and will contain nontranslated administrative Polish. We will aim
at a similar size of corresponding subcorpora in the Eurolect corpus and in the
Administrative Polish corpus. The corpus will have a synchronic and diachronic
component, that is it will be split into pre-accession and post-accession sections
to study the impact of the Eurolect on administrative Polish (the provisional
Mixed corpus design for researching the Eurolect...
205
sampling points will be 1999/2000 and 2014-2016). A reservation should be
made that the full comparability of corpora in Translation Studies is not possible due to the culture-specific nature of genres (cf. Granger, 2003: 19); in this
case it should be borne in mind that EU texts and national texts have a different
context of use – supranational and national, respectively.
Polish national
legislation
The Polish Law Corpus (PLC) compiled by the author in 2011. The
corpus size is 7 million words, 755 statutes (more details see Biel, 2014).
The corpus will be updated as of 2015 and a smaller control sub-corpus
will be built with the same time span as the 1B corpus of EU law.
Polish judgments
Judgments of the Polish Supreme Court (Sąd Najwyższy), Civil
Chamber, obtained from Professor Rafał Górski. The Civil Law Chamber
Corpus has 3 million tokens and comprises 1,577 decisions, such as
postanowienie, uchwała, wyrok, ranging from 2000-2010. The Supreme
Court is the topmost tier of the Polish court system. It has powers to shape
general rules of law and may resolve discrepancies in interpretation of law
found in judgments of less senior courts. On these grounds the Supreme
Court decisions are deemed to be most comparable to EU decisions.
Polish governmental Reports published by the Polish government on comparable thematic areas.
reports
Official websites for Websites of the Polish government and other national institutions
Polish citizens
communicating with Polish citizens.
Table 2. A comparable corpus: the genre-based structure of the (national) Administrative Polish
corpus
The corpus design also covers a big general reference corpus to avoid the “difference mindset” (cf. Baker, 2010: 153) and enable the identification of similarities between the corpora of administrative discourse. It will be a balanced
sample of the National Corpus of Polish (NKJP3), a big corpus of contemporary
Polish which was released in 2012 and its time span ranges from 1945 to 2011.
The balanced version has 240.2 million words and consists of books 29%, the
press 50%, other written texts (administrative, letters) 4%, Internet 7%, spoken
texts 10%. It will function as a representative sample of contemporary Polish
and a benchmark for the interpretation of translation data.
5. Triangulation of data and methods
The project will not rely solely on quantitative data but, given the multifarious nature of translations, it will attempt at triangulation as recently postulated
by a number of scholars (cf. Zanettin, 2012: 12). It will cover both data and
methodological triangulation: that is, quantitative data from a broad range of
comparative and parallel corpora across genres and qualitative data obtained via
3 www.nkjp.pl
206
Łucja Biel
small-scale analyses, applying the functional linguistics methodology (mainly
discourse analysis), to study certain prominent aspects of the Eurolect, such
as legitimation strategies and rhetorical patterns, the multimodal analysis of
websites (social semiotics), and comparative legal analysis of supranational and
national terms. It is believed that this procedure will enable the team to obtain
a deep insight into the Polish Eurolect.
6. Conclusions
The project will investigate, describe and help understand the new linguistic
phenomenon – the Polish Eurolect, which still has not been researched empirically on a large scale. The results of the project may be relevant for translating
institutions and the EU public at large. Given the unprecedented scale of EU
translations and their political, economic and societal implications, it is crucial
to empirically identify ways of improving the quality of translations and increase
their communicative potential by minimising departures from the conventions
of Polish, and hence to reduce the colonisation of administrative Polish by the
Eurolect. The knowledge about processes, factors, key areas of interference and
distortions typical of the translation process will help to improve our understanding and interpretation of EU law, case law and other documents.
Acknowledgment
This study was financed by research grant no. 2014/14/E/HS2/00782 from the
National Science Centre, Poland.
References
Baker, Mona (1993): Corpus Linguistics and Translation Studies. Implications and Applications. In: Mona Baker, Gill Francis, Elena Tognini-Bonelli (eds): Text and Technology: In Honour of John Sinclair.
Amsterdam: John Benjamins, 233–250.
Baker, Paul (2010): Sociolinguistics and Corpus Linguistics. Edinburgh: Edinburgh University Press.
Bernardini, Silvia, Ferraresi, Adriano (2011): Practice Description and Theory Come Together – Normalization or Interference in Italian Technical Translation? Meta: Translators’ Journal 56(1), 226–246.
Mixed corpus design for researching the Eurolect...
207
Bernardini, Silvia, Zanettin, Federico (2004): When is a universal not a universal? Some limits of current corpus-based methodologies for the
investigation of translation universals. In: Anna Mauranen, Pekka
Kujamäki (eds.): Translation Universals. Do they exist? Amsterdam:
John Benjamins, 51–62.
Biel, Łucja (2014): Lost in the Eurofog. The Textual Fit of Translated Law. Frankfurt am Main: Peter Lang.
Chesterman, Andrew (2004): Hypotheses about translation universals.
In: Gyde Hansen, Kirsten Malmkjær, Daniel Gile (eds.): Claims,
Changes and Challenges in Translation Studies. Selected contributions
from the EST Congress, Copenhagen 2001. Amsterdam: John Benjamins,
1–13.
de Sutter, Gert, Delaere, Isabelle, Plevoets, Koen (2012): Lexical lectometry in corpus-based translation studies. Combining profile-based correspondence analysis and logistic regression modeling. In: Michael P.
Oakes, Meng Ji (eds.): Quantitative Methods in Corpus-Based Translation Studies: A practical guide to descriptive translation research. Amsterdam: John Benjamins, 325–346.
Delaere, Isabelle, DE Sutter, Gert, Plevoets, Koen (2012): Is translated
language more standardized than non-translated language? Using profile-based correspondence analysis for measuring linguistic distances
between language varieties. Target 24(2), 203–224.
Doczekalska, Agnieszka (2009): Drafting and interpretation of EU law –
paradoxes of legal multilingualism. In: Günther Grewendorf, Monika Rathert (eds.): Formal Linguistics and Law. Berlin: de Gruyter,
339–370.
European Commission (2009): Web translation as a genre. Studies on translation and multilingualism. 3/2009. http://bookshop.europa.eu/is-bin/
INTERSHOP.enfinity/WFS/EU-Bookshop-Site/en_GB/-/EUR/ViewPublication-Start?PublicationKey=HC8009160, (1 March 2016); DOI:
10.2782/26441.
Fairclough, Norman (2006): Genres in Political Discourse. In: Keith Brown
(ed.): Encyclopedia of Language and Linguistics. Vol. 5. Oxford: Elsevier,
32–38.
Goźdź-Roszkowski, Stanisław (2011): Patterns of Linguistic Variation in
American Legal English. A Corpus-Based Study. Frankfurt am Main:
Peter Lang.
Granger, Sylviane (2003): The corpus approach: a common way forward for
Contrastive Linguistics and Translation Studies? In: Sylviane Granger,
Jacques Lerot, Stephanie Petch-Tyson (eds.): Corpus-based
Approaches to Contrastive Linguistics and Translation Studies. Amsterdam: Rodopi, 17–29.
208
Łucja Biel
Hansen-Schirra, Silvia, Teich, Elke (2009): Corpora in human translation.
In: Anke Lüdeling, Merja Kytö (eds): Corpus Linguistics. An International Handbook. Berlin: de Gruyter, 1159–1175.
Koskinen, Kaisa (2000): Institutional Illusions. Translating in the EU Commission. The Translator 6(1), 49–65.
McAuliffe, Karen (2012): Language and Law in the European Union:
The Multilingual Jurisprudence of the ECJ. In: Lawrence M.
Solan, Peter M. Tiersma (eds.): The Oxford Handbook of Language and Law. Oxford: Oxford University Press; DOI 10.1093/oxfor
dhb/9780199572120.001.0001.
McEnery, Tony, Xiao, Richard, Tono, Yukio (2006): Corpus-Based Language
Studies. An advanced resource book. London: Routledge.
Pozzo, Barbara (2012): English as a Legal Lingua Franca in the EU Multilingual
Context. In: Cornelis J. W. Baaij (ed.): The Role of Legal Translation in
Legal Harmonization. Alphen aan den Rijn: Wolters Kluwer, 183–202.
Pym, Anthony (2010): Exploring Translation Theories. London: Routledge.
Salmi-Tolonen, Tarja (2004): Legal linguistic knowledge and creating and
interpreting law in multilingual environments. Brooklyn Journal of
International Law 29(3), 1167–1191.
Šarčević, Susan (1997): New Approach to Legal Translation. The Hague: Kluwer Law International.
Steinberger, Ralf, Pouliquen, Bruno , Widiger, Anna, Ignat, Camelia,
Erjavec, Tomaž, Tufiş, Dan, Varga, Dániel (2006): The JRCAcquis: A multilingual aligned parallel corpus with 20+ languages. In:
Proceedings of the 5th International Conference on Language Resources
and Evaluation (LREC’2006). Genoa, Italy, 24–26 May 2006. http://
langtech.jrc.it/Documents/0605_LREC_JRC-Acquis_Steinberger-et-al.
pdf, (1 March 2016).
Teich, Elke (2003): Cross-Linguistic Variation in System and Text: A Methodology for the Investigation of Translations and Comparable Texts. Berlin:
de Gruyter.
Zanettin, Federico (2012): Translation-Driven Corpora. Corpus Resources for
Descriptive and Applied Translation Studies. Manchester: St. Jerome.
Monika Szela
Wyższa Szkoła Filologiczna we Wrocławiu
O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego
Tekstów Prawnych w badaniu cech języka tekstów tłumaczonych
On using a English-Polish Parallel Corpus of Legal Texts
in research on features of the translational language
Abstract
This paper aims to present the compilation of the English-Polish
parallel corpus comprising legal acts of the European Union as well
as preliminary investigations into this corpus against comparative
corpora of British and Polish acts. The corpora have been compiled
for the purposes of research on grammatical and lexical features of
translated texts in comparison to texts produced originally by native
speakers of the target language. The phenomenon of divergence
between translated and non-translated texts have recently been given
considerable attention and this research is intended to contribute to
the studies dedicated to this phenomenon. Therefore, both translated
and non-translated legal acts have been acquired.
The parallel corpus contains two subcorpora with English and
Polish texts of the EU body of law (L series) published by the European Commission from 2004 to 2011. The size of each subcorpus
exceeds forty million words. The texts were downloaded both as plain
text files and aligned translation memories. Additionally, two comparative corpora, covering the same period of time, were compiled:
the first being the general legal acts of the British Parliament, and the
second being legal acts published in the Polish Journal of Laws. All
the files underwent basic – though labour-intensive – processing: pdf
files were converted to plain text formats, and character encoding was
unified if required. The files were then uploaded to WordSmith Tools,
a tool for text analysis, which produced word frequency lists and key
word lists.
The initial analyses included the investigation of (i) a handpicked Polish improper verb należy with an untypical frequency
in the parallel corpus against the distribution of the English modal
verb shall in both parallel and comparative corpora; and (ii) Polish
impersonal verb forms ended with -no, -to. As far as the impersonals
were concerned, it was assumed that the analysis would confirm the
Monika Szela
210
under-representation of these forms in translated texts; however, the
results reveal no such tendency. The paper ends with tentative conclusions drawn from the results as more detailed study into thus compiled corpora is called for.
Słowa kluczowe: korpus równoległy, korpus porównawczy, język polski, język angielski, język przekładu, interferencja, uniwersalia tłumaczeniowe, język prawniczy
Keywords: parallel corpus, comparative corpus, Polish, English,
translationese, interference, translation universals, legalese
1. Wprowadzenie
Omówione w niniejszym artykule zadanie utworzenia równoległego korpusu
angielsko-polskiego tekstów prawych jest elementem badań nad zjawiskiem
nienaturalności języka tekstu przekładu i jego cech na materiale aktów prawnych. Zagadnieniu braku naturalności tekstów tłumaczonych w porównaniu
z tekstami tworzonymi oryginalnie przez rodzimych użytkowników języka
docelowego (Olohan, 2004: 90) poświęcono już wiele badań, a w literaturze
przedmiotu pojawiły się nowe terminy, jak język tłumaczeń, język hybrydowy
czy trzeci kod (ang. translationese, translatese, hybrid language, third code).
Wśród przyczyn wspomnianego zjawiska badacze podkreślają zarówno wpływ
języka źródłowego, jak i uniwersalne tendencje niezależne od pary językowej,
inherentne dla samego procesu tłumaczenia, mające wpływ na produkt tłumaczenia (Mauranen, 2008: 33-34). Od lat dziewięćdziesiątych ubiegłego wieku
podejmowano badania dotyczące nie tylko interferencji, ale stawiano również
hipotezy o istnieniu uniwersaliów tłumaczeniowych wpisanych w proces tłumaczenia. Pojawiły się między innymi hipotezy o eksplicytacji w przekładzie,
uproszczeniu składniowym, konwencjonalizacji języka przekładu, niedoreprezentacji struktur języka docelowego w przypadku ich niewystępowania
w języku źródłowym czy konwergencji. Badacze są zgodni, że brak naturalności produktu tłumaczenia w porównaniu z tekstami oryginalnie utworzonymi
w języku docelowym nie sprowadza się tylko do niekompetencji językowej tłumacza czy niewystarczającej wiedzy przedmiotowej, ponieważ pojawia się również w tłumaczeniach wykonanych przez profesjonalnych tłumaczy.
W celu określenia cech języka przekładu i rozróżnienia, które z nich
są rezultatem interferencji, a które należą do tendencji uniwersalnych dla procesu tłumaczenia, wykorzystuje się metody językoznawstwa korpusowego,
które są użytecznym narzędziem badania rzeczywistego uzusu języka i obserwacji zachodzących regularności dla dużych ilości tekstów (Piotrowski, 2003:
143-147). Dzięki korpusom zyskuje się dane frekwencyjne dotyczące dystrybucji poszczególnych słów i wyrażeń w tekstach tłumaczonych oraz typowych
O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych...
211
połączeń wyrazowych. Takie dane zestawia się z odpowiednimi danymi dla tekstów nietłumaczonych, powstających w języku docelowym.
Przekładoznawstwo opisowe posługuje się korpusami równoległymi,
które zawierają tekst źródłowy zestawiony z jego tłumaczeniem (tłumaczeniami), korpusami porównawczymi, które zawierają teksty o podobnym profilu
(na przykład prawne, medyczne) w różnych językach (Mauranen, 2008: 33),
a także korpusami referencyjnymi, czyli zbiorami tekstów nietłumaczonych,
które służą za odniesienie przy badaniu cech tekstu tłumaczonego. Korpus równoległy pozwala na badanie tłumaczeń pod kątem ewentualnej interferencji, zaś
korpus porównawczy umożliwia badanie tendencji uniwersalnych oraz cech,
które sprawiają, że tekst nie brzmi naturalnie w porównaniu z tekstami oryginalnymi. Na potrzeby analizy produktu tłumaczenia ważne okazuje się nie tylko
porównanie tekstu źródłowego z tekstem docelowym, ale również porównanie
tekstu docelowego z korpusem tekstów utworzonych oryginalnie w języku
docelowym (por. Grabowski, 2011: 89-112).
Na potrzeby niniejszego badania, które dotyczy cech języka tłumaczeń utworzono zarówno korpusy równoległe zawierające tłumaczenia tekstów
prawnych na język polski wraz z ich tekstami źródłowymi w języku angielskim,
jak i korpusy porównawcze tekstów prawnych tworzonych oryginalnie w języku
polskim i angielskim. W artykule przedstawione zostaną pokrótce wymienione
korpusy, proces ich kompilacji oraz wstępne analizy. Zamierzeniem autorki jest
kontynuacja badań na przedstawionym materiale, których celem jest weryfikacja hipotezy o odmienności gramatycznej języka tekstów tłumaczonych
w porównaniu z tekstami nietłumaczonymi. Omawiane badania będą mogły
stanowić przyczynek do badań aktualnie prowadzonych dla podobnych zbiorów tekstów (Biel, 2014).
2. Opis korpusów
Materiał do badań ograniczono do jednego rodzaju tekstów aktów prawnych,
a mianowicie ustaw i rozporządzeń. Na potrzeby analizy cech języka tłumaczeniowego, skompilowane zostały następujące korpusy tekstów prawnych:
• korpus równoległy aktów prawnych Unii Europejskiej tłumaczonych
z języka angielskiego na język polski: teksty źródłowe w języku angielskim (dalej KRAN) oraz odpowiadające im teksty docelowe w języku
polskim (dalej KRPL);
• dwa korpusy porównawcze: teksty ustaw i rozporządzeń oryginalnie
napisane w języku polskim (KPPL) oraz teksty brytyjskich aktów prawnych oryginalnie napisane w języku angielskim (KPAN).
Monika Szela
212
W tabeli 1. przedstawiono podstawowe statystyki dla wykorzystanych korpusów
równoległych i porównawczych (liczba okazów oznacza liczbę wszystkich wyrazów w korpusie, zaś liczba typów oznacza liczbę różnych wyrazów w korpusie).
Korpus
KRAN
KRPL
KPAN
KPPL
Liczba plików
76 851
75 820
357
774
Liczba okazów
49 745 496
40 200 352
12 947 371
3 266 783
Liczba typów
191 939
318 644
18 906
53 890
Tabela 1. Podstawowe dane korpusu równoległego (KRAN – KRPL) oraz korpusów porównawczych (KPAN oraz KPPL)
2.1 Korpus równoległy. Informacje szczegółowe
Korpus równoległy stanowią zbiory tekstów aktów prawnych1 publikowanych
przez Generalny Dyrektorat ds. Tłumaczeń Unii Europejskiej. Akty prawne UE
zostały wybrane z kilku powodów: po pierwsze, ze względu na ogromną bazę
tekstów udostępnioną publicznie, a po drugie ze względu na brak odmienności
systemów prawnych (szczególnie w okresie poakcesyjnym, gdy niektóre z aktów
prawnych, np. rozporządzenia, mają tę samą moc prawną w kraju języka docelowego). Trzecim powodem jest wysoka jakość tłumaczeń wykonywanych
w ramach konsultacji językowych między poszczególnymi komisjami, co eliminuje problem kompetencji tłumacza (a raczej ewentualnego jej braku).
Podkorpus angielski zawiera akty z Dziennika Urzędowego serii L z lat
2004 – 2011 pobrane z oficjalnych stron UE2 (EUR-Lex): korpus równoległy
DGT-Acquis3”. Pliki w formacie tekstowym4 zostały pobrane w postaci skompresowanych plików, odrębnie dla poszczególnych lat. Łącznie pobrano osiem
plików, z których po rozpakowaniu otrzymano 76 851 plików tekstowych gotowych do badania za pomocą specjalnego oprogramowania do badania korpusów tekstów WordSmith Tools 6.05. Podkorpus angielski jest traktowany jako
zbiór tekstów źródłowych tłumaczenia6.
1 http://ec.europa.eu/legislation/index_en.htm (ED: 22/01/2015)
2 http://eur-lex.europa.eu/homepage.html
3 http://ipsc.jrc.ec.europa.eu/index.php?id=783
4 http://ec.europa/jrc/en/language-technology/dgt-acquis/da1-ft
5 http://www.lexically.net/wordsmith
6 Jest tak mimo zastrzeżeń wynikających z wieloetapowego procesu sporządzania dokumentów.
Na początku tego procesu tworzona jest wersja robocza przekazywana do komisji językowych,
które po zapoznaniu się zgłaszają problemy związane z tłumaczeniem, przekładające się dalej na
zmiany w drugiej wersji roboczej, ponownie przekazywanej do komisji językowych (Steinberger
et al., 2013: 455). Ten tryb tworzenia aktów prawnych powoduje, że obecnie nie uznaje się żadnego języka ani za język źródłowy, ani za język docelowy (Biel, 2014: 5)
O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych...
213
Zbiorem tekstów tłumaczonych na język polski jest podkorpus aktów
prawnych tworzących serię L Dziennika Urzędowego w języku polskim. Teksty zostały pobrane ze stron zawierających oficjalne publikacje EU z lat 2004
– 2011. Pliki pobrano również w formacie tekstowym7 w postaci ośmiu skompresowanych plików. Po rozpakowaniu otrzymano 75 820 plików tekstowych.
Ponieważ jednak kodowanie tekstów UTF-8 powodowało błędy podczas badania za pomocą WordSmith Tools, pliki zostały przekonwertowane za pomocą
komercyjnej aplikacji UTF Cast Professional8 na UTF-16LE. Po przekonwertowaniu, teksty można było analizować za pomocą WordSmith Tools.
Na potrzeby badania interferencji językowej pobrano również korpus
wyrównany JRC-Acquis9 oraz pamięci tłumaczeniowe DGT-TM10.
2.2 Korpusy porównawcze. Informacje szczegółowe
2.2.1 Korpus brytyjskich aktów prawnych
Na korpus tekstów brytyjskich składają się ustawy Parlamentu Brytyjskiego (Public General Acts) z lat 2004-2014 publikowane w czasie
zbliżonym do okresu publikacji dla korpusu równoległego UE. Teksty
pochodzą z oficjalnej strony zawierającej brytyjskie akty prawne11. Pobranych zostało 357 plików w formacie pdf, które następnie zostały przekonwertowane do formatu tekstowego za pomocą wbudowanej aplikacji
czytnika Adobe Reader 9.
2.2.2 Korpus polskich tekstów prawnych
Teksty nietłumaczone zawierające akty prawne napisane oryginalnie przez polskich prawników były pobrane z oficjalnych stron zawierających polskie ustawy:
Dziennik Ustaw12 oraz Internetowego Systemu Aktów Prawnych13. Teksty były
filtrowane według lat oraz rodzaju: pobierane były ustawy z lat 2004-2011 w formacie pdf. Po skomplikowanej procedurze konwertowania plików do formatu
odczytywanego przez WordSmith Tool, pozyskano 774 pliki tekstowe.
7 http://ec.europa/jrc/en/language-technology/dgt-acquis/da1-ft
8 http://www.rotatingscrew.com/utfcast-professional.aspx
9 http://optima.jrc.it/Acquis/JRC-Acquis.3.0/corpus/
10 http://open-data.europa.eu/en/data/dataset/dgt-translation-memory
11 http://www.legislation.gov.uk/
12 http://dziennikustaw.gov.pl/
13 http://isap.sejm.gov.pl/index.jsp
Monika Szela
214
2.3 Korpusy referencyjne
W docelowym badaniu wykorzystane zostaną również dwa korpusy referencyjne: Narodowy Korpus Języka Polskiego14 (NKJP) oraz Narodowy Korpus
Języka Brytyjskiego (British National Corpus, BNC) pobrany w całości po
otrzymaniu zgody. Według statystyk przedstawionych na stronie BNC, korpus
zawiera sto milionów słów15.
3. Badania wstępne
Skompilowane korpusy stanowią podstawowy materiał do badania cech języka
przekładu. Głównym korpusem podlegającym badaniu jest podkorpus tekstów
prawnych tłumaczonych na język polski. Dla tego podkorpusu są analizowane
cechy języka tłumaczeń pod kątem ich odmienności od tekstów nietłumaczonych. Pozostałe korpusy są korpusami pomocniczymi pozwalającymi na określenie zakresu ewentualnej interferencji z języka źródłowego oraz tendencji
niezależnych od wpływu tekstów źródłowych, charakterystycznych dla procesu
tłumaczenia.
3.1. Listy frekwencyjne
Pierwszym elementem badań jest utworzenie list frekwencyjnych oraz list
słów kluczowych dla korpusów równoległych i ich dystrybucja w korpusach
porównawczych za pomocą programu WordSmith Tools 6.0. Lista frekwencyjna zawiera listę słów uporządkowanych według liczby wystąpień w korpusie.
Utworzono cztery listy frekwencyjne: dwie dla korpusu równoległego oraz dwie
listy dla korpusów porównawczych. W tabelach 2.-5. przedstawiono listy frekwencyjne z wynikami dla pierwszych stu najczęstszych słów dla każdego korpusu. Czcionką pogrubioną zaznaczono elementy analizowane w dalszej części
artykułu (ponieważ korpusy zostały poddane tylko częściowej obróbce, na
listach mogą pojawiać się wyrazy z błędnym zapisem lub kodowaniem; # zastępuje cyfry pojawiające się w korpusach).
Lp. Słowo
1
2
3
4
#
W
I
Z
Liczba
%
w KRPL w KRPL
3197162
7,19
1814379
4,08
977858
2,20
879833
1,98
14 http://nkjp.pl/
15 http://www.natcorp.ox.ac.uk/
Lp. Słowo
51
52
53
54
NIŻ
ICH
TO
EUROPEJSKIEJ
Liczba
%
w KRPL w KRPL
66045
0,15
65455
0,15
64532
0,15
64314
0,14
O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych...
Lp. Słowo
Liczba
%
w KRPL w KRPL
5 DO
684939
1,54
6 NA
608112
1,37
7 M
552688
1,24
8 Ý
540161
1,21
9 LUB
370437
0,83
10 R
303742
0,68
11 WE
301690
0,68
12 SIĘ
299330
0,67
13 O
284655
0,64
14 NR
241323
0,54
15 ORAZ
239200
0,54
16 ART.
237609
0,53
17 NIE
228996
0,52
18 DNIA
224912
0,51
19 PRZEZ
200415
0,45
20 JEST
187938
0,42
21 DLA
182632
0,41
22 A
169878
0,38
23 UST
160874
0,36
24 ŻE
154807
0,35
25 ZGODNIE
149402
0,34
26 ROZPORZĄDZENIA 145945
0,33
27 KOMISJI
136219
0,31
28 SĄ
134635
0,30
29 OD
132944
0,30
30 ROZPORZĄDZENIE 127015
0,29
31 ARTYKUŁ
123113
0,28
32 RADY
109102
0,25
33 ZA
92306
0,21
34 SPRAWIE
91447
0,21
35 KTÓRE
91382
0,21
36 CELU
88097
0,20
37 NALEŻY
87873
0,20
38 PAŃSTWA
87829
0,20
39 PRZYPADKU
87294
0,20
40 BYĆ
85994
0,19
41 KTÓRYCH
84366
0,19
42 TYM
78470
0,18
43 PO
75598
0,17
44 ŚRODKI
74514
0,17
45 JEGO
71196
0,16
46 ZE
71124
0,16
Lp. Słowo
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
ŚRODKÓW
UWZGLĘDNIAJĄC
CZŁONKOWSKIE
SZCZEGÓLNOŚCI
UNII
TE
MOWA
PRODUKTÓW
DOTYCZĄCE
RAMACH
JEŻELI
ZAŁĄCZNIKU
POMOCY
JAKO
JAK
TEGO
NINIEJSZEGO
MOGĄ
EWG
DECYZJI
L
TAKŻE
U
ZAKRESIE
INNYCH
LIT
CZŁONKOWSKICH
TYCH
PRZY
PAŃSTW
WSPÓLNOTY
B
NINIEJSZE
DYREKTYWY
POD
MIĘDZY
DECYZJA
RYNKU
C
WARTOŚCI
RÓWNIEŻ
EUROPEJSKIEGO
215
Liczba
%
w KRPL w KRPL
60396
0,14
60291
0,14
59592
0,13
59412
0,13
59307
0,13
58578
0,13
58494
0,13
57623
0,13
56390
0,13
54346
0,12
53734
0,12
52989
0,12
52972
0,12
52006
0,12
50987
0,11
50840
0,11
50672
0,11
50659
0,11
50001
0,11
49621
0,11
48663
0,11
47884
0,11
47689
0,11
47547
0,11
47089
0,11
46453
0,10
46032
0,10
45938
0,10
45017
0,10
45005
0,10
45002
0,10
44411
0,10
44333
0,10
43785
0,10
43422
0,10
43304
0,10
42245
0,10
42061
0,09
41442
0,09
41310
0,09
40922
0,09
40674
0,09
Monika Szela
216
Lp. Słowo
47
48
49
50
ODNIESIENIU
KOMISJA
MOŻE
CO
Liczba
%
w KRPL w KRPL
70692
0,16
70687
0,16
67202
0,15
67191
0,15
Lp. Słowo
97
98
99
100
ZAŁĄCZNIK
II
WSZYSTKICH
PKT
Liczba
%
w KRPL w KRPL
39995
0,09
39842
0,09
39775
0,09
39753
0,09
Tabela 2. Lista frekwencyjna dla podkorpusu aktów prawnych UE tłumaczonych na język polski
(KRPL)
Lp. Słowo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
THE
#
OF
TO
AND
IN
FOR
A
BE
OR
ON
SHALL
BY
WITH
IS
REGULATION
THAT
AS
THIS
ARTICLE
EC
COMMISSION
€
NO
FROM
EUROPEAN
NOT
WHICH
ARE
MEMBER
AT
Î
AN
Liczba
%
w KRAN w KRAN
4105230
8,25
3233168
6,50
2495090
5,01
1284276
2,58
1272934
2,56
1238765
2,49
691226
1,39
576733
1,16
506839
1,02
426358
0,86
423319
0,85
389849
0,78
384255
0,77
326489
0,66
326365
0,66
323248
0,65
318328
0,64
297674
0,60
292751
0,59
265127
0,53
264468
0,53
225198
0,45
220035
0,44
206352
0,41
197610
0,40
197566
0,40
197241
0,40
175284
0,35
169095
0,34
160637
0,32
154803
0,31
154013
0,31
149751
0,30
Lp. Słowo
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
ARTICLEÂ
STATE
FOLLOWING
INFORMATION
ALL
HAVE
MEASURES
REFERRED
DIRECTIVE
THAN
INTO
OUT
AGREEMENT
I
IF
UNION
SUCH
REGARD
HAVING
THEIR
FINANCIAL
NOÂ
PARTICULAR
WHERE
PROVIDED
Ï
WAS
BEEN
MARKET
BETWEEN
AID
WITHIN
DOWN
Liczba
%
w KRAN w KRAN
88134
0,18
86267
0,17
85843
0,17
85736
0,17
84191
0,17
81288
0,16
78550
0,16
77864
0,16
77412
0,16
76652
0,15
76428
0,15
76189
0,15
75886
0,15
74921
0,15
74861
0,15
74057
0,15
73522
0,15
72444
0,15
72047
0,14
71773
0,14
71178
0,14
70215
0,14
68103
0,14
67969
0,14
67894
0,14
67091
0,13
63104
0,13
62998
0,13
62329
0,13
61611
0,12
60085
0,12
59378
0,12
56087
0,11
O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych...
Lp. Słowo
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
COMMUNITY
IT
OTHER
COUNCIL
MAY
STATES
DECISION
ITS
ANNEX
UNDER
Ð
SHOULD
ACCORDANCE
Â
HAS
ANY
PRODUCTS
Liczba
%
w KRAN w KRAN
138744
0,28
136235
0,27
135076
0,27
130437
0,26
120278
0,24
116105
0,23
114810
0,23
111997
0,23
110035
0,22
100926
0,20
96245
0,19
94760
0,19
94480
0,19
93647
0,19
91559
0,18
91557
0,18
89761
0,18
Lp. Słowo
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
PERIOD
P
SET
THOSE
EEC
PART
USED
MUST
CERTAIN
CONDITIONS
ONE
APPLICABLE
USE
THEY
TREATY
RULES
PROVISIONS
217
Liczba
%
w KRAN w KRAN
53885
0,11
53789
0,11
52640
0,11
51529
0,10
51272
0,10
50866
0,10
49706
0,10
49646
0,10
49546
0,10
49229
0,10
48976
0,10
48829
0,10
48010
0,10
46835
0,09
46787
0,09
46747
0,09
46476
0,09
Tabela 3. Lista frekwencyjna dla podkorpusu aktów prawnych UE w języku angielskim (KRAN)
Lp. Słowo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
#
W
Z
I
NR
POZ
ART
O
UST
DO
NA
R
LUB
SIĘ
ORAZ
MOWA
DNIA
PKT
PRZEZ
USTAWY
Liczba
%
Lp. Słowo
w KPPL w KPPL
549333
16,82 51 POLSKIEJ
143867
4,40 52 STOSUJE
69089
2,11 53 USTAWIE
68766
2,11 54 WŁAŚCIWY
59366
1,82 55 DZIAŁ
57620
1,76 56 DZIAŁALNOŚCI
56017
1,71 57 PAŃSTWA
54992
1,68 58 ZE
42121
1,29 59 TERMINIE
41320
1,26 60 RZECZYPOSPOLITEJ
37690
1,15 61 MINISTER
35369
1,08 62 JEGO
31131
0,95 63 INFORMACJI
26904
0,82 64 OSÓB
25062
0,77 65 PRZEPISÓW
24230
0,74 66 ZOSTAŁY
18440
0,56 67 ŻYCIE
16521
0,51 68 DRODZE
14686
0,45 69 SĄ
14607
0,45 70 WYMIENIONEJ
Liczba
w KPPL
4269
4205
4161
4050
4019
3985
3968
3864
3824
3799
3775
3752
3732
3701
3658
3606
3583
3576
3564
3560
%
w KPPL
0,13
0,13
0,13
0,12
0,12
0,12
0,12
0,12
0,12
0,12
0,12
0,11
0,11
0,11
0,11
0,11
0,11
0,11
0,11
0,11
Monika Szela
218
Lp. Słowo
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
KTÓRYCH
NIE
A
BRZMIENIE
OTRZYMUJE
OD
KTÓRYM
DZ
PO
U
JEST
ZA
ALBO
KTÓREJ
MOŻE
PRZYPADKU
BRZMIENIU
SPRAW
JEŻELI
B
ZAKRESIE
DLA
PODSTAWIE
DODAJE
ZMIANY
USTAW
DZIENNIK
NIŻ
TYM
ICH
Liczba
%
w KPPL w KPPL
12884
0,39
12859
0,39
11680
0,36
11439
0,35
10367
0,32
10200
0,31
10183
0,31
9758
0,30
8979
0,27
8842
0,27
8647
0,26
7338
0,22
6976
0,21
6840
0,21
6728
0,21
6572
0,20
6307
0,19
6278
0,19
6182
0,19
6133
0,19
6087
0,19
5812
0,18
5718
0,18
5354
0,16
5334
0,16
5329
0,16
4951
0,15
4781
0,15
4700
0,14
4285
0,13
Lp. Słowo
Liczba
w KPPL
71 ZM
3555
72 PRACY
3550
73 PÓŹN
3529
74 PRZEPISY
3432
75 OCHRONY
3416
76 ŚRODKÓW
3339
77 ROZPORZĄDZENIA 3300
78 BYĆ
3279
79 PRZED
3275
80 OSOBY
3250
81 TYCH
3192
82 OKREŚLONYCH
3161
83 DANYCH
3132
84 WNIOSEK
3113
85 TAKŻE
3092
86 DECYZJI
3058
87 KONTROLI
3013
88 C
3006
89 UMOWY
2968
90 DNI
2967
91 POSTĘPOWANIA
2964
92 PRAWO
2960
93 OGŁOSZONE
2955
94 SPOSÓB
2947
95 ODPOWIEDNIO
2943
96 PRAWA
2943
97 RADY
2937
98 WE
2927
99 TEGO
2864
100 CZĘŚĆ
2842
275 NALEŻY
1054
%
w KPPL
0,11
0,11
0,11
0,11
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,10
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,09
0,03
Tabela 4. Lista frekwencyjna dla korpusu porównawczego polskich aktów prawnych
Lp. Słowo
1
2
3
4
5
6
#
THE
OF
A
TO
IN
Liczba
%
w KPAN w KPAN
1184510
9,13
885054
6,82
619758
4,78
417996
3,22
396460
3,05
373462
2,88
Lp. Słowo
51
52
53
54
55
56
SUCH
MUST
FROM
AT
STATE
AMOUNT
Liczba
%
w KPAN w KPAN
32630
0,25
32451
0,25
28961
0,22
28616
0,22
28358
0,22
25802
0,20
O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych...
Lp. Słowo
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
AND
OR
SECTION
FOR
IS
ACT
B
BY
C
THAT
AS
UNDER
BE
ANY
AN
SUBSECTION
THIS
PARAGRAPH
WHICH
ON
PERSON
MAY
WITH
PART
NOT
IF
IT
SCHEDULE
MADE
ORDER
RELATION
HAS
ARE
AFTER
OTHER
PROVISION
PURPOSES
AUTHORITY
S
PERIOD
TAX
COMPANY
Liczba
%
w KPAN w KPAN
252007
1,94
246292
1,90
191003
1,47
188061
1,45
170875
1,32
148456
1,14
126381
0,97
124733
0,96
118370
0,91
113097
0,87
112392
0,87
111840
0,86
99333
0,77
90649
0,70
89753
0,69
89306
0,69
88276
0,68
83076
0,64
75625
0,58
69176
0,53
68520
0,53
67025
0,52
61317
0,47
60765
0,47
58924
0,45
57971
0,45
47659
0,37
43991
0,34
42796
0,33
40841
0,31
40308
0,31
39570
0,30
39529
0,30
38494
0,30
38090
0,29
37870
0,29
37237
0,29
35531
0,27
35095
0,27
34562
0,27
34457
0,27
33324
0,26
Lp. Słowo
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
APPLIES
INSERT
SECRETARY
WHERE
REGULATIONS
MEANS
BEFORE
SUB
RESPECT
HAVE
WITHIN
MAKE
INCOME
CHAPTER
COURT
CASE
TIME
NOTICE
EFFECT
LOCAL
D
SPECIFIED
SCHEME
BEEN
SERVICES
SO
INFORMATION
MEANING
I
WHO
REFERENCE
GIVEN
APPLICATION
PERSONS
APPLY
SUBJECT
HEALTH
POWER
SERVICE
YEAR
FUNCTIONS
THAN
219
Liczba
%
w KPAN w KPAN
25701
0,20
25569
0,20
25229
0,19
24514
0,19
24160
0,19
23785
0,18
23677
0,18
23228
0,18
22750
0,18
21956
0,17
21703
0,17
21678
0,17
21628
0,17
21141
0,16
20221
0,16
19818
0,15
19537
0,15
19434
0,15
19388
0,15
19357
0,15
19343
0,15
19176
0,15
19111
0,15
18989
0,15
18324
0,14
18323
0,14
16870
0,13
16588
0,13
16552
0,13
16360
0,13
16003
0,12
15635
0,12
15591
0,12
15322
0,12
15292
0,12
15194
0,12
15030
0,12
15006
0,12
14873
0,11
14743
0,11
14461
0,11
14329
0,11
Monika Szela
220
Lp. Słowo
49 RELEVANT
50 SUBSTITUTE
Liczba
%
Lp. Słowo
w KPAN w KPAN
33090
0,25 99 OFFENCE
32860
0,25 100 ITS
103 SHALL
737 SHOULD
Liczba
%
w KPAN w KPAN
13933
0,11
13888
0,11
13279
0,10
1763
0,01
Tabela 5. Lista frekwencyjna dla korpusu porównawczego brytyjskich aktów prawnych
Powyższe wyniki umożliwiają określenie słów najczęstszych i porównanie dystrybucji słów w tekstach tłumaczonych i nietłumaczonych oraz wstępną selekcję
elementów do analiz szczegółowych.
3.2. Listy słów kluczowych
Dla omawianych korpusów utworzono również listy słów kluczowych poprzez
porównanie list frekwencyjnych dla korpusów równoległych z listami frekwencyjnymi dla korpusów porównawczych. Za słowa kluczowe uznaje się słowa
o najbardziej nietypowej frekwencji w zestawieniu z korpusem porównawczym.
Lista słów kluczowych zawiera słowa uszeregowane od najbardziej do najmniej
nietypowych16. W tabeli 6. oraz w tabeli 7. przedstawiono słowa kluczowe
dla podkorpusów równoległych w zestawieniu z odpowiednimi korpusami
porównawczymi.
Lp Słowo kluczowe Liczba
%
Liczba Lp
Słowo
Liczba
% Liczba
w KRPL KRPL w KPPL
kluczowe
w KRPL KRPL w KPPL
1 M
552688
1,24
405 51 EUROPEJSKĄ
30193 0,07
256
2 WE
301690
0,68
2927 52 RAMACH
54346 0,12
1165
3 ARTYKUŁ
123113
0,28
8 53 IMIENIU
29092 0,07
245
4 ROZPORZĄ127015
0,29
541 54 WSPÓLNOTĘ
19536 0,04
17
DZENIE
5 ZGODNIE
149402
0,34
2066 55 STOSOWANE
24780 0,06
142
6 ŻE
154807
0,35
2650 56 ZASTOSO31982 0,07
357
WANIE
7 KOMISJI
136219
0,31
2727 57 JAKO
52006 0,12
1126
8 CZŁONKOW59592
0,13
183 58 MOCY
34708 0,08
460
SKIE
9 ROZPORZĄ145945
0,33
3300 59 ZATEM
17587 0,04
2
DZENIA
10 NALEŻY
87873
0,20
1054 60 WSPÓLNOT
24157 0,05
143
11 NINIEJSZE
44333
0,10
2 61 PAŃSTWO
27240 0,06
236
12 NINIEJSZEGO
50672
0,11
166 62 USTANA20233 0,05
55
WIAJĄCE
16 http://www.lexically.net/downloads/version6/HTML/index.html?keywords.htm
O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych...
221
Lp Słowo kluczowe Liczba
%
Liczba Lp
Słowo
Liczba
% Liczba
w KRPL KRPL w KPPL
kluczowe
w KRPL KRPL w KPPL
13 ODNIESIENIU
70692
0,16
762 63 EUROPEJ27233 0,06
241
SKICH
14 WSPÓLNOTY
45002
0,10
75 64 DOTYCZĄCE
56390 0,13
1373
15 ZAŁĄCZNIKU
52989
0,12
334 65 PRZYWÓZ
19878 0,04
52
16 DLA
182632
0,41
5812 66 PRZYWOZU
20847 0,05
74
17 KOMISJA
70687
0,16
920 67 ROZPORZĄ23442 0,05
156
DZENIEM
18 SĄ
134635
0,30
3564 68 POWINNY
27633 0,06
289
19 DS
32346
0,07
14 69 PRZYJMUJE
23808 0,05
180
20 JAK
50987
0,11
494 70 TO
64532 0,15
1851
21 EUR
30402
0,07
2 71 USTANA15389 0,03
2
WIAJĄCY
22 EWG
50001
0,11
482 72 TRAKTATU
20890 0,05
115
23 ABY
39349
0,09
202 73 JEST
187938 0,42
8647
24 UWZGLĘ60291
0,14
870 74 WSZYSTKIE
24267 0,05
238
DNIAJĄC
25 UWAGI
35230
0,08
116 75 STRONY
33477 0,08
584
26 RADY
109102
0,25
2937 76 PONIEWAŻ
14163 0,03
5
27 PRODUKTÓW
57623
0,13
807 77 WARTOŚCI
41310 0,09
920
28 ZAŁĄCZNIK
39995
0,09
273 78 CO
67191 0,15
2141
29 SPRAWIE
91447
0,21
2237 79 MUSZĄ
18977 0,04
118
30 ŚRODKI
74514
0,17
1606 80 KRAJÓW
15546 0,03
39
31 DECYZJA
42245
0,10
441 81 PAŃSTWACH
21550 0,05
200
32 CELU
88097
0,20
2293 82 CENY
23390 0,05
260
33 CZŁONKOW46032
0,10
586 83 REPUBLIKI
22618 0,05
239
SKICH
34 JEŚLI
26864
0,06
54 84 KOMITETU
25199 0,06
330
35 DYREKTYWY
43785
0,10
539 85 PRODUKTY
20531 0,05
187
36 TE
58578
0,13
1098 86 EUROPEJ40674 0,09
963
SKIEGO
37 WSZYSTKICH
39775
0,09
418 87 CELÓW
28933 0,07
483
38 KTÓRE
91382
0,21
2575 88 CUKRU
14570 0,03
46
39 MUSI
26873
0,06
88 89 BYĆ
85994 0,19
3279
40 MIĘDZY
43304
0,10
598 90 PRODUKCJI
26099 0,06
416
41 SPORZĄ21828
0,05
7 91 DO
684939 1,54 41320
DZONO
42 EOG
22365
0,05
15 92 UWADZE
24947 0,06
384
43 TRAKTAT
21007
0,05
0 93 CZY
27515 0,06
483
44 NINIEJSZYM
25631
0,06
103 94 PARLA28418 0,06
523
MENTU
45 BRUKSELI
21225
0,05
15 95 BY
14326 0,03
60
46 ZOSTAĆ
33870
0,08
338 96 AKAPIT
12759 0,03
31
47 PAŃSTW
45005
0,10
743 97 TAKIE
20604 0,05
254
48 II
39842
0,09
555 98 NIEKTÓRYCH 32470 0,07
717
Monika Szela
222
Lp Słowo kluczowe Liczba
%
Liczba Lp
Słowo
Liczba
% Liczba
w KRPL KRPL w KPPL
kluczowe
w KRPL KRPL w KPPL
49 RYNKU
42061
0,09
639 99 WIĄŻE
13146 0,03
42
50 ZAŁĄCZNIKA
31434
0,07
282 100 STOSOWANIA 28838 0,06
581
Tabela 6. Lista słów kluczowych dla podkorpusu polskiego w porównaniu z korpusem porównawczym polskich aktów prawnych
Lp
2
3
4
Słowo
kluczowe
REGULATION
EC
SHALL
€
5
6
7
1
Liczba
%
Liczba Lp
Słowo
Liczba
%
Liczba
w KRAN KRAN w KPAN
kluczowe w KRAN KRAN w KPAN
323248
0,65
3348 51 IMPORTS
26396
0,05
9
264468
389849
220035
0,53
0,78
0,44
337 52
13279 53
0 54
ARTICLE
265127
0,53
3784 55
EUROPEAN
ANNEX
197566
110035
0,40
0,22
1606 56
128 57
STATES
COMMISSION
10 NO
116105
225198
0,23
0,45
591 58
11814 59
206352
0,41
10614 60
11 Â
12 COMMUNITY
13 ARTICLEÂ
14 PRODUCTS
15 NOÂ
16 SHOULD
17 DIRECTIVE
18 THE
19 MEASURES
20 UNION
21 COUNCIL
93647
138744
0,19
0,28
0 61
3795 62
88134
89761
70215
94760
77412
4105230
78550
74057
130437
0,18
0,18
0,14
0,19
0,16
8,25
0,16
0,15
0,26
22 DECISION
114810
0,23
5941 72
23 MEMBER
24 EEC
25 DOWN
160637
51272
56087
0,32
0,10
0,11
12369 73
47 74
355 75
8
9
0
310
0
1763
556
885054
1278
1179
7931
63
64
65
66
67
68
69
70
71
EXPORT
SPECIFIC
TECHNICAL
APPLICABLE
HAVING
AGREEMENT
WHEREAS
INTENDED
IMPLEMENTATION
ANNEXÂ
COVER
30018
34934
30485
0,06
0,07
0,06
220
633
285
48829
0,10
2211
72047
75886
0,14
0,15
5449
6029
23908
33861
0,05
0,07
3
767
29983
0,06
438
23064
26576
0,05
0,05
0
192
BRUSSELS
ENSURE
FROM
TYPE
SYSTEM
FREE
COMMON
PRICE
ACCORDING
REPLACED
PRICES
ITS
PURSUANT
22404
33311
197610
30416
44171
28422
34719
28733
23508
0,05
0,07
0,40
0,06
0,09
0,06
0,07
0,06
0,05
28
884
28961
689
2316
578
1280
758
307
22704
0,05
259
23238
111997
30002
0,05
0,23
0,06
327
13888
992
O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych...
Lp
26
27
28
29
30
Słowo
kluczowe
THEREOF
TREATY
THESE
REGARD
AND
Liczba
%
Liczba Lp
w KRAN KRAN w KPAN
42656
0,09
37 76
46787
0,09
396 77
46434
0,09
491 78
72444
0,15
3127 79
1272934
2,56 252007 80
31 REPUBLIC
39023
0,08
64 81
32 REFERRED
77864
0,16
4087 82
33 MARKET
62329
0,13
2252 83
34 ESTABLISHING
35 IMPORT
39318
0,08
295 84
34363
0,07
41 85
36670
423319
37792
35452
32454
43951
35325
0,07
0,85
0,08
0,07
0,07
0,09
0,07
39327
0,08
44 EU
45 BETWEEN
46 POINT
37983
61611
36832
0,08
0,12
0,07
619
3255
622
47 ALL
48 THEIR
49 COMPETENT
84191
71773
32168
0,17
0,14
0,06
6541
4756
323
50 JUNE
30972
0,06
249
36
37
38
39
40
41
42
PRODUCT
ON
ADOPTED
COUNTRIES
THEREFORE
DATA
CONCERNING
43 DECEMBER
181
69176
357
227
100
1103
372
86
87
88
89
90
91
92
722 93
223
Słowo
Liczba
%
Liczba
kluczowe w KRAN KRAN w KPAN
JULY
24340
0,05
440
SET
52640
0,11
3945
SUGAR
17632
0,04
1
OCTOBER
22485
0,05
316
PROTO20449
0,04
204
COL
CONSI24951
0,05
588
DERED
PRO32776
0,07
1435
DUCTION
FOLLO85843
0,17
9577
WING
THIRD
35526
0,07
1784
PROVIDED
USED
OFFICIAL
ORIGIN
BASIS
BE
JOURNAL
LAYING
COMMUNITIES
94 DETAILED
95 NUMBER
96 IMPLEMENTING
97 HOWEVER
98 VALUES
99 ORIGINATING
100 ECONOMIC
67894
0,14
6583
49706
28007
16427
42287
506839
16272
18405
0,10
0,06
0,03
0,08
1,02
0,03
0,04
3851
998
19
2840
99333
29
167
26376
0,05
914
15820
43019
18690
0,03
0,09
0,04
25
3096
224
21218
18620
15882
0,04
0,04
0,03
441
223
54
28611
0,06
1270
Tabela 7. Lista słów kluczowych dla podkorpusu angielskiego KRAN w porównaniu z korpusem
porównawczym brytyjskich aktów prawnych
Lista słów kluczowych umożliwia prześledzenie nietypowych częstotliwości
słów w korpusie tekstów tłumaczonych w porównaniu z korpusem nietłumaczonych tekstów prawnych. W podkorpusie tekstów tłumaczonych na język
polski zwraca uwagę nadreprezentacja czasownika niewłaściwego należy (dziesiąte miejsce na liście słów kluczowych). Na liście frekwencyjnej dla korpusu
Monika Szela
224
równoległego występuje on na miejscu trzydziestym siódmym, zaś w korpusie
porównawczym polskich ustaw pojawia się dopiero na miejscu dwieście siedemdziesiątym piątym. Stąd wniosek, że liczba wystąpień formy należy jest
skutkiem interferencji tekstu źródłowego i prawdopodobnie odpowiada angielskiemu shall i should. Dokładne badania korpusu równoległego wyrównanego
mogłyby wykazać, w jakim stopniu nadreprezentacja formy należy jest rzeczywiście wynikiem tłumaczenia wymienionych czasowników modalnych. Na
liście słów kluczowych dla podkorpusu angielskiego KRAN czasownik modalny
shall zajmuje trzecie miejsce. Lista frekwencyjna dla tego podkorpusu podaje
shall na dwunastym miejscu, zaś lista frekwencyjna dla korpusu aktów brytyjskich na miejscu sto trzecim. Czasownik modalny should również pojawia się
wśród pierwszych dwudziestu słów kluczowych dla podkorpusu angielskiego.
W samym podkorpusie KRAN tekstów prawnych UE występuje on na miejscu
czterdziestym piątym, a w korpusie porównawczym aktów brytyjskich KPAN
dopiero na miejscu siedemset trzydziestym siódmym. Wyrywkowe porównanie
tekstów źródłowych z docelowymi korpusu równoległego pokazuje, że wysokie miejsce należy nie jest skutkiem tłumaczenia czasownika modalnego shall.
W dalszych badaniach konieczna jest analiza jakościowa tekstów wyrównanych
źródłowych i docelowych w celu zbadania kontekstu wymienionych słów i uściślenia wyników badań ilościowych.
Ze względu na założony cel badawczy, jakim jest weryfikacja hipotezy o odmienności gramatycznej języka tłumaczonego, za pomocą korpusu
równoległego i porównawczych zbadano również wstępnie dystrybucję form
nieosobowych zakończonych na -no oraz -to, czyli bezosobników (za Saloni,
Świdziński, 2007: 150). Tabela 8. przedstawia dwadzieścia najczęstszych form
bezosobników zakończonych na -no oraz dwadzieścia zakończonych na -to oraz
liczbę okazów danej formy w korpusie tłumaczonym i korpusie porównawczym.
Typ
sporządzono
określono
stwierdzono
ustalono
uznano
przyznano
przedstawiono
przewidziano
dokonano
podano
KRPL
Liczba Typ
okazów
21828 przyjęto
5336 podjęto
4345 zawarto
3627 wykryto
2720 osiągnięto
2033 oparto
2000 wzięto
1799 użyto
1797 usunięto
1771 wszczęto
Liczba
okazów
1437
781
439
397
314
266
232
227
198
191
Typ
wydano
stwierdzono
udzielono
dokonano
przyznano
orzeczono
Nadano
powierzono
wniesiono
złożono
KPPL
Liczba Typ
Liczba
okazów
okazów
127 zawarto
44
71 wszczęto
30
66 rozpoczęto
18
61 cofnięto
16
42 podjęto
10
41 usunięto
7
36 otwarto
6
32 wytknięto
4
29 zajęto
4
29 oparto
3
O wykorzystaniu Angielsko-Polskiego Korpusu Równoległego Tekstów Prawnych...
225
KRPL
KPPL
Liczba Typ
Liczba Typ
Liczba Typ
Liczba
okazów
okazów
okazów
okazów
złożono
1733 rozpoczęto
187 ustalono
25 przyjęto
3
wskazano
1498 Ujęto
178 uzyskano
24 ujęto
3
ustanowiono
1332 wysunięto
131 przeprowadzono
22 dożyto
2
przeprowadzono
1298 objęto
109 zastosowano
22 objęto
2
udzielono
1195 otwarto
109 określono
21 pominięto
2
zastosowano
1178 cofnięto
66 przekazano
21 powzięto
2
opisano
1143 wyciągnięto
49 odmówiono
19 wykryto
2
wykazano
1135 zamknięto
46 postawiono
19 zasięgnięto
2
uwzględniono
937 zasięgnięto
40 ogłoszono
18 dotarto
1
wprowadzono
929 odkryto
36 ustanowiono
14 nabyto
1
Typ
Tabela 8. Najczęstsze formy nieosobowe wraz z liczbą ich wystąpień w polskim podkorpusie równoległym i w polskim korpusie porównawczym
Przed rozpoczęciem badania założono zgodnie z hipotezą o niedoreprezentacji form typowych dla języka docelowego, że liczba typów form bezosobników
będzie dużo niższa w korpusie równoległym w stosunku do liczby typów w korpusie porównawczym. Okazało się jednak, że według wstępnych badań korpus
tekstów tłumaczonych wykazuje znaczną różnicę w liczbie typów, lecz podobną
wartość procentową liczby typów form bezosobowych do ogólnej liczby typów
w korpusie, jak korpus porównawczy. Te wartości wymagają jednak dokładniejszych analiz, gdyż ze względu na przyjęcie do badania korpusów bez dokładniejszego oczyszczenia zbędnych elementów (na przykład słów z języków obcych),
dane procentowe mogą się znacząco zmienić.
Formy nieosobowe
czasownika
zakończone na -no
zakończone na -to
Liczba typów
w KRPL
1036
61
%
0,33
0,02
Liczba typów
w KPPL
185
28
%
0,34
0,05
Tabela 9. Łączna liczba typów form bezosobników dla korpusu tekstów tłumaczonych oraz dla
korpusu porównawczego
4. Podsumowanie
Przedstawione korpusy równoległe i porównawcze otwierają możliwość weryfikacji wielu hipotez dotyczących języka tłumaczeń i określenia jego cech. Celem
kompilacji korpusów wymienionych w niniejszym artykule jest weryfikacja
hipotezy o odmienności gramatycznej i leksykalnej tekstów tłumaczonych.
Wstępne badania wykazują inną dystrybucję słów w tekstach tłumaczonych
w porównaniu z tekstami nietłumaczonymi, co zostało szczególnie uwidocznione w liście słów kluczowych. Jednak drugi element weryfikacji hipotezy
226
Monika Szela
o odmienności gramatycznej pokazuje wstępnie, że w tekstach tłumaczonych
nie występuje niedoreprezentacja form nieosobowych czasowników, co dowodzi, że angielska strona bierna nie jest tłumaczona przez zastosowanie strony
biernej w języku polskim, ale tłumacze odwołują się do form typowych dla polskiej składni, co przeczyłoby postawionej hipotezie. Ze względu na pilotażowy
charakter przedstawionych badań, powyższe wnioski wymagają jednak pogłębionych szczegółowych analiz ilościowych i jakościowych.
Bibliografia
Biel, Łucja (2014): The textual fit of translated EU law: a corpus-based study
of deontic modality. The Translator 20(2), http://www.tandfonline.com/
doi/full/10.1080/-13556509.2014.-909675, (28-10-2014).
Grabowski, Łukasz (2011): Korpusy dwu-i wielojęzyczne w służbie tłumacza,
leksykografa i badacza: poszukiwanie ekwiwalentów przekładowych
w świetle hipotez dotyczących istnienia uniwersaliów tłumaczeniowych.
W: Wojciech Chlebda (red.): Na tropach translatów. W poszukiwaniu
odpowiedników przekładowych. Opole: Wydawnictwo Uniwersytetu
Opolskiego, 89–112.
Mauranen, Anna (2008): Universal Tendencies in Translation. W: Gunilla
Anderman, Margaret Rogers (red.): Incorporating Corpora. The Linguist and the Translator. Clevedon: Multilingual Matters.
Olohan, Maeve (2004): Introducing Corpora in Translation Studies. London:
Routledge.
Piotrowski, Tadeusz (2003): Językoznawstwo korpusowe – wstęp do problematyki. W: Stanisław Gajda (red.): Językoznawstwo w Polsce. Stan i perspektywy. Opole: Wydawnictwo Uniwersytetu Opolskiego, 143–154.
Saloni, Zygmunt, Świdziński Marek (1998): Składnia współczesnego języka
polskiego. Warszawa: Wydawnictwo Naukowe PWN.
Steinberger Ralf, Eisele Andreas, Klocek, Szymon, Pilos, Spyridon,
Schlüter, Patrick (2012): DGT-TM: A freely Available Translation
Memory in 22 Languages. W: Nicoletta Calzolari, Khalid CHOUKRI,
Thierry DECLERCK, Mehmet Uğur DOĞAN, Bente MAEGAARD,
Joseph MARIANI, Asuncion MORENO, Jan ODIJK, Stelios PIPERIDIS
(red.): Proceedings of the Eight International Conference on Language
Resources and Evaluation (LREC 2012). Istanbul: European Language
Resources Association (ELRA), 454–459.
Elżbieta Kaczmarska
Uniwersytet Warszawski
O dwóch czeskich jednostkach leksykalnych będących
wykładnikami negatywnych stanów emocjonalnych i ich polskich
ekwiwalentach. Analiza na materiale z korpusu paralelnego
InterCorp
On two Czech lexical items representing negative emotional states
and their Polish equivalents: An analysis based on the parallel
corpus InterCorp
Abstract
The analysis is focused on the Czech verbs žárlit ‘to be jealous’ and
závidět ‘to envy’. The goal is to establish their closest equivalents in
Polish. We use dictionary definitions to find the correct meaning of
the analyzed verbs and link them with equivalents proposed by a traditional Czech-Polish dictionary. Equivalents automatically extracted
from the corpus help us to find translations available in InterCorp.
Although the results are consistent with those proposed by the bilingual dictionary, the number of equivalents found in InterCorp is
larger.
Next, we apply a method developed in our pilot studies, including automatic excerption of given words with aligned segments from
InterCorp. The segments are analysed manually. In each segment we
check how a given word was translated and we examine its collocations and arguments. The study was supposed to determine if valence
requirements could influence the choice of an equivalent in Polish.
A pilot study concerning the ambiguous Czech verb toužit ‘to miss,
to want, to desire’ (Kaczmarska, Rosen, 2013) was supposed to reveal
if valence can influence the choice of an equivalent in Polish. It was
assumed that for some senses the equivalent can be established based
on the convergence of the valence requirements (Levin, 1993).
Unfortunately, for the analysed Czech verbs žárlit and závidět,
the number of occurrences is insufficient, so collocation profiling
(using the Word Sketch tool available in the Sketch Engline) cannot
be applied to analyze syntactic contexts. We conduct a corpus-based
research instead. The data from InterCorp confirm our assumptions based on the dictionary definitions. The equivalent-searching
Elżbieta Kaczmarska
228
algorithm, based also on a syntactico-semantic analysis (automatic
extraction of pairs of equivalents, valence analysis, Case Grammar,
Pattern Grammar, Cognitive Grammar) and described in last part of
the paper, cannot be applied to the two verbs. We found Word Sketch
as a promising tool for our research and we hope it to be the turning
point for building our algorithm (Word Sketch for the Czech part of
InterCorp is in the phase of preparation). We hope that our algorithm
will be able to cooperate with machine translation tools. This is why,
in addition to a manual analysis, we also try to conduct experimental
trials of stochastic modelling of the choice of an equivalent on the
basis of the context (Kaczmarska et al., 2015).
Słowa kluczowe: korpus równoległy, język polski, język czeski, ekwiwalent, analiza syntaktyczno-semantyczna
Keywords: parallel corpus, Polish, Czech, equivalent, syntactico-semantic analysis
1. Wprowadzenie
Celem tego artykułu jest próba ustalenia ekwiwalentów dwóch czeskich jednostek będących językowymi wykładnikami emocji negatywnych. Analizie
zostaną poddane struktury semantyczno-składniowe tych jednostek oraz ich
polskich odpowiedników, szczegółowo opisane zostaną czasowniki závidět
i žárlit oraz ich polskie ekwiwalenty1. Badanie przeprowadzone zostanie na
materiale z korpusu równoległego InterCorp (Čermák, Rosen, 2012; Kaczmarska, Rosen, 2014b; Rosen, Vavřín, 2014).
Wskazywanie trafnych ekwiwalentów często bywa wyzwaniem nie tylko
w przypadku konfrontacji języków odległych geograficznie, kulturowo i dla siebie wzajemnie egzotycznych. Nieoczekiwane trudności pojawiają się również na
styku języków blisko spokrewnionych2. Niemożność oddania w języku docelowym dokładnie tego samego, co zostało zakomunikowane w języku wyjściowym,
wiąże się często z problemem dokładnego zrozumienia przekładanej jednostki3
(Kaczmarska, Rosen, 2014a; w druku). Szczególnie problemowymi w tym kontekście jawią się czasowniki będące wykładnikami różnych stanów psychicznych, które same w sobie mogą być źródłem niejasności i nieporozumień. Pisała
1 Badanie to jest częścią większego projektu omawiającego sposoby ustalania ekwiwalentów czeskich jednostek wyrażających różne stany emocjonalne.
2 Oczekiwanymi trudnościami można nazwać pojawienie się zjawiska „fałszywych przyjaciół”
czy leksyki bezekwiwalentnej (Kaczmarska, 2014a).
3 Przekład jest procesem złożonym z kilku etapów, z których podstawowym wydaje się odkodowanie znaczenia jednostki w języku wyjściowym. Już ten etap może nastręczać wiele trudności
(Kaczmarska, Rosen, 2015b).
O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów...
229
o tym m.in. A. Wierzbicka, wspominając o relacji między przeżywaniem uczuć
i mówieniem o nich (Wierzbicka, 1971: 30)4:
Uczucie to jest coś, co się czuje – a nie coś, co się przeżywa w słowach.
W słowach można zapisać myśli – nie można zapisać w słowach uczuć.
Myśl jest czymś, co ma strukturę dającą się odtworzyć słowami. Uczucie z natury rzeczy jest pozbawione struktury, a więc niewyrażalne.
Myśl zawarta w tym cytacie sugeruje, że w języku docelowym niemożliwe jest
wyrażenie tego, czego nie da się oddać w języku wyjściowym. I to opracowanie
nie ma na celu tego, co niemożliwe. W procesie ustalania odpowiednich ekwiwalentów czasowników oznaczających emocje, skoncentrujemy się na tym, co
już zostało wyrażone, czyli na znaczeniu konkretnej jednostki. Zadanie to jest
utrudnione, ponieważ analizowane czasowniki są wieloznaczne; często trudno
ustalić, co w danym kontekście znaczą, w związku z tym skomplikowany jest ich
przekład, podczas którego możemy stracić część znaczenia (Kaczmarska, 2015a,
2015b; Kaczmarska, Rosen, w druku).
W poszukiwaniu trafnego ekwiwalentu mógłby pomóc słownik dwujęzyczny, jednak ze wzglądu na swoje ograniczenia najczęściej nie podaje on
odpowiedników wraz z przykładami użycia (Siatkowski, Basaj, 2002). Większymi możliwościami teoretycznie dysponują słowniki i translatory elektroniczne oraz słowniki umieszczone w Internecie w postaci plików5, jednakże
dla języków czeskiego i polskiego nie są one całkowicie wiarygodne. Na przykład w przypadku analizy jednostki mít rád, tłumaczonej na język polski jako
lubić i kochać (Siatkowski, Basaj, 2002), popularny portal Glosbe6 proponuje
dwa odpowiedniki – lubić i podobać się, czyniąc ją tylko pozornie bardziej
jednoznaczną, ponieważ obok ekwiwalentów przedstawia synonim – milovat
(‘kochać’). Natomiast w zamieszczonych tam przykładach znajdujemy również
takie ekwiwalenty jak: być czułym na czyimś punkcie, kochać i in. Translatory
automatyczne obsługujące język polski i czeski również nie są na razie wiarygodnym źródłem ekwiwalentów. Działający na zasadzie translatora (a nazwany
słownikiem) portal Tri-Lite7 tłumaczy milovat jako miłość, a mít rád jako jak.
Podobnie funkcjonuje portal Etranslator8, który zarówno dla milovat, jak
4 Ta klasyczna lektura jest wciąż aktualna. Od tego czasu powstało jednak szereg nowszych opracowań dotyczących komunikowania emocji w ujęciu konfrontatywnym (Wierzbicka 1991, 1997;
Harkins, Wierzbicka, 2001; Lüdtke, 2015).
5 Na przykład: Czesko-polski słownik tematyczny dla uczniów i studentów autorstwa Dariusza
Sieczkowskiego i Aleny Wolfovej – http://stodolni.org/wp-content/uploads/2013/09/slowniktematyczny.pdf
6 Dostęp online: https://pl.glosbe.com/cs/pl/
7 Dostęp online: http://www.cz-pl.tri-lite.pl/
8 Dostęp online: http://www.etranslator.ro/pl/czeski-polski-online-tlumacz.php
230
Elżbieta Kaczmarska
i mít rád proponuje ekwiwalent miłość (Kaczmarska, 2015b). Także popularny
Google Tłumacz nie jest dobrym źródłem ekwiwalentów tego typu jednostek9.
W badaniu tym chcielibyśmy ustalić, czy możliwe jest znalezienie trafnych ekwiwalentów dla analizowanych jednostek, opierając się na materiale
wyekscerpowanym z korpusu równoległego. W centrum zainteresowania będą
dwa czeskie czasowniki závidět i žárlit. Czasowniki te nie są synonimami, a jednak oba odnoszą się w języku polskim do zazdrości.
Schemat analizy jest zbliżony do metody zastosowanej we wcześniejszych badaniach dotyczących czasowników odsyłających do różnych emocji
pozytywnych np. toužit, mít rád, milovat (Kaczmarska, 2014a, 2014b, 2015b;
Kaczmarska, Rosen, 2013, 2014a, w druku; Kaczmarska et al., 2015) czy np. zdát
se (Kaczmarska, 2012)10. Obejmuje on wygenerowanie słownika czesko-polskiego11, automatyczną ekscerpcję przykładów z czesko-polskiej części korpusu
InterCorp oraz analizę manualną.
Słownik czesko-polski generujemy dzięki narzędziu Treq12 dostępnemu
na stronach Czeskiego Korpusu Narodowego (dalej – CNK):
Rysunek 1. Interfejs serwisu Treq.
Serwis Treq umożliwia wygenerowanie listy najczęstszych ekwiwalentów badanych czasowników. Należy jednak pamiętać, iż nie jest to idealny słownik,
9 Czeska fraza Mám Tě rád. jest przełożona na język polski jako Kocham cię (bez alternatywy
Lubię cię.) – dostęp 25.05.2015.
10 W artykułach tych okazjonalnie pojawiały się też odniesienia do czasowników odsyłających
do emocji negatywnych, np. mrzet, být líto.
11 Poprzednie badania poprzedzone były samodzielnym generowaniem słownika (Kaczmarska,
Rosen, 2013). Obecnie CNK oferuje usługę automatycznego generowania różnych słowników –
dostęp: http://treq.korpus.cz/
12 http://treq.korpus.cz/ – dostęp 26.05.2015
O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów...
231
zawierający wyłącznie trafione ekwiwalenty. Ponieważ przy tej ilości danych
narzędzie stosuje metodę automatyczną, wśród odpowiedników znaleźć się
mogły sporadycznie nieekwiwalentne lub przypadkowe wyrazy, a nawet znaki
interpunkcyjne (Kaczmarska, Rosen, 2013).
2. Analiza możliwości rozumienia i przekładu czasownika závidět
Tradycyjny słownik czesko-polski (Siatkowski, Basaj, 2002: 999) podaje jedno
znaczenie tego wyrazu: zazdrościć komu czego13.
Odpowiednik zaproponowany przez słownik tradycyjny odpowiada
pod względem wymagań składniowych czeskiej jednostce. Większą różnorodność ekwiwalentów przynosi korpusowe narzędzie Treq.
Najczęstsze polskie ekwiwalenty czasownika závidět na podstawie serwisu Treq
zazdrościć
188
zazdrość
26
pozazdrościć
16
zazdrosny
7
zawiść
4
darzyć
1
straszliwie
1
współzawodniczyć
1
zwyknąć
1
Tabela 1. Najczęstsze polskie ekwiwalenty czasownika závidět na podstawie serwisu Treq
Kilka z pojawiających się w tabeli ekwiwalentów tłumaczeniowych nie odpowiada znaczeniu słowa závidět: mogły się tam znaleźć przez przypadek –
w wyniku błędu wyrównywania (zwyknąć, straszliwie) lub są częścią zwrotu
werbo-nominalnego odpowiadającego badanemu czasownikowi (darzyć).
Wśród proponowanych ekwiwalentów znalazł się również czasownik współzawodniczyć, który możemy interpretować jako luźny synonim jednostki závidět
w jednym z jej znaczeń. Znaczenia czasownika závidět oraz jego struktury składniowe możemy odnaleźć w słowniku literackiego języka czeskiego [dalej –
SSJC (Havránek, 1989)]14.
13 Ten polski czasownik jest też jednak jednym z ekwiwalentów czeskiej jednostki žárlit (Siatkowski, Basaj, 2002: 1049). W trakcie analizy należy więc też ustalić, które znaczenia czasownika
zazdrościć pokrywa závidět, a które žárlit.
14 Tłumaczenia definicji i przykładów ze słownika – autorka artykułu. Dostęp 15.03.2015: http://
ssjc.ujc.cas.cz/search.php?hledej=Hledat&heslo=z%C3%A1vid%C4%9Bti&sti=EMPTY&where
=hesla&hsubstr=no.
Elżbieta Kaczmarska
232
záviděti
• komu; komu co, koho, †čeho15
• pociťovat závist k někomu nepřát (komu co, koho)16
• záviděti boháčům, šťastným lidem; lidé si navzájem závidí;
z. mladé dívce krásu, ženicha; mnozí mu té slávy záviděli; tu
funkci ti nezávidím nechtěl bych ji17
Definicja i charakterystyka składniowa zamieszczona w SSJC (Havránek, 1989)
jest zgodna z opisem w słowniku walencyjnym języka czeskiego VALLEX18:
Rysunek 2. Hasło słownika walencyjnego VALLEX19
Rysunek 3. Interfejs wyszukiwarki KonText
15 komu? komu co? / kogo? (biernik), czego? (przestarzała struktura dopełniaczowa)
16 czuć zawiść wobec kogoś, nie życzyć komu, co / kogo (biernik)
17 záviděti bogaczom, szczęśliwym ludziom; ludzie sobie nawzajem zazdroszczą; młodej dziewczynie urody, narzeczonego; wielu mu tej sławy zazdrości; tej funkcji ci nie zazdroszczę, nie
chciałbym jej
18 Dostęp online: http://ufal.mff.cuni.cz/vallex/2.6.3/data/html/generated/alphabet/index.html
19 czuć zawiść, nie życzyć; zazdrościł jej wykształcenia / perspektywy / że jest mądra; zazdrości
bardzo (dosł. zazdrości i nosa między oczami); zazdrości mu wszystkiego, co on ma; Jan i Maria
zazdrościli sobie nawzajem.
O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów...
233
Definicje z obu słowników oraz z listy odpowiedników wygenerowanej z InterCorpu przybliżają nas do poznania znaczenia tego czasownika, a tym samym
do potwierdzenia trafności ekwiwalentu ze słownika. Pełny obraz uzyskujemy
dzięki przykładom wyekscerpowanym z InterCorpu20.
2.1 Analiza korpusowa czasownika závidět
Materiał do badań ekscerpujemy poprzez wyszukiwarkę KonText.21
Rysunek 4. Interfejs wyszukiwarki KonText po wyszukaniu paralelnych konkordancji
cz. Tu jejich zjevnou pohodu a bezstarostnost jim upřímně záviděl.22
pl. Szczerze im zazdrościł pogody ducha i beztroski.
[Viewegh-UcastniciZajez]
cz. Agnes záviděla Paulovi, že žije, aniž si musí stále uvědomovat,
že má tělo.
pl. Agnes zazdrościła Paulowi, że może żyć bez ciągłej świadomości
własnego ciała. [Kundera-Nesmrtelnost]
Wyszukany materiał eksportujemy do dokumentu Excel23, dzięki czemu
możemy go dowolnie filtrować i sortować, a po dodaniu kolumn – także tagować.
20 Przykłady ekscerpowane były z czesko-polskiej części InterCorpu (wersja 8), z jądra (beletrystyka), oryginalny język źródła – czeski.
21 Od kwietnia 2015 jest to jedyna wyszukiwarka obsługująca CNK.
22 Tekst podkreślony to przedmiot zazdrości – zazdrościć kogo czego (w przypadku czasownika
žárlit będzie to fraza przyimkowa na + obiekt, podobnie jak być zazdrosny o + obiekt), natomiast
tekst podkreślony podwójną linią oznacza obiekt – powód zazdrości wyrażony frazą zdaniową.
Frazy pogrubione to obiekt, któremu się zazdrości – zazdrościć komu.
23 Wyszukiwarka Excel umożliwia eksport konkordancji do różnego typu plików (Kaczmarska,
Rosen, 2014b: 216).
Elżbieta Kaczmarska
234
KonText wskazał 50 poświadczeń leksemu závidět24. Przy każdej konkordancji
zaznaczyliśmy, jaki odpowiednik polski został wybrany. Po otagowaniu okazało
się, iż w 90% przypadków w polskim tłumaczeniu występuje czasownik zazdrościć (ewentualnie wariant pozazdrościć).
Polskie odpowiedniki czasownika závidět
50
zazdrościć
45
pozazdrościć
3
być zazdrosny
1
Inne
1
Tabela 2. Polskie odpowiedniki czasownika závidět na podstawie materiału z czesko-polskiej
części korpusu InterCorp
Jedyne tu poświadczenie z ekwiwalentem zazdrosny, przedstawia przykład
z elipsą.
cz. (…) spokojen , že mu nemá co závidět…
pl. (…) zadowolony, że nie potrzebuje być zazdrosny…
[Paral-VeletrhSplnenych]
Moglibyśmy więc uznać, iż optymalnym ekwiwalentem jest dla tej jednostki
czasownik zazdrościć. Ten jednak jest wieloznaczny (Szymczak, 1995: 916):
zazdrościć
• odczuwać zazdrość25
• odczuwać żal z powodu tego, że komuś dobrze się powodzi, że
ktoś coś ma, pragnąc tego dla siebie
Czasownik závidět realizuje jedno ze znaczeń jednostki zazdrościć (odczuwać
żal z powodu tego, że komuś dobrze się powodzi, że ktoś coś ma, pragnąc tego
dla siebie). Pokrywa się też w jednym ze znaczeń rzeczownika zazdrość (Szymczak, 1995: 916):
zazdrość
• uczucie przykrości, żalu spowodowane czyimś powodzeniem,
szczęściem, stanem posiadania itp. i chęć posiadania tego samego
• uczucie niepokoju co do wierności osoby kochanej, podejrzliwość i dążenie do wyłączności w tym zakresie, chęć przeciwdziałania ewentualnemu naruszeniu tej wyłączności
24 Jest to bardzo mała liczba poświadczeń. Na jej podstawie nie jest możliwe przeprowadzenie
żadnej głębszej analizy gramatycznej czy stylistycznej. Możemy jednak wysnuć wnioski co do
znaczenia danego słowa i jego tłumaczenia na język polski.
25 Zazdrość – 1) uczucie przykrości, żalu spowodowane czyimś powodzeniem, szczęściem, stanem posiadania itp. i chęć posiadania tego samego; 2) uczucie niepokoju co do wierności osoby
kochanej, podejrzliwość i dążenie do wyłączności w tym zakresie, chęć przeciwdziałania ewentualnemu naruszeniu tej wyłączności. (Szymczak, 1995: 916)
O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów...
235
Odczytując znaczenie czasownika zazdrościć zgodnie z wcześniej przytoczoną
definicją jako ‘odczuwać zazdrość’, możemy owo znaczenie rozszerzyć do
postaci: ‘odczuwać uczucie przykrości, żalu spowodowane czyimś powodzeniem, szczęściem, stanem posiadania itp. i chęć posiadania tego samego’.
cs. Tak jsem tu postával dál, doufal jsem nevěda v co a záviděl jsem
Vilému Habovi, jak lehce našel východisko z nouze.
pl. Stałem więc nadal, ufając w szczęśliwy zbieg okoliczności
i zazdroszcząc Wilhelmowi Habie, że tak łatwo znalazł wyjście
z trudnej sytuacji. [Rezac-Rozhrani]
Zgadza się to również z definicją słownikową czasownika závidět.
3. Analiza możliwości rozumienia i przekładu czasownika žárlit
Drugą jednostką związaną z pojęciem zazdrości jest w języku czeskim wspomniany już czasownik žárlit. Analiza przebiega w ten sam sposób jak w przypadku poprzedniej jednostki.
Słownik czesko-polski (Siatkowski, Basaj, 2002:1049) podaje dwa znaczenia tego czasownika: być zazdrosnym (o kogo, o co) i zazdrościć (komu). Serwis Treq dostarcza szerszej gamy ekwiwalentów:
Najczęstsze polskie ekwiwalenty czasownika žárlit na podstawie serwisu Treq
Zazdrosny
141
Zazdrość
25
zazdrościć
14
Być
2
Osiłek
1
darzyć
1
owszem
1
rywalka
1
zawiść
1
Tabela 3. Najczęstsze polskie ekwiwalenty czasownika žárlit na podstawie serwisu Treq
Podobnie jak w sytuacji poprzedniego czasownika, również tutaj wśród oferowanych ekwiwalentów znajdują się jednostki przypadkowo związane (być, osiłek, darzyć, owszem). Słowa rywalka i zawiść możemy traktować jako elementy
struktur synonimicznych wobec słowa oznaczającego pojęcie ‘zazdrość’. Ekwiwalenty te warto porównać ze znaczeniem omawianego czasownika proponowanym przez słownik języka czeskiego (Havránek, 1989)26.
26 Na podstawie definicji (dostęp online 15.03.2015): http://ssjc.ujc.cas.cz/search.php?hledej=
Hledat&heslo=%C5%BE%C3%A1rliti&sti=EMPTY&where=hesla&hsubstr=no
Elżbieta Kaczmarska
236
žárliti
• na koho, co; ~; †s kým27; pociťovat nelibost, bolest, zlost vůči
někomu milovanému, protože má rád někoho jiného; pociťovat nelibost, bolest, zlost vůči někomu, koho má ráda milovaná
osoba28
• (na koho); pociťovat řevnivost, nevraživost na někoho pro jeho
úspěchy; nevražit, řevnit 1; (nač) nepřát, závidět (komu co)29
Z tymi definicjami zgodny jest opis w słowniku VALLEX:
Rysunek 5. Hasło słownika walencyjnego VALLEX30
3.1 Analiza korpusowa czasownika žárlit
Za pomocą wyszukiwarki KonText odnajdujemy poświadczenia, które analizujemy i sortujemy pod względem polskich ekwiwalentów. Przykłady wyekscerpowane z InterCorpu i w tym przypadku są ilustracją zgromadzonych definicji
słownikowych:
cz. Zdálo se mi, že na pani učitelku žárlí a přišlo mi jí líto.
pl. Wydawało mi się, że jest o panią nauczycielkę zazdrosna, i było
mi jej trochę żal. [Douskova-Hrdy_Budzes]
cz. …že nemusím na jejího muže žárlit…
pl. …że nie muszę być zazdrosny o jej męża… [kundera-zert]
cz. Navíc jsem žárlil na Alici, že mě nechala jen tak rozbaleného, že si
mě přestala všímat, nemazlila se se mnou, nýbrž s Edvínem…
pl. Ponadto byłem zazdrosny o Alicję, bo zostawiła mnie odwiniętego
z pieluszek, bo przestała zwracać na mnie uwagę, pieściła się już nie
ze mną, tylko z Edwinem… [Grusa-Dotaznik]
27 na kogo, na co; z kim (przestarzała struktura narzędnikowa)
28 czuć antypatię, ból, złość wobec kogoś ukochanego, ponieważ lubi kogoś innego; czuć antypatię, ból, złość wobec kogoś, kogo lubi ukochana osoba
29 na kogo; czuć zawiść, wrogość wobec kogoś z powodu jego sukcesów; nienawidzić, zazdrościć
komuś czegoś; nie życzyć komuś czegoś
30 czuć antypatię / ból / wściekłość / złość z powodu czegoś / do kogoś / zazdrościć; Davídek
był zazdrosny o swoją młodszą siostrzyczkę; był zazdrosny o jego sukcesy; nie jestem zazdrosna
o jego nową przyjaciółkę; był strasznie zazdrosny, że nie wygrał zamiast ciebie; był zazdrosny o to,
jak mu idzie; byli o siebie zazdrośni
O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów...
237
KonText wskazał 59 poświadczeń leksemu žárlit. Podobnie jak w poprzednim
badaniu, również w tym przypadku zaznaczyliśmy, jaki odpowiednik polski
został wybrany. Po otagowaniu okazało się, iż w niemal 78% przypadków w polskim tłumaczeniu występuje fraza być zazdrosny, wprowadzająca odmienną
strukturę składniową.
Polskie odpowiedniki czasownika žárlit
59
być zazdrosny
46
zazdrościć
7
zazdrość
4
Zawiść
1
Błąd
1
Tabela 4. Polskie odpowiedniki czasownika žárlit na podstawie materiału z czesko-polskiej części
korpusu InterCorp
W wiązanych segmentach polskich występuje również czasownik zazdrościć.
W przykładach tych jednak nie występuje najczęściej typowy obiekt zazdrości (wyrażony poprzez frazę nominalną w dopełniaczu), ale pewnego rodzaju
powód zazdrości i jest wyrażony poprzez frazę zdaniową:
cz. Povídám, jako vždycky, von na mě žárlí, že jsem mladší než von.
pl. Powiadam, jak zawsze, on mi zazdrości, że jestem młodszy niż on
[Hrabal-Prilis_hl_samot]
Czasownik zazdrościć (jako ekwiwalent žárlit) pojawia się też konstrukcjach
eliptycznych:
cz. Právě proto, že už nechce žárlit, bere vážně a bez podezření
jeho tvrzení!
pl. Właśnie dlatego, że nie chce już zazdrościć, przyjmuje jego słowa
poważnie i bez podejrzeń! [Kundera-Valcik_na_rozl]
Również w przypadku czasownika žárlit możemy wskazać trafny ekwiwalent
w języku polskim.
być zazdrosny
• pragnący tego, co ma ktoś inny, odczuwający żal, że komuś powodzi się lepiej niż jemu
• bojący się o swoje dobro, podejrzliwie strzegący swego; zwłaszcza: podejrzliwy wobec współmałżonka, osoby kochanej
Zjawiskiem związanym z ekwiwalencją jednostek žárlit i być zazdrosnym jest
jednak trudność w identyfikacji obiektu / powodu w strukturze zdania. Problem
ten został też poruszony w poście do poradni językowej31:
31 http://sjp.pwn.pl/slowniki/zazdrosny.html - dostęp online 15.03.2015 (pisownia oryginalna)
Elżbieta Kaczmarska
238
Moj dylemat dotyczy wyrażania zazdrości... Jestem mężatką.
Wyobraźmy sobie, że wokół mojego męża „kręci” się jakaś atrakcyjna
kobieta. Mój mąż zwraca na nią uwagę, podchodzi, rozmawia... Ja,
będąc oczywiście bardzo wściekłą, mówię: „Nie rób tego nigdy więcej,
bo jestem...” No właśnie, jak się mówi: „Jestem o ciebie zazdrosna” czy
„Jestem o nią zazdrosna”? Te dwa wyrażenia słyszy się często. Problem w tym, że odnoszą się one do tej samej sytuacji, takiej jak na
przykład ta przeze mnie Panu przedstawiona32.
Problem ten występuje zarówno w języku polskim, jak i czeskim, co paradoksalnie może czynić ekwiwalencję między nimi jeszcze silniejszą. W niektórych
przykładach na właściwe znaczenia naprowadza nas kontekst zdania:
cs. Máma byla Pažoutovi po celou dobu věrná, ale on na ni přesto
neustále žárlil (…)
pl. Mama była Pažoutowi przez cały czas wierna, ale on mimo to był
o nią nieustannie zazdrosny (…) [Viewegh-Roman_pro_zeny]
cs. Když se se Zuzanou brali, žárlil na každého muže, který ji oslovil.
pl. Gdy się pobierali, był zazdrosny o każdego mężczyznę, który się
do niej odezwał. [Viewegh-UcastniciZajez]
W niektórych zdaniach jednak znaczenie pozostaje zamazane i bez szerszego
kontekstu nie jesteśmy w stanie poprawnie zrozumieć sytuację:
cs. Zdálo se mi, že na pani učitelku žárlí a přišlo mi jí líto.
pl. Wydawało mi się, że jest o panią nauczycielkę zazdrosna, i było
mi jej trochę żal. [Douskova-Hrdy_Budzes]
4. Podsumowanie
Analiza przykładów wyekscerpowanych z InterCorpu i ich polskich odpowiedników pozwala na stworzenie sieci33 znaczeń. Schemat ten odzwierciedla
tylko sposób rozumienia i przekładu czeskich jednostek na język polski (dlatego strzałki skierowane są tylko w jedną stronę). Wzięte pod uwagę zostały
tylko cztery analizowane jednostki; zdajemy sobie jednak sprawę z tego, iż na
kompleksowej mapie znaczeń powinny się znaleźć również takie potencjalne
32 Odpowiedź (fragment): Istotnie, jest tu pewna językowa nielogiczność, ponieważ w tych dwóch
użyciach przymiotnik zazdrosny może być stosowany. W praktyce, gdy mówię, że jestem zazdrosny
o żonę, odnoszę to do sytuacji „w ogóle”, gdy zaś mówię (np. do żony), że jestem zazdrosny o jej
kolegę, odnoszę to do jej relacji z konkretnym człowiekiem. Zazwyczaj wiemy, o co chodzi - ale
rzeczywiście, tu nasz język nie sprawdza się za dobrze (Jerzy Bralczyk, Uniwersytet Warszawski) –
http://sjp.pwn.pl/slowniki/jest-zazdrosny.html (15-03-2015).
33 Sieć powstała na podstawie definicji ze słowników jednojęzycznych: dostępnego online języka
czeskiego – http://ssjc.ujc.cas.cz/search.php?hledej=Hledat&heslo=z%C3%A1vid%C4%9Bti&
sti=EMPTY&where=hesla&hsubstr=no http://ssjc.ujc.cas.cz/search.php?hledej=Hledat&heslo=
%C5%BE%C3%A1rliti&sti=EMPTY&where=hesla&hsubstr=no (dla czasowników závidět
i žárlit ) oraz w słowniku tradycyjnym (Szymczak 1995) dla jednostek zazdrościć i być zazdrosnym.
O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów...
239
Rysunek 6. Sieć powiązań znaczeń czeskich jednostek závidět i žárlit oraz polskich – zazdrościć
i być zazdrosnym
ekwiwalenty jak np. zawiść. Równoważności znaczeń zostały ustalone na podstawie manualnej analizy poświadczeń korpusowych34.
Podczas analizy manualnej szczególną uwagę zwracają schematy frazy
zazdrosny o + O (obiekt) pojawiające się jako odpowiednik wyłącznie frazy
žárlit na + O. Ze znalezionych w korpusie 59 poświadczeń czasownika žárlit35
45 przekładanych jest jako być zazdrosnym, przy czym tylko 12 realizowanych
było poprzez pełny schemat być zazdrosnym o+ O; wśród nich 11 dotyczyło
zazdrości, której obiektem była istota ludzka36, a tylko w jednym przypadku
obiekt był inny:
cs. Tereza přijala Karenina takového, jaký byl, nechtěla ho měnit ke
svému obrazu, souhlasila předem s jeho psím světem, nechtěla mu
ho brát, nežárlila na jeho tajné spady.
pl. Teresa przyjęła Karenina takiego, jakim był, nie chciała go zmieniać na swoje podobieństwo, z góry godziła się na jego psi świat, nie
chciała mu go odbierać, nie była zazdrosna o jego tajemne ścieżki.
[Kundera-Nesnesit_lehko]
34 Czeskie oryginały w przekładzie na język polski; w sumie 109 przykładów w języku czeskim
i tyleż w języku polskim.
35 Teksty oryginalnie czeskie w przekładzie na język polski.
36 7 razy obiektem zazdrości była kobieta (přiznal se jí konečně doma, že na ni žárlil / przyznał
się wreszcie w domu, że był o nią zazdrosny), 4 razy mężczyzna (nemusím na jejího muže žárlit /
nie muszę być zazdrosny o jej męża).
240
Elżbieta Kaczmarska
Rysunek 7. Łączliwość czasownika závidět wygenerowana przez Word Sketch
Poświadczenia te są niestety zbyt znikome, by móc wyciągać na ich podstawie
jakiekolwiek wiążące wnioski. Gdybyśmy jednak mieli dużo większą liczbę
poświadczeń, uciążliwa była manualna analiza przykładów. Wówczas pomocne
mogłoby się okazać wykorzystanie narzędzia Word Sketch37 na materiale z korpusu równoległego InterCorp38. Badanie to ukazałoby, z jakimi obiektami
(i w jaki sposób pod względem składniowym) łączą się omawiane jednostki.
Jest to jednak kwestia przyszłości, ponieważ o ile możemy zastosować to narzędzie na materiale polskim z korpusu InterCorp, o tyle materiał czeski jesteśmy
w stanie analizować tylko poprzez podkorpusy jednojęzyczne języka czeskiego.
Są one ogromne, a to sprawia, że wyniki są nieporównywalne (por. ponad trzy
tysiące wyszukanych i przeanalizowanych poświadczeń czasownika závidět
w języku czeskim (rysunek 7.) i jedynie ponad 200 wyszukanych i przeanalizowanych poświadczeń czasownika zazdrościć (rysunek 8.)39).
37 “A word sketch is a one-page, automatic, corpus-derived summary of a word’s grammatical
and collocational behavior” – http://www.sketchengine.co.uk/documentation/wiki/Website/
Features#Wordsketches – dostęp 20.09.2014. Funkcja WordSkech w czeskim korpusie nie jest
dostępna dla wszystkich użytkowników.
38 Metoda ta bliska jest poniekąd analizie wymogów walencyjnych, która została wykorzystana
podczas poszukiwania polskich ekwiwalentów dla innej czeskiej jednostki – toužit (Kaczmarska,
Rosen, 2013).
39 Funkcja Word Sketch generuje obrazy ze wszystkich tekstów w języku polskim. Do analizy
manualnej wyszukiwaliśmy przykłady oryginalnie czeskie w przekładzie na język polski. Stąd różnica w liczbie przykładów.
O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów...
241
Rysunek 8. Łączliwość czasownika zazdrościć wygenerowana przez Word Sketch
Podobnie rzecz się ma z parą žárlit (rysunek 10.) – ponad sześć tysięcy poświadczeń i zazdrosny (rysunek 9.) – zaledwie 241.
Większa liczba wiązanych segmentów pozwoliłaby na typowe badanie
corpus driven (Hebal-Jezierska, 2008: 11-12), podczas którego na podstawie
242
Elżbieta Kaczmarska
danych korpusowych moglibyśmy określić zależność znaczenia od schematu
składniowego danej jednostki (Levin, 1993; Kaczmarska, 2015a; Kaczmarska et
al., 2015) i jeszcze dokładniej wskazać ekwiwalent dla konkretnego czasownika
w danym kontekście. Dysponując tak małą liczbą poświadczeń, musieliśmy
się w przypadku tych czasowników ograniczyć do badania typu corpus based
(Hebal-Jezierska, 2008:12), wykorzystującego korpus w celu zilustrowania założenia przyjętego wcześniej na podstawie definicji słownikowych.
Rysunek 9. Łączliwość czasownika zazdrosny wygenerowana przez Word Sketch
O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów...
243
Rysunek 10. Łączliwość czasownika žárlit wygenerowana przez Word Sketch
5. Zakończenie
Ustalenie ekwiwalentów dla omawianych czeskich czasowników było częścią
większego projektu, w ramach którego opracowywany jest algorytm ułatwiający wyszukiwanie odpowiedników czasowników wyrażających różne uczucia
i emocje na podstawie danych z korpusu równoległego InterCorp (Kaczmarska,
2015a)40. Implementując metody różnych teorii językoznawczych (zob. rysunek
11.), sprawdzamy zależność znaczenia od charakterystyki składniowej (Levin,
1993) i tym samym, na podstawie schematów składniowych, ustalamy najbliższy ekwiwalent, odnosząc się również do struktury składniowej potencjalnego
odpowiednika.
40 Prace nad algorytmami ulepszającymi tłumaczenia maszynowe czy różnicującymi znaczenia
jednostek wieloznacznych (np. WSD – Word Sense Disambiguation) są już na świecie prowadzone od dawna i znane także w odniesieniu do korpusów równoległych; w większości opierają
się na olbrzymich danych uzyskanych z korpusów i bazują na różnych metodach matematycznych
(w tym – statystycznych), np. Tian et al., 2014; Młodzki et al., 2012; Tian et al., 2010; Han et al.,
2013; Kędzia et al., 2014. Opracowywane algorytmy wykorzystują też różne podejścia lingwistyczne; szerzej na ten temat – Han et al., 2013.
244
Elżbieta Kaczmarska
Rysunek 11. Schemat wypracowywanego algorytmu wspomagającego ustalanie ekwiwalentów
Jak zostało to przedstawione, cały algorytm składa się z kilku etapów analizy. Czasownik poddawany takiemu badaniu nie musi przechodzić przez wszystkie etapy;
optymalny ekwiwalent może być odnaleziony na każdym poziomie analizy.
1. Pierwszym krokiem jest automatyczna ekstrakcja par ekwiwalentów.
Badania pilotażowe pokazały, że już na tym etapie można znaleźć trafne ekwiwalenty wielu czasowników, co ciekawe – są to na ogół czasowniki odnoszące
się do negatywnych emocji. (Kaczmarska, 2014a).
2. Drugim krokiem jest ustalenie wymagań walencyjnych. Zakładamy,
iż zbieżność struktur składniowych i podobieństwo semantyczne obiektów
łączących się z danymi czasownikami może być kluczem do wskazania ekwiwalentu na tym etapie. Dla niektórych czasowników znaleziono trafne ekwiwalenty tylko dla niektórych z ich znaczeń. Tak się dzieje w przypadku czasownika
toužit41. Czasowniki, dla których nie odnaleziono ekwiwalentów na tym etapie
przechodzą do etapu następnego.
41 Na podstawie wyników analizy walencyjnej i łączliwości udało się nam ustalić, iż ekwiwalentem czasownika toužit łączącego się z bezokolicznikiem jest polski czasownik pragnąć łączący się
również z bezokolicznikiem (Kaczmarska, Rosen, 2013).
O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów...
245
3. Trzecim krokiem, nieprzynoszącym, jak do tej pory, oczekiwanych
rezultatów, jest identyfikowanie przypadków głębokich – roli, jakie pełnią elementy wiążące się z danym czasownikiem42.
4. Czwarty krok to wykorzystanie metod teorii Pattern Grammar
(Ebeling, J., Ebeling S., 2013; Hunston, Francis, 2000). Ten etap ma w założeniu sprawdzić, czy istnieje zależność pomiędzy znaczeniem wyrazu a otoczeniem, w jakim występuje. Hunston i Francis twierdzą, że jeżeli jakieś słowo
jest wieloznaczne, a jednocześnie pojawia się w kilku wzorcach, to każdy wzorzec pojawi się z jednym z jego znaczeń częściej niż z pozostałymi, czyli dany
wzorzec wskaże najbardziej prawdopodobne znaczenie słowa. Sprawdziło się
to m.in. w przypadku frazy být lito. Jeżeli jednostka být líto łączy się z dwoma
frazami nominalnymi (w celowniku i dopełniaczu), wówczas taki jej wzorzec
odpowiada polskiemu ekwiwalentowi żal. Jeżeli natomiast být líto łączy się tylko
z celownikową frazą nominalną (oraz ewentualnie z elementem to), wzorzec
ten odpowiada znaczeniu polskiej jednostki (być) przykro (Kaczmarska, 2015a).
5. Kolejnym krokiem jest etap wykorzystania założeń gramatyki kognitywnej. Na tym poziomie próbujemy odkodować znaczenie słowa w kontekście
konceptualizacji zjawiska nim nazwanego. W badaniach pilotażowych analizowaliśmy jednostki mít rád i milovat. O ile poradziliśmy sobie z czasownikiem
milovat, o tyle identyfikacja znaczenia jednostki mít rád i jej przekład na język
polski wciąż pozostają problematyczne. Metody kognitywne jednak bardzo
trudno implementować do algorytmu, ponieważ przeprowadzane są w większości manualnie43.
6. Ostatnie okienko to miejsce na rozwiązania przyszłościowe takie, jak
np. wykorzystanie narzędzia Word Sketch dla obu języków na tym samym korpusie, czy zaawansowane badania stochastyczne44. Wierzymy, że dzięki nim, na
podstawie badania kontekstu i rozróżnienia łączliwości z różnymi obiektami,
42 Etap ten nie zostanie jednak usunięty z finalnej wersji algorytmu. Badane przez nas jednostki (będące wykładnikami różnych emocji i uczuć) są jednolite pod względem łączliwości
z argumentami o pewnych wartościach – zawsze znajdziemy tu przeżywającego czy źródło i na
tej podstawie nie dokonamy zróżnicowania znaczenia. Algorytm może być jednak wykorzystany
w badaniu innych grup czasowników, gdzie rola semantyczna oryginału i ekwiwalentu może być
istotna przy różnicowaniu znaczenia.
43 W przypadkach problemowych możemy odnieść się także do eksplikacji i naturalnego metajęzyka semantycznego (Wierzbicka, 1980, 2001) lub skonstruować skalę intensywności właściwości wyrażanej przez dany czasownik (Mikołajczuk, 1997, 1999; Bratman, 1987).
44 Podczas jednego z tych badań staraliśmy się ustalić ekwiwalenty poprzez badanie liniowych i składniowych kontekstów, w których występowały czeskie czasowniki, stosując różne
metody i testując teksty z korpusu równoległego. Najpierw ręcznie otagowane zostały równoległe
konkordancje tych czasowników według właściwości syntaktyczno-semantycznych ich
argumentów. Analiza manualna została uzupełniona przez dwujęzyczny słownik z frekwencjami.
Następnie użyto klasyfikatorów stochastycznych do przewidzenia polskich ekwiwalentów na
podstawie czeskiego kontekstu liniowego i składniowego. Metody były oceniane na testowych
danych z korpusu z wyrównaniem słowo-do-słowa (Kaczmarska et al., 2015).
246
Elżbieta Kaczmarska
uda nam się dopasować ekwiwalenty do wszystkich znaczeń czasownika toužit
(Kaczmarska et al., 2015), a także wszystkich innych, które nie znajdą swoich
ekwiwalentów na wcześniejszych poziomach algorytmu.
Literatura
Bratman, Michael E. (1987): Intentions, Plans, and Practical Reason. Massachusetts: Harvard University Press.
Čermák, František, Rosen Alexandr (2012): The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics, 13(3),
411–427.
Ebeling, Jarle, Ebeling. Signe Oksefjell (2013): Patterns in contrast. Amsterdam: John Benjamins.
Han, Aaron L.F., Lu, Yi, Wong, Derek F., Chao, Lidia S., He, Liangye, Xing,
Junwen (2013): Quality Estimation for Machine Translation Using
the Joint Method of Evaluation Criteria and Statistical Modeling. W:
Proceedings of the Eighth Workshop on Statistical Machine Translation,
The Association for Computational Linguistics, 365-372. http://www.
statmt.org/wmt13/pdf/WMT00.pdf, (01-03-2016).
Harkins, Jean, Wierzbicka, Anna, (red.) (2001): Emotions in Crosslinguistic
Perspective. Berlin: Mouton de Gruyter.
Havránek, Bohuslav, (red.) (1989): Slovník spisovného jazyka českého. 2. Praha:
Academia.
Hebal-Jezierska, Milena (2008): Wariantywność końcówek fleksyjnych rzeczowników męskich żywotnych w języku czeskim. Warszawa: Wydział
Polonistyki UW.
Hunston, Susan, Francis, Gill (2000): Pattern Grammar: A corpus-driven
approach to the lexical grammar of English. Amsterdam: John Benjamins.
Kaczmarska, Elżbieta (2012): Czeski czasownik „zdát se” w przekładzie na
język polski (na podstawie badań z wykorzystaniem czesko-polskiego
korpusu równoległego InterCorp) Studia z Filologii Polskiej i Słowiańskiej XLVII, 247–261.
Kaczmarska, Elżbieta (2014a): Czeskie czasowniki oznaczające stany psychiczne – sposoby ustalania polskich ekwiwalentów na podstawie korpusu równoległego InterCorp. W: Anna Stolarczyk-Gębiak, Marta
Woźnicka (red.): Zbliżenia. Językoznawstwo – Literaturoznawstwo –
Translatologia. Konin: Państwowa Wyższa Szkoła Zawodowa w Koninie, 45–55.
O dwóch czeskich jednostkach leksykalnych będących wykładnikami negatywnych stanów...
247
Kaczmarska, Elżbieta (2014b): Czy na pewno się (nie)rozumiemy? O problemach, uproszczeniach i stratach w przekładzie (na podstawie czesko-polskiej części korpusu równoległego InterCorp). W: Michala
Benešová, Renata Rusin Dybalska i Lucie Zakopalová (red.):
Proměny polonistiky. Tradice a výzvy polonistických studií. Praha: Karolinum, 192–199.
Kaczmarska, Elżbieta (2015a): W poszukiwaniu znaczenia czasowników wyrażających stany psychiczne. Analiza czeskich czasowników i ich polskich
ekwiwalentów – próba implementacji wybranych teorii lingwistycznych (walencja, gramatyka przypadków głębokich, Pattern Grammar,
lingwistyka kognitywna). Prace Filologiczne LXVII, 131–150.
Kaczmarska, Elżbieta (2015b): Mít rád czy milovat? O czeskiej miłości po polsku. W: Krystyna Waszakowa i Marta Falkowska (red.): Pojęcia zapisane w języku. Warszawa: Wydział Polonistyki UW, 139–156.
Kaczmarska, Elżbieta, Rosen, Alexandr (2013): Między znaczeniem leksykalnym a walencją – próba opracowania metody ekstrakcji ekwiwalentów
na podstawie korpusu równoległego. Studia z Filologii Polskiej i Słowiańskiej XLVIII, 103–121.
Kaczmarska, Elżbieta, Rosen, Alexandr (2014a): Czego nie można wyrazić
w języku polskim, czyli o leksykalnych w nim brakach. Polonica 34,
53–66.
Kaczmarska, Elżbieta, Rosen, Alexandr (2014b): Praktyczny przewodnik po
korpusie równoległym InterCorp. W: Milena Hebal-Jezierska (red.):
Praktyczny przewodnik po korpusach języków słowiańskich. Warszawa:
Wydział Polonistyki UW, 207–231.
Kaczmarska, Elżbieta, Rosen, Alexandr (2016): Niedosłowności w dialogu czesko-polskim. W: Marcin Odelski, Aleksandra Knapik, Piotr
Chruszczewski, Władysław Chłopicki (red.): Niedosłowność
w języku. Język i komunikacja 37. Kraków: Tertium.
Kaczmarska, Elżbieta, Rosen, Alexandr, Hana, Jirka, Hladká, Barbora
(2015): Syntactico-semantic analysis of arguments as a method for
establishing equivalents of Czech and Polish verbs expressing mental
states. Prace Filologiczne LXVII, 151–174.
Kędzia, Paweł, Piasecki, Maciej, Kocoń, Jan, Indyka-Piasecka, Agnieszka
(2014): Distributionally Extended Network-Based Word Sense Disambiguation in Semantic Clustering of Polish Texts. W: IERI Procedia
(International Conference on Future Information Engineering) 10, 38–44.
DOI: 10.1016/j.jeri.2014.09.073
Levin, Beth (1993): English Verb Classes and Alternations: A Preliminary Investigation. Chicago: University of Chicago Press.
Lüdtke, Ulrike M., (red.) (2015): Emotion in Language. Amsterdam:
John Benjamins.
248
Elżbieta Kaczmarska
Mikołajczuk, Agnieszka (1999): Gniew we współczesnym języku polskim. Analiza semantyczna. Warszawa: Wydawnictwo Energeia.
Mikołajczuk, Agnieszka (1997): Pole semantyczne ‘gniewu’ w polszczyźnie
(Analiza leksemów: gniew, oburzenie, złość, irytacja). W: Renata Grzegorczykowa i Zofia Zaron (red.): Semantyczna struktura słownictwa
i wypowiedzi. Warszawa: Wydawnictwa Uniwersytetu Warszawskiego,
149–171.
Młodzki, Rafał, Kopeć, Mateusz, Przepiórkowski, Adam (2012): Word Sense
Disambiguation in the National Corpus Of Polish. Prace Filologiczne
LXIII, 155–166.
Rosen, Alexandr, Vavřín Martin (2014): Korpus InterCorp – čeština, verze 7
z 19.12.2014. http://www.korpus.cz, (01-03-2016)
Siatkowski, Janusz, Basaj, Mieczysław (2002): Słownik czesko-polski. Warszawa: Wiedza Powszechna.
Szymczak, Mieczysław, (red.) (1995): Słownik języka polskiego. Warszawa:
PWN.
Tian, Liang, Wong, Derek F., Chao, Lidia S., Oliveira, Francisco. (2014):
A Relationship: Word Alignment, Phrase Table, and Translation
Quality. W: The Scientific World Journal. Hindawi Publishing Corporation. http://dx.doi.org/10.1155/2014/438106, (01-03-2016).
Tian, Liang, Wong, Derek F., Chao, Sam (2010): An Improvement of Translation Quality with Adding Key-Words in Parallel Corpus. W: Machine
Learning and Cybernetics (ICMLC), 2010 International Conference on,
Vol. 3, 1273–278. DOI: 10.1109/ICMLC.2010.5580888
Wierzbicka, Anna (1971): Kocha – lubi – szanuje. Medytacje semantyczne.
Warszawa: Wiedza Powszechna.
Wierzbicka, Anna (1980): Lingua mentalis: The semantics of natural language.
Sydney/New York, NY: Academic Press.
Wierzbicka, Anna (1991): Cross-cultural pragmatics: the semantics of human
interaction. Berlin/New York, NY: Mouton de Gruyter.
Wierzbicka, Anna (1997): Understanding cultures through their key words:
English, Russian, Polish, German, and Japanese. New York, NY/Oxford:
Oxford University Press.
Wierzbicka, Anna (2001): What Did Jesus Mean? Explaining the Sermon on the
Mount and the parables in simple and universal human concepts. New
York, NY: Oxford University Press.
Ewa Gruszczyńska
Uniwersytet Warszawski
Agnieszka Leńko-Szymańska
Uniwersytet Warszawski
Ruprecht von Waldenfels
University of California, Berkeley
The Polish-Swedish and Swedish-Polish Parallel Corpus
for exploring language contacts through translation
Polsko-Szwedzki i Szwedzko-Polski Korpus Równoległy
w badaniach kontaktów językowych poprzez tłumaczenie
Abstract
Artykuł ma na celu zaprezentowanie prac związanych z powstawaniem korpusu równoległego współczesnych polskich i szwedzkich
tekstów literackich. Przedstawia także wyniki badania pilotażowego
porównującego za pomocą danych równoległych językowe wykładniki emocji w obu językach i ich wzajemnych tłumaczeniach.
Polsko-szwedzki i szwedzko-polski korpus równoległy powstaje
w Pracowni Badań Skandynawistycznych na Wydziale Lingwistyki
Stosowanej Uniwersytetu Warszawskiego. Planowany jest na około
10 milionów tokenów i wykorzystywany będzie w badaniach dotyczących powiązań językowych w tłumaczeniach oraz wpływu przetłumaczonych tekstów na wzajemne postrzeganie języków i kultur.
Zawierać będzie polskie i szwedzkie teksty literackie opublikowane
w obu językach w ostatnich 20 latach waz z ich tłumaczeniami na oba
języki. Wersja pilotażowa korpusu liczy obecnie około 750 000 wyrazów i obejmuje trzy współczesne szwedzkie powieści przetłumaczone
na język polski oraz jedną powieść i 14 opowiadań w języku polskim
wraz z ich szwedzkimi przekładami. Minikorpus został zrównoleglony na poziomie zdań przy użyciu pakietu LFAligner 4.0, a jego polska część została otagowana przez Treetagger. Interfejs został oparty
na pakiecie ParaVoz, oryginalnie stworzonym dla projektu ParaSol.
Badanie pilotażowe z wykorzystaniem minikorpusu osadzone
zostało w teorii wymiaru kultur, której autorem jest Geert Hofstede.
Przeprowadzono je pod kątem sposobu tłumaczenia na oba języki
wybranych jednostek leksykalnych związanych z emocjami z pola
semantycznego polskiego rzeczownika strach oraz szwedzkiego
skräck. Wyrazy odnoszące się w obu językach do tej emocji zostały
Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels
250
uszeregowane pod względem intensywności. Następnie rzeczowniki
w języku polskim zostały zestawione z ich szwedzkimi ekwiwalentami
tłumaczeniowymi występującymi w korpusie i porównane pod względem mocy. Ta sama procedura została zastosowana dla rzeczowników polskich i ich szwedzkich odpowiedników. Wydaje się, że wyniki
badania, które ze względu na niewielką objętość korpusu należy traktować bardzo ostrożnie, potwierdzają hipotezę, według której różnice
w emocjonalności wyrażanej językowo po polsku i po szwedzku mają
odzwierciedlenie w przekładach. Kultura szwedzka charakteryzuje
się słabszym i bardziej stonowanym sposobem wyrażania emocji
w porównaniu z kulturą polską. Tłumacze polscy wybierają zazwyczaj
ekwiwalenty, które (biorąc pod uwagę parametr intensywności) są
silniejsze od jednostek językowych użytych w szwedzkim oryginale.
Widoczna jest także odwrotna tendencja w tłumaczeniach z języka
polskiego na język szwedzki. Oznacza to, że oprócz innych wymiarów
wskazanych przez Geerta Hofsteadego, kultura polska i szwedzka różnią się także pod względem emocjonalności. Jednak, aby potwierdzić
wiarygodność wstępnych wyników, badania zostaną powtórzone na
dużym korpusie docelowym.
Keywords: parallel corpus, Polish, Swedish, emotions, translation
Słowa kluczowe: korpus równoległy, język polski, język szwedzki,
emocje, przekład
1. Background
The Scandinavian Research Centre at the Faculty of Applied Linguistics is currently launching a research project dedicated to contemporary Polish-Swedish
language contacts through translation. The data for our investigations will primarily come from a purpose-built parallel corpus of literary texts. The aim of
the project is to examine Polish-Swedish and Swedish-Polish linguistic relations
in translation as well as the impact of translated texts on the mutual perception
of our respective languages and cultures.
A parallel corpus of Polish-Swedish and Swedish-Polish translations is
being built as a means to study these issues. Many such resources have already
been compiled, as corpora have become an indispensable source of data in linguistics and translation studies. However, to date there is no one dedicated Polish-Swedish parallel corpus. Multilingual corpora that include a Polish-Swedish
component are insufficient. The segment in ParaSol (von Waldenfels, 2011) is
clearly too small, while Opus (Tiedemann, 2012), and the Aquis Communitaire
corpus (Steinberger et al., 2006) include specialized language such as technical
or scientific documents and film subtitles (Opus) or the EU legislation (JTCAquis), in both cases mostly translated from third languages, and thus not
suitable for investigating language and culture relations between Sweden and
The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts...
251
Poland. The ASPAC Swedish-Polish corpus in Språkbanken (the Swedish Language Bank), which is part of the Amsterdam Slavic Parallel Aligned Corpus,
and which consists of 1,467,368 tokens (102,146 sentences), is also too small for
larger-scale comparisons of Polish and Swedish. Additionally, it is not perfectly
aligned and therefore query results are not reliable. Thus, there is an apparent
need for a large, reliable, representative and dedicated corpus of translations
into and from both languages. This gap will be filled by the resource compiled
within the framework of our project.
2. The Polish-Swedish parallel corpus
The corpus will consist of Swedish and Polish contemporary literary texts and
their translations into Polish and Swedish. The intended size of the corpus is 10
million tokens – 5 million Swedish originals with their Polish translations and
5 million Polish originals with their Swedish translations. Therefore, we estimate that the Swedish-Polish component will include about 30 original Swedish
books with their Polish translations and a similar number of volumes is foreseen
for the Polish-Swedish component. The literary texts to be included in the corpus are selected from a bibliography of contemporary (i.e. last 20 years) Swedish
and Polish literature which has been translated into the respective languages1,
and an effort will be made to ensure the inclusion of a variety of genres, authors
and translators so as the corpus is balanced and representative. Each text in the
corpus will be appended with rich metadata (the information on its author/
translator, its source, etc.), as well as with structural and linguistic information, such as the basic text structure and part of speech tagging. The originals
and their translations will also aligned at the sentence level. Purpose-built corpus-analysis tools will offer opportunities for multiple searches based on a range
of queries (such as individual words, phrases, parts of speech, units of texts),
and for direct comparisons between texts in the two languages, which will be
facilitated by the option of viewing the aligned sections of texts side-by-side.
In future, the Swedish-Polish and Polish-Swedish parallel corpus may
be further developed and used for other research in translation studies between
Polish and Swedish languages. Multilingual text collections, in particular parallel
corpora, have proved to serve not only as an excellent resource for the descriptive study of translation (Baker, 1995; Kenny, 1998), but also as a basis for professional pedagogical applications in the field of translator training (Pearson, 2003;
1 A bibliography of Swedish-Polish contemporary literary translations (2000 -2015) has been
already compiled by Anna Sworowska (Gruszczyńska, Sworowska, 2015) and is part of the
monograph: Ewa Gruszczyńska (2015) Polsko-szwedzkie spotkania językowe za pośrednictwem
przekładu. The earlier bibliography of Swedish-Polish literary translations prepared by Hieronim
Chojnacki (2003) Szwedzka literatura piękna w Polsce 1939-1996 does not include the period of
the last 20 years.
Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels
252
Bowker, 1998; Zanettin, 1998). The texts gathered in the parallel corpus will initially be available to the research team only. Sections of the corpus will gradually
be made publically available as the copyright issues are cleared.
3. The mini-corpus
Before embarking on the large-scale compilation of the Polish-Swedish parallel
corpus of literary texts, a decision was made to build a mini-corpus of a few
hundred thousand words. This was done with the aim of verifying the feasibility of the project, testing its individual procedures and assessing its technical
demands. In addition, using the mini-corpus for the pilot study described in the
next section was considered an important step in testing if the architecture of the
final resource will be optimal for the kinds of tasks envisaged within the research
project. Finally, it was also hoped that the compilation of the mini-corpus will
enhance the credibility of the project and thus help us raise necessary funding.
The mini-corpus was compiled in January-March 2015. It includes
three contemporary Swedish novels (by Sven Delblanc, Stig Larsson and
Kerstin Ekaman) with their Polish translations, as well as one Polish novel
(by Olga Tokarczuk) and a selection of Polish short stories with their Swedish
translations. The number of tokens in the mini-corpus and in its individual sections is presented in Table 1:
Polish
81,827
Polish-Swedish
Polish
366,001
Swedish
98,704
Swedish
320,768
Swedish-Polish
Swedish
419,472
Polish
284,174
Total
785,473
Table 1. Number of tokens in the Polish-Swedish parallel mini-corpus
The procedures and the tools applied for the construction of the mini-corpus
were adopted form the compilation project of the German-Polish parallel corpus
(see Chapter 6). After scanning and OCR conversion performed with ABBYY
FineReader, the text files were checked manually. A header containing metadata was produced for each document and inserted manually. Subsequently, the
texts were aligned with LFAligner 4.02 and the accuracy of the procedure was
verified by two researchers speaking both languages. The aligned documents
in the TMX format were then converted to two separate text files containing
XML annotation, one for each language. The Polish corpus file was tagged using
Treetagger3 (Schmid, 1995). Unfortunately, Treetagger does not offer a para2 http://sourceforge.net/projects/aligner/
3 http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts...
253
meter file for Swedish, so it could not be used for tagging the Swedish part of
the corpus. Several other available taggers were tested – the Stockholm Tagger4
(Östling, 2013), TnT5 (Brants 2000; Megyesi, 2001), HunPos6 (Halacsy, Kornai,
Oravecz, 2007; Megyesi, 2008), but none of them appeared to work well with
files containing XML annotation. Given the pilot nature of the current project,
we did not adapt these tools for our purpose and abandoned tagging the Swedish data. Finally, the two files containing Polish and Swedish texts separately
were converted to the CWB format required by the IMS Open Corpus Workbench7 (Evert, Hardie, 2011) – a set of tools for managing and querying large
text corpora with linguistic annotation. The interface for querying the data and
viewing the results was based on ParaVoz8 , (Meyer et al., 2006-2015, see also
Chapter 5), initially developed for ParaSol (von Waldenfels, 2011). It is a simple
CWB-based interface for parallel corpora operating through a web browser. At
the moment the mini-corpus is running on our local server. Figure 1 presents
screenshots from the query interface and the result-viewing panel.
The compilation of the mini-corpus has pointed to several problems
which will need to be taken into account in the proper compilation phase. First,
in order to ensure the dependability of query results, manual checks have to be
foreseen in the project after the OCR conversion and alignment stages. It has
become clear that the automatic tools alone do not produce sufficient quality, as
too many errors occurred at both stages to be left unedited without compromising the accuracy of the resource. Thus, it is necessary to secure adequate time
and financial resources for this purpose. There is also a need for a simple script
for automatic generation of headers from the information gathered in a separate database. Next, it is essential to solve the problem with tagging the Swedish
data by developing a tool stripping XML annotation before tagging and restoring it into the tagged files. Finally, using the mini-corpus for the pilot study
has revealed that the one-sentence context available at the moment is sufficient
only for an initial examination of the data. More in-depth analyses planned in
the project require access to larger – at least one-paragraph-long – contexts,
which is not supported by the current interface. An option of viewing a larger
context has to be included in the new version of the interface. Addressing these
problems will have a positive impact on the efficiency of work done within the
projects and the quality of its final result.
4 http://www.ling.su.se/english/nlp/tools/stagger
5 http://www.coli.uni-saarland.de/~thorsten/tnt/, http://stp.lingfil.uu.se/~bea/resources/tnt/
6 https://code.google.com/p/hunpos/, http://stp.lingfil.uu.se/~bea/resources/hunpos/
7 http://cwb.sourceforge.net/
8 https://bitbucket.org/rvwfels/paravoz
254
Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels
Figure 1. Screenshots from the Swedish-Polish mini-corpus
4. A pilot study
The pilot study described below belongs to the area of research which deals
with the so-called “linguistic images of the world”. These “images” are generally defined as a set of language properties related to grammatical categories
(morphological and syntactic) as well as lexical devices which reveal specific
images of the elements of the world typical for a certain language and culture (cf. Wierzbicka, 1999b). The study focuses on exploring the expression of
selected emotions in both languages and it is based on the Swedish-Polish and
Polish-Swedish parallel mini-corpus described in the previous section. Its aim is
to investigate if there is a difference in the conceptualization of emotions in the
Swedish and Polish cultures and languages, and if this difference influences the
way in which lexical units denoting emotions are translated into the respective
languages.
The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts...
255
Emotions9 are a significant part of the world. As they are language- and
culture-specific it is interesting to investigate how they are conceptualized in
Swedish and Polish and how they are translated between these two languages.
Although the problem of transferring emotions has always been present in some
way in the literature on translation, most studies have been concerned with
a general assessment of “the spirit” of a text and the impression a text makes on
the reader rather than with specific emotions (cf. Bassnett-Mc Guire, 1980: 63).
A greater interest in emotions within translation studies has been prompted
by contemporary semantics and a number of studies devoted to this issue has
gradually increased in recent years. But unlike linguists, who have been especially interested in the affective lexicon, i.e. in words referring to emotions such
as fear or sadness (cf. Clore, Ortony, Foss, 1987; Johnson-Laird, Oatley, 1989;
Wierzbicka, 1990, 1991, 1992a, 1992b, 1998), most translation theorists have
focused on emotionally-loaded lexical units. Thus, research on lexical units
referring to emotions is still scarce in translation studies (cf. Gruszczyńska,
2001). The question about what happens to the affective lexicon in the process of
translation from Swedish into Polish and vice versa seems pertinent and interesting. The subject matter of this pilot study has been limited to the emotions
from one sematic field: ‘fear’ i.e. Polish strach and Swedish skräck. We analyse
the occurrences of lexical units belonging to this semantic field in the parallel mini-corpus, thus focusing on the textual realisations of these sentiments.
As the differences between Polish and Swedish cultures are significant10, it can
be expected that the image of these particular emotions is not the same in the
source and the target texts, not only because of the differences between the
respective languages, but also because of a cultural difference concerning Polish
and Swedish emotionality which has its influence the outcome of the translation process.
The phenomenon called emotion is usually defined as a post-cognitive
phenomenon whose crucial aspect is the experiencer’s cognitive process leading to his/her own evaluation of the situation. Some researchers argue (Ortony,
Clore, 1989: 127) that “to be an emotion, the feeling must signify the results of
an appraisal of some kind. Thus, sadness is not simply a particular kind of feeling, but a particular kind of feeling for a particular reason”. Some linguists have
questioned the idea that the element of appraisal is always present in the process
of conceptualizing emotions. According to Wierzbicka, for example, one can
9 It is not easy to determine what is the phenomenon behind the English term emotion. The issue
is complex and there is still no consensus about what emotions are like and how to describe them
(cf. among others: Clore, Ortony, Foss 1987; Ekman 1992; Fries 1992; Johnson-Laird & Oatley
1989; Wierzbicka 1994, 1999a).
10 Dutch sociologist Geert Hofstede has shown (2001) that Polish and Swedish culture differ significantly from each other in terms of three dimensions: POWER DISTANCE, UNCERTAINTY
AVOIDANCE and MASCULINITY.
256
Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels
say, I am sad/happy today – I don’t know why, although certainly not *I am disappointed/disgusted today – I don’t know why. That is why she claims that for some
concepts of emotions we do need a reference to a particular thought, whereas
for others we do not – although we always need a reference to a prototypical
scenario, which identifies, indirectly, the emotion in question (cf. Wierzbicka,
1992b: 291). As we will see, some emotions from the semantic field of ‘fear’ in
Polish and Swedish have a particular motivation while others do not.
Emotions are usually divided by linguists and psychologists into two
groups: basic and non-basic emotions (e.g. Ekman 1973, 1989, 1992; Fehr,
Russel, 1984; Frijda 1986; Ortony, Clore, Collins, 1988; Plutchk, 1994; Russel,
Bullock 1986; Wierzbicka, 1999). It was Paul Ekman and his co-workers who
laid the foundations for the research in this field. On the basis of their detailed
studies of physiological correlates of emotions they came to the conclusion that
of all the emotions that people around the world feel, certain emotions have
consistent correlates in facial expressions across cultures and these are so-called
basic emotions:
The evidence now proves the existence of universal facial expressions.
(…) Regardless of the language, of whether the culture is Western
or Eastern, industrialized or preliterate, these facial expressions are
labelled with the same emotion terms: happiness, sadness, anger, fear,
disgust, and surprise (Ekman, 1973: 219-220).
The evaluation of all emotions (basic as well as non-basic) is carried out according to two main parameters which are considered primary, i.e. ‘good’/‘bad’, and
‘strong’/‘weak’. All emotions can be defined by their positions in a two-dimensional space formed by these parameters. (cf. Fries, 1992; Gruszczyńska, 2001).
The pilot study focused on the nouns strach and skräck (‘fear’) and other
nouns denoting related emotions11 which belong to the same semantic field.
We have chosen only these items from this field which have been found in our
Swedish-Polish and Polish-Swedish parallel mini-corpus. In the Polish subcorpus, these are: strach (przestrach), przerażenie, trwoga, lęk, niepokój, obawa
popłoch/panika and in the Swedish subcorpus, they include: skräck (förskräckelse), fasa, panik, oro, rädsla, förfäran, ångest, ängslan.
The semantic field of ‘strach’ in Polish is very rich. It is represented by
about 80 one-word lexical units and 400 analytical constructions (cf. Skorupka,
1974; Tomczak, 1997: 173; Gruszczyńska, 2001). Determining semantic similarities and differences between the nouns denoting this emotion (and consequently between verbs, adjectives etc.) is not a simple task. The definitions
11 According to Paul Ekman ‘fear’ stands not only for a single affective state but a family of related states (cf. Ekman 1992:172).
The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts...
257
in Słownik języka polskiego, (SJP, Dictionary of Polish) reveal some similarities
and differences in meaning between the items retrieved from the mini-corpus. These definitions, however, are not very useful for a precise differentiation
between the analysed items because each one is defined in terms of the other
units belonging the same semantic field12:
strach – “stan niepokoju wywołany przez niebezpieczeństwo
lub rzecz nieznaną, która wydaje się groźna przez myśl
o czymś grożącym” [a state of ‘≈ lęk’ evoked by a danger
or something unknown that seems dangerous through
thinking about a possible danger];
lęk – “uczucie trwogi, obawy przed czymś, strach”, psych. “stan
emocjonalny pojawiający się jako reakcja na zagrożenie,
którego źródło nie jest dokładnie znane i któremu człowiek nie może się aktywnie przeciwstawić” [a feeling
of trwoga, obawa about something, strach, psych. an
emotional state which is a response to a threat, whose
source is not exactly known and which cannot be
actively resisted];
przerażenie –“uczucie nagłego i silnego lęku, przestrachu” [a feeling of
a sudden and strong lęk, przestrach];
trwoga – “stan, uczucie niepewności, niepokoju o to, co grozi”
[a state, a feeling of uncertainty, niepokój of an imminent danger];
niepokój – “brak spokoju, równowagi” [a lack of calmness, balance];
obawa – “stan, uczucie niepewności, niepokoju, co do skutków,
następstw czego” [a state, a feeling of uncertainty, niepokój about the results or consequences of something];
popłoch – “strach nagle ogarniający ludzi” [strach which suddenly
overcomes people];
panika – “nagły, niepohamowany, często nieuzasadniony strach,
przerażenie, popłoch, zamieszanie ogarniające zwykle
większą liczbę ludzi” [a sudden, uncontrollable, frequently unjustified strach, przerażenie, popłoch, a confusion usually coming over a larger number of people]
The first of the defined nouns, i.e. strach, is one of two most frequent items
among the selected words (in Polish texts in general13 as well as in the analysed
material; the other one is niepokój) and it is part of numerous phraseological
12 We quote definitions in our own translation.
13 Cf. Słownik frekwencyjny polszczyzny współczesnej.
258
Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels
constructions. It is also considered to be the core lexeme of the discussed semantic field (Tomczak, 1977: 182) and a point of reference for other items. The main
differences between strach and the other words result from several additional
semantic components defining these emotions. Lęk is defined in terms of strach,
thus it seems to be equally strong but it is often connected with an unknown
cause. Przerażenie differs from strach in incorporating the components [+sudden] and [+being very strong], and therefore also [+being very unpleasant] in
its meaning. Niepokój undoubtedly belongs to the lexemes which denote weaker
emotions than strach and therefore has the component [+weak], also, it is not
necessarily evoked by a concrete cause. Obawa, similarly to niepokój, is also
considered a weak emotion [+weak] but it differs from niepokój in always having a concrete cause. Trwoga, however, refers to a very strong emotion, much
stronger than starch, which is demonstrated by all the examples in the SJP dictionary as well as all the citations from the mini-corpus. Therefore, the dictionary definition quoted above, which characterises this
emotion as “a feeling of uncertainty” (similar to obawa)
seems infelicitous as it omits the [+very strong] component. The last two items, i.e. popłoch/panika, which are
equally strong, should be defined by the elements [+collective], [+mindless] and [+active], which is confirmed
by the examples in the dictionaries.
In the above definitions the semantic component of being strong or weak is one of the main differentiating features. It may serve as a point of departure
for an approximate ordering of the analysed lexical units
according to the ‘strong’/‘weak’ parameter. The relations
among them are illustrated in Figure 2, which is based
on Fries’s diagram (cf. Fries, 1992)14. However, because
the emotion ‘strach’ and its related feelings all belong to
the group of unpleasant [+bad] emotions, only one axis
is sufficient to illustrate the relations between them, as
a stronger emotion is at the same time more unpleasant.
The semantic field of ‘skräck’ in Swedish is also
very rich. It is represented by a similar number of oneword lexical units and analytical constructions as Polish
‘strach’ (cf. Gruszczyńska, 2001). For our analysis we have
Figure 2. An approximate ordering of the lexical units from the semantic field of ‘strach’ according to the ‘strong’/‘weak’ parameter
14 The differences in distance between the words depicted in Figure 2 are not proportional to
differences in strength between them.
The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts...
259
selected only several of them: skräck, fruktan, fasa, panik, oro, rädsla, förfäran,
skrämsel, ångest, ängslan, i.e. only the nouns which occurred in the mini-corpus. The definitions provided by Swedish dictionaries (see References) reveal
some semantic similarities and differences in meaning between the analysed
items, however, in this case again, they are not very helpful in differentiating
precisely between the individual emotions because each feeling is defined in
terms of other emotions,15 as it was the case in the Polish dictionary:
skräck –
“mycket stark rädsla ofta i viss akut situation jfr fasa”
[very strong rädsla often in an acute situation; cf. fasa];
in SOB it is also defined in terms of rädsla and fasa but
two semantic components are emphasised: [+strong]
and [+acute];
fasa –
”dels om mera bestående l. djupgående ångest l. fruktan,
dels om mera tillfällig l. plötslig förfäran (förskräckelse)”
(SAOB) [partly about more complex deep ångest, fruktan, partly about sudden förfäran];
fruktan – “1. rädsla, skräck, bävan 2. ängslan, oro, farhåga (att ngt
obehagligt)” [rädsla, skräck, bävan 2. ängslan, oro, farhåga about something uncomfortable];
panik – “(plötslig o.) besinningslös skräck (som orsakar förvirring o. tumult o. hämningslösa försök att undkomma),
panisk förskräckelse (som griper en samling människor)”
[a sudden, foolish skräck: (which causes confusion and
tumult, an unrestrained attempt to escape,) a panic seizing a group of people];
oro – “saknad av brist på ro, lugn, vila; tillstånd, förhållande
som utmärkes av (tendenser, möjligheter till) störningar, förändringar, växlingar (i den normala tillvaron);
särsk. om (tillstånd av) rörelse som stör ngts stillhet och
vila; [lack of peace, tranquility, rest; a state characterized
by (tendencies, possibilities of) disturbances, modifications, changes (in normal life); especially if (a state of)
movement disturbs someone’s peace and rest];
rädsla – “förhållandet. egenskapen att vara rädd (för ngn l. ngt),
fruktan; klenmod, försagdhet; ängslan, bävan; äv.: förskräckelse, skräck”; [ratio. property to be rädd (because
of somebody or something) fruktan; timidity ängslan,
bävan; or förskräckelse, skräck];
förfäran – “starkt, skräckblandad obehag” [a strong fear mixed
with discomfort];
15 The definitions are quoted after SAOB, SOB and LEXIN.
Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels
260
fasa –
“stark ihållande förfäran” [a strong, persistent förfäran];
ångest – “känsla av stark oro eller fruktan” [Lexin]; [a feeling of
strong oro or fruktan];
ängslan – “obehaglig känsla att vara utsatt för fara” [Lexin]; [an
uncomfortable feeling of being in danger]
The first of the analysed lexical units, i.e. skräck, is also one of the two most
frequent items among the selected emotions (in Swedish texts in general, as
well as in the mini-corpus; another one is oro) and is part of numerous phraseological constructions. It is also considered to be the main lexeme from the
discussed semantic field and a point of reference for the other items. It is defined
as “djupgående ångest” [profound ångest] and that is why it can be considered
as stronger than ångest. According to the dictionary definition rädsla is very
similar to skräck. Oro seems to be the weakest of all the analysed items. On
the other hand, panik, fasa and förfäran are stronger than
skräck. The first one is defined as very strong, and fasa is
described as stronger than förfäran.
Similarly to Polish, in the above definitions the
quality of being strong or weak is one of the main differentiating features. We have tried to order the analysed nouns
according to the ‘strong’/’weak’ parameter. Their place on
the scale is depicted in Figure 3, which is also based on
Fries’s (1992) diagram16.
The next step in our analysis involved examining
how individual emotions from the semantic field of ‘fear’
were translated from Polish to Swedish and vice versa and
how the translation equivalents in both languages were
distributed along the strong/weak scale. We analysed 97
pairs of sentences retrieved from the Swedish-Polish and
Polish-Swedish parallel mini-corpus containing the analysed words. Tables 2 and 3 present the examined nouns in
the two languages together with their translations.
Figure 3. An approximate ordering of the lexical units from the semantic field of ‘skräck’ according to the ‘strong’/’weak’ parameter
16 The differences in distance between the words depicted in Figure 3 are not proportional to the
differences in strength between them.
The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts...
Swedish
source texts
oro
skräck
skräck
ångest
ängslan
panic
0
förfäran
0
Polish
translated texts
niepokój
strach
przerażenie
lęk
niepokój
panika
[addition] przerażenie
przerażenie
[addition] popłoch
261
Number of hits
18
9
4
8
7
6
5
1
1
Table 2. Polish equivalents of the Swedish nouns from the semantic field of ‘skräck’ in the
mini-corpus
Polish
source texts
niepokój
strach
przerażenie
przerażenie
popłoch
trwoga
lęk
Swedish
target texts
oro
skräck
rädsla
skräck
förfäran
panik
oro
oro
ångest
skräck
Number of hits
12
8
2
5
3
3
2
1
2
2
Table 3. Swedish equivalents of the Polish nouns from the semantic field of ‘strach’ in the
mini- corpus
Figures 4 and 5 present the relative positions of the analysed nouns and their
translations on the strong/weak scale in the two languages. If the hypothesis
about the differences between Polish and Swedish emotionality is correct these
differences should be reflected in discrepancies between the strength of the
translation equivalents.
Both scales – the one presenting the ordering of the linguistic representations of emotions in Polish according to the ‘strong’/‘weak’ parameter,
and the other presenting the Swedish expressions ordered according to the same
criterion – can be assumed to be comparable. In both of them the central position is occupied by one lexeme, and all the remaining nouns are situated closer
or farther from the centre in the direction of stronger or weaker emotions (as
stipulated by the prototype theory, Rosch, 1973). In Polish the central lexeme
is strach and in Swedish it is skräck. The graphical positioning of the centres
of both graphs on the same level makes it possible to juxtapose the scales and
compare them with each other. However, it should be noted that the distances
between individual expressions of emotions on the scales are symbolic and have
262
Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels
Figure 4. The Swedish equivalents of the Polish nouns from the semantic field of ‘strach’
no influence on the overall picture of the observed tendencies. What is important is not the distances but the ordering, which was determined by the definitional properties of the individual items.
As Figure 4 demonstrates, Swedish translators often rendered Polish
nouns denoting emotions related to fear with Swedish lexical items expressing weaker feelings. At the same time, Figure 5 indicates that Polish translators
behaved in the opposite way: they preferred stronger Polish items or even additions as equivalents to Swedish nouns expressing the feelings from this semantic
field. Figures 4 and 5 show that the translation equivalents of the items situated in the extreme positions on the strong/weak axis, i.e. Polish niepokój and
popłoch and Swedish oro and panic are rendered by nouns in the other language
which are identical (or only slightly different) in terms of their strength. On the
other hand, the equivalents of the items situated in the middle of the scale are
more varied and show a tendency to be weaker (in the case of Swedish translations) or stronger (in the case of Polish renderings). In other words, translators
The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts...
263
Figure 5. The Polish equivalents to the Swedish nouns from the semantic field of ‘skräck’
tend to downgrade strong emotions when translating from Polish to Swedish,
and upgrade them, conversely, when translating in the opposite direction. Such
results suggest that the Swedish culture is characterised by a weaker/more subdued expression of emotionality in comparison with the Polish culture which,
in turn, tends to express feelings by giving them a more intense undertone. This
conclusion demonstrates that Hofstede’s (2001) observation was not fully complete. The Polish and Swedish cultures differ significantly from each other not
only in terms of three main dimensions: power distance, uncertainty avoidance
and masculinity but also in terms of emotionality. However, as the size of our
parallel mini-corpus is still very limited this conclusion should be treated with
caution and must be confirmed in wider-scale research.
5. Conclusions
This article has introduced a new project on contemporary Polish-Swedish language contacts through translation which has recently been launched at the
264
Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels
University of Warsaw’s Scandinavian Research Centre. An important part of this
project is a compilation of a large, balanced and representative Swedish-Polish
and Polish-Swedish parallel corpus of literary texts. The paper has described
the mini-corpus which has been created in the pilot phase of the project. It has
also presented the results of a small-scale study into translations of emotion
terms related to ‘fear’ between the two languages, which was based on the data
retrieved from the mini-corpus. The outcomes of the project’s pilot phase have
confirmed its feasibility. They have also proven that the planned Swedish-Polish and Polish-Swedish parallel corpus will be a valuable source of data for the
kinds of analysis envisaged within the project.
References
Baker, Mona (1995): Corpora in Translation Studies. An Overview and Suggestions for Future Research. Target 7(2), 223–243.
Bassnett-Mc Guire, Susan (1980): Translation Studies. London: Methuen &
Co. Ltd.
Bowker, Lynne (1998): Using specialized monolingual native-language corpora as a translation resource: A pilot study. Meta 43(4): 631–651.
Brants, Thorsten. (2000): TnT – A Statistical Part-of-Speech Tagger. In: Proceedings of the 6th Applied Natural Language Processing Conference.
Seattle, Washington, USA. http://www.coli.uni-saarland.de/~thorsten/
publications/Brants-ANLP00.pdf, (17 October 2015).
Clore, Gerald, Ortony, Andrew, Foss, Mark A. (1987): The psychological
foundations of the affective lexicon. Journal of Personality and Social
Psychology 53, 751–766.
Ekman, Paul (1973): Cross Cultural studies of facial expressions. In: Paul Ekman
(ed.): Darwin and Facial Expression: a Century of Research in Review.
New York: Annals of the New York Academy of Sciences, 169–229.
Ekman, Paul (1989): The argument and evidence about universals in facial
expressions of emotions. In: Hugh Wagner, Antony S.R Manstead
(eds.): Handbook of Social Psychophysiology. Chichester: Viley, 143–164.
Ekman, Paul (1992): An argument for basic emotions. Cognition and Emotion
6(3/4). Special Issue on Basic Emotions, 169–200.
Evert, Stefan, Hardie, Andrew (2011): Twenty-first century Corpus Workbench:
Updating a query architecture for the new millennium. In: Proceedings
of the Corpus Linguistics 2011 conference, University of Birmingham, UK.
http://www.birmingham.ac.uk/documents/college-artslaw/corpus/conference-archives/2011/Paper-153.pdf, (17 October 2015).
The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts...
265
Fehr, Beverley , Russel Fehrand (1984): Concept of emotion viewed from
a prototype perspective. Journal of Personality and Social Psychology
113, 464–486.
Frijda, Nico H. (1986): The Emotions. Cambridge: Cambridge University Press.
Fries, Norbert (1992): Emocje. Aspekty eksperymentalne i lingwistyczne. In:
Gabriel Falkenberg, Norbert Fries, Jadwiga Puzynina (eds.): Wartościowanie w języku i tekście. Warszawa: Wydawnictwa Uniwersytetu
Warszawskiego, 105–135.
Gruszczyńska, Ewa (2001): Linguistic Images of Emotions in Translation from
Polish into Swedish. Henryk Sienkiewicz as a Case in Point. Studia Slavica Upsaliensa 42. Uppsala: Acta Universitatis Upsaliensis.
Gruszczyńska, Ewa, Sworowska, Anna (2015): Współczesna literatura
szwedzka w polskim przekładzie. – [in:] Ewa Gruszczyńska: Spotkania językowe szwedzko-polskie za pośrednictwem przekładu. Warszawa:
Oficyna Wydawnicza ASPRA-JR, 31–75.
Halacsy, Peter, Kornai, Andras, ORAVECZ, Csaba. (2007): Hunpos – an open
source trigram tagger. In: Proceedings of the 45th Annual Meeting of the
Association for Computational Linguistics Prague, Czech Republic. Companion Volume: Proceedings of the Demo and Poster Sessions. Association for Computational Linguistics, 209–212. http://www.kornai.com/
Papers/acl07poster.pdf, (17 October 2015).
Hofstede, Geert (2001) Culture’s Consequences: Comparing Values, Behaviors,
Institutions and Organizations Across Nations. Second Edition. Thousand Oaks, CA: Sage Publications.
Chojnacki, Hieronim (2003): Szwedzka literatura piękna w Polsce 1939-1996.
Gdańsk: Wydawnictwo Uniwersytetu Gdańskiego.
Johnson-Laird Philip, Oatley Keith (1989): The language of emotions: an
analysis of semantic field. Cogniton and Emotion 3, 81–123.
Kenny, Dorothy (1998): Corpora in Translation Studies. Routledge Encyclopedia
of Translation Studies, 50–53.
Megyesi, Beata (2001): Comparing Data-driven Learning Algorithms for PoS
Tagging of Swedish. In: Proceedings of the Conference on Empirical
Methods in Natural Language Processing (EMNLP 2001), Carnegie Mellon University, Pittsburgh, PA, USA, 151–158. https://www.aclweb.org/
anthology/W/W01/W01-0519.pdf, (17 October 2015).
Megyesi, Beata (2008): The Open Source Tagger HunPoS for Swedish. Report,
September. Department of Linguistics and Philology, Uppsala University. http://stp.lingfil.uu.se/~bea/publ/megyesi-hunpos.pdf, (17 October 2015).
266
Ewa Gruszczyńska, Agnieszka Leńko-Szymańska, Ruprecht von Waldenfels
Meyer, Roland, von Waldenfels, Ruprecht, Woźniak, Michał, Zeman,
Andreas (2006-2015): ParaVoz – a simple web interface for querying
parallel corpora. Second Version. Bern, Regensburg, Berlin, Krakow.
https://bitbucket.org/rvwfels/paravoz, (17 October 2015).
Ortony Andrew, Clore, Gerald (1989): Emotions, moods, and conscious
awareness. Cognition and Emotion 3(2), 125–137.
Ortony, Andrew, Clore, Gerald, Collins, Allan (1988): The Cognitive Structure of Emotions. Cambridge: Cambridge University Press.
Östling, Robert (2013): Stagger: an Open-Source Part of Speech Tagger for
Swedish. Northern European Journal of Language Technology, 3, 1–18.
Pearson, Jennifer (2003): Using parallel texts in the translator training environment. In: Federico Zanettin, Silvia Bernardini, Dominic Stewart
(eds.): Corpora in Translator Education, Manchester: St Jerome, 15–24.
Plutchik, Robert (1994): The Psychology and Biology of Emotions. New York:
Harper Collins College Publishers.
Rosch, Eleanor (1973): Natural categories. – Cognitive Psychology, 4 (3), 328–50.
Russel James A., Bullock Marry (1986): Fuzzy concepts and the perception of
emotion in facial expressions. Social Cognition 4, 309–341.
Schmid, Helmut (1995): Improvements in Part-of-Speech Tagging with an
Application to German. In: Proceedings of the ACL SIGDAT Workshop.
Dublin, Ireland. http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger2.pdf, (17 October 2015).
Steinberger Ralf, Pouliquen, Bruno, Widiger, Anna, Ignat, Camelia,
Erjavec, Tomaž, Tufiş, Dan, Varga Dániel (2006): The JRC-Acquis:
A multilingual aligned parallel corpus with 20+ languages. In: Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC’2006), Genoa, Italy, 24-26 May 2006, 2142–2147. http://
www.lrec-conf.org/proceedings/lrec2006/, (1 March 2016).
Tiedemann, Jörg (2012): Parallel data, tools and interfaces in OPUS. In: Nicoletta Calzolari, Khalid CHOUKRI, Thierry DECLERCK, Mehmet
Uğur DOĞAN, Bente MAEGAARD, Joseph MARIANI, Asuncion
MORENO, Jan ODIJK, Stelios PIPERIDIS (eds.): Proceedings of the
Eight International Conference on Language Resources and Evaluation
(LREC 2012). Istanbul: European Language Resources Association
(ELRA), 2214–2218.
Tomczak, Katarzyna (1997): Wyrażenia z leksemami “strach” i “bać się” we
współczesnej polszczyźnie. In: Renata Grzegorczykowa, Zofia Zaron
(eds.): Semantyczna struktura słownictwa i wypowiedzi. Warszawa:
Wydawnictwa Uniwersytetu Warszawskiego, 174–198.
The Polish-Swedish and Swedish-Polish Parallel Corpus for exploring language contacts...
267
von Waldenfels, Ruprecht (2011): Recent developments in ParaSol: Breadth
for depth and XSLT-based web concordancing with CWB. In: Daniela
Majchráková, Radovan Garabík (eds.): Natural Language Processing, Multilinguality. Proceedings of Slovko 2011, Modra, Slovakia, 20–21
October 2011. Bratislava: Tribun EU, 156–162.
Wierzbicka, Anna (1990): The semantics of emotions: fear and its relatives.
Australian Journal of Linguistics, 10 (2), 133–138.
Wierzbicka, Anna (1991): Cross-cultural Pragmatics. The semantics of Human
Interaction. Berlin/New York: Mouton de Gruyter.
Wierzbicka, Anna (1992a): Semantics, Culture and Cognition. Universal
Human Concepts in Culture-specific Configurations. Oxford/New York:
Oxford University Press.
Wierzbicka, Anna (1992b): Talking about emotions: Semantics culture and
Cognition. Cognition and Emotion 6 (3/4), 285–319.
Wierzbicka, Anna (1994): Emotion, language and “cultural scripts”. In: Shinobu Kitayama, Hazel Rose Markus (eds.): Emotion and Culture:
Empirical studies of mutual influence. Washington, DC: American Psychological Association, 130–198.
Wierzbicka, Anna (1999a): Emotions across Languages and Cultures: Diversity
and Universals. Cambridge: Cambridge University Press.
Wierzbicka, Anna (1999b): Język, umysł, kultura. Warszawa: Wydawnictwo
Naukowe PWN.
zanettin, Federico (1998): Bilingual comparable corpora and the training of
translators. Meta 43(4), 616–630.
Dictionaries
Skorupka, Stanisław (1974): Słownik frazeologiczny języka polskiego. Warszawa:
Wiedza Powszechna.
SOB Svensk Ordbok, (1990): Esselte Ordbok.
SAOB Svenska Akademiens Ordbok (Internet version) (1997). Lund Göteborg
http://g3.spraakdata.gu.se/saob/.
Kurcz, Ida et al. (1990): Słownik frekwencyjny polszczyzny współczesnej.
Kraków/Warszawa: Instytut Języka Polskiego, Polska Akademia Nauk.
Szymczak, Mieczysław (ed.) (1992): Słownik języka polskiego. Warszawa:
Wydawnictwo Naukowe PWN.
Lexin: http://lexin.nada.kth.se/lexin/#
Noty biograficzne
Dr hab. Łucja Biel: pracownik naukowo-dydaktyczny, obecnie pełniąca obowiązki dyrektora Instytutu Lingwistyki Stosowanej Uniwersytetu Warszawskiego, Visiting Lecturer na City University London (2009-2014), sekretarz
generalna European Society for Translation Studies, kierownik Pracowni Korpusowej Instytutu Lingwistyki, z-ca redaktor naczelnej The Journal of Specialised Translation; autorka 35 artykułów na temat tłumaczeń i badań korpusowych
oraz książki o tłumaczeniu prawa unijnego Lost in the Eurofog. The Textual Fit of
Translated Law (Peter Lang, 2014).
adres mailowy: l.biel@uw.edu.pl
Prof. UW dr hab. Silvia Bonacchi: profesor Uniwersytetu Warszawskiego
oraz profesor gościnny na licznych uniwersytetach zagranicznych (m.in. na
uniwersytecie w Moguncji, Niemcy). Jest autorką licznych publikacji m. in.
z zakresu badań nad grzecznością i niegrzecznością językową, kierownikiem
Laboratorium Komunikacji Multimodalnej na Uniwersytecie Warszawskim,
kierownikiem projektu „MCCA: Multimodal Communication: Culturological
Analysis” oraz współredaktorem pisma Journal of Multimodal Communication
Studies. Dalsze projekty badawcze obejmują „Język pogranicza – pogranicze
języka. Parajęzykowe aspekty komunikacji międzykulturowej” (we współpracy
z UAM w Poznaniu) oraz „Językowy savoir-vivre polski i niemiecki. Studium
konfrontatywne” (we współpracy z Uniwersytetem Warszawskim, Wydział
Dziennikarstwa).
adres mailowy: s.bonacchi@uw.edu.pl
Dr hab. Ewa Gruszczyńska: pracownik naukowo-dydaktyczny Instytutu Lingwistyki Stosowanej Uniwersytetu Warszawskiego, polonistka i lingwistka (stopień doktora otrzymała na Uniwersytecie w Uppsali w 2001 r.), uczestniczka
międzynarodowego projektu „Translation and Interpreting – a Meeting between
Languages and Cultures” (1995 – 2001) realizowanego na Uniwersytetach
w Uppsali i Sztokholmie, kierownik Pracowni Badań Skandynawistycznych ILS
UW, przy której powstaje Polsko-Szwedzki i Szwedzko-Polski Korpus Równoległy, członek Polskiego Towarzystwa Językoznawczego, Polskiego Towarzystwa
Lingwistyki Stosowanej. Zainteresowania badawcze: współczesny język polski,
współczesny język szwedzki (Szwedzko-polskie spotkania za pośrednictwem
przekładu 2015), przekładoznawstwo (Linguistic Images of Emotion in Translation from Polish into Swedish 2001), korpusy równoległe.
adres mailowy: e.gruszczynska@uw.edu.pl
270
Noty biograficzne
Dr Milena Hebal-Jezierska: pracownik naukowo-dydaktyczny w Instytucie
Slawistyki Zachodniej i Południowej Uniwersytetu Warszawskiego, były pracownik oraz stały współpracownik Czeskiej Akademii Nauk oraz Uniwersytetu Karola w Pradze; bohemistka i lingwistka korpusowa. Jej zainteresowania
naukowe dotyczą przede wszystkim metod badawczych stosowanych w lingwistyce korpusowej, semantyki konfrontatywnej oraz morfologii.
adres mailowy: milena.hebal.jezierska@gmail.com
Dr Elżbieta Kaczmarska: bohemistka, adiunkt w Instytucie Slawistyki Zachodniej i Południowej Uniwersytetu Warszawskiego. Jej zainteresowania naukowe
dotyczą gramatyki konfrontatywnej czesko-polskiej, problemów przekładu
oraz możliwości wykorzystania korpusów równoległych w badaniach i pracach
translatorskich. Autorka artykułów kontrastywnych z zakresu składni, leksyki
i semantyki.
adres mailowy: e.h.kaczmarska@gmail.com
Dr Natalia Kotsyba: pracownik naukowy Instytutu Podstaw Informatyki
Polskiej Akademii Nauk. Jest językoznawcą anglistką i slawistką, zajmuje się
zagadnieniami lingwistyki korpusowej, semantyki i gramatyki konfrontatywnej. Stopień doktora uzyskała w 2006 roku za pracę „Semantyczna kategoria
określoności i nieokreśloności w językach angielskim i ukraińskim.” W latach
2004-2011 kierowała pracami nad polsko-ukraińskim korpusem równoległym.
adres mailowy: natalia.kocyba@ipipan.waw.pl
Dr Magdalena Kuratczyk: docent na Wydziale Lingwistyki Stosowanej UW,
w Instytucie Rusycystyki. Zainteresowania naukowe: leksykografia, słownictwo
i gramatyka współczesnego języka rosyjskiego, rosyjski system czasownikowy,
lingwistyka korpusowa. Współtwórczyni Korpusu Polsko-Rosyjskiego UW
(pol-ros.polon.uw.edu.pl).
adres mailowy: m.kuratczyk@uw.edu.pl
Dr Agnieszka Leńko-Szymańska: pracownik naukowo-dydaktyczny Instytutu
Lingwistyki Stosowanej Uniwersytetu Warszawskiego, do 2004 członkini grupy
PELCRA (Polish and Language Corpora for Resreach and Applications) w Instytucie Anglistyki Uniwersytetu Łódzkiego. Prowadzi badania z zakresu przyswajania języka drugiego w oparciu o korpusy języka uczniów. Specjalizuje się także
w wykorzystaniu korpusów w nauczaniu języków obcych. Jest współredaktorem tomu Multiple Affordances of Language Corpora for Data-driven Learning
(John Benjamins, 2015). Jest zaangażowana w prace nad Polsko-Szwedzkim
Noty biograficzne
271
i Szwedzko-Polskim Korpusem Równoległym współczesnych tekstów literackich, który powstaje w Instytucie Lingwistyki Stosowanej.
adres mailowy: a.lenko@uw.edu.pl
Prof. UW dr hab. Marek Łaziński: profesor w Instytucie Języka Polskiego UW.
Zainteresowania naukowe: aspekt czasownika, funkcje bezokolicznika, formy
adresatywne i grzeczność językowa, asymetria rodzaju gramatycznego i płci, lingwistyka korpusowa. Jeden ze współtwórców Narodowego Korpusu Języka Polskiego, kierownik Korpusu Polsko-Rosyjskiego UW (pol-ros.polon.uw.edu.pl).
adres mailowy: m.j.lazinski@uw.edu.pl
Prof. dr hab. Krzysztof Marasek: szef katedry Multimedia w Polsko-Japońskiej
Akademii Technik Komputerowych. Jest absolwentem Informatyki na Politechnice Warszawskiej, gdzie uzyskał stopień doktora, w 1992 roku uzyskał stopień
doktora habilitowanego – habilitacja na Uniwersytecie w Stuttgarcie (19982004), gdzie pracował jako starszy naukowiec w Stuttgart Sony Centrum Technologiczne. Od 2006 członek Rady Naukowej Wydziału, profesor wizytujący
na Uniwersytecie Północnej Karoliny, Charlotte, USA, a także członek Rady
Naukowej IPPT oraz Instytut Przetwarzania Informacji w Warszawie. Recenzent w 5. i 6. edycji EU Framework Programme.
adres mailowy: kmarasek@pja.edu.pl
Dr Andreas Meger: pracownik naukowo-dydaktyczny Wydziału Translatologii, Lingwistyki i Kulturoznawstwa Uniwersytetu w Moguncji, gdzie powstała
jego praca doktorska na temat makrostruktury słowników neologizmów języków słowiańskich i języka niemieckiego, a także tłumacz. Wraz z Eriką Worbs
i Andrzejem Markowskim jest współautorem pierwszego polsko-niemieckiego
słownika neologizmów. Przedmiotem jego zainteresowań naukowych jest leksykografia (w szczególności leksykografia neologizmów), leksykologia, lingwistyka korpusowa oraz translatologiczne aspekty języków specjalistycznych. Od
wielu lat prowadzi zajęcia dydaktyczne m.in. z tłumaczeń specjalistycznych
(prawo i ekonomia) z języka polskiego na niemiecki.
adres mailowy: meger@uni-mainz.de
Mgr Mariusz Mela: doktorant na Wydziale Lingwistyki Stosowanej Uniwersytetu Warszawskiego, gdzie przygotowuje rozprawę pt. Multimodalna analiza
konfliktów twarzą-w-twarz w komunikacji prowadzonej w języku niemieckim
i polskim. Jest uczestnikiem projektów „MCCA: Multimodal Communication:
Culturological Analysis” i „Język pogranicza – pogranicze języka. Parajęzykowe aspekty komunikacji międzykulturowej”; jest także członkiem redakcji
272
Noty biograficzne
pisma Journal of Multimodal Communication Studies. Opiekun naukowy Laboratorium Komunikacji Multimodalnej na Uniwersytecie Warszawskim, liczne
publikacje w zakresie komunikacji multimodalnej i systemów anotacji.
adres mailowy: mariusz.mela@gmail.com
PhDr. Marianna Petrincová: doktorantka językoznawstwa ogólnego na
Wydziale Filozoficznym Uniwersytetu Palackiego w Ołomuńcu (Czechy)
pisząca pracę doktorską na temat słowackich ekwiwalentów polskich czasowników przedrostkowych z punktu widzenia leksykografii. Zainteresowania
naukowe: językoznawstwo korpusowe, leksykografia. Tłumaczka z języków
polskiego i hiszpańskiego, w przeszłości współpracowała przy tworzeniu słowników hiszpańsko-słowackich i słowacko-hiszpańskich.
adres mailowy: m_petrincova@yahoo.com
Dr Piotr Pęzik: adiunkt i kierownik Pracowni Językoznawstwa Korpusowego
i Komputerowego w Instytucie Anglistyki Uniwersytetu Łódzkiego. Autor prac
naukowych i rozwiązań informatycznych z dziedziny językoznawstwa korpusowego i komputerowego. Obszarem jego szczególnych zainteresowań językoznawczych jest frazeologia dystrybucyjna w ujęciu korpusowym. Wykonawca
i kierownik krajowych i międzynarodowych projektów badawczo-rozwojowych,
członek konsorcjum Narodowego Języka Polskiego, grupy badawczej PELCRA.
W latach 2006-2009 członek grupy Ekstrakcji Informacji w Europejskim Instytucie Bioinformatyki w Cambridge.
adres mailowy: piotr.pezik@gmail.com
Mgr Emilia Rejmund: doktorantka Polsko-Japońskiej Akademii Technik Komputerowych. Jej obszarem zainteresowań jest użycie metod przetwarzania języka
naturalnego w celu poszukiwania podobieństw między tekstami na podstawie
ich małych fragmentów. Zajmuje się także zastosowaniem metod podobieństwa
semantycznego w powiązaniu z metodami analizy i syntezy tekstu do opracowywania zagadnień dotyczących tłumaczenia maszynowego.
adres mailowy: erejmund@pja.edu.pl
Ing. Alexandr Rosen, Ph.D.: pracownik naukowo-dydaktyczny na Uniwersytecie Karola w Instytucie Lingwistyki Teoretycznej i Komputerowej. Jego zainteresowania naukowe koncentrują się wokół lingwistyki formalnej i korpusowej.
Aktualnie kieruje pracami poświęconymi tworzeniu korpusu równoległego
InterCorp wchodzącego w skład projektów Czeskiego Korpusu Narodowego
oraz uczestniczy w badaniach dotyczących anotacji syntaktycznej korpusów,
Noty biograficzne
273
anotacji korpusów uczniowskich, taksonomii kategorii lingwistycznych oraz
lingwistyki formalnej.
adres mailowy: alexandr.rosen@ff.cuni.cz
Dr hab. Danuta Roszko: pracownik naukowy Instytutu Slawistyki PAN. Specjalności: językoznawstwo synchroniczne, konfrontatywne, dialektologia, lingwistyka korpusowa, semantyka, lituanistyka, rusycystyka, białorutenistyka,
kulturoznawstwo. Tłumacz przysięgły języka litewskiego.
adres mailowy: danuta.roszko@ispan.waw.pl
Prof. nzw. dr hab. Roman Roszko: pracownik naukowy Instytutu Slawistyki
PAN. Specjalności: językoznawstwo synchroniczne, konfrontatywne, leksykologia, lingwistyka komputerowa, korpusowa, semantyka, bułgarystyka, rusycystyka, slawistyka, lituanistyka, indoeuropeistyka; tłumacz, redaktor naczelny
Cognitive Studies | Études cognitives.
adres mailowy roman.roszko@ispan.waw.pl
Mgr Monika Szela: absolwentka filologii rosyjskiej oraz filologii angielskiej
o specjalności językoznawczej. Studiowała na Uniwersytecie Wrocławskim oraz
w Wyższej Szkole Filologicznej we Wrocławiu. Jej zainteresowania naukowe
obejmują zagadnienie transferu międzyjęzykowego w tłumaczeniach, uniwersalia przekładowe, hybrydowy język tłumaczeń. Praca doktorska poświęcona
jest badaniu cech tekstów tłumaczonych z wykorzystaniem metodologii językoznawstwa korpusowego.
adres mailowy: monikaszela@gmail.com
Dr Ruprecht von Waldenfels: doktor językoznawstwa slawistycznego na Uniwersytecie w Ratyzbonie (Niemcy); przez kilka lat pracownik naukowy Instytutu Języków Słowiańskich na Uniwersytecie w Bernie (Szwajcaria). W latach
2014/2015 gościł jako stażysta w IPI PAN w Warszawie i w IJP PAN w Krakowie; obecnie pracuje jako stypendysta Szwajcarskiego Funduszu Naukowego
w Department of Slavic Languages and Literatures, UC Berkeley. Razem z Rolandem Meyerem jest twórcą równoległego korpusu języków słowiańskich ParaSol,
nad którym pracuje od 2006 roku; wspólnie z Michałem Danielem i Niną Dobrusziną rozwija korpus gwarowy Ustya River Basin (www.parasolcorpus.org/Pushkino) oraz uczestniczy w tworzeniu korpusu gwary spiszowej w ramach projektu
IJP PAN (razem z Heleną Grocholą, Rafałem Górskim i Michałem Woźniakiem). Jego zainteresowania naukowe dotyczą głównie językoznawstwa porównawczego języków słowiańskich oraz lingwistyki komputerowej i korpusowej.
adres mailowy: ruprecht.waldenfels@gmail.com
274
Noty biograficzne
Mgr inż. Krzysztof Wołk: specjalista w dziedzinie tłumaczenia statystycznego
mowy (praca doktorska na ten temat na ukończeniu). Posiada doświadczenie
w kwestiach związanych z NLP i korpusów porównywalnych. Brał udział w projektach badawczych EU BRIDGE i CLARIN. Posiada profesjonalne certyfikaty
Microsoft, Adobe, Apple i w3schools. Jest autorem dwóch monografii na temat
radia internetowego oraz użyteczności w projektowaniu gier edukacyjnych
dla dzieci. Ponadto jest autorem trzech książek na temat rozwiązań serwerowych Microsoft i Apple. Jest również ćwiczeniowcą i promotorem technicznym
w PJATK. Posiada doświadczenie w prowadzeniu specjalistycznych szkoleń
w dziedzinie informatyki i jest redaktorem portalu o nazwie IN4.pl.
adres mailowy: kwolk@pjwstk.edu.pl
Dr Michał Woźniak: pracownik naukowy w Instytucie Języka Polskiego PAN
w Krakowie, uczestniczył w pracach nad budową Narodowego Korpusu Języka
Polskiego, obecnie bierze udział w tworzeniu korpusu gwary spiskiej. Zajmuje
się lingwistyką korpusową i przetwarzaniem języka naturalnego.
adres mailowy: michauwww@gmail.com
Notes on contributors
Dr hab. Łucja Biel: associate professor and Deputy Director at the Institute of
Applied Linguistics, University of Warsaw, Visiting Lecturer at City University
London (2009-2014), Secretary General of the European Society for Translation
Studies and Deputy Editor of The Journal of Specialised Translation. She is the
author of 35 papers on legal translation and corpus-based translation studies
and a book on EU translation Lost in the Eurofog. The Textual Fit of Translated
Law (Peter Lang, 2014).
e-mail address: l.biel@uw.edu.pl
Prof. UW dr hab. Silvia Bonacchi: professor at the University of Warsaw and a
visiting professor at various universities abroad (among others at the University of
Mainz, Germany). She is the author of numerous publications, including papers
on linguistic politeness and impoliteness, the manager of the Laboratory for Multimodal Communication (University of Warsaw), the manager of the “MCCA:
Multimodal Communication: Culturological Analysis” project, and a co-editor
of Journal of Multimodal Communication Studies. Other projects include “Languages of Boundaries – Boundaries of language. Paralinguistic aspects of intercultural communication” (in collaboration with Adam Mickiewicz University
in Poznań) and “Linguistic savoir-vivre in Polish and German. A confrontative
study” (together with the Faculty of Journalism, University of Warsaw).
e-mail address: s.bonacchi@uw.edu.pl
Dr hab. Ewa Gruszczyńska: associate professor at the Institute of Applied Linguistics, University of Warsaw. She graduated from the Department of the Polish Language, University of Warsaw and earned her Ph.D. at the University of
Uppsala (2001). She participated in the international project “Translation and
Interpreting – a Meeting between Languages and Cultures” (1995 – 2001) at the
University of Uppsala and University of Stockholm. In the years 2002-2012 she
was an assistant professor at the Institute of Applied Linguistics, University of
Warsaw. Currently she serves as Head of the Scandinavian Research Centre at
the Institute for Applied Linguistics, University of Warsaw. She is a member of
the Polish Linguistic Association and Polish Applied Linguistics Association.
Her research interests include: contemporary Polish, contemporary Swedish
(Szwedzko-polskie spotkania za pośrednictwem przekładu 2015), translation
studies (Linguistic Images of Emotion in Translation from Polish into Swedish
2001), parallel corpora.
e-mail address: e.gruszczynska@uw.edu.pl
276
Notes on contributors
Dr Milena Hebal-Jezierska: assistant professor at the Institute of Western and
Southern Slavic Studies, University of Warsaw, and a former staff member and
permanent associate of the Institute of Czech Language, the Czech Academy
of Sciences and Charles University in Prague. She is an expert in Czech studies and corpus linguistics. Her research interests focus mainly on corpus-based
research methods, contrastive semantics and morphology.
e-mail address: milena.hebal.jezierska@gmail.com
Dr Elżbieta Kaczmarska: an expert in Czech Studies, assistant professor at the
Institute of Western and Southern Slavic Studies, University of Warsaw. Her
fields of interest include comparative studies of Czech and Polish grammar,
issues in translation, and the application of parallel corpora in the development
of the theory and the art of translation. She has authored a number of papers
exploring contrastive aspects of syntax, lexicon and semantics.
e-mail address: e.h.kaczmarska@gmail.com
Dr Natalia Kotsyba: researcher at the Institute of Computer Science, Polish Academy of Sciences. She is an English and Slavic philologist, involved in
research in corpus linguistics, contrastive semantics and grammar. She received
her Ph.D. degree in 2006 for the thesis The Semantic Category of Definiteness and
Indefiniteness in English and Ukrainian. In the years 2004-2011 she coordinated
the work on the Polish-Ukrainian Parallel Corpus.
e-mail address: natalia.kocyba@ipipan.waw.pl
Dr Magdalena Kuratczyk: assistant professor (docent) at the Institute of Russian Studies, University of Warsaw. Her research interests include: lexicography,
lexicology and grammar of contemporary Russian, the Russian verbal system
and corpus linguistics. She was a co-founder of the Polish-Russian Parallel
Corpus.
e-mail: m.kuratczyk@uw.edu.pl
Dr Agnieszka Leńko-Szymańska: an assistant professor at the Institute of
Applied Linguistics, University of Warsaw. Until 2004, she was a member of the
PELCRA (Polish and Language Corpora for Research and Applications) group
at the w Institute of English Studies, University of Łódź. Her research interests evolve around exploring the process of second language acquisition with
learner corpus data. She also specializes in various uses of corpora for teaching
foreign languages. She co-edited the volume Multiple Affordances of Language
Corpora for Data-driven Learning (John Benjamins, 2015. She is involved in the
compilation of the Swedish-Polish and Polish-Swedish Parallel Corpus of Literary
Notes on contributors
277
Texts, which is being created at the Institute of Applied Linguistics, University
of Warsaw.
e-mail: a.lenko@uw.edu.pl
Prof. UW dr hab. Marek Łaziński: professor at the Institute of Polish Language,
University of Warsaw. His research interests include: verbal aspect, functions of
the infinitive in Polish, forms of address and language politeness, asymmetry
for sex and gender and corpus linguistics. He was a co-founder of the National
Corpus of Polish, and led the Polish-Russian Parallel Corpus project.
e-mail address: m.j.lazinski@uw.edu.pl
Prof. dr hab. Krzysztof Marasek: Head of the Multimedia Department, Polish-Japanese Academy of Information Technology in Warsaw and professor at
Collegium Mazovia. He is a graduate of Information Science at Warsaw University of Technology, where he obtained his Ph.D. degree in 1992. He received
his post-doctoral degree at the University of Stuttgart (1998-2004), where he
worked as a senior scientist at Stuttgart Sony Technology Centre. Since 2006
he has been a member of the Faculty Scientific Board, a visiting professor at
the University of North Carolina, Charlotte, US, and a member of the Scientific
Board of the Institute of Fundamental Technological Research, Polish Academy
of Sciences and the National Information Processing Institute in Warsaw. He
acts as a reviewer in the 5th and 6th EU Framework Programme.
e-mail address: kmarasek@pja.edu.pl
Dr. Andreas Meger: lecturer at the Faculty of Translation Studies, Linguistics and Cultural Studies, University of Mainz (Germany), and a translator. For
many years, he has been teaching courses related to Polish-German translation
(law and economy) at the University of Mainz. His doctoral thesis deals with
macrostructure and mediostructure of dictionaries of neologisms in Slavic languages and German. He published (together with Erika Worbs and Andrzej
Markowski) the first Polish-German dictionary of neologisms. His main
research interests are related to lexicography (lexicography of neologisms), lexicology, corpus linguistics, translation and languages for special purposes.
e-mail address: meger@uni-mainz.de
Mgr Mariusz Mela: Ph.D. student at the Faculty of Applied Linguistics, University of Warsaw, where he is currently working on his doctoral dissertation on the
multimodal analysis of face-to-face conflicts in German and Polish. He is a participant in the “MCCA: Multimodal Communication: Culturological Analysis”
and “Languages of Boundaries – Boundaries of language. Paralinguistic aspects
278
Notes on contributors
of intercultural communication” projects, a member of the editorial board of
the Journal of Multimodal Communication Studies. She is a tutor in the Laboratory for Multimodal Communication, University of Warsaw, and the author of
several publications on multimodal communication.
e-mail address: mariusz.mela@gmail.com
PhDr. Marianna Petrincová: Ph.D. student in General Linguistics at the Faculty of Arts, Palacky University in Olomouc (Czech Republic). The topic of her
doctoral dissertation is an analysis of Slovak equivalents of Polish prefixed verbs
from the lexicographic perspective. Her research interests include corpus linguistics and lexicography. She translates from Polish and Spanish to Slovak. In
the past she worked on Spanish-Slovak dictionaries.
e-mail address: m_petrincova@yahoo.com
Dr Piotr Pęzik: assistant professor and Head of the Corpus and Computational Linguistics Units at the Institute of English Studies, University of Łódź.
His main research interests include corpus and computational linguistics with
a special focus on corpus-based approaches to phraseology. He has developed
many corpus search, information extraction and natural language processing
solutions. He is a member of the National Corpus of Polish Consortium and the
PELCRA (Polish and Language Corpora for Research and Applications) group
at the Institute of English Studies, Univeristy of Łódź. In the years 2006-2009
he was a member of the Text-mining Group at the European Bioinformatics
Institute in Cambridge, UK.
e-mail address: piotr.pezik@gmail.com
Mgr Emilia Rejmund: Ph.D. student at the Polish-Japanese Academy of Information Technology in Warsaw. Her research interest concerns the application
of NLP methods based on small parts of text, in particular semantic similarity
in conjunction with the semantic method of analysis and synthesis of natural
language texts as applied to statistical machine translation frameworks.
adres mailowy: erejmund@pja.edu.pl
Ing. Alexandr Rosen, Ph.D.: senior researcher/lecturer in theoretical and corpus linguistics at Charles University in Prague and Deputy Head of the Faculty
of Art’s Institute of Theoretical and Computational Linguistics. His interests
include syntax, constraint-based linguistic theories and corpora, especially parallel corpora, learner corpora and treebanks. He is currently in charge of the
parallel section of the Czech National Corpus (the InterCorp project) and has
Notes on contributors
279
participated in research focused on syntactic annotation of corpora, annotation
of learner corpora, and taxonomy of linguistic categories.
e-mail address: alexandr.rosen@ff.cuni.cz
Dr hab. Danuta Roszko: associate professor the Institute of Slavic Studies, Polish Academy of Sciences. Her interests and areas of expertise include: synchronic
and contrastive linguistics, dialectology, corpus linguistics (NLP), semantics,
Belorussian, Polish, Russian, and Lithuanian languages studies. A sworn translator and interpreter.
e-mail address: danuta.roszko@ispan.waw.pl
Prof. nzw. dr hab. Roman Roszko: professor at the Institute of Slavic Studies,
Polish Academy of Sciences. His interests and areas of expertise include: theoretical, synchronic, and contrastive linguistics, lexicology, corpus linguistics
(NLP) and translation memory (TM), semantics, Bulgarian, Polish, Russian,
Lithuanian (Baltic and Slavic) language studies. A translator and interpreter.
Editor-in-chief of the Cognitive Studies | Études cognitives.
e-mail address: roman.roszko@ispan.waw.pl
Mgr Monika Szela: a graduate of Russian and English Philology. She studied
at the University of Wrocław and in the Philological School of Higher Education. Her research interests include complex issues concerning the translation
process: inter-lingual transfer in translations, translation universals, hybrid language, etc. Her doctoral dissertation is devoted to a corpus-based analysis of
translated texts.
e-mail address: monikaszela@gmail.com
Dr. Ruprecht von Waldenfels: He earned a doctorate in Slavic linguistics from
the University of Regensburg, Germany, in 2009, after which he worked as a
post-doctoral researcher at Bern, Switzerland until 2014. In 2014-15 he was a
visiting scholar at IPI PAN in Warsaw and IJP PAN in Cracow. Currently he is
a visiting scholar at the University of California, Berkeley funded by the Swiss
National Science Foundation. Together with Roland Meyer he started the Slavic
parallel corpus ParaSol, which he has been constructing since 2006. Together
with Michael Daniel and Nina Dobrushina he is the developer of the Ustya
River Basin Corpus, an audio-aligned corpus of Russian dialect data (www.parasolcorpus.org/Pushkino). He is also part of a team developing a corpus of the
Spisz dialect of Polish at the Institute of Computer Science, Polish Academy of
Sciences (with Helena Grochola, Rafał Górski and Michał Woźniak). His main
280
Notes on contributors
research interests lie in comparative Slavic linguistics, including diachronic and
variationist studies, corpus and computational linguistics.
e-mail address: ruprecht.waldenfels@gmail.com
Mgr inż. Krzysztof Wołk: specialist in the field of statistical machine translation of speech, currently completing his doctoral dissertation on this topic.
He has experience in issues related to Natural Language Processing and comparable corpora. He participated in the EU-BRIDGE and CLARIN research
projects. He has professional certifications from Microsoft, Adobe, Apple and
w3scools. He is an author of two monographs on Internet radio, and usability
in the design of educational games for children. He has also authored of three
books on Microsoft and Apple server solutions. He is a teacher and a technical
supervisor in Polish-Japanese Academy of Information Technology in Warsaw
with considerable experience in conducting specialized trainings in the field of
computer science. He is an editor of the IN4.pl portal.
e-mail address: kwolk@pjwstk.edu.pl
Dr Michał Woźniak: researcher at the Institute of Polish Language, Polish
Academy of Sciences. He participated in the construction of the National Corpus of Polish. Currently he is involved in the development of a corpus of the
Spisz dialect. His research interests include corpus linguistics and natural language processing.
e-mail address: michauwww@gmail.com