Dialoghi Annotati per Interfacce vocali avanzate – Specifiche Tecniche
Transcription
Dialoghi Annotati per Interfacce vocali avanzate – Specifiche Tecniche
SI-TAL Documento di Specifiche Tecniche di SI-TAL Manuale Operativo Capitolo 5 Dialoghi Annotati per Interfacce vocali avanzate – Specifiche Tecniche ** Istituto Trentino di Cultura – Istituto per la Ricerca Scientifica e Tecnologica – (ITC-irst) Centro Studi e Laboratori Telecomunicazioni – (CSELT) Consorzio Pisa Ricerche - (CPR) Linea 1.1 – Dialoghi Annotati Sommario 1 INTRODUZIONE ..........................................................................................................6 1.1 Nota sull’annotazione multi-livello ................................................................................................................... 7 PARTE I – SPECIFICHE RELATIVE ALLA RACCOLTA DEI DATI ..............................8 1 DESCRIZIONE DEL DOMINIO ....................................................................................9 1.1 Dialoghi macchina/persona................................................................................................................................ 9 1.2 Dialoghi persona/persona .................................................................................................................................. 9 2 MODALITÀ DI ACQUISIZIONE DEI DIALOGHI ........................................................11 2.1 Modalità di acquisizione: dialoghi macchina/persona .................................................................................. 11 2.2 Modalità di acquisizione: dialoghi persona/persona ..................................................................................... 13 3 CRITERI DI TRASCRIZIONE.....................................................................................15 PARTE II – SPECIFICHE RELATIVE ALL’ANNOTAZIONE ........................................17 SEZIONE I: STATO DELL’ARTE DELL’ANNOTAZIONE DI DIALOGHI .....................17 1 LIVELLO PROSODICO..............................................................................................18 1.1 Introduzione...................................................................................................................................................... 19 1.2 I fenomeni prosodici......................................................................................................................................... 19 1.2.1 Gli eventi prosodici linguistici.................................................................................................................. 19 1.2.2 I correlati fonetici della prosodia .............................................................................................................. 21 1.2.3 La trascrizione prosodica .......................................................................................................................... 23 1.3 Presentazione e analisi degli schemi di annotazione...................................................................................... 25 1.3.1 TEI ............................................................................................................................................................ 25 1.3.2 ToBI.......................................................................................................................................................... 30 1.4 Il meta-schema per l’annotazione prosodica del progetto MATE ............................................................... 35 2 LIVELLO MORFOSINTATTICO E SINTATTICO .......................................................36 2.1 Introduzione...................................................................................................................................................... 37 2.2 Annotazione morfosintattica e sintattica ........................................................................................................ 37 2.3 Annotazione morfosintattica e sintattica della lingua parlata...................................................................... 40 2.3.1 Annotazione morfosintattica della lingua parlata...................................................................................... 40 2.3.2 Annotazione sintattica della lingua parlata ............................................................................................... 50 E-2 Linea 1.1 – Dialoghi Annotati 2.4 Raccomandazioni preliminari ......................................................................................................................... 57 3 LIVELLO CONCETTUALE ........................................................................................58 3.1 Introduzione...................................................................................................................................................... 59 3.2 Criteri utilizzati per il confronto degli schemi ............................................................................................... 60 3.3 Indice degli schemi di annotazione esaminati ................................................................................................ 61 3.3.1 ATIS ......................................................................................................................................................... 62 3.3.2 VERBMOBIL........................................................................................................................................... 67 3.3.3 Coconut..................................................................................................................................................... 70 3.3.4 C-Star........................................................................................................................................................ 72 3.3.5 Riepilogo................................................................................................................................................... 82 3.3.6 Conclusioni ............................................................................................................................................... 83 4 LIVELLO PRAGMATICO ...........................................................................................84 4.1 Overview ........................................................................................................................................................... 85 4.2 Introduzione...................................................................................................................................................... 85 4.2.1 L’annotazione degli atti linguistici ........................................................................................................... 86 4.3 Criteri utilizzati per la descrizione degli schemi............................................................................................ 87 4.4 Elenco degli schemi di annotazione esaminati ............................................................................................... 89 4.4.1 Alparon ..................................................................................................................................................... 89 4.4.2 Schema di annotazione dell’Università di Chiba ...................................................................................... 93 4.4.3 Chat........................................................................................................................................................... 96 4.4.4 COCONUT ............................................................................................................................................. 103 4.4.5 Schema di annotazione di Condon e Cech.............................................................................................. 106 4.4.6 C-STAR .................................................................................................................................................. 109 4.4.7 DAMSL .................................................................................................................................................. 111 4.4.8 Dialogos.................................................................................................................................................. 115 4.4.9 GDA (Global Document Annotation)..................................................................................................... 118 4.4.10 Janus ....................................................................................................................................................... 121 4.4.11 Schema di annotazione di Giovanni Flammia ........................................................................................ 123 4.4.12 LinLin ..................................................................................................................................................... 125 4.4.13 Maptask................................................................................................................................................... 127 4.4.14 Schema di annotazione di Christine Nakatani ........................................................................................ 130 4.4.15 SLSA ...................................................................................................................................................... 134 4.4.16 Schema di annotazione del progetto Switchboard SWDB-DAMSL....................................................... 137 4.4.17 Schema di annotazione di David Traum ................................................................................................. 140 4.4.18 Schema di annotazione del progetto Verbmobil ..................................................................................... 144 SEZIONE II - SPECIFICHE DELL’ANNOTAZIONE IN SI-TAL...................................146 1 ARCHITETTURA GENERALE DI ANNOTAZIONE .................................................147 2 LIVELLO PROSODICO............................................................................................149 2.1 Requisiti........................................................................................................................................................... 150 2.2 Il “meta-schema” di MATE per l’annotazione prosodica........................................................................... 150 2.2.1 Il “meta-schema” .................................................................................................................................... 151 2.2.2 Schemi di annotazione rappresentabili nel “meta-schema” ................................................................... 152 E-3 Linea 1.1 – Dialoghi Annotati 3 LIVELLO MORFOSINTATTICO E SINTATTICO .....................................................154 3.1 Introduzione.................................................................................................................................................... 155 3.1.1 Il metodo: approccio normalizzante vs. non-normalizzante ................................................................... 156 3.1.2 Articolazione interna dello schema di annotazione morfosintattica e sintattica ..................................... 157 3.1.3 Trascrizione emendata ............................................................................................................................ 158 3.2 Specifiche di annotazione per il livello morfosintattico............................................................................... 162 3.2.1 Il tagset per l’annotazione morfosintattica.............................................................................................. 162 3.2.2 Estensioni del tagset................................................................................................................................ 176 3.3 Specifiche di annotazione per il livello sintattico ......................................................................................... 187 3.3.1 Shallow Parsing ...................................................................................................................................... 188 3.3.2 Chunking................................................................................................................................................. 189 3.3.3 Applicazione dello schema all’analisi del parlato................................................................................... 198 3.3.4 Conclusioni ............................................................................................................................................. 203 4 LIVELLO CONCETTUALE ......................................................................................205 4.1 Introduzione.................................................................................................................................................... 206 4.2 Discussione ...................................................................................................................................................... 206 4.3 Proposta........................................................................................................................................................... 207 4.3.1 Espressioni temporali.............................................................................................................................. 207 4.3.2 Espressioni dipendenti dal dominio ........................................................................................................ 211 5 LIVELLO PRAGMATICO .........................................................................................212 5.1 Valutazione degli schemi di annotazione...................................................................................................... 213 5.1.1 Tavole di valutazione generale ............................................................................................................... 215 5.1.2 Tavole di confronto delle etichette e dei fenomeni annotati a seconda del dominio............................... 220 5.2 Confronto delle etichette previste negli schemi analizzati ed evidenziazione delle comunalità............... 225 5.2.1 Tavole di evidenziazione delle comunanze tra gli schemi di annotazione esaminati.............................. 226 5.3 Indicazioni di best-practice............................................................................................................................ 240 5.3.1 Descrizione delle etichette consigliate .................................................................................................... 243 5.3.2 Valutazione dello schema di annotazione consigliato............................................................................. 249 PARTE III - SPECIFICHE RELATIVE AL SOFTWARE PER L’ANNOTAZIONE .......251 1 STATO DELL’ARTE DEGLI STRUMENTI SOFTWARE .........................................252 1.1 Introduzione.................................................................................................................................................... 253 1.2 Criteri utilizzati per il confronto degli strumenti software......................................................................... 253 1.3 Indice degli strumenti esaminati ................................................................................................................... 254 1.3.1 ALEMBIC (MITRE CORPORATION) ................................................................................................. 255 1.3.2 ANNOTAG............................................................................................................................................. 260 1.3.3 CLAN ..................................................................................................................................................... 262 1.3.4 DAT (Dialogue Annotation Tool)........................................................................................................... 264 1.3.5 DiET (Diagnostic and Evaluation Tools for natural language applications)........................................... 268 1.3.6 EMU ....................................................................................................................................................... 273 1.3.7 Entropic Signal Processing System (esps/xwaves+)............................................................................... 275 1.3.8 FRINGE (Università di Edinburgo)........................................................................................................ 278 1.3.9 MATE (Multilevel Annotation, Tools Engineering)............................................................................... 281 E-4 Linea 1.1 – Dialoghi Annotati 1.3.10 Nb – Nota Bene....................................................................................................................................... 283 1.3.11 TATOE ................................................................................................................................................... 289 1.3.12 TRANSCRIBER..................................................................................................................................... 294 1.4 Tavole comparative ........................................................................................................................................ 297 2 SPECIFICHE SOFTWARE.......................................................................................299 2.1 Introduzione.................................................................................................................................................... 300 2.2 Il Tool di MATE ............................................................................................................................................. 301 2.2.1 Introduzione............................................................................................................................................ 301 2.2.2 Approccio ............................................................................................................................................... 302 2.2.3 La rappresentazione interna dei corpora codificati in XML ................................................................... 303 2.2.4 Il linguaggio ed il processore di ricerca .................................................................................................. 304 2.2.5 Il linguaggio e il processore di stylesheet ............................................................................................... 307 2.2.6 L’interfaccia utente ................................................................................................................................. 309 2.2.7 Gli oggetti di visualizzazione.................................................................................................................. 323 2.2.8 Conclusioni ............................................................................................................................................. 323 2.2.9 Appendice ............................................................................................................................................... 324 RIFERIMENTI BIBLIOGRAFICI..................................................................................325 APPENDICE - SPECIFICA XML DELLE TRASCRIZIONI ORTOGRAFICHE............333 E-5 Linea 1.1 – Dialoghi Annotati Dialoghi Annotati per Interfacce vocali avanzate – Specifiche Tecniche ____________________________ 1 Introduzione I corpora rivestono un’importanza fondamentale nelle applicazioni vocali. Poiché i loro costi sono molto alti, è essenziale che la loro acquisizione e annotazione sia progettata in modo da favorire quanto più possibile il loro riutilizzo sia da soli che assieme ad altri corpora. Infatti, la prima fase del processo di preparazione di una nuova applicazione, prevede normalmente l’esame di tutte le risorse accessibili, allo scopo di valutarne l’usabilità per l'applicazione in esame. Spesso un solo corpus non è sufficiente per l’obiettivo che ci si propone: in questi casi, una soluzione da prendere in esame è la sua integrazione con altri corpora disponibili, anche se essi in genere sono stati raccolti con finalità diverse. Inoltre, è possibile che il progetto preveda l’acquisizione di altri dati strettamente finalizzati all’applicazione in esame. Perché tutti questi dati possano essere utilizzati assieme, è essenziale che sia i file di segnale acustico, che le trascrizioni e le annotazioni siano compatibili tra loro. Per questa ragione, nella preparazione di un corpus è importante adeguarsi quanto più possibile a standard, laddove esistano, o comunque a prassi diffuse. In questo capitolo verranno quindi esaminate le diverse proposte avanzate per la trascrizione e l'annotazione dei corpora ai vari livelli. Strettamente legato al problema dei formati di annotazione, è il problema delle caratteristiche necessarie alle applicazioni software in modo da poter funzionare in modo sufficientemente uniforme sui diversi corpora sia per la loro annotazione che per la ricerca. A partire dallo studio dello stato dell’arte, verranno quindi messe a punto le specifiche sia per l’annotazione che per gli strumenti software. A questo livello, le specifiche devono prescindere dalla scelta del dominio di applicazione, in modo da poter avere una parte della definizione dell’annotazione che sia indipendente dal dominio. Più è ampia la parte indipendente da dominio, più l’annotazione risultante sarà facilmente portabile su nuovi domini applicativi. Infatti, si potrà partire da una base comune a tutti i domini, come ad esempio le espressioni temporali, che ricorrono nella maggior parte dei domini, per poi sviluppare la parte caratteristica del dominio in esame. Solo in una seconda fase, poi, verrà sviluppata la parte specifica dei domini applicativi scelti, la cui descrizione viene comunque data in questo documento. Si noti che nella scelta del dominio E-6 Linea 1.1 – Dialoghi Annotati applicativo diventa essenziale distinguere almeno tra due grandi classi di applicazioni: le interfacce uomo/macchina e quelle uomo/uomo, mediate dalla macchina. Il caso di interazioni uomo/macchina generalmente prevede dialoghi in cui l’utente chiede informazioni ad un’applicazione automatica. La scelta del dominio corrisponde quindi alla scelta del tipo di informazioni che l'applicazione è in grado di fornire. L’applicazione può inoltre essere arricchita da eventuali richieste di azioni da parte dell'utente, quali ad esempio richieste di prenotazioni. Nel caso di dialoghi uomo/uomo, invece, il tipo di applicazione tipica è quella di una mediazione della macchina, che può avere diversi obiettivi, quali ad esempio seguire e riassumere la conversazione o facilitare la comunicazione tra parlatori di lingua diversa attraverso un’applicazione di traduzione automatica. 1.1 Nota sull’annotazione multi-livello In questo deliverable e nelle sezioni del capitolato tecnico di SI-TAL riguardanti il tema dell’annotazione di dialoghi si fa spesso riferimento al fatto che lo strumento di annotazione adottato deve consentire un’attività di annotazione su più livelli. In questo paragrafo vogliamo chiarire e precisare il significato di questo requisito e le sue implicazioni per gli schemi di annotazione proposti. L’annotazione di un testo, sia esso un dialogo tra persone, un monologo o un dialogo tra un agente umano ed un agente artificiale, può essere effettuata in base ad esigenze specifiche volte ad evidenziare nel testo fenomeni propriamente descritti, a livello teorico, nelle diverse branche della linguistica. In questo senso un ambiente di annotazione multi-livello deve consentire di annotare un testo prevedendo la possibilità di marcare fenomeni linguistici che si collocano a livelli di astrazione diversa. Lo schema di annotazione di SI-TAL soddisfa questo requisito permettendo di annotare i dialoghi su diversi livelli di descrizione fenomenologica (prosodica, morfo-sintattica, concettuale e pragmatica). Inoltre lo strumento software che implementerà gli schemi di annotazione individuati per i diversi livelli sarà in grado di effettuare, a partire da un livello, interrogazioni circa la presenza di correlazioni tra fenomeni annotati a livelli diversi. Tuttavia, le esigenze di articolazione dell’annotazione su livelli molteplici si possono riscontrare anche all’interno di ciascuno dei livelli di descrizione sopra individuati. Nel caso di SI-TAL questo si verifica nel caso dell’annotazione prosodica. Nel capitolo dedicato alle specifiche per l’annotazione prosodica viene particolarmente evidenziato come un approccio integrato all’annotazione debba in quel caso tener conto dell’inter-relazione tra livelli diversi di rappresentazione delle unità di descrizione (che saranno chiamati ‘elementi’ nelle specifiche). Per esempio, per associare un evento intonativo come l’accento sia alla parola (livello ortografico) che alla sillaba o vocale in cui l’accento si realizza (livello di trascrizione fonetica), che alla configurazione corrispondente di ‘pitch movement’ (livello di descrizione fonetica di f0), i due livelli fonetici, destinati alla segmentazione in fonemi e alla descrizione di f0, devono essere direttamente allineati con il segnale vocale. E-7 Linea 1.1 – Dialoghi Annotati PARTE I – SPECIFICHE RELATIVE ALLA RACCOLTA DEI DATI E-8 Linea 1.1 – Dialoghi Annotati 1 Descrizione del dominio Per varie ragioni, molti dei corpora di dialoghi raccolti nelle varie lingue riguardano il dominio turistico (ATIS, Verbmobil, C-Star). Adeguarci a questa scelta ci permette di avere un termine di confronto nelle scelte compiute e anche di creare sinergie cosicché i dati prodotti possano essere confrontati ed eventualmente integrati con altri. E` d'altra parte evidente che dialoghi che si realizzano tra un utente e una macchina sono sostanzialmente diversi da quelli che hanno luogo tra due persone. Infatti nel primo caso il ruolo della macchina non può essere creativo come quello ricoperto da una persona. Nella scelta del dominio di raccolta dei dialoghi si è fatto tesoro di questa osservazione. Se quindi il dominio considerato è sempre quello turistico, nel caso dei dialoghi persona/macchina lo si è ristretto alla sola richiesta di informazioni sugli orari dei voli. I dialoghi persona/persona corrispondono invece a negoziazioni più complesse in cui si discute di un viaggio nella sua interezza, includendo non solo i trasporti, ovvero treni e aerei, ma anche l'albergo e informazioni turistiche. 1.1 Dialoghi macchina/persona Il dominio delle conversazioni persona/macchina riguarda la richiesta di orari di collegamenti aerei. Il dialogo tra il cliente ed il sistema di dialogo avviene esclusivamente a voce utilizzando il telefono, tuttavia l'utente può consultare successivamente i dati reperiti dal sistema collegandosi ad una pagina Web il cui indirizzo viene comunicato durante il dialogo. Il cliente deve organizzare un viaggio aereo sia per motivi di lavoro che per esigenze turistiche. Componendo il numero di telefono del sistema automatico, il cliente viene accolto con un messaggio di benvenuto ed invitato a comunicare la partenza e la destinazione del volo di andata. Gli altri requisiti che identificano la richiesta sono la data e l'orario in cui il cliente desidera effettuare il viaggio e l'eventuale preferenza per una linea aerea. Dopo aver individuato uno o più collegamenti aerei che soddisfano i requisiti del cliente, il sistema automatico propone al cliente di effettuare la ricerca di informazioni relative al viaggio di ritorno (senza tuttavia vincolare il cliente a percorrere la medesima tratta dell'andata). 1.2 Dialoghi persona/persona Come si diceva sopra, il dominio della conversazione è l'organizzazione di un viaggio, comprensivo sia dei trasporti che di prenotazioni alberghiere e di informazioni turistiche. Durante il dialogo, la comunicazione tra i due parlanti deve essere basata esclusivamente sul linguaggio parlato. Di conseguenza le due persone non devono essere in contatto visivo, né in generale in grado di scambiarsi informazioni mediante canali diversi dalla voce. Uno dei due parlanti deve organizzare un viaggio secondo alcune sue esigenze. Ne parla con un agente di viaggi in modo da trovare una soluzione soddisfacente. L'agente illustra al potenziale cliente delle possibili alternative, cercando di trovarne una che risponda alle sue esigenze. La negoziazione può concludersi con un successo, nel caso in cui il cliente decida di fare la prenotazione; con un fallimento, se il cliente non trova nessuna combinazione che lo soddisfi; o con E-9 Linea 1.1 – Dialoghi Annotati una sospensione, per cui il cliente lascia in sospeso la conversazione, di solito promettendo di riprenderla in un tempo successivo. Dato questo scenario generale, si possono individuare poi dei sotto-domini, sempre nell'ambito turistico, in cui avviene la negoziazione. Il primo è l'organizzazione dei mezzi di trasporto: treno o aereo. Il cliente può scegliere a priori uno dei due mezzi o confrontare le due alternative per scegliere la migliore. I due interlocutori parleranno quindi degli orari, dei prezzi, del tipo di posto e di mezzo richiesto -- fumatori o non fumatori, classe, tipo di treno, scali intermedi e così via. Un secondo possibile dominio riguarda la scelta e la prenotazione di una camera d'albergo. Anche in questo caso il cliente esprime particolari esigenze e può scegliere tra un certo numero di possibilità. Può porre richieste sul tipo di camera, di albergo, su eventuali servizi offerti, quali parcheggio privato, sauna, piscina, sale conferenze, e così via. Una volta che il turista ha organizzato gli aspetti logistici, passa ad interessarsi delle cose da visitare e delle attività da svolgere nella località in cui si trova. Può quindi chiedere informazioni riguardanti: monumenti, chiese e musei, in particolare orari di apertura e prezzi dei biglietti di ingresso; spettacoli in programma sul posto, con anche la possibilità di prenotare i biglietti; e così via. Un'ulteriore possibilità consiste nel considerare tutti questi aspetti insieme, e quindi trattare interi pacchetti turistici. Il pacchetto comprende la prenotazione per un certo periodo dell'albergo, a pensione completa o a mezza pensione. In molti casi esso comprende anche attività che possono essere sportive (sci, arrampicata, tennis) o culturali (visite a località di interesse, musei, castelli). E-10 Linea 1.1 – Dialoghi Annotati 2 Modalità di acquisizione dei dialoghi Lo sviluppo di applicazioni di elaborazione del parlato basate su corpora parte da un'ipotesi di base: che i dati raccolti nei corpora siano un esempio completo e accurato dei dialoghi su cui il sistema, una volta sviluppato, dovrà lavorare. Ma per poter ottenere tali dati, occorrerebbe poter disporre del sistema, in modo da poter raccogliere, trascrivere ed annotare le interazioni tra l'utente e il sistema nel caso di dialoghi uomo/macchina, o tra due utenti con l'interazione del sistema nel caso di dialoghi uomo/uomo. Si ottiene quindi un paradosso, per cui occorrono i dati per sviluppare il sistema e, contemporaneamente, occorre il sistema per poter raccogliere i dati. Il problema viene risolto mediante un approccio per approssimazioni successive. In una prima fase, si usano dei dati poco accurati per poter costruire una prima versione del sistema. In seguito, si usano versioni via via più sofisticate del sistema per raccogliere dati sempre più accurati, che verranno a loro volta utilizzati per costruire nuove versioni del sistema. I dati utilizzati per la prima fase vengono raccolti in modi diversi, a seconda sia del tipo di applicazione considerata, che di diverse scelte progettuali. Per quel che riguarda le applicazioni uomo/macchina, spesso si usa quella che viene chiamata la tecnica del Mago di Oz: il sistema da sviluppare viene simulato da un agente umano, aiutato da opportuni strumenti software. Ad esempio, in un'applicazione di richiesta di accesso ad una base di dati, la richiesta dell'utente può venir raccolta e trascritta da un agente (il mago di Oz, appunto), nascosto all'utente, che la converte in un'interrogazione da inoltrare alla base di dati. La risposta della base di dati può invece essere presentata direttamente all'utente, che in questo modo pensa di essere veramente di fronte ad un sistema automatico e si comporterà come si comporterebbe col sistema reale. Il problema principale, in questo caso, è proprio quello di simulare correttamente le limitazioni di quello che sarà il sistema reale (il corretto tasso di riconoscimento acustico, ad esempio). Non appena, quindi, si rende disponibile un sistema reale, conviene usare quello per raccogliere i dati: in questo modo si ottengono delle interazioni molto più verosimili e si possono affrontare anche tutti quei problemi tipici delle applicazioni reali, quali la gestione degli errori di riconoscimento. Poiché CSELT ha sviluppato un sistema di risposta automatica ad interrogazioni vocali tramite telefono, la soluzione migliore per ottenere dei dati il più possibile utilizzabili è parsa quindi quella di usare tale sistema per la raccolta dei dialoghi uomo/macchina. Questa scelta ha inoltre reso possibile la scelta di utenti con caratteristiche corrispondenti ad un'applicazione reale. Nel caso di applicazioni uomo/uomo, invece, si può, in prima approssimazione, trascurare la mediazione della macchina e considerare l'interazione diretta tra i due utenti. Ovviamente questo corrisponde alla situazione ideale di una mediazione perfetta da parte del sistema. D'altra parte, questo permette di rendere i dati indipendenti dai tipi di applicazione per la quale saranno poi usati, che possono essere molto diversi tra loro, spaziando da sistemi di traduzione da parlato a parlato a sistemi di monitoraggio e riassunto di conversazioni. 2.1 Modalità di acquisizione: dialoghi macchina/persona Le conversazioni macchina/persona avvengono tra una persona che finge di essere un potenziale utente che chiama un sistema automatico di informazioni sugli orari dei voli ed il sistema stesso. Tale conversazioni vengono poi acquisite e registrate nei formati richiesti. E-11 Linea 1.1 – Dialoghi Annotati Il collegamento tra l’utente ed il sistema avviene per mezzo della rete telefonica pubblica. Per rispecchiare il più possibile la situazione reale, i potenziali utenti, opportunamente suddivisi, chiamano da: a) un telefono fisso, che può a sua volta trovarsi in ambiente relativamente silenzioso (casa/ufficio) o in ambiente rumoroso (cabina pubblica); b) un telefono cellulare, sia in un ambiente rumoroso (strada, treno...) che in un ambiente più silenzioso (casa/ufficio); c) un telefono cordless in ambiente domestico. Tutti i potenziali utenti sono esterni al gruppo degli sviluppatori del sistema CSELT e non hanno mai provato estensivamente il sistema. Prima di interagire con il sistema, il soggetto sperimentale riceve una breve descrizione del sistema e del tipo di informazioni con esso ottenibili. Gli viene inoltre consegnata una scheda contenente i dati necessari allo svolgimento del dialogo. La scheda contiene una breve descrizione dello scenario. I dati che il soggetto sperimentale deve utilizzare durante la conversazione sono presentati in modo schematico, in modo tale da non orientare l'uso di un determinato vocabolario o di determinate espressioni linguistiche. Alcuni dati (ad es. la data e l'orario di partenza) vengono lasciati liberi e possono venire scelti dal parlante in modo arbitrario. Ad ogni soggetto sperimentale viene chiesto di effettuare quattro dialoghi, ognuno riguardante uno scenario diverso. Qui di seguito presentiamo un esempio di un potenziale scenario: VIAGGIO DI ANDATA: CITTÀ DI PARTENZA: Milano DESTINAZIONE: Los Angeles DATA E ORARIO: liberi COMPAGNIA AEREA: Lufthansa VIAGGIO DI RITORNO: CITTA' DI PARTENZA: San Francisco DESTINAZIONE: Milano DATA E ORARIO: liberi COMPAGNIA AEREA: Lufthansa Per le registrazioni si impiega il seguente supporto: PC Win-NT Workstation (Pentium II, 300MHz, 250 Mb) dotato di una scheda telefonica Dialogic (D41ESC o D41H). Il segnale, campionato a 8 kHz, viene salvato sul disco della workstation in formato binario PCM (mu-Law). Ogni turno dell’utente viene salvato in un file. Ad ogni file di voce viene associato un file di “labelling”, che contiene le dimensioni del file di voce e i punti di aggancio e sgancio dell’end point. I turni vengono segmentati automaticamente e riconosciuti in una sequenza di parole utilizzando una tecnica di riconoscimento ibrido neurale e Markoviano. E-12 Linea 1.1 – Dialoghi Annotati 2.2 Modalità di acquisizione: dialoghi persona/persona Le conversazioni persona/persona vengono simulate da due persone che fingono di essere un agente di viaggi e un potenziale cliente. Tali conversazioni vengono poi acquisite e registrate nei formati richiesti. Le simulazioni vengono eseguite in una stanza isolata acusticamente. In questa stanza si trovano i due parlatori, mentre un operatore che controlla le registrazioni si trova nella sala regia, da cui vede l'interno della sala acquisizioni. Tramite altoparlanti l'operatore è anche in grado di seguire la conversazione. I due parlatori sono seduti in modo da non vedersi l'uno con l'altro e da sentirsi solo attraverso delle cuffie. Il parlatore che ricopre il ruolo dell'agente viene addestrato in modo da avere le competenze necessarie a rispondere alle domande del cliente, e a fargli delle offerte. Questo ruolo richiede una preparazione più accurata e viene quindi ricoperto da un numero limitato di parlatori diversi. Il cliente, invece, viene istruito sulle modalità con cui si svolgerà la conversazione subito prima dell'acquisizione. Durante l'acquisizione, il cliente ha in mano una scheda con tutti i dati necessari allo svolgimento del dialogo. Tale scheda contiene una breve descrizione dello scenario. Ad esempio: Ti chiami Annamaria Degasperi e telefoni ad un'agenzia di viaggi di Roma perché devi andare in aereo da Roma a Verona con un'amica. Ti servono informazioni su orari e prezzi ed eventualmente deciderai di fare la prenotazione o le prenotazioni. Se riesci a prenotare, passerai in agenzia a ritirare i biglietti e saldare il conto di lì a qualche giorno; se necessario, puoi lasciare il numero di carta di credito come garanzia. I dati che il parlatore deve avere sott'occhio durante la conversazione sono riassunti in una tabella, nel modo più schematico possibile per non influenzare il suo modo di esprimersi, o per lo meno da minimizzare il più possibile un'eventuale influenza. Ad esempio: - INTERLOCUTORE: impiegato dell'agenzia viaggi - IN VIAGGIO DA: Roma - DESTINAZIONE: Verona - MEZZO DI TRASPORTO: aereo - NUMERO POSTI: 2 - ANDATA: domenica, 12 settembre 1999 - RITORNO: mercoledì 15 settembre 1999 - CARTA DI CREDITO: TITOLARE: Annamaria Degasperi NUMERO: 1 2 3 4 5 6 7 8 9 DATA DI SCADENZA: 31 dicembre 2001 E-13 Linea 1.1 – Dialoghi Annotati Si noti che i dati sono interscambiabili, in modo che il materiale sia utilizzabile a prescindere dalle caratteristiche contingenti della conversazione. I nomi delle città, le date, i prezzi devono poter essere sostituiti con quelli più aderenti alla conversazione. La parte più importante è costituita dalla struttura del dialogo e dei singoli turni, a prescindere da tali valori. Questi vengono scelti in modo verosimile e noto all'utente essenzialmente per facilitare le simulazioni. Per le registrazioni si impiega la seguente catena audio: 1) 3 microfoni AKG D3700/D; 2) Mixer; 3) Workstation HP735 dotata di scheda audio a 16 bit e di relativi drivers. Il segnale, campionato a 16 kHz, viene prima trasferito sul disco della workstation in formato binario e successivamente convertito in formato "sphere". In seguito esso viene suddiviso in turni, generando così un file per ogni turno. I turni vengono a loro volta segmentati automaticamente sia in parole che in fonemi, utilizzando una tecnica di allineamento basata su modelli di Markov nascosti. E-14 Linea 1.1 – Dialoghi Annotati 3 Criteri di trascrizione La trascrizione è intesa come trascrizione ortografica, lessicale, alla quale vengono aggiunti alcuni dettagli che rappresentano fenomeni extralinguistici udibili presenti nella forma d’onda corrispondente. Queste indicazioni aggiuntive facilitano l’interpretazione della trascrizione dell’enunciato. • Tutto quanto detto dai parlanti viene trascritto in minuscolo, compresi l'inizio di frasi e turni, i nomi propri, di città ecc.: devo andare da venezia a firenze • Non viene usato nessun tipo di punteggiatura. • Numeri: Vengono scritti per esteso. Ad es.: quattro ottobre alle quindici e trenta due cento cinquanta sei • Spelling/parole sillabate: Nella trascrizione di parole sillabate si mette il segno “_” tra le varie sillabe: mon_te_ca_ti_ni • Parole pronunciate male ma intelleggibili: - parola corretta* firenze* (ad esempio nel caso della parola “Firenze” pronunciata male da un parlante staniero) Si noti che attualmente questa e` la pratica corrente in CSELT, ma le raccomandazioni del progetto SpeechDat suggeriscono di trascrivere facendo precedere la parola in oggetto da un asterisco, in questo modo: *parola corretta. • Parole inintelleggibili o insulti: ** • Parole tronche (sia troncate dal parlante che dal sistema): Se possibile, si segnala la parola completa, aggiungendo il segno “~” all’inizio o alla fine della parola a seconda del punto in cui si verifica il troncamento. Ad esempio: ~domani : troncamento iniziale domani~ : troncamento finale ~domani : troncamento iniziale e finale E-15 Linea 1.1 – Dialoghi Annotati Se è difficile risalire alla parola completa, si mette il segno “~” prima o dopo la parte riconosciuta. Ad esempio: ~ale : troncamento iniziale ale~ : troncamento finale • Ripetizioni di parole: Quando un parlante ripete una parola appena detta, o riprende una frase dopo essersi accorto di aver pronunciato una parola corretta ma diversa da quella prevista, si trascrive tutto quanto per esteso. Ad esempio: parto alle alle dieci domenica alle nove no alle nove e trenta • Sovrapposizione di due parlatori: Quando due turni sono (parzialmente) sovrapposti, la trascrizione non tiene conto della sovrapposizione, ma spezza i turni in modo da rendere il fenomeno al meglio possibile: spkA: spkB: spkA: spkB: • allora va bene il primo treno quello si` direi che delle sei va bene Fenomeni extralinguistici: Sono stati individuati quattro tipi di fenomeni extralinguistici, due originati dai parlanti, e due originati da fonti esterne. I fenomeni che rientrano in queste quattro categorie vengono trascritti con quattro simboli compresi tra parentesi quadre [ ], separati dalle parole circostanti con uno spazio. Quando il fenomeno extralinguistico in questione riguarda più parole, si trascrive il [simbolo] prima della prima parola interessata; quando si verificano contemporaneamente più fenomeni extralinguistici diversi, si riportano i vari [simboli] in sequenza. [fil] [spk] [sta] [int] Tutti i tipi di esitazione vocalizzata (“filled pauses” come “eh”, “hmm”, ecc.) Rumori prodotti dal parlante: tosse, soffio, respiro, schiocco, risata, schiarimento di voce, ecc. Rumori più o meno continui come rumori stradali, rumori di automobili, di luoghi pubblici, brusio di feste, ecc. Rumori intermittenti nel senso di non continui, cioè che si sentono una sola volta (colpi), o hanno pause tra ogni suono (telefono che squilla), o cambiano sempre (musica). Sono compresi in questa categoria: voci in sottofondo, bambini che piangono, abbiare di cani, telefono che squilla, musica, campanelli, porta che sbatte, ecc. In Appendice è riportata la DTD per la rappresentazione in XML delle specifiche qui descritte. E-16 Linea 1.1 – Dialoghi Annotati PARTE II – SPECIFICHE RELATIVE ALL’ANNOTAZIONE SEZIONE I: STATO DELL’ARTE DELL’ANNOTAZIONE DI DIALOGHI E-17 Linea 1.1 – Dialoghi Annotati 1 Livello prosodico E-18 Linea 1.1 – Dialoghi Annotati 1.1 Introduzione Lo scopo di questo stato dell’arte è quello di fornire informazioni di base per le specifiche di annotazione del livello prosodico che saranno adottate all’interno del progetto SI-TAL. In primo luogo verranno effettuate una descrizione delle problematiche connesse all’annotazione prosodica e una presentazione dei fenomeni che è necessario analizzare in una descrizione linguistica della prosodia. In seguito si procederà alla presentazione e alla descrizione dettagliata dei due schemi di annotazione della prosodia da noi considerati più rilevanti ai fini del progetto SITAL. 1.2 I fenomeni prosodici Il termine “prosodia” viene impiegato per fare riferimento ad un’ampia gamma di fatti, concetti e fenomeni, identificati partendo da teorie diverse ed analizzando ambiti differenti. Uno dei primi problemi che è necessario affrontare quando ci si accinge a studiare i fenomeni prosodici (e, di conseguenza, il modo in cui essi vengono rappresentati) è quindi la definizione del concetto stesso di prosodia e dell’ampiezza del suo raggio d’azione. La descrizione della prosodia di ogni lingua può essere affrontata avendo come punto di partenza due posizioni opposte e complementari: 1) Da un punto di vista linguistico, la descrizione della prosodia può essere vista come la descrizione di una serie di unità soprasegmentali (sillabe, gruppi accentuali, unità intonative) e di fenomeni soprasegmentali (accento, intonazione, ritmo). 2) Da un punto di vista fonetico, la descrizione della prosodia è invece principalmente affrontata come descrizione dei diversi correlati fonetici (lunghezza, volume, variazioni di F0) dei fenomeni prosodici linguisticamente rilevanti. Alla luce di questa distinzione, i fenomeni prosodici possono essere classificati in due gruppi principali che, pur essendo strettamente correlati, possono venire descritti separatamente: un primo gruppo di eventi prosodici “linguistici”, e un secondo gruppo di eventi prosodici fonetici. 1.2.1 Gli eventi prosodici linguistici Nella descrizione linguistica della prosodia (in particolar modo da un punto di vista fonologico) vengono generalmente analizzati due tipi di item prosodici: un insieme di unità prosodiche (unità fonologiche di ampiezza maggiore a quella del segmento), e un insieme di fenomeni prosodici “sovraimposti” a dette unità. 1.2.1.1 Le unità prosodiche Negli studi sulla prosodia sono stati proposti parecchi tipi di unità prosodiche, che si differenziano principalmente per la loro portata : • Paragrafi • Frasi E-19 Linea 1.1 – Dialoghi Annotati • Gruppi intonativi • Gruppi intermedi • Gruppi accentuali • Piedi • Sillabe • More Non è scopo di questo rapporto presentare una descrizione dettagliata di ognuna della suddette unità. Nonostante alcune di queste unità siano state proposte dopo aver effettuato ricerche sperimentali (come nel caso dei paragrafi), cioè facendo uso di dati fonetici, la maggior parte di esse vengono principalmente impiegate in analisi fonologiche. Oltre ad avere in comune la caratteristica secondo cui la loro ampiezza è sempre maggiore di quella di un segmento, tutte condividono inoltre il fatto di essere state proposte come il dominio naturale di specifici processi segmentali o soprasegmentali (cfr., ad esempio, Nespor & Vogel 1986). 1.2.1.2 Fenomeni prosodici In questo rapporto, il termine “fenomeni prosodici” racchiude l’intonazione, l’accento, il ritmo e la velocità di eloquio. Non si tratta di unità, ma di fenomeni che avvengono generalmente in un dominio/ambito specifico; sono inoltre portatori di un certo tipo di significato linguistico (o paralinguistico). 1) Intonazione Secondo Roach (1983:112), “no definition [of prosody] is completely satisfactory, but any attempt at a definition must recognize that the pitch of the voice plays the most important part”. Non è ancora stata data alcuna definizione precisa ed universale dell’”intonazione”, ma esiste comunque un accordo generale su alcuni aspetti: in primo luogo, l’intonazione è chiaramente relazionata all’ F0, nonostante determini cambiamenti anche in altri parametri fonetici (ad esempio nella lunghezza delle sillabe che precedono le pause); si è inoltre universalmente d’accordo nel mettere in relazione l’intonazione a fenomeni che si verificano a livello della frase, riservando il concetto di “tono” per quei fenomeni di F0 che sono rilevanti a livello di parola (Lehiste 1970). Da un punto di vista fonologico, i fenomeni di intonazione sono generalmente descritti prendendo in considerazione i seguenti parametri (cfr. Pierrehumbert 1980): a) accenti (pitch accents) b) toni di confine (boundary tones) c) accenti di sintagma (phrase accents) d) downstep e) upstep E-20 Linea 1.1 – Dialoghi Annotati In altri casi le componenti fonologiche dell’intonazione possono comunque essere descritte usando concetti diversi. È questo il caso, ad esempio, della Scuola Inglese, che fa uso dei termini “testa”, “corpo” e “coda” (cfr. Palmer 1922, Crystal 1969). 2) Accento Nel caso dell’accento esiste un accordo più ampio a proposito della sua natura e dei suoi correlati fonetici: viene generalmente associato alla presenza di un grado speciale di prominenza su determinate sillabe all’interno del discorso. Nella letteratura specifica sono stati definiti diversi tipi di accento, alcuni dei quali sono peculiari di alcune lingue: a) lessicale (primario) b) secondario c) stød (accenti I e II in svedese e in altre lingue scandinave) d) enfatico (focus, contrasto) 3) Ritmo Il ritmo può essere definito come l’effetto percettivo prodotto dalla ripetizione periodica di alcuni fenomeni fonetici nel corso del discorso. La natura del ritmo può variare a seconda del linguaggio: può essere basata sull’isocronia delle sillabe (isocronia sillabica) o sul ricorrere di sillabe accentate ad intervalli regolari (isocronia accentuale). È inoltre relazionato ad altri fenomeni (accento) ed unità (sillabe) prosodiche, e produce variazioni in molti parametri fonetici (durata dei suoni o delle sillabe, F0, intensità). 4) Tempo, velocità di eloquio Il tempo e la velocità di eloquio dipendono dalla velocità alla quale il parlante produce gli enunciati. La velocità di eloquio è spesso misurata come il numero di suoni emessi al secondo. Essa provoca principalmente cambiamenti nella lunghezza dei suoni, nonostante siano state anche riportate differenze nella forma dei movimenti tonali dovute a variazioni nella velocità di eloquio. 1.2.2 I correlati fonetici della prosodia Le unità e i fenomeni prosodici vengono fisicamente realizzati nella catena fonica modificando un insieme di parametri fonetici. Questi segnali fonetici (F0, variazioni di lunghezza, pause, volume) verranno qui chiamati “correlati fonetici della prosodia”. 1.2.2.1 Eventi di F0 Le variazioni di F0 sono tipicamente relazionate a fenomeni di intonazione, ma anche l’accento e il ritmo – insieme a molti altri fattori non linguistici – hanno un ruolo importante nella definizione del contorno di F0 finale di un enunciato. Le variazioni (o “eventi”) di F0 sembrano verificarsi a livelli di descrizione diversi. Al primo livello (qui chiamato “locale”), alcune variazioni sembrano riguardare sillabe o gruppi di sillabe. Altri fenomeni di F0 sembrano invece coinvolgere unità più ampie, come ad esempio sintagmi intonativi o addirittura frasi o paragrafi. Eventi di questo tipo verranno qui chiamati “globali”. E-21 Linea 1.1 – Dialoghi Annotati 1) Eventi di F0 locali Da un punto di vista fonetico, gli eventi di F0 locali possono essere descritti sia come una serie di livelli di F0, che come un gruppo di contorni (movimenti) F0. Questa distinzione rispecchia due diversi approcci nella descrizione dello stesso fenomeno, ossia l’evoluzione della frequenza F0 nel corso degli enunciati. 2) Eventi di F0 globali Molte variazioni di F0 sembrano essere collegate a fenomeni più globali, che hanno un raggio d’azione più ampio di quello della sillaba o del gruppo accentuale. Si tratta di concetti che vengono principalmente impiegati nella descrizione fonetica dell’intonazione: a) discendente/ascendente globale (global falling (declination) /rising) b) reset di F0 c) intervallo di valori di tono (pitch range) Questi concetti devono comunque essere integrati all’interno delle teorie fonologiche dell’intonazione, che si sono principalmente concentrate sulla descrizione di fenomeni “locali”. 1.2.2.2 Lunghezza La lunghezza di un suono è il risultato dell’interazione di diversi fattori linguistici (accento, intonazione, ritmo, velocità di eloquio) e non linguistici (posizione all’interno dell’enunciato, contesto fonetico). Ogni suono di una data lingua sembra avere anche un certo tipo di “durata intrinseca”, che all’interno di un discorso è influenzata dai fattori sopra menzionati. La lunghezza di un suono è quindi solo parzialmente relazionata alla prosodia, poiché dipende anche da fattori segmentali (la natura di ogni suono, il contesto nel quale si verifica). 1.2.2.3 Intensità – volume Come per la lunghezza, l’intensità di un suono dipende da diversi fattori; l’accento e l’intonazione sembrano comunque essere quelli che più influenzano l’intensità finale di un suono. Ogni suono di una data lingua sembra avere anche una sua “intensità intrinseca”, che può essere stimata “sottraendo” l’influenza dei fattori sopra riportati dall’estensione di un suono. 1.2.2.4 Pause L’inserimento delle pause all’interno di un discorso è uno dei modi per etichettare/marcare la struttura prosodica (prosodic phrasing): è quindi strettamente collegato ai fenomeni di intonazione. Anche la velocità di eloquio può determinare la posizione delle pause. Esistono inoltre molti altri fattori non linguistici che possono determinare l’inserimento di una pausa; si tratta di fattori fisiologici, come la necessità di respirare, o psicolinguistici, come le esitazioni. 1.2.2.5 Qualità della voce La qualità della voce è una componente fonetica che è generalmente collegata alle caratteristiche idiosincratiche del tratto vocale di un parlante. Alcune variazioni nella qualità della voce possono E-22 Linea 1.1 – Dialoghi Annotati comunque avere una funzione linguistica, o possono essere determinate da fenomeni linguistici. È questo il caso, ad esempio, dei cambiamenti nello spettro di un suono causati dall’accento. 1.2.3 La trascrizione prosodica Dalla descrizione dei concetti prosodici risulta chiaramente che la prosodia è un fenomeno complesso, che può essere affrontato su diversi livelli e che può essere studiato per molteplici scopi. Da un punto di vista linguistico, può essere un oggetto di analisi a sé stante, che viene studiato al fine di scoprirne gli schemi e le funzioni, o può essere analizzato come un correlato della struttura del discorso. Nell’ambito della ricerca delle tecnologie legate al linguaggio, la prosodia è stata studiata principalmente al fine di produrre una voce sintetica che risultasse il più possibile naturale, cercando di associare i fenomeni prosodici più adeguati al testo di input e di realizzarli con un’appropriata manipolazione dei parametri acustici. Anche il riconoscimento vocale è interessato ai correlati acustici della prosodia nella loro qualità di segnali della struttura del testo. Ogni studio sperimentale fin’ora effettuato ha adottato un certo tipo di rappresentazione prosodica adatta ai suoi scopi. A causa delle diverse prospettive della ricerca prosodica, è difficile concepire un unico schema di annotazione per la prosodia. Recentemente si è però sentita la necessità di avere uno schema di annotazione standard, in modo da permettere lo scambio di dati e di vasti corpora di parlato. Nonostante molti sistemi formali di rappresentazione della prosodia siano stati impiegati per descrivere i fenomeni prosodici di lingue diverse, al momento non sembra esistere uno schema unico e completo in grado di rappresentare tutti i fenomeni prosodici elencati in precedenza. Tra i vari tentativi messi in atto al fine di proporre uno schema di annotazione standard, quello che ha avuto più successo in termini di diffusione è stato ToBI. La discussione a proposito dei vantaggi e degli svantaggi dei diversi schemi dovrebbe comunque tenere conto non solo della complessità dell’oggetto in analisi – i diversi aspetti della prosodia -, ma anche dei diversi possibili obiettivi della ricerca prosodica. Se lo scopo principale è l’analisi del discorso, potrebbe essere sufficiente uno schema con una serie di segni diacritici in grado di etichettare i confini prosodici o gli accenti. Per uno studio delle relazioni tra la prosodia e la struttura discorsiva in una lingua per la quale è già disponibile un accurato modello prosodico, sarebbe più aeguato adottare etichette simboliche in grado di rappresentare in modo conciso le caratteristiche prosodiche della lingua in questione. Se si vuole invece raccogliere dati sperimentali per studiare i pattern prosodici e costruire un modello prosodico, è necessario disporre di una trascrizione fonetica più dettagliata. Per gli studi linguistici una trascrizione di questo genere potrebbe essere basata sull’analisi uditiva, mentre per l’implementazione di tecnologie vocali dovrebbe venirle assegnato un preciso significato acustico. Un’ultima considerazione a proposito dei fenomeni annotati nei diversi schemi di annotazione attualmente esistenti: mentre viene comunemente ammesso che la prosodia è un insieme di fenomeni complesso, all’interno del quale si intrecciano l’intonazione, il ritmo e l’intensità, la discussione sull’annotazione prosodica si concentra generalmente sull’intonazione, per lo meno quando si arriva alla descrizione fonetica. Nonostante alcune rappresentazioni fonologiche facciano esplicitamente riferimento a velocità di eloquio, allungamento o ad altre categorie ritmiche più sofisticate, e la maggior parte degli schemi di annotazione etichettino i confini di sintagma e gli accenti, nelle trascrizioni prosodiche a livello fonetico il punto più importante – forse perché rappresenta anche l’aspetto più problematico – resta l’intonazione. Generalmente, per i corpora di parlato annotati esiste anche una segmentazione fonetica, quindi la durata viene implicitamente E-23 Linea 1.1 – Dialoghi Annotati etichettata e l’intensità può essere calcolata partendo dal segnale. Le peculiarità di uno schema di annotazione spesso riguardano la sua rappresentazione della frequenza fondamentale, per cui una caratteristica rilevante di un sistema di annotazione è data dalla teoria dell’intonazione ad esso sottostante o dalla sua metodologia di riferimento per l’analisi dell’intonazione. Approcci pienamente acustici come quello classico di Fujisaki (Fujisaki 1971), nei quali il profilo intonativo è visto come una sovrapposizione di curve definite in modo matematico, non si sono poi trasformati in sistemi di annotazione, nonostante forniscano la descrizione di dati. Gli approcci linguistici come quello della tradizionale Scuola Inglese (cfr. Crystal 1969 e O’Connor 1973), basati sull’analisi uditiva e su forti ipotesi teoriche, sono invece stati largamente impiegati nella ricerca fonologica e recentemente sono anche stati adottati per l’annotazione di corpora. Secondo questa prospettiva, l’intonazione (inglese) è suddivisa in unità tonali, all’interno delle quali il fenomeno intonativo principale, il tono nucleare, che si verifica sull’ultima sillaba accentata, è descritto secondo la sua altezza e forma, ad esempio come high fall o low fall-rise. Un altro gruppo di approcci fonologici (cfr. Pierrehumbert 1980), il cui primo oggetto di analisi è nuovamente l’inglese, descrive l’intonazione in termini di livelli, anziché in termini di forme: ciò che sembra rilevante è il livello tonale raggiunto in punti diversi dal contorno di tono, che è descritto in termini del contrasto tra high e low (H, L) e con l’associazione ad accenti (*) e confini (%). L’uso di questa annotazione è diffuso (più di quanto non lo siano i principi ad essa sottostanti), per lo meno nell’ambito della comunicazione scientifica, e questa teoria ha ispirato lo standard proposto da ToBI. La ricerca nell’ambito della fonetica sperimentale e le tecnologie vocali in generale sono più inclini a seguire metodologie bottom-up orientate ai dati. Per questi approcci, il modello di intonazione per una data lingua dovrebbe mantenere un preciso – ed implementabile – contenuto fonetico/acustico. Il punto d’inizio è la curva f0, che viene prima stilizzata e poi foneticamente descritta per mezzo di generalizzazioni dai dati acustici/percettivi. La curva può essere vista come una sequenza di movimenti di pitch o contorni – come ad esempio in IPO – o come una serie di punti target o livelli di pitch interpolati collegati da una curva continua – come nell’approccio INTSINT. Nell’ambito del progetto finanziato dalla Comunità Europea MATE (Multilevel Annotation, Tools Engineering) è stata effettuata un’analisi e una descrizione dettagliata dei seguenti schemi: 1. PROSPA 2. IPA 3. TEI 4. ToBI 5. SAMPA 6. SAMPROSA 7. INTSINT 8. SAMSINT 9. IPO 10. TSM 11. TILT E-24 Linea 1.1 – Dialoghi Annotati 12. VERBMOBIL 13. KIM 14. PROZODIAG (Lund) 15. Göteborg Per una trattazione approfondita dei suddetti schemi si rimanda dunque alla sezione dedicata alla prosodia del deliverable del progetto MATE (Klein et al. 1999). In questo documento ci limiteremo a presentare in dettaglio solamente gli schemi TEI e ToBI. La scelta di concentrarsi su questi due schemi risponde all’esigenza di analizzare con maggiore attenzione da un lato uno schema che considera la trascrizione del parlato come un testo arricchito da un insieme di convenzioni che si riferiscono a quei fenomeni che non possono essere adeguatamente descritti per mezzo della trascrizione ortografica standard (TEI) e dall’altro di esporre uno schema che soddisfa in modo esauriente l’obiettivo di trascrivere fenomeni di intonazione e confini prosodici (ToBI). Il secondo capitolo e` quindi dedicato all’analisi dettagliata di questi due schemi, mentre nel terzo si descriveranno le motivazioni che hanno condotto alla realizzazione del meta-schema per l’annotazione prosodica MATE che si intende adottare come standard di riferimento per l’annotazione di fenomeni prosodici in SI-TAL. 1.3 Presentazione e analisi degli schemi di annotazione 1.3.1 TEI Nel Capitolo 11 delle Text Encoding Initiative Guidelines (Sperberg 1994) viene trattata la trascrizione del linguaggio parlato. Poiché lo scopo principale del progetto di standardiddazione proposto dal gruppo del TEI riguarda l’analisi di testi scritti, le linee guida presentate nel suddetto capitolo considerano la trascrizione del parlato come un testo arricchito da un insieme di convenzioni che si riferiscono a quei fenomeni che non possono essere adeguatamente descritti per mezzo della trascrizione ortografica standard. Le TEI Guidelines che riguardano la codifica dei testi di parlato sono il risultato del lavoro effettuato da un sottoinsieme del gruppo di lavoro del TEI, composto da Stig Johansson, Jane Edwards e Andrew Rosta (Johansson 1995a e 1995b). Ulteriori informazioni sulla Text Encoding Initiative sono disponibili ai seguenti siti: http://etext.virginia.edu/TEI.html http://www-tei.uic.edu/orgs/tei http://info.ox.ac.uk/archive/teilite 1.3.1.1 Documentazione Il manuale di base da seguire per applicare le convenzione TEI alla trascrizione della prosodia è il capitolo 11 delle Text Encoding Initiative Guidelines (Sperberg 1994). Ulteriori informazioni a proposito delle Text Encoding Initiative Guidelines sono disponibili al sito http://www.uic.edu/orgs/tei. La documentazione relativa al TEI è anche disponibile al seguente sito ftp: ftp-tei.uic.edu (sotto la directoy “pub/tei”). E-25 Linea 1.1 – Dialoghi Annotati 1.3.1.2 Applicazioni Nella pagina Web di TEI sono indicati 63 progetti che fanno uso delle TEI Guidelines per l’annotazione di testi (vedi http://www-tei.uic.edu/orgs/tei/app/ index.html), tra cui: - Danish Spoken Language Dialogue Systems Project (http://www.cog.ruc.dk/projects/Dialogue/user-95) - Chiba Corpus of Map Task Dialogues in Japanese (http://cogsci.L.chibau.ac.jp/MapTask) - Edinburgh Map Task Corpus (http://www.cogsci.ed.ac.uk/elsnet/Resources/MapTask/mt_corpus.html) 1.3.1.3 Valutazione Non sono disponibili informazioni a questo proposito. 1.3.1.4 Scopo per il quale è stato sviluppato lo schema di annotazione e approccio adottato Lo scopo di questo schema è dotare le convenzioni della TEI (che riguardano la codifica di testi scritti) di etichette adatte ad annotare quei fenomeni prosodici che non possono essere descritti adeguatamente utilizzando lo spelling tradizionale. 1.3.1.5 Lista dei fenomeni annotati Confini prosodici: Le convenzioni TEI permettono di indicare i confini delle unità tonali o dei sintagmi intonativi inserendo gli elementi <seg> (all’inizio dell’unità) e </seg> (alla fine dell’unità). Fenomeni prosodici: 1) Accento: le sillabe accentate vengono indicate inserendo usando l’etichetta &stress dopo la sillaba accentata. 2) Ritmo: per indicare i diversi tipi di ritmo vengono impiegate le seguenti etichette: Rh beatable rhythm Arrh arrhythmic Spr spiky rising Spf spiky falling Glr glissando rising Glf glissando falling E-26 Linea 1.1 – Dialoghi Annotati Elementi fonetici della prosodia: 1) Durata: TEI dispone di un simbolo per indicare l’allungamento di una sillaba: : lengthned syllable 2) Pause: la presenza di una pausa viene indicata inserendo l’etichetta <pause>. 3) Tempo (velocità di eloquio): vengono impiegate le seguenti etichette: A Allegro (fast) Aa Very fast Acc Accelerando (getting faster) L Lento (slow) Ll Very slow Rall Rallentando (getting slower) 4) Volume: TEI fornisce le seguenti etichette: F Forte (loud) Ff very loud Cresc Crescendo (getting louder) P Piano (soft) Pp very soft Dimin Diminuendo (getting softer) 5) Eventi di F0 5.1 Contorni F0 Per trascrivere i pattern intonativi secondo le convenzioni di TEI è possibile impiegare i seguenti simboli: . low fall intonation E-27 Linea 1.1 – Dialoghi Annotati , fall rise intonation ? low rise intonation ! rise fall intonation 5.2 Eventi di F0 globali Secondo quanto indicato nelle convenzioni di TEI, le variazioni di pitch range possono essere trascritte impiegando il seguente insieme di etichette: High high pitch range Low low pitch range Wide wide pitch range Narrow narrow pitch range L’intonazione globale ascendente o discendente può essere trascritta con le seguenti etichette: Asc Ascending Desc Descending Monot Monotonous Scand Scandent (ogni sillaba che segue è più alta di quella precedente, che generalmente termina in tono discendente) 6) Qualità della voce: per fornire indicazioni a proposito della qualità della voce, TEI propone il seguente insieme di etichette: Whisp Whisper Breath Breathy Husk Husky Creak Creaky Fals Falsetto Reson Resonant E-28 Linea 1.1 – Dialoghi Annotati Giggle Unvoiced laugh or giggle Laugh Voiced laugh Trem Tremulous Sob Sobbing Yawn Yawning Sigh Sighing 1.3.1.6 Critiche “Payne (Payne 1992: 51 ss.) mentions the lack of development of guidelines for encoding prosody in the TEI scheme and discusses some inconsistencies of the statements about prosody in the TEI Guidelines. The favoured solution would be to incorporate basic prosodic information in the orthographic transcription and to use a fundamental frequency tracing aligned with the text in cases where a detailed prosodic analysis is needed. Tone units: Although an easy conversion can be made between French’s boundary markers and TEI tags delimiting tone units, Payne (Payne 1992) notes the difficulties of transcribing melodic contours with TEI conventions. Tonic syllables: TEI Guidelines do not provide an indication of tonic syllables as straightforwardly as in French’s system. As Payne (Payne 1992: 55) points out, if the tonic syllable is going to be marked, it should be marked in the orthographic transcription, and the TEI Guidelines should be extended to provide a way of doing this in a straightforward manner. Tones: Paynes (Paynes 1992: 56) suggests the extension of the TEI Guidelines to allow distinguishing tones as in French’s conventions; such an extension could be bases in different specifications for the tag <syllable>. Prominent non-tonic syllables: Prominent non-tonic syllables are marked in French’s system, but no provision for such feature is found in the TEI Guidelines. Speech management: TEI has no specific guidelines for the transcription of disfluency phenomena, recommending transcription using IPA or other systems of phonemic transcription. On the other hand, French’s conventions, adopted by NERC, are much more specific and deal with different phenomena not covered by TEI, such as guessed or unintelligible fragments” (Llisterri 1996). 1.3.1.7 Esempi Non sono disponibili informazioni a questo proposito. 1.3.1.8 Linguaggio di codifica Le convenzioni di TEI sono state definite adottando SGML come linguaggio di codifica. Questo è uno dei vantaggi che presenta questo schema di annotazione. 1.3.1.9 Esistenza di uno strumento software per l’annotazione Non sono disponibili informazioni a questo proposito. E-29 Linea 1.1 – Dialoghi Annotati 1.3.2 ToBI ToBI (Tones and Break Indices) è stato proposto nel 1992 da un gruppo di ricercatori con esperienza in una notevole varietà di approcci all’analisi prosodica e alle tecnologie vocali. Il loro scopo era cercare di definire uno schema di annotazione – analogo all’IPA per la segmentazione fonetica – in grado di diventare uno standard per la trascrizione prosodica delle varietà di inglese americano (cfr. Silverman et al. 1992). Una descrizione del sistema ToBI è disponibile al sito http://julius.ling.ohiostate.edu:80/Phonetics/ToBI/ 1.3.2.1 Documentazione Esistono due manuali di codifica forniti dagli sviluppatori stessi dello schema di annotazione (Beckman & Ayers 1994; Beckman & Hirschberg 1994). Sono entrambi disponibili: • via ftp al sito: kiwi.nmt.edu • via URL al sito: http://ling.ohio-state.edu/Phonetics/ToBI/ToBI0.html 1.3.2.2 Applicazioni Nonostante lo schema ToBI sia stato originariamente sviluppato per essere applicato all’inglese, è stato anche impiegato per trascrivere fenomeni di intonazione di dialetti inglesi (Mayo et al. 1997) e di altre lingue, come ad esempio l’italiano (Grice et al. 1995b) o il tedesco (Grice et al. 1995a). ToBI (opportunamente ampliato e modificato) è inoltre stato integrato in altri sistemi di trascrizione, come ad esempio VERBMOBIL (Reyelt et al. 1994) o lo Stuttgart System (Mayer 1995). (Per informazioni più dettagliate a proposito dello Stuttgart System è possibile consultare il sito http://www.ims.uni-stuttgart.de/phonetik/joerg/lamban/STGTsystem.html). 1.3.2.3 Valutazione Una valutazione dello schema di annotazione ToBI è descritta in Pitrelli et al. (1994), mentre in Grice et al. (1996) è disponibile la valutazione della versione tedesca di ToBI. 1.3.2.4 Scopo per il quale è stato sviluppato lo schema di annotazione e approccio adottato ToBI è un adattamento del modello fonologico dell’intonazione inglese di Pierrehumbert (Pierrehumbert 1980). “In the domain of prosodic transcription systems to be used in speech research and in speech technology, ToBI (Tone and Break Index Tier) was developed to fulfill the need of a prosodic notation system providing a common core to which different researchers can add additional detail within the format of the system; it focuses on the structure of American English, but transcribes word grouping and prominence, two aspects which are considered to be rather universal (Price 1992). E-30 Linea 1.1 – Dialoghi Annotati As described by Silverman et al. (Silverman et al. 1992) the sysem shows the following features: (1) it captures categories of prosodic phenomena; (2) it allows transcribers to represent some uncertainties in the transcription; (3) it can be adapted to different transcription requirements by using subsets or supersets of the notation system; (4) it has demonstrated high inter-transcriber agreement; (5) it defines ASCII formats for machine-readable representations of the transcription; and (6) it is equipped with software to support transcription using Waves and UNIX programmes. A ToBI transcription for an utterance consists of symbolic labels for events on four parallel tiers: (1) orthographic tier, (2) break-index tier, (3) tone tier and (4) miscellaneous tier. Each tier consists of symbols representing prosodic events, associated to the time in which they occur in the utterance. The conventions for annotating according to TOBI are defined for text-based transcriptions and for computer-based labeling systems such as Waves.” (Llisterri 1996) ToBI è basato su un modello fonologico dell’intonazione inglese, ma sono stati fatti molti sforzi per estenderlo anche ad altre lingue (e ad altri dialetti inglesi). Nei confronti di ToBI sono anche state mosse parecchie critiche (cfr. Nolan et al. 1997). 1.3.2.5 Lista dei fenomeni annotati Il sistema ToBI è stato progettato per trascrivere fenomeni di intonazione e confini prosodici. Non esistono simboli per la trascrizione dei correlati fonetici della prosodia. I confini e i toni sono rappresentati su livelli separati, allineati col testo per mezzo di coordinate temporali. Confini prosodici In ToBI i confini prosodici vengono annotati per mezzo dei Break Indices: 0 Clitic group boundary 1 Word boundary 2 Boundary with no tonal mark 3 Intermediate Phrase boundary 4 Intonative Phrase boundary Fenomeni prosodici ToBI comprende una serie di simboli per la trascrizione dei fenomeni di intonazione: pitch accents, phrase accents e boundary tones. Detti simboli vengono associati rispettivamente alla sillaba o al sintagma accentati. Essi possono essere allineati temporalmente con peaks e valley di f0. 1.1 Pitch accents H* Peak accent (high pitch accent) L* Low accent (low pitch accent) E-31 Linea 1.1 – Dialoghi Annotati L*+H Scooped accent L+H* Rising peak accent H+!H* Downstepped accent 1.2 Boundary tones L% Final low boundary tone H% Final high boundary tone %H Initial high boundary tone 1.3 Phrase accents L- Low phrase accent H- High phrase accent In ToBI è anche previsto un simbolo per la trascrizione del downstep: ! Downstep 1.3.2.6 Esempi Usando il software per la trascrizione e xwaves, durante il processo di trascrizione viene creata una serie di file che contengono le informazioni relative ai diversi livelli. Qui di seguito riportiamo una serie di esempi che contengono la trascrizione dell’enunciato “Show me the cheapest fare from Philadelphia to Dallas excluding restriction” (tratto dal materiale di TOBI-TRAINING): Livello ortografico: signal cheapest2 type 1 color 123 font -*-times-medium-r-*-*-17-*-*-*-*-*-*-* separator ; nfields 1 # 2.105000 123 show 2.245000 123 me 2.355000 123 the 2.935000 123 cheapest 3.315000 123 fare 3.565000 123 from 3.836919 123 Da(llas)- E-32 Linea 1.1 – Dialoghi Annotati 4.325000 5.015000 5.225000 5.855000 7.399125 8.585000 8.825000 9.115000 9.595000 9.880000 123 123 123 123 123 123 123 123 123 123 from Phladelphia to Dallas excluding restriction V U slash one Livello di break index: signal cheapest2 type 0 color 123 comment created using xlabel Fri Sep 3 17:24:47 1993 font -*-times-medium-r*-*-17-*-*-*-*-*-*-* separator ; nfields 1 # 2.105000 123 1 2.245000 123 1 2.355000 123 1 2.935000 123 1 3.315000 123 4 3.565000 123 1 3.836919 123 1p 4.325000 123 1 5.015000 123 3 5.225000 123 1 5.855000 123 4 7.399125 123 4 8.585000 123 4 8.825000 123 1 9.115000 123 3 9.595000 123 1 9.880000 123 4 Livello di tono: signal cheapest2 type 0 color 115 comment created using xlabel Fri Sep 3 17:24:48 1993 font -*-times-medium-r-*-*-17-*-*-*-*-*-*-* separator ; nfields 1 # 2.052696 115 H* 2.579923 115 L+H* 3.065052 115 !H* 3.315635 115 L-L% 4.149572 115 %r 4.470318 115 L+H* 4.771018 115 !H* 5.015584 115 L5.388451 115 H* 5.855538 115 L-L% E-33 Linea 1.1 – Dialoghi Annotati 6.984159 7.399114 8.154402 8.585841 8.711954 8.928780 9.114631 9.535582 9.694309 9.880160 115 115 115 115 115 115 115 115 115 115 L+H* L-L% H* L-L% H* !H* LH* H* L-L% L’immagine seguente mostra un esempio di visualizzazione x-waves di una trascrizione ToBI, allineata con la forma d’onda e la curva f0. 1.3.2.7 Linguaggio di codifica Etichette simboliche su livelli separati per ogni tipo di informazione (ortografia, confini, toni, informazioni miste), allineate temporalmente con il segnale. 1.3.2.8 Strumento software per l’annotazione Sono stati sviluppati due strumenti software per l’annotazione usando l’ambiente xwaves: un trascrittore e un verificatore. Il trascrittore è uno script di UNIX che semplifica la trascrizione, ma non è comunque in grado di produrre la trascrizione automaticamente. Il verificatore è uno script di E-34 Linea 1.1 – Dialoghi Annotati UNIX che controlla la coerenza delle sequenze di simboli trascritti. Entrambi sono disponibili via ftp al sito kiwi.nmt.edu. 1.4 Il meta-schema per l’annotazione prosodica del progetto MATE Sviluppato da Juan-Maria Garrido e Silvia Quazza, il meta-schema per l’annotazione prosodica del progetto MATE si propone di realizzare un ambiente in cui sia possibile annotare del materiale linguistico rendendo conto di tutti gli aspetti rilevanti per lo studio della prosodia. In particolare, il “meta-schema” di MATE per la prosodia è una struttura di annotazione a quattro-livelli, in cui è possibile render conto delle diverse esigenze dell’annotazione prosodica. I livelli sono i seguenti: 1 Trascrizione fonetica: in questo livello vengono rappresentati i segmenti fonetici fenomeni correlati agli aspetti segmentali della prosodia (le pause e le unità inferiori alla parola, per esempio le sillabe). 2 Rappresentazione fonetica dell’intonazione: in questo livello si annotano i fenomeni intonativi e vengono descritte in dettaglio le curve fondamentali di frequenza e i possibili correlati acustici dell’intonazione (per esempio l’energia). 3 Rappresentazione fonologica dell’intonazione: in questo livello si rende conto dei correlati fonologici della prosodia in termini di rappresentazioni funzionali, annotando la funzione degli eventi intonativi rilevanti rispetto alle unita` prosodiche. 4 Segmentazione prosodica: in questo livello gli enunciati vengono segmentati in termini di unità prosodiche di alto livello (per esempio, in termini di gruppi intonativi). I quattro livelli si pongono in relazioni diverse rispetto al segnale vocale: i due livelli fonetici (1 e 2), destinati alla segmentazione in fonemi e alla descrizione di f0, sono direttamente allinenati con il segnale vocale e in questo senso si possono considerare livelli di base. I due livelli fonologici (3 e 4) descrivono gli eventi linguisticamente rilevanti dell’intonazione, mantenendo una relazione sia con i livelli di base che con altre unità linguistiche. Si possono così stabilire diversi legami tra i livelli di descrizione: per esempio, è possibile associare un evento intonativo come l’accento sia alla parola (livello ortografico) che alla sillaba o vocale in cui l’accento si realizza (livello di trascrizione fonetica), che alla configurazione corrispondente di ‘pitch movement’ (livello di descrizione fonetica di f0). Attualmente il meta-schema realizzato in MATE è l’unico strumento disponibile per affrontare in modo esaustivo il compito dell’annotazione prosodica ed è questo che ci spinge a raccomandarne l’uso in TAL. In particolare, le specifiche per l’annotazione prosodica ed il manuale si riferiranno a questo meta-schema. E-35 Linea 1.1 – Dialoghi Annotati 2 Livello morfosintattico e sintattico E-36 Linea 1.1 – Dialoghi Annotati 2.1 Introduzione Lo scopo generale di questa rassegna è quello di fornire informazione di riferimento per le specifiche di annotazione morfosintattica e sintattica che saranno adottate all’interno del progetto SI-TAL. Lo scopo principale di questo capitolo consiste nel presentare una panoramica delle pratiche di annotazione correnti per quanto riguarda l’analisi morfosintattica e sintattica del parlato, in particolare del parlato dialogico, che rappresenta il dominio di applicazione delle specifiche di annotazione che verranno presentate in seguito. In sintesi, dunque, gli scopi di questa sezione possono essere identificati in: • identificare e descrivere i fenomeni linguistici specifici della lingua parlata ed in particolare del dialogo, che richiedono strumenti speciali per l’annotazione; • rivedere, paragonare e analizzare i metodi, le soluzioni e le pratiche proposte per rappresentare ed annotare questi fenomeni; Questi aspetti servono come lavoro preliminare per • proporre delle specifiche per annotare a livello morfosintattico e sintattico i fenomeni che sono stati individuati; • integrare queste raccomandazioni in modo coerente con le specifiche di annotazione morfosintattica già in uso per lo scritto. Entrambi gli aspetti verranno affrontati nella parte di questo manuale relativa alle specifiche di annotazione (parte II, sez. II, cap. 3). 2.2 Annotazione morfosintattica e sintattica Per annotazione morfosintattica, detta anche “etichettatura grammaticale” o “part of speech tagging”, si intende l’annotazione della classe grammaticale di ogni elemento-parola in un testo, ovvero l’associazione di un’etichetta relativa alla parte del discorso con ogni elemento-parola di un corpus. L’insieme delle etichette usato per etichettare le parole in una lingua particolare ed in un corpus particolare costituisce il TAGSET per quella lingua o per quel corpus. La lista delle etichette, insieme alle loro definizioni e alla linee-guida necessarie per la loro applicazione al corpus, costituisce lo SCHEMA DI ANNOTAZIONE. Per annotazione sintattica si intende la pratica di aggiungere informazione sulla struttura sintattica delle frasi di un corpus, per esempio in termini di analisi a costituenti o in termini di analisi a dipendenze, incorporando nel testo degli indicatori di struttura sintattica come parentesi etichettate o simboli che indicano le relazioni di dipendenza fra le parole. L’annotazione sintattica di corpora si è generalmente concretizzata nello sviluppo delle cosiddette treebanks (cfr. Leech & Garside, 1991; Marcus et al., 1993). Le treebanks sono generalmente costruite sulla base di un modello di struttura sintagmatica (vedi Garside et al. 1997: 34-52), ma anche i modelli di dipendenza sono stati applicati, in particolare da Karlsson (Karlsson et al., 1995). A causa della loro relativa semplicità e del loro evidente potenziale di applicazione ad aree dell’elaborazione del linguaggio naturale, l’annotazione morfosintattica e sintattica sono considerate come i tipi di annotazione fra i più importanti al momento attuale di sviluppo dei corpora testuali, oltre ad essere certamente i più sviluppati e meglio consolidati. E-37 Linea 1.1 – Dialoghi Annotati In questo rapporto i due tipi di annotazione, morfosintattica e sintattica, sono considerati separatamente solo per motivi di comodità di esposizione; l’annotazione morfosintattica è il primo tipo di informazione ad essere aggiunta ad un corpus, ed è presupposta dall’annotazione sintattica. In questa sezione concentreremo la nostra attenzione soprattutto sulle pratiche di annotazione morfosintattica e sintattica relative a corpora di dialoghi parlati, con particolare riferimento ai dialoghi raccolti per scopi applicativi del tipo definito “task-driven”, ovvero caratterizzati dall’essere prodotti, in forma spontanea o elicitata, per svolgere un compito determinato (ad esempio, richiesta di informazioni, soluzione collaborativa di problemi, effettuazione di prenotazioni, ecc.). Il motivo di questa scelta è duplice: in primo luogo, questo tipo di dialoghi corrisponde a quello che costituirà il corpus in SI-TAL. L’obiettivo del tema “Dialoghi Annotati” è infatti quello di raccogliere un corpus di dialoghi per uso in applicazioni di interfacce vocali, con un fuoco quindi ben diverso rispetto ad usi del corpus per scopi generici di ricerca in linguistica, dialettologia, sociolinguistica, analisi del discorso o della conversazione 1 . In secondo luogo, questo restringimento dell’obiettivo permette di concentrare l’attenzione su quegli schemi di annotazione sviluppati per scopi simili; è infatti evidente che gli scopi per cui un corpus deve essere usato condizionano anche le scelte a livello di rappresentazione e di annotazione. Nel confrontare schemi e pratiche correnti di annotazione morfosintattica e sintattica, è opportuno essere consapevoli della variabilità degli schemi, che non solo possono adottare terminologie e meccanismi di rappresentazione diversi, ma ovviamente possono differire in modo vistoso a seconda delle teorie di riferimento che vengono rappresentate. Per quanto riguarda l’annotazione morfosintattica, i principali parametri di variazione riguardano i criteri di identificazione degli elementi-parola, che costituiscono una questione non banale nel caso di espressioni poli-lessicali, composti e parole contenenti pronomi e avverbi clitici. Schemi di annotazione lessico-grammaticale diversi assumono diverse segmentazioni del testo in unità lessicali o parole. Per esempio, talvolta i nomi composti o i sintagmi idiomatici ricevono una etichetta unica; di contro, talvolta gli affissi sono separati e ricevono una etichetta distinta. Un’altra fonte di differenze fra gli schemi è rappresentata dal tipo di categorie grammaticali previste; in alcuni casi la differenza è puramente terminologica, mentre in altri a variare è il contenuto informativo espresso dalle etichette: schemi diversi prevedono un diverso numero di categorie morfosintattiche, che riflettono livelli diversi di granularità dell’analisi. Quand’anche gli insiemi di etichette siano sovrapponibili, schemi diversi possono sottintendere differenti criteri di attribuzione alle varie categorie morfosintattiche. Anche a questo primo stadio di annotazione morfosintattica vi è dunque una notevole diversità di schemi o modelli di annotazione. A titolo esemplificativo, riportiamo l’analisi di una frase secondo alcuni schemi, allineati verticalmente 2 . good morning, more news about the Reverend Sun Myung Moon, founder of the Unification church, who’s currently in jail for tax evasion 1 Ultimamente sono stati raccolti dei corpora di dialoghi per gli scopi più diversi. Per esempio, vedi il database di Childes (MacWhinney, 1995), che definisce degli standards per lo scambio dei dati tra ricercatori nell’area del linguaggio infantile. 2 L’esempio è tratto dalla pagina web di Amalgam: http://www.scs.leeds.ac.uk/ccalas/amalgam/ E-38 Linea 1.1 – Dialoghi Annotati BRO WN good morning , more news about the Reverend Sun Myung Moon , founder of the Unificati on church , who’s ‘s currently in jail for tax evasion ICE JJ NN . AP NN IN AT NP NP NP NP , NN IN AT NP FRM FRM PUNC(per) PRON(quant,comp) N(com,sing) PREP(ge) ART(def) N(prop,sing) N(prop,sing) N(prop,sing) N(prop,sing) PUNCT(com) N(com,sing) PREP(ge) ART(def) N(prop,sing) LONDO NLUND DG DG . AF NC PA NP NP NP NP NP , NC PA NP NP NN , WPS+ +BEZ RB IN NN IN NN NN N(com,sing) PUNCT(com) PRON(rel) V(cop,pres,encl) ADV(ge) PREP(ge) N(com,sing) PREP(ge) N(com,sing) N(com,sing) NP , GA VB+3 AW PA NC PA NC NC POW F UPENN BNC C5 BNC C6 3 . DQ H P DD HN HN HN HN , H VO DD HN JJ NN . JJR NN IN DT NNP NNP NNP NNP , NN IN DT NNP AJ0 NN1 PUN DT0 NN1 PRP AT0 NP0 NP0 NP0 NP0 PUN NN1 PRF AT0 NN1 JJ NNT1 YSTP DAR NN1 II AT NNB NP1 NP1 NP1 YCOM NN1 IO AT NN1 H , HWH OM AX P H P H H NNP , WP VBZ RB IN NN IN NN NN NN1 PUN PNQ VBZ AV0 PRP NN1 PRP NN1 NN1 NN1 YCOM PNQS VBZ RR II NN1 IF NN1 NN1 Una situazione analoga è riscontrabile per quanto riguarda l’annotazione sintattica. In questo caso, il principale parametro di variazione può essere identificato nell’adozione di uno schema basato su un approccio a struttura sintagmatica dell’analisi sintattica (schemi a costituenti) versus uno schema basato su un approccio a dipendenze (schemi a dipendenze). Per un’analisi ed un confronto dettagliati degli schemi di annotazione sintattica applicati a corpora di lingua scritta si rimanda alla trattazione svolta nell’ambito del tema “Treebank” in SITAL. Le differenze e le comunalità tra i diversi schemi di annotazione morfosintattica e sintattica sono state ampiamente evidenziate ed approfondite nel quadro di precedenti sforzi di confronto. Citiamo qui, ad esempio, il lavoro svolto nell’ambito del progetto NERC (Network of European Reference Corpora), al quale rimandiamo per una trattazione approfondita delle problematiche qui soltanto 3 Brown = Brown Corpus (Francis & Kucera, 1979); ICE = International Corpus of English (Greenbaum, 1996; Greenbaum & Ni, 1996), London-Lund = London-Lund Corpus (Svartvik, 1990); POW = Polytechnic of Wales Corpus (Souter, 1989); Upenn = Penn Treebank Corpus (Marcus et al. 1993); BNC = British National Corpus (Eyes, 1996). E-39 Linea 1.1 – Dialoghi Annotati brevemente accennate. In particolare, si rimanda al lavoro di Calzolari, Baker & Kruyt (1995), Monachini & Östling (1992a, 1992b), e di Montemagni (1992). Più di recente, segnaliamo il lavoro svolto nell’ambito del progetto MATE, dove si è analogamente provveduto ad una fase di revisione degli schemi di annotazione esistenti per il livello morfosintattico e sintattico, con particolare riferimento all’applicazione degli schemi alla lingua parlata (vedi Klein et al., 1998). In considerazione dell’esistenza di questa imponente mole di lavoro, cui si sommano gli sforzi di standardizzazione svolti nell’ambito del progetto EAGLES (vedi Leech & Wilson, 1996; Leech, Barnett & Kahrel, 1996), non riteniamo opportuno in questa sede effettuare nuovamente un confronto dettagliato dei diversi schemi di annotazione, soprattutto se si considera che quei lavori sono stati svolti esclusivamente sulla base di schemi di annotazione sviluppati per l’annotazione di corpora di lingua scritta. Concentreremo quindi la nostra attenzione sugli schemi morfosintattici e sintattici sviluppati per corpora di lingua parlata, con particolare attenzione ai fenomeni peculiari del parlato che non trovano riscontro nella lingua scritta. 2.3 Annotazione morfosintattica e sintattica della lingua parlata Nonostante il livello morfosintattico e sintattico rappresentino nella maggioranza dei casi il tipo di annotazione linguistica più comune e diffusa, l’esperienza di annotazione di lingua parlata a questi due livelli è ancora piuttosto limitata. E’ importante notare inoltre che molti corpora di lingua parlata annotati morfosintatticamente e/o sintatticamente adottano un approccio “normalizzante” all’annotazione, che consiste sostanzialmente nell’eliminazione di tutti quei fenomeni tipici del parlato e che ha come risultato la restituzione di un testo che in molti casi rappresenta una parafrasi “scritta” del testo originario. Questo approccio, che ha il vantaggio pratico di permettere di usare gli schemi già esistenti per lo scritto, e spesso già ampiamente testati, e di permettere l’annotazione automatica con gli strumenti già a disposizione, ha numerosi svantaggi teorici (vedi sez. II, par. 3 di questo capitolo per una discussione approfondita). Questo per dire che l’esperienza di annotazione realmente condotta su testi parlati è estremamente limitata ed inferiore rispetto all’impressione che si può derivare semplicemente guardando al numero di corpora annotati morfosintatticamente in circolazione. Molti sono i fenomeni che differenziano la lingua parlata da quella scritta e che coinvolgono i livelli di annotazione morfosintattico e sintattico. Alcuni di essi saranno presentati ed esemplificati in questo paragrafo, insieme ad una descrizione delle problematiche che comportano per l’annotazione morfosintattica e/o sintattica. Alcuni di questi fenomeni, come la vasta categoria di quelle che Leech chiama “disfluenze”, altrimenti designate fenomeni di “speech management” (vedi sotto, par. 2.3.1.1) sono fenomeni esclusivi della lingua parlata ed estranei alla lingua scritta. Altri, come gli usi non standard, gli avverbi, i marcatori del discorso e le particelle pragmatiche, e le cosiddette espressioni polilessicali, rappresentano fenomeni che pur non essendo esclusivi della lingua parlata acquistano una rilevanza particolare per la frequenza con cui occorrono. Altri ancora, come le sequenze di ripetizione e correzione, gli anacoluti sintattici e i fenomeni di dislocazione illustrano la difficoltà di applicazione al parlato delle categorie sintattiche pensate per lo scritto. 2.3.1 Annotazione morfosintattica della lingua parlata In questo paragrafo la nostra attenzione è incentrata sulle decisioni linguistiche coinvolte nell’annotazione morfosintattica della lingua parlata, e in particolare del parlato dialogico. Si potrebbe sostenere che il parlato spontaneo non costituisca un’area problematica, dal momento che le stesse categorie morfosintattiche sono verosimilmente applicabili tanto allo scritto E-40 Linea 1.1 – Dialoghi Annotati che al parlato. Che questo sia almeno parzialmente vero è testimoniato dal fatto che il British National Corpus (vedi Eyes 1996) è stato annotato utilizzando per il sottoinsieme parlato del corpus (ca. 10 milioni di parole) lo stesso tagset utilizzato per l’annotazione del sottoinsieme di lingua scritta (ca. 90 milioni di parole). Ciò nondimeno, la maggioranza degli schemi di annotazione è stata sviluppata esplicitamente per la lingua scritta, ed il fatto che uno stesso tagset possa essere applicato tanto a dati scritti che a dati parlati non dovrebbe fare ignorare il fatto che la frequenza e l’importanza delle categorie grammaticali variano considerevolmente tra le due varietà di dati. Per fare un esempio, le interiezioni e i segnali di esitazione sono di gran lunga più frequenti nel parlato. Ci sono almeno due aspetti dell’annotazione morfosintattica che devono essere considerati nell’annotazione morfosintattica del parlato, e che verosimilmente determinano una dimensione di variabilità fra i diversi schemi: (a) i cosiddetti fenomeni di “disfluenza” (Gibbon, 1999): • vocalizzazioni pseudo-lessicali • frammenti di parole • forme non standard (b) classi grammaticali caratteristiche del parlato e non dello scritto • marcatori del discorso e particelle pragmatiche • interiezioni ed avverbi periferici 2.3.1.1 Annotazione dei fenomeni di disfluenza Tre sono i problemi principali da considerare. Il primo è il modo in cui etichettare le cosiddette vocalizzazioni pseudo-lessicali, come um, eeh, ecc. Il secondo concerne il modo in cui etichettare i frammenti di parola che risultano da correzioni o enunciazioni incomplete. Infine, un terzo aspetto concerne l’annotazione di forme non standard, dovute o ad errori di esecuzione o a regole grammaticali diverse rispetto alla variante standard della lingua. 2.3.1.1.1 Vocalizzazioni pseudo-lessicali Le vocalizzazioni pseudo-lessicali sono suoni come um, uh-huh, ooh, ah, mhm, eh?, eccetera, prodotti dai parlanti con scopi pragmatici vari. Una prima distinzione approssimativa, che si basa tanto su considerazioni distribuzionali che di contenuto semantico-pragmatico, può essere fatta tra riempitivi di pause o esitazioni e vocalizzazioni di incoraggiamento. I riempitivi di pause o esitazioni, dette anche pause piene, sono quei suoni prodotti come modo convenzionale per mantenere un turno di parola mentre si stanno formulando le parole seguenti. Si tratta di un fenomeno molto frequente nel parlato spontaneo, che ha funzioni pragmatiche e interazionali precise. Dal punto di vista dell’annotazione morfosintattica si pone il problema se trattare o meno questi elementi come elementi lessicali, assegnando loro una categoria morfosintattica. Provvisoriamente, suddividiamo questi fenomeni in due classi: suoni basati su una consonante nasale, come mhmh, mmm, um, … e suoni puramente vocalici, come eeeh, ahhh, ecc. E-41 Linea 1.1 – Dialoghi Annotati (1) F024: ma non lo posso fare perché l'ho fatto da+ ehm nell'altra direzione quindi va verso la destra del foglio <pb> il cerchio è rivolto verso la destra del foglio Le vocalizzazioni di incoraggiamento si distinguono dalle pause piene per occorrere in posizione iniziale o finale di turno e per avere la funzione di assecondare un turno precedente o sollecitare un turno successivo da parte di un altro parlante. Ad esempio: (2) G001: Sara allora c'hai sulla tua sinistra <pb> una figura che s+ viene definita colibrì F002: mh Non tutti gli schemi di annotazione prevedono una categoria a parte per questa classe di fenomeni. In MATE, ad esempio, (cfr. Klein et al. 1999) è prevista una categoria morfosintattica detta “Filler” che comprende tutti i tipi di vocalizzazioni pseudo-lessicali. Il tagset di CHRISTINE (vedi Sampson 1999) prevede invece due sottocategorie della classe Y: la categoria YM per i riempitivi di pause, ulteriormente distinti a seconda che il suono sia a componente nasale (mm, um: YMN) o vocalica (er, ah, eh: YMV). E la categoria YV per i suoni vocali non linguistici. Lo schema di annotazione dell’INTERNATIONAL CORPUS OF ENGLISH (Greenbaum 1996; Greenbaum & Ni 1996) riconduce questi fenomeni sotto la più ampia categoria delle interiezioni (vedi par. 2.3.1.2). Nel LONDON-LUND CORPUS (Svartvik 1990), in modo analogo, questa categoria di fenomeni viene inglobata nella categoria “Discourse” (vedi par. 2.3.1.2). Le raccomandazioni preliminari di EAGLES sull’annotazione morfosintattica del parlato raccomandano l’uso di sottocategorie per l’etichettatura di questo tipo di fenomeni. A partire da categorie già esistenti e magari periferiche, come è ad esempio il caso della classe U (“unique” o “unassigned”) nel cosiddetto tagset intermedio proposto nelle guidelines preliminari di EAGLES (Leech & Wilson, 1994). Questa classe potrebbe essere estesa mediante classificazioni ulteriori, ad esempio Ux “esitatore” e Uy “vocalizzazione di incoraggiamento” (dove x e y sono numeri). Un’altra classe grammaticale che le linee guida di EAGLES identificano come una possibile sede di estensione per includere il trattamento di questi fenomeni è la classe delle interiezioni (“I”, cfr. sotto). Una soluzione alternativa, peraltro adottata in molti schemi, consiste nel non assegnare alcuna etichetta morfosintattica a questi elementi, ma nel marcarli nella trascrizione ortografica come vocalizzazioni non lessicali paragonabili alle risate e ai grugniti. Questa soluzione è in linea con la proposta, ulteriormente descritta sotto, di trattare i fenomeni di disfluenza come sostanzialmente estranei all’annotazione grammaticale del parlato. 2.3.1.1.2 Frammenti di parole I frammenti di parole possono verificarsi come effetto di correzioni, interruzioni ed in genere da enunciazioni incomplete (per esempio, quando un parlante viene interrotto a metà parola, e questa resta “sospesa”): ma # non lo posso fare perche' l'ho fatto da+ <ehm> nell'altra direzione E-42 Linea 1.1 – Dialoghi Annotati L’approccio adottato in MATE consiste nel segnalare esplicitamente i frammenti di parola facendo uso di un attributo opzionale ad hoc, l’attributo “broken”, che si aggiunge agli attributi di classe morfosintattica. In CHRISTINE, la forme interrotte sono annotate con etichette ad hoc formate dall’etichetta che verrebbe assegnata alla parola completa, seguita dopo il simbolo / dal lemma della forma completa corrispondente. Ad esempio, thi per this è etichettato DD1i/this. La pratica più comune consiste tuttavia nell’escludere le forme frammentarie dall’annotazione morfosintattica limitandosi a rappresentarle in trascrizione, con la ragionevole argomentazione che non si tratta di forme lessicali. In alcuni casi, la pratica consiste nel normalizzare le forme frammentarie in trascrizione, fornendo la forma completa; in tal caso l’annotazione morfosintattica deve trattare una forma non diversa dalle altre. Le linee-guida preliminari di EAGLES suggeriscono di etichettare queste forme facendo uso della categoria U, usata per le forme di difficile attribuzione, magari estesa con qualche simbolo che ne indichi la sottocategoria. 2.3.1.1.3 Usi non standard Come suggerisce Sampson (1999), è utile distinguere tra quei casi in cui l’uso di una forma lessicale da parte di un parlante è regolare dal punto di vista della sua variante regionale o sociale, anche se deviante rispetto alla varietà standard della lingua, ed i casi in cui un parlante produce una forma che è mal formata anche dal suo punto di vista, come nel caso degli errori di esecuzione. Quest’ultima categoria comprende le parole pronunciate in modo scorretto, i lapsus o “slips of the tongue”, come nei due esempi seguenti: (1) hai satto un hai fatto un percorso tra partenza e arrivo ? (2) A: io dalla discoteca sono arrivata a automobili , poi ? B: no automobili non le devi pensare <pb> devi arrivare diritto fino ad arrivo <pb> Il caso delle forme devianti rispetto alla norma standard, ma grammaticali rispetto ad una qualsiasi variante geo- o socio-dialettale è più complesso e delicato, dal momento che qualsiasi intervento di normalizzazione implica anche un giudizio di accettabilità vs. non accettabilità delle forme devianti. (3) prosegui fin' e sopra fai un quattro cinque trattini (4) vabbè <pb> allora f~ <pb> arriva fino addo' sta 'sto viale della verità Non è infrequente che degli usi non standard in questo secondo senso siano interpretati come errori di esecuzione. Nell’enunciazione seguente, ad esempio, le due forme evidenziate in grassetto potrebbero essere interpretate tanto come forme dialettali che come forme troncate di “passare” ed “andare”: ci devi passa' vicino non ci de+ non devi <RUMORE> anda' # sulle figure E-43 Linea 1.1 – Dialoghi Annotati Molto dipende dalla frequenza dei fenomeni (se un fenomeno è molto frequente in un dialogo è probabile che si tratti di un uso non standard vero e proprio più che di un errore di esecuzione sistematico), e dalla preparazione e sensibilità linguistica dei trascrittori. Le pratiche di annotazione degli usi non standard sono piuttosto varie. Di nuovo, la strategia più comune consiste nel normalizzare il testo in sede di trascrizione, cosicché tutte le forme devianti rispetto alla variante standard, vuoi perché frutto di un errore di esecuzione, vuoi perché conformi a regole non standard, vengono ricondotte alla loro controparte standard. Questa pratica ha il vantaggio di assicurare che ogni forma lessicale della trascrizione corrisponda ad un’entrata lessicale nel lessico di riferimento, sia esso un dizionario standard preesistente o un lessico generato specificamente per un dato corpus (vedi Gibbon 1999: 20). Tuttavia, questo approccio ha delle evidenti limitazioni nell’alterazione della rappresentatività dei dati e nell’intervento di correzione, che in molti casi ambigui può condurre ad una versione del testo che rappresenta una parafrasi del testo originario. Sul versante opposto dell’approccio non-normalizzante, la pratica adottata ad esempio in CHRISTINE consiste nel tracciare una distinzione fra errori di esecuzione e usi dialettali. Nel primo caso, la pratica di annotazione consiste nell’evidenziare la forma come deviante. Nel caso invece delle forme dialettali, che sarebbe scientificamente scorretto annotare nello stesso modo delle forme standard corrispondenti, la pratica consiste nell’annotare la forma etichettandola secondo il suo omofono nella variante standard, ma annotare poi il costituente sintattico che la contiene in base alla funzione grammaticale che la forma ha in quel contesto. Secondo questa pratica, la “e” dell’esempio (3) più sopra sarebbe annotata come congiunzione a livello morfosintattico, mentre a livello sintattico il costituente “e sopra” sarebbe annotato come “sintagma preposizionale”. Questa soluzione, oltre ad avere pesanti controindicazioni per l’annotazione automatica, non è praticabile nei casi in cui non esista alcuna forma omofona nella variante standard della lingua, come nel caso dell’esempio (4) più sopra. 2.3.1.2 Classi grammaticali caratteristiche del parlato e non dello scritto I tagsets sviluppati per la lingua scritta possono dover essere estesi per affrontare alcuni fenomeni tipici del parlato come marcatori discorsivi (ingl. well, right; it. ora, allora, ecc.), particelle pragmatiche, e vari tipi di avverbi, in particolare gli avverbi modali e di connessione), che sono fortemente associati con la lingua parlata. La maggior parte di queste forme potrebbe essere definita “avverbiale” in un senso molto generico, in quanto sono periferiche rispetto alla clausola o alla frase, ne sono separabili, e possono occorrere in posizioni diverse, in particolare in posizione iniziale o finale, in relazione a qualsiasi struttura grammaticale più ampia di cui sono parte. Queste forme tendono ad avere un ruolo importante nella segnalazione delle funzioni discorsive e quindi nel fornire dei criteri per la classificazione pragmatica degli enunciati (vedi anche cap. 4 in questa sezione). 2.3.1.2.1 Marcatori del discorso e particelle pragmatiche La lingua parlata è molto ricca di elementi lessicali la cui categorizzazione grammaticale taglia trasversalmente le categorie delle interiezioni, degli avverbi e delle congiunzioni e che assolvono una ricca gamma di funzioni pragmatiche. Queste vanno dalla segnalazione del particolare tipo di relazione, semantica, pragmatica o retorica, in cui una enunciazione sta con un’enunciazione precedente (allora, ma, comunque, perché ecc. all’inizio di turno o enunciazione), all’indicazione di valori epistemici e di atteggiamento (in realtà, voglio dire, …), dall’espressione di atteggiamenti E-44 Linea 1.1 – Dialoghi Annotati semi-convenzionali (ringraziamenti: grazie; forme di cortesia: per favore, prego, ..; saluti: arrivederci, ciao, buongiorno, …), all’espressione di funzioni di coordinamento dell’interazione dialogica, ad esempio per cedere il turno o richiederlo. Di fronte a questa varietà di funzioni sta una relativa uniformità di caratteristiche distribuzionali: si tratta infatti di forme periferiche rispetto alla clausola o alla frase, che possono occorrere isolatamente in un turno, grammaticalmente autonome oppure debolmente connesse a livello prosodico ad una struttura sintattica più ampia, in genere all’inizio o meno comunemente alla fine. La pratica corrente negli schemi di annotazione morfosintattica consiste nel ridistribuire queste forme fra le due categorie delle interiezioni e/o degli avverbi (vedi paragrafo successivo). In alternativa, è stata spesso avanzata in letteratura l’esigenza di creare una classe grammaticale autonoma, eventualmente sottoclassificata in categorie più specifiche. A questa categoria è stato spesso dato il nome di marcatori del discorso o connettivi. L’INTERNATIONAL CORPUS OF ENGLISH (Greenbaum & Ni 1996) ad esempio, possiede una categoria ad hoc denominata “connettivo”, ulteriormente classificata in “general connectives” e “appositive connectives”. I connettivi di tipo “generale” sono identificati in quelle forme usate per stabilire una relazione fra la clausola o frase corrente ed una o più clausole o frasi precedenti. Ad esempio: Finally, the candidates were criticised for ‘woolly answers’ CONNEC(ge) Also I note that the floor plan is grossly inaccurate CONNEC(ge) There are, however, a couple of obstacles to be overcome first CONNEC(ge) I connettivi di tipo appositivo sono invece rappresentati da forme che occorrono tra elementi in apposizione: Things like basketball and football are great exercise Other factors, such as lack of amenities, are also important The government resists all pressure groups particularly trade unions CONNEC(appos) CONNEC(appos) CONNEC(appos) In modo simile, il tagset del Corpus LONDON-LUND (Svartvik & Eeg-Olofsson 1982) prevede una ricca sottocategorizzazione all’interno della classe D (“discourse”), come mostrato nella tabella successiva: ETICHETTA DG CATEGORIA discourse SOTTOCATEGORIA greeting DI discourse initiator DL DN DO discourse discourse discourse attention no order DP DQ DR discourse discourse discourse politeness question response E-45 ESEMPIO good_afternoon, goodbye, hello, hi actually, anyhow, anyway, now, oh hey, look no come on, give over, shut up please right, eh, really I_see, I’m_sure, ok, ah aha, fine, good, oh, ooh, uhuh Linea 1.1 – Dialoghi Annotati DS DT DW DX DY discourse discourse discourse discourse discourse softener thanks well exemplifier yes I_mean, you_know, see thank_you, thanks well say mhm, yea, yep, yes, yup Tabella 2.1: La sottoclassificazione della classe morfosintattica “Discourse” in LONDON-LUND Questo approccio, sebbene interessante, ha però il difetto di ridurre notevolmente la possibilità di confronto fra annotazione morfosintattica dello scritto e del parlato, perché forme che compaiono anche nello scritto, sia pure con frequenza minore, verrebbero riclassificate in una nuova classe non prevista dal tagset morfosintattico per la lingua scritta. 2.3.1.2.2 Interiezioni ed Avverbi La categoria delle interiezioni nella lingua parlata può essere vista come molto più ampia e variegata di quanto normalmente concesso nella grammatica tradizionale. Questo non dovrebbe essere preoccupante dal momento che l’etimologia della parola suggerisce che si tratta di qualcosa “gettato” dentro, in un senso che si applica in modo più o meno felice a gran parte degli elementi descritti sopra. Si tratta di elementi grammaticali autonomi, capaci di occorrere da soli in un turno, oppure debolmente connessi da un punto di vista prosodico ad una struttura sintattica più ampia, in genere all’inizio o, meno comunemente, alla fine di un turno. La classe delle interiezioni è generalmente molto poco sviluppata nei tagsets di annotazione morfosintattica per la lingua scritta, come mostra anche la documentazione di EAGLES in cui non vengono raccomandate sottoclassificazioni. Tuttavia, l’analisi dei corpora di lingua parlata rivela un’alta frequenza di un numero si sottocategorie piuttosto chiare che sono anche relativamente distinte nella loro distribuzione sintattica e discorsiva. L’approccio normalmente adottato negli schemi di annotazione morfosintattica della lingua parlata è dunque quello di distinguere tra etichette diverse, intese come categorie più specifiche della categoria grammaticale prevista per le interiezioni. Questo approccio è stato ad esempio adottato da Sampson (1995) nella sua discussione dell’annotazione grammaticale della lingua inglese parlata. Nel corpus CHRISTINE (vedi Sampson, 1999), che rappresenta la realizzazione di quelle discussioni programmatiche, la categoria delle interiezioni è riccamente sottoclassificata, e comprende dalle interiezioni tradizionali (hey, ok, ecc.), a espressioni tradizionalmente classificate come avverbiali o verbali (excuse me, don’t worry, anyway). La tabella seguente riporta la classificazione usata in CHRISTINE: UA UB UE UG UI UL UK UN UP UR UT UW UX Apology Smooth-over Engager Greeting Initiator Response Elicitor Attention Signal Negative please Response Thanks well Expletive E-46 pardon, sorry, excuse_me don’t_worry, never_mind I_mean, mind_you, you_know hi, hello, good_morning anyway, however, now eh, what hey, look no as discourse marker fine, good, uhuh, OK, all_right thanks, thank_you as discourse marker damn, gosh, hell, good_heavens Linea 1.1 – Dialoghi Annotati UY Positive yes, yeah, yup, mhm Tabella 2.2: La sottoclassificazione della classe morfosintattica delle interiezioni in CHRISTINE Un approccio opposto è rappresentato ad esempio dal tagset dell’INTERNATIONAL CORPUS OF ENGLISH (Greenbaum & Ni 1996), dove la categoria delle interiezioni non è ulteriormente specificata, pur comprendendo esclamazioni e riempitivi di pause ed esitazioni. Un caso analogo è rappresentato dalla categoria degli avverbi. La categoria grammaticale degli avverbi rappresenta spesso una categoria “per tutti gli usi”, dove catalogare forme la cui attribuzione ad una classe grammaticale è spesso problematica. Di nuovo, i tagsets morfosintattici sviluppati per la lingua scritta non offrono una ricca classificazione degli avverbi. Le linee-guida di EAGLES, ad esempio, racchiudono semplicemente delle sottocategorie raccomandate per la forma base, comparativa e superlativa degli avverbi, e per gli avverbi interrogativi come quando, dove e come. L’occorrenza di forme avverbiali nella lingua parlata sembra tuttavia molto maggiore rispetto alla lingua scritta, per cui si presenta spesso la necessità di fornire una sottocategorizzazione più dettagliata degli avverbi rispetto a quella normalmente fornita nei tagset specificati per la lingua scritta. Ad esempio, i due schemi di annotazione per l’inglese che sono stati sviluppati per la lingua parlata, il corpus LONDON-LUND (Svartvik & Eeg-Olofsson 1982) e l’INTERNATIONAL CORPUS OF ENGLISH (Greenbaum & Ni, 1996) forniscono una classificazione dettagliata della categoria degli avverbi. La tabella seguente dà un’illustrazione delle possibili sottocategorizzazioni della categoria degli avverbi. ETICHETTA CATEGORIA SOTTOCATEGORIA ESEMPIO AB AB*VB+3 adverb adverb how, when, where, wherever, why how’s, when’s, where’s AB*VM+8 adverb AC adverb wh-word wh-word + verb “to be”, present tense, 3rd person singular wh-word + verb modal, ability closed class AC*VB+3 adverb AC+R adverb AC+T AE AF AG AH AI AM AN AP adverb adverb adverb adverb adverb adverb adverb adverb adverbial particle closed class, comparative closed class, superlative postpositional more most conjunct so very much not better, closer, earlier, easier, further, later, less, longer, … best ago, enough less, more or most so very much not about across along around away back behind down forward where’ll about abroad after afterwards again ahead all almost alone along also altogether always another any anyhow anymore anyway around away back backwards before beforehand besides ... closed class + verb "to here's be", present tense, 3rd person singular E-47 Linea 1.1 – Dialoghi Annotati in off on over past round through to together up a bit, a lot AQ adverb phrasal intensifier AR AS AT AW adverb adverb adverb adverb no as too open class AX AX*VB+3 adverb adverb AX*VB+4 adverb existential there + verb there’re "to be", present tense, 2nd person singular or all persons plural AX*VM+8 adverb existential there + verb, there’ll modal, ability AX*VM+9 adverb existential there + verb, there’d modal, suggestion AZ no as too absolutely, actually, administratively, apparently, artificially, badly, basically, beautifully, bitterly, briefly, casually, certainly, cleverly, closely, completely, conceivably, correctly, ... existential there there existential there + verb there’s "to be", present tense, 3rd person singular intensifier so that Tabella 2.3: Alcune sottocategorie avverbiali del LONDON-LUND CORPUS Questa lista incompleta non intende ovviamente essere esaustiva, ma serve per illustrare la diversità e l’importanza dei componenti avverbiali nel parlato, e la necessità di considerare attentamente la possibilità e/o necessità di aggiungere sottocategorie aggiuntive al tagset prima di intraprendere l’annotazione morfosintattica dei dati parlati. La tabella seguente illustra invece la classificazione della categoria avverbiale in uso nel tagset dell’INTERNATIONAL CORPUS OF ENGLISH (Greenbaum & Ni 1996): ETICHETTA CATEGORIA SOTTOCATEGORIA add excl ge adverb adverb adverb additive exclusive general ge, comp ge, sup inten partic adverb adverb adverb adverb general general intensifier particularizer SOTTO-SOTTOCAT. ELEMENTO comparative superlative E-48 O ESEMPIO both, neither, too only, merely, just often, recently, arguably, slowly, there, … faster fastest very, too, fairly mainly, at least, in Linea 1.1 – Dialoghi Annotati phras adverb phrasal rel adverb relative wh adverb wh- particular give up, look up, go on when, where, whereby, why how, when?, where Tabella 2.4: Le sottocategorie avverbiali dell’ INTERNATIONAL CORPUS OF ENGLISH Il gruppo sul parlato di EAGLES tuttavia avverte contro la difficoltà di effettuare queste sottocategorizzazioni, argomentando che gli avverbi costituiscono una classe grammaticale scarsamente organizzata in cui anche sotto-categorie ben note come tempo, luogo, grado e modo sono notoriamente difficile da distinguere in base a criteri univoci, e sicuramente ancor più difficile da riconoscere ed etichettare automaticamente. Il fenomeno delle interiezioni e degli avverbi illustra due ulteriori difficoltà che devono essere tenute presenti nell’annotazione dei dati parlati. Il primo problema è illustrato dalle diverse classificazioni che i due schemi citati attribuiscono alle stesse forme, che evidenzia il limite estremamente vago fra queste due categorie grammaticali periferiche. Si nota, infatti, come i due schemi siano inconsistenti tra loro relativamente alla classificazione di certe forme. Ad esempio, le stesse forme di saluto, di risposta e di cortesia sono classificate come interiezioni in CHRISTINE, e come avverbi nello schema LONDON-LUND. Il secondo problema è rappresentato dall’uso di queste categorie nell’annotazione: molte parole in queste classi occorrono in più di una categoria, tanto che la disambiguazione può essere estremamente problematica anche per un’annotazione manuale. Per esempio oh, classificato come un’esclamazione, in molti casi si comporta come un ‘discourse marker’, mentre okay, classificato come una forma di risposta, può anche occorrere in funzione di elicitatore di risposta e di ‘discourse marker’. Una è il confine estremamente incerto tra queste due categorie grammaticali periferiche. Si nota, ad esempio, che i due tagsets illustrati, quello di Sampson per il corpus CHRISTINE, e quello di EegOlofsson per il corpus LONDON-LUND, sono in qualche misura inconsistenti per quanto riguarda il punto in cui collocano il limite fra le due categorie: mentre Sampson colloca i saluti come goodbye, le forme di risposta come yes e le forme di cortesia come please tra le interiezioni, Svartvik e EegOlofsson li collocano tra gli avverbi. Un ulteriore problema di ordine teorico è che questo tipo di approccio a nostro parere ha il difetto di confondere l’annotazione morfosintattica con l’annotazione della funzione pragmatica, che dovrebbero invece essere mantenute distinte. Inoltre, a livello di annotazione inter-livello può essere interessante vedere quali diverse categorie grammaticali svolgano la stessa funzione pragmatica. Una proposta preliminare, avanzata dal gruppo di lavoro sul parlato di EAGLES, consiste nell’estendere l’uso della categoria interiezioni con le sottocategorie presentate nella tabella 2.4. ETICHETTA CATEGORIA ESEMPI I1 esclamazioni oh, ah, ooh I2 saluti hi, hello, bye I3 marcatori del discorso well, now, you know I4 attention signals hey, look, yo E-49 Linea 1.1 – Dialoghi Annotati I5 elicitatori di risposta huh? eh? I6 forme di risposta yeah, no, okay, uh-huh I7 esitatori, pause piene er, um I8 formule di cortesia thanks, sorry, please I9 espletivi God, hell, shit Tabella 2.5: Le sottocategorie proposte da EAGLES per la classe delle interiezioni Queste sottocategorie coprono i principali fenomeni di interiezione che occorrono nella lingua inglese. E’ necessario comunque sottolineare il fatto che l’uso di queste sottocategorie non è senza problemi: molte delle parole che ricadono in queste classi occorrono in più di una sottocategoria, così che l’ambiguità può essere insostenibile per l’annotazione automatica o addirittura per quella manuale. Per esempio, oh, che è classificata come un’esclamazione, in molti casi si comporta come un marcatore del discorso; okay, classificato come una forma di risposta, può anche occorrere come un elicitatore di risposta e come un marcatore del discorso. Una soluzione alternativa, anch’essa proposta in Gibbon (1999), consiste nel sostenere che i diversi tipi di interiezioni e/o avverbi identificati in realtà differiscono sul piano funzionale, e che quindi queste distinzioni non sono di pertinenza dell’annotazione morfosintattica ma bensì del livello pragmatico. Al livello morfosintattico può essere sufficiente una classificazione lasca tra congiunzioni, particelle modali e marcatori discorsivi, eventualmente con l’inserimento di categorie polilessicali per alcune espressioni idiomatiche. 2.3.2 Annotazione sintattica della lingua parlata L’annotazione sintattica ha finora preso la forma dello sviluppo di treebanks (vedi Leech & Garside, 1991; Marcos-Marìn et al. 1993), ovvero corpora in cui ad ogni frase è associata una struttura (talora parziale) ad albero. Le treebanks sono in genere costruite sulla base di un modello di struttura a costituenti (Garside et al. 1997), ma sono stati applicati anche modelli a dipendenze, specialmente da Karlsson e colleghi (Karlsson et al. 1995). L’annotazione sintattica della lingua parlata costituisce tuttavia una esperienza molto recente. Un documento prodotto da EAGLES (Leech et al. 1996) propone alcune linee-guida provvisorie per l’annotazione sintattica, omettendo tuttavia di affrontare i particolari problemi presentati dall’annotazione sintattica del parlato, pur riconoscendoli. In modo analogo a quanto successo per l’annotazione morfosintattica, il crescente numero di corpora di parlato ha messo in evidenza la necessità e le difficoltà di adattare alla lingua parlata i tagsets sviluppati per lo scritto, demolendo l’aspettativa che l’annotazione sintattica del parlato potesse essere condotta non problematicamente con gli stessi strumenti adottati per lo scritto. In particolare, segnaliamo cinque sforzi orientati in questo senso: • la treebank del BRITISH NATIONAL CORPUS, UCREL, Lancaster (vedi Eyes 1996) • il corpus di PENN TREEBANK (Marcus et al. 1993) • il corpus CHRISTINE (Sampson 1995; 1999) • l’INTERNATIONAL CORPUS OF ENGLISH (Greenbaum, 1996; Nelson, 1996) E-50 Linea 1.1 – Dialoghi Annotati • lo schema di annotazione per il livello sintattico sviluppato nell’ambito del progetto MATE (Klein et al. 1998) 2.3.2.1 Annotazione sintattica dei fenomeni di disfluenza Come per l’annotazione morfosintattica, i principali fenomeni che coinvolgono l’adattamento dell’annotazione sintattica riguardano i fenomeni di disfluenza. I fenomeni principali, in particolare, sono: • uso di segnali di esitazione o pause piene • incompletezze sintattiche • sequenze di correzione • ripetizioni • anacoluti sintattici • interiezioni e marcatori del discorso Altri aspetti significativi sono: • identificazione dell’unità sintattica massima • presenza di enunciati predicativi a testa non verbale • presenza di enunciati formati da unità sintattiche dai confini incerti Nel considerare le soluzioni adottate a fronte di questi fenomeni, faremo riferimento soprattutto alle soluzioni adottate in CHRISTINE, UCREL e MATE. Le altre iniziative, infatti, hanno adottato un approccio diverso, che aggira il problema dell’annotazione sintattica dei fenomeni tipici del parlato, ovvero hanno adottato degli schemi che annotano esplicitamente le disfluenze. Questo permette, se necessario, di escludere i fenomeni annotati dal materiale annotato a livello sintattico, applicando l’annotazione sintattica esclusivamente ad una versione normalizzata dei dati. Questa versione normalizzata può essere rappresentata congiuntamente ad una registrazione del materiale disfluente, ad esempio mediante l’uso di meccanismi di mark-up come quelli adottati in TEI (etichette di cancellazione o regolarizzazione). D’altra parte, l’approccio di Sampson in CHRISTINE, di UCREL e MATE consiste nell’includere il materiale disfluente nel materiale annotato sintatticamente, per mezzo di un insieme di criteri appositi. 2.3.2.1.1 Uso di segnali di esitazione o pause piene I segnali di esitazione o pause piene possono essere trattati in modo relativamente non problematico equiparandoli alle pause vuote. Nell’annotazione sintattica dei corpora di lingua scritta, in genere, i segnali di punteggiatura sono incorporati nell’albero sintattico, e sono trattati come costituenti terminali alla stessa stregua delle parole. Questa rappresenta una strategia utile per l’addestramento di analizzatori sintattici, poiché i segnali di punteggiatura in genere marcano i confini sintattici di una qualche importanza. In modo analogo, per la lingua parlata, è vantaggioso adottare la stessa strategia, e trattare i segnali di pause alla stessa stregua della punteggiatura, come se si trattasse di “parole” nell’analisi di un’enunciazione parlata. La strategia adottata in UCREL e CHRISTINE è quella di attaccare i segni di punteggiatura il più in alto possibile nell’albero sintattico; essi sono cioè trattati come costituenti immediati del costituente più piccolo di cui le parole alla E-51 Linea 1.1 – Dialoghi Annotati sinistra e alla destra sono costituenti. Questo approccio può essere esteso facilmente ai segnali di esitazione, interpretati come fenomeni di pausa vocalizzata. 2.3.2.1.2 Incompletezze sintattiche Le incompletezze sintattiche si verificano in tutti quei casi in cui un parlante non completa una enunciazione, a causa vuoi di una interruzione spontanea (eventualmente motivata dall’esigenza metalinguistica di usare un’espressione più chiara o appropriata), vuoi di una qualsiasi altra corruzione del processo di produzione, come nel caso dell’interruzione da parte di un altro parlante. A livello sintattico si presenta dunque il problema dell’annotazione di frammenti di costituenti non terminali, dove un costituente è interrotto prima del suo completamento: <pause> [NP you NP] [VP ‘re [NP/ a British NP/]V] <pause> Questo esempio, tratto dallo schema di annotazione del BRITISH NATIONAL CORPUS, illustra l’uso di un simbolo speciale (/, che segue l’etichetta del costituente non terminale) per indicare che il costituente è incompleto. Nello schema di CHRISTINE, invece, viene utilizzato un segnale per indicare il punto dell’interruzione; il simbolo di interruzione viene considerato un costituente immediato del nodo frasale che domina l’intera sequenza: [S [Nea:s I ] [Vc must have ] [N:o the ] # [Vc must get ] [Ns:o the ticket ] S ] Si noti inoltre come secondo queste due strategie venga comunque assegnata una categoria sintattica al costituente interrotto, posto che il tipo di sintagma sia sufficientemente chiaro, anche se le parole di fatto enunciate non giustificherebbero di per sé l’assegnazione di una categoria. Nell’esempio di CHRISTINE, la parola the viene etichettata come costituente nominale, sebbene questa parola isolata non verrebbe mai considerata un costituente nominale. Il principio generale consiste infatti nel cercare di assegnare alla sequenza analizzata la struttura che avrebbe avuto se il costituente fosse stato completato, con lo stesso numero di nodi etichettati con le stesse categorie principali. E’ evidente come questo tipo di approccio implichi in molti casi un grado considerevole di arbitrarietà, dal momento che non è mai possibile supplire l’elemento mancante con assoluta certezza. Questo fenomeno illustra una caratteristica del parlato che è estremamente problematica per gli approcci tradizionali basati su un’analisi sintattica a costituenti incassati. Per un tipo di approccio che adotta invece un’analisi sintattica a costituenti immediati non ricorsivi come quello adottato in MATE 4 , che non implica il controllo di consistenza dei livelli di incassamento strutturale ad un livello superiore a quello dei costituenti identificati, i costituenti parziali o interrotti non rappresentano un caso problematico. La struttura incompleta viene segnalata come un costituente (erroneo) di categoria sconosciuta, ma nulla viene detto sulla relazione tra la struttura appena individuata e il testo che segue. Il costituente sconosciuto si chiude di fronte alla prima parola del testo incompatibile con l’analisi in corso, lasciando naturalmente fuori quest’ultima. Da questo punto del testo in avanti l’analisi riprende markovianamente da zero, cioè senza memoria del fallimento appena incontrato. L’analisi di una enunciazione con costituente interrotto sarebbe dunque analizzata come segue: 4 Per una trattazione dettagliata dell’analisi sintattica a costituenti immediati, vedi oltre il paragrafo relativo alle specifiche di annotazione sintattica: parte II, par. 3.3. E-52 Linea 1.1 – Dialoghi Annotati [ SV descrivigli] [SX un ] [ SX ce+ ] [ SN un mezzo cerchio ] In questo caso, il fallimento dell’analisi è ben localizzato nei due costituenti non riconosciuti (ed annotati come SX) con il vantaggio sia di non pregiudicare le analisi successive al punto in cui il fallimento è avvenuto, sia di evitare di introdurre un grado eccessivo di arbitrarietà nell’analisi, come implicato invece dal fornire un completamento del costituente. 2.3.2.1.3 Sequenze di correzione Le sequenze di correzione, dette anche “false partenze” occorrono quando un parlante “interrompe” il processo di produzione interrompendo la costruzione del costituente corrente, ritorna ad un punto precedente della stessa enunciazione e ricomincia da capo la formulazione dell’enunciato. Un esempio è il caso seguente, dove il segmento enunciato fino al punto di interruzione (segnalato dal simbolo / ) è “corretto” dal segmento che segue l’interruzione: vicino c'e' una paro+ / vicino c'e' una figura che si chiama abeti ? In CHRISTINE, l’annotazione di questa classe di fenomeni adotta una strategia simile a quella sviluppata per l’annotazione dei segmenti interrotti (di fatto, la sequenza di correzione è un caso speciale di costituente interrotto). Il punto di interruzione viene segnalato mediante il simbolo #, e le sequenze che lo precedono e lo seguono vengono entrambe incluse nel costituente immediatamente superiore: and that [NPs any bonus [RELCL he ] # money [RELCL he gets over that ] ] is a bonus Come si può notare, in un’analisi a costituenti classica si pone il problema se espungere la sequenza soggetta a correzione o riformulazione, oppure se inglobarla nella più ampia struttura della correzione. Nella maggioranza dei casi, tuttavia, le sequenze di correzione sono individuate ed annotate in fase preliminare ed eventualmente espunte dall’annotazione sintattica vera e propria, eliminando il segmento interrotto e lasciando soltanto il segmento che corregge quello precedente. E’ questo l’approccio adottato per esempio in PENN TREEBANK, dove è stato sviluppato un dettagliato manuale per l’annotazione di questo ed altri tipi di disfluenze (vedi Meeter et al. 1995). In MATE è stato invece adottato un approccio solo apparentemente simile ad un approccio normalizzante: le false partenze e le sequenze di correzione vengono infatti annotate ad un livello di pre-elaborazione del testo, ma in questo caso lo scopo non consiste nella successiva eliminazione del materiale disfluente, bensì nell’annotazione di informazione strutturale che non è di stretta pertinenza dell’annotazione sintattica ma di cui è comunque utile poter disporre. A livello sintattico viene dunque annotata tutta la struttura, e gli eventuali costituenti interrotti sono etichettati secondo le modalità descritte nel paragrafo precedente. 2.3.2.1.4 Ripetizioni La ripetizione, come manifestazione di disfluenza, occorre quando il parlante mostra esitazione ripetendo la stessa parola o la stessa sequenza di parole prima di procedere con il normale processo di produzione. Un esempio è rappresentato dal caso seguente: E-53 Linea 1.1 – Dialoghi Annotati va bene va bene allora passa <pb> passa <pl> tra … Per l’annotazione di questa classe di fenomeni, in CHRISTINE viene usata la stessa strategia adottata per i segmenti incompleti, ovvero come un caso speciale di sequenza di correzione: [O Oh [S [NP I ] [VP don’t think ] # [NP I ] [VP don’t think ] [NCL I ever went to see mine ] S] O] In generale, per questa classe di fenomeni valgono le considerazioni fatte al paragrafo precedente. 2.3.2.1.5 Anacoluti sintattici Nel parlato si verifica di frequente il caso in cui il parlante cambia il corso del suo pensiero, non completando la costruzione sintattica con cui ha iniziato l’enunciazione, e sostituendola con una costruzione alternativa. In molti casi si assiste addirittura ad una produzione che è sintatticamente incoerente. Il fenomeno è simile a quello delle correzioni, ma senza un “punto di interruzione”. Le parole sono strutturate in una sequenza tale che, se una finestra di dimensioni limitate venisse spostata lungo di essa, le parole all’interno della finestra in qualsiasi punto sembrerebbero essere coerenti in quanto parte di una struttura grammaticale normale, ma una tale struttura non può essere imposta alla sequenza nel suo complesso. Un esempio, tratto dal BRITISH NATIONAL CORPUS, è il seguente: and this is what the, the <unclear> what’s name now now <pause> that when it’s opened in nineteen ninety-two <pause> the communist block will be able to come through Germany this way in. In questa enunciazione, presentata come una frase unica, vi sono tre sequenze di parole tra le quali non esiste un costituente sovraordinato comune; in questo caso lo schema del BRITISH NATIONAL CORPUS adotta un’analisi minimale, detta anche “principio di minimizzazione strutturale” (il simbolo # è aggiunto per indicare i punti di interruzione): [and this is what the #, the <unclear> ] [ what’s name now # now ] # <pause> [ that when it’s opened in nineteen ninety-two <pause> the communist block will be able to come through Germany this way in ] . Il principio di minimizzazione strutturale specifica che un’annotazione non dovrebbe contenere più informazione di quanto sia consentito derivare dal contesto. In tal modo si raggiunge anche un certo grado di neutralità teorica, in quanto si evita che lo stesso testo venga analizzato in modi difformi, a seconda della diversa struttura sintattica che analisti differenti possono attribuire alla sequenza. Nell’esempio precedente non è possibile essere ragionevolmente sicuri nell’attribuzione di un tipo o un altro di segmentazione; analogamente, può essere ritenuto arbitrario attribuire a questi segmenti delle particolari etichette sintattiche: per questo motivo l’analisi sintattica è solo parziale. Di contro, l’approccio adottato da Sampson in CHRISTINE per il trattamento di questa classe di fenomeni consiste nel cercare di attribuire comunque una struttura, anche se questo implica E-54 Linea 1.1 – Dialoghi Annotati assumere delle decisioni arbitrarie5 . E’ evidente infatti come questa classe di fenomeni resista all’analisi in termini di diagrammi di costituenza ad albero (o parentesizzazione etichettata); come sarà mostrato in dettaglio nella parte di questo capitolo dedicata alle specifiche di annotazione (parte II, sez. II, par. 3.3), l’analisi sintattica a costituenti immediati, come quella proposta nello schema di annotazione di MATE, permette di aggirare agevolmente il problema. 2.3.2.1.6 Segmenti inintelligibili Un altro problema, connesso a quello dell’incompletezza sintattica, si verifica nel parlato quando le circostanze della produzione o della registrazione lasciano dei passaggi non chiari o inintelligibili. Il trattamento generale di questo fenomeno è parallelo a quello adottato per i costituenti incompleti. In CHRISTINE, ad esempio, si consente l’annotazione di segmenti non udibili o non chiari mediante la formulazione di un insieme di regole di annotazione che indicano come derivare un albero sintattico nei casi in cui la presenza di segmenti non udibili implica la non conoscibilità del corretto albero sintattico per quella enunciazione. Così come viene introdotto un simbolo # per segnalare un punto di interruzione, viene introdotto un simbolo ad hoc <unclear> per segnalare il punto in cui l’analisi sintattica non può essere eseguita per motivi di inintelligibilità. Le modalità adottate sono le seguenti: • ogni entità {unclear} riceve l’etichetta YY • ogni entità di questo tipo è dominata immediatamente da un nodo non terminale a cui è associata l’etichetta speciale Y. Questo nodo può anche dominare parole chiaramente udibile prima e/o dopo la parte non chiara, in conformità con la regola seguente; • le parole udibili che precedono il segmento non udibile sono dominate dal nodo Y solo se appartengono chiaramente ad un sintagma la cui categoria è sconosciuta a causa del segmento non udibile. Ciò significa che delle parole in questa posizione di solito non saranno incluse sotto Y, perché i sintagmi in genere hanno delle parole caratteristiche che li introducono. Ad esempio, the {unclear} sarà un SN, e la struttura sarà [N the [Y {unclear}] ], e non [Y the {unclear}]. Tuttavia, and {unclear} saranno raggruppati insieme sotto un nodo Y+, perché and è associato con quanto segue ma la categoria sintattica del sintagma dipende interamente dalla parola mancante. • le parole udibili che seguono il segmento non udibile e tutte le etichette di sintagma che dominano quelle parole, sono poste sotto la Y se potessero anche essere dominate da qualche sintagma sconosciuto che domina alcune delle parole non udibile, anche se potrebbe benissimo non essere così. Di conseguenza, quando una “linea” di nodi da una parola chiara su fino ad un nodo radice include in qualche punto un nodo Y, l’annotazione non equivale ad affermare che la parola fa sicuramente parte della struttura al di sotto di quella radice. 5 Sampson, pur osservando le difficoltà imposte all’analisi sintattica a costituenti da questa classe di fenomeni conclude: “However, we have found no way of annotating Markovian sequences other than by imposing an arbitrary division and treating the hinge element as belonging to one of the constructions to which it is adjacent and not to the other. (…) Constituency analysis is so solidly established as the appropriate formalism for representing naturallanguage structure in general that is seems impractical to think of abandoning it, merely in order to deal with one special type of speech repair” (1999: 41). E-55 Linea 1.1 – Dialoghi Annotati 2.3.2.1.7 Difficoltà di segmentazione La sintassi della lingua parlata può sembrare frammentaria o incompleta per ragioni diverse dalla disfluenza o dall’inintelligibilità. Uno dei motivi principali è che la frase canonica della lingua scritta, intesa come struttura che contenga almeno un verbo finito, è ben lontana dall’essere una base soddisfacente per la segmentazione del parlato in unità sintattiche indipendenti. Una percentuale consistente delle unità sintattiche del parlato, ed in particolare del parlato dialogico, non contengono un verbo finito; molte sono enunciazioni contenenti una sola parola, che spesso è un’interiezione. Dal punto di vista di un’analisi sintattica a costituenti, il problema delle frasi a testa non verbale, o dalla testa verbale ellittica, rappresenta una seria difficoltà per quei sistemi a regole che presuppongono una struttura frasale canonica del tipo F → SN SV. La pratica corrente nella compilazione delle treebanks è spesso stata quella di usare la parentesizzazione (convenzionalmente [S … S]) per racchiudere l’intera unità analizzabile, senza fare tuttavia assunzioni relativamente a ciò che occorre all’interno di quelle parentesi debba avere la struttura di una frase canonica. Così una unità sintagmatica autonoma come “nessun problema” dovrebbe essere analizzata semplicemente come [S [N nessun problema N ] S]. Le parentesi più esterne possono essere interpretate come “frase” o “segmento sintattico”, a seconda delle preferenze dell’annotatore. In EAGLES (Gibbon, 1999) si raccomanda l’uso del termine C-UNIT per indicare qualsiasi segmento analizzato come [S … S] che non sia parte di un’altra struttura [S … S]. Lo schema di annotazione di CHRISTINE si conforma a questa pratica, costruendo almeno un albero sintattico autonomo per ogni turno di parola, a prescindere dal fatto che sia o meno contenuta una struttura canonica di frase del tipo F → SN SV . L’annotazione sintattica a costituenti non ricorsivi adottata in MATE, che, lo ricordiamo, non implica la costruzione di strutture di livello superiore a quello dei costituenti non ricorsivi, si limita invece a prendere atto del fatto che in un’espressione come “da domani dieta” esiste un costituente avverbiale “da domani” immediatamente seguito da un costituente nominale “dieta”. Un secondo problema è rappresentato dal fatto che è in ogni caso difficile stabilire dei criteri per identificare una C-UNIT, che possono dover appoggiarsi su confini prosodici (per esempio il limite di un gruppo tonale maggiore o di un sintagma intonativo). Infine, nel parlato dialogico vi sono turni di enunciazioni in cui un parlante completa una costruzione sintattica iniziata da un altro parlante. Il gruppo di EAGLES (Gibbon, 1999) avverte che sembrano esservi quattro metodi per segmentare un dialogo in C-UNITS: 1. con criteri interni alla sintassi: due unità analizzabili sono considerate indipendenti se nessun legame sintattico può essere stabilito in modo plausibile fra di esse. Questa soluzione non risolve tuttavia il secondo problema individuato sopra. 2. con criteri prosodici, o esclusivamente o in congiunzione con criteri sintattici. Questa soluzione dipende ovviamente dall’esistenza e dalla qualità di un livello di annotazione prosodica. 3. con criteri ortografici: i segnali di punteggiatura (in particolare i punti e i punti interrogativi) sono trattati come segnali di confine sintattico. Questo rappresenta il metodo più semplice se si assume che la trascrizione abbia dei segnali di punteggiatura. Tuttavia è anche il metodo più arbitrario, poiché i segnali di punteggiatura sono artefatti della trascrizione e sono di fatto evitati nella maggior parte delle recenti pratiche di trascrizione del parlato. 4. con criteri pragmatici, funzionali o discorsivi. A parte i limiti di turno, che sono senza dubbio il delimitatore più chiaro che può essere usato per l’analisi sintattica, i criteri pragmatici o E-56 Linea 1.1 – Dialoghi Annotati discorsivi non sono probabilmente più chiari di quelli sintattici. Tuttavia, nello sviluppo di sistemi di dialogo in ingegneria del linguaggio è stato speso uno sforzo considerevole nel riconoscimento di segmenti definiti funzionalmente corrispondenti ad atti dialogici (vedi oltre, paragrafo 4). Inoltre, in questo contesto, l’importanza dell’annotazione sintattica consiste nel facilitare il riconoscimento automatico e la delimitazione di queste unità funzionali, più che nell’analisi in sé e per sé. Di conseguenza è ancora tutta da esplorare l’opportunità di utilizzare dei criteri funzionali come mezzo più affidabile per la segmentazione di dialoghi in unità da analizzare sintatticamente. 2.4 Raccomandazioni preliminari L’annotazione sintattica della lingua parlata è tuttora ad uno stadio ancora molto pionieristico, e le strategie illustrate nelle pagine precedenti devono essere considerate come preliminari ed incomplete. Premesso questo, è importante notare due cose. La prima è che esiste una serie di fenomeni che necessita di strategie precise e particolari di annotazione. La seconda è che è probabilmente possibile fare uso di schemi di annotazione in uso per l’annotazione della lingua scritta, purché opportunamente estesi ed adattati. I due metodi principali usati, quello normalizzante che esclude i fenomeni di disfluenza e quello che estende l’annotazione sintattica includendo anche le disfluenze, hanno dei vantaggi complementari. L’approccio normalizzante consente ai dati parlati di essere analizzati automaticamente con relativamente poca necessità di adattare il software per l’input parlato spontaneo, poiché i fenomeni di rumore possono essere eliminati. L’approccio inclusivo è preferibile nella misura in cui fornisce delle informazioni sintattiche anche per le incompletezze ed i fenomeni di repair. Infine, si è visto un terzo approccio all’analisi sintattica del parlato che si discosta dagli approcci tradizionali in quanto anziché basarsi su un’analisi sintattica completa adotta un’analisi parziale in costituenti immediati. Questa pratica ha l’evidente vantaggio, come è stato mostrato in molti dei casi esemplificati nelle pagine precedenti, di limitare l’annotazione a quell’informazione che è sicuramente derivabile in base al contesto disponibile, senza assumere decisioni arbitrarie. Come ultima considerazione, pare opportuno che qualsiasi scelta venga effettuata per l’annotazione morfosintattica e sintattica del parlato si conformi quanto più possibile alle raccomandazioni e alle indicazioni di best-practice espresse nell’ambito di progetti di standardizzazione a vasto spettro quale, per tutti, il progetto EAGLES. E-57 Linea 1.1 – Dialoghi Annotati 3 Livello concettuale E-58 Linea 1.1 – Dialoghi Annotati Questo capitolo è dedicato ad un livello, detto livello semantico-concettuale o concettuale, molto usato nelle applicazioni di dialogo basate sul linguaggio parlato. Dopo un’introduzione in cui si richiamano per sommi capi le definizioni e i principali punti di discussione, vengono presi in considerazione i principali schemi di annotazione per questo livello. Infine, essi vengono confrontati e discussi. 3.1 Introduzione In numerose applicazioni automatiche riguardanti il dialogo, siano esse di dialogo uomo-uomo o uomo-macchina, è stato introdotto un livello di annotazione concettuale, riguardante cioè alcuni concetti che sono necessari a quella particolare applicazione. Nel caso di richieste di informazioni riguardanti i voli aerei, ad esempio, è necessario estrarre dalla frase informazioni riguardanti espressioni temporali, indicazione di luogo – città di partenza e di arrivo – e altre informazioni legate al dominio. Le risorse concettuali usate in questi casi dai sistemi di dialogo orale normalmente differiscono a seconda del dominio di applicazione del sistema e delle strategie di analisi che vengono utilizzate. La maggior parte dei moduli di analisi dei sistemi di dialogo orale si basa su due componenti separate: una componente grammaticale per il livello sintattico; e una componente basata su conoscenze da usarsi per la costruzione di una rappresentazione semantica del contenuto informativo degli enunciati. Queste conoscenze sono normalmente utilizzate per analizzare gli enunciati dell’utente (tra gli schemi analizzati soltanto quello sviluppato per il sistema Verbmobil possiede un componente di generazione–semantico e sintattico, molto dettagliato). A livello sintattico la maggior parte delle grammatiche utilizza informazioni di natura morfosintattica (per esempio, informazioni di concordanza morfosintattica e di struttura in costituenti o chunking dell’enunciato analizzato) (vedi sezione II, par. 3). Queste informazioni sono rilevanti sia quando il modello di parsing adottato nel modulo linguistico tenda ad un’analisi completa dell’input, sia quando si segua una metodologia di parsing parziale e si analizzino nel dettaglio soltanto alcune porzioni (isole) dell’enunciato. Inoltre anche alcune metodologie di analisi linguistica, largamente usate nei sistemi di dialogo orale ‘task-oriented’, quali quelle basate sul completamento di frames (derivati da aspettative lessicali o pragmatiche) traggono le informazioni necessarie ad eseguire il completamento dai chunks, o costituenti, rilevanti. Nell’analizzare gli enunciati in ingresso la fase di analisi morfosintattica costituisce il primo passo verso l’obiettivo di assegnare una rappresentazione più astratta dell’enunciato dell’utente. Mentre le etichette che identificano gli oggetti del discorso (i concetti) sono strettamente dipendenti dal dominio di applicazione, le rappresentazioni semantiche adottate da molti sistemi di dialogo orale trovano un denominatore comune nelle strutture predicato-argomento. Per esempio, i sistemi di dialogo orale sviluppati all’interno del progetto europeo ARISE, il sistema Verbmobil e le rappresentazioni generate nel sistema WAXHOLM utilizzano questo stile di rappresentazione semantica. Spesso le strutture predicato-argomento sono arricchite da etichette che identificano relazioni semantiche o ruoli tematici (come “scopo”, “destinazione”, “tema”, “agente”, ecc). Queste caratterizzazioni sono strettamente dipendenti dal dominio di applicazione e sono spesso selezionate in base alle predizioni del sistema di dialogo. E-59 Linea 1.1 – Dialoghi Annotati La lista dei concetti da considerare è invece strettamente dipendente dal dominio. Per portare uno schema di annotazione da un dominio all’altro è necessario prevedere l’insieme di tutti e soli i concetti che riguardano quel dominio. A questo proposito, merita di essere menzionato il problema dell’intersezione di domini diversi. In alcuni casi, infatti, uno stesso dialogo può coprire domini diversi. Vi sono diversi casi possibili, ma i due estremi sono: è possibile trovare una partizione del dialogo in diverse parti (sotto-dialoghi), composte da turni completi, ciascuna riferita ad un dominio diverso, oppure non è possibile trovare tale partizione. Nel secondo caso, il più generale, esistono dei turni in cui sono espressi concetti relativi a più domini. Il problema può essere espresso più in generale su cosa fare di quei concetti che pur espressi nel turno non sono utili all’applicazione, o perchè fuori dominio, o perché successivamente ripetuti e/o corretti. In quest’ottica, la specifica applicazione determina anche la rilevanza dei vari concetti: quali concetti sono rilevanti e quindi da annotare. Applicazioni diverse possono richiedere l’estrazione di concetti diversi. Anche lo schema di annotazione potrà dunque essere più o meno portabile tra le varie applicazioni, quanto più è in grado di gestire le esigenze di applicazioni diverse. Come per altri livelli di analisi (lessico, morfologia, dialogo) anche nel caso della rappresentazione semantica l’utilizzo di corpora costuituisce una fonte preziosa di informazioni da utilizzarsi sia come corpus di test per verificare la copertura sintattico-semantica dei sistemi di dialogo orale, sia per ricavare informazioni quantitative da usarsi nei componenti statistici di tali sistemi. Anche in questo caso la dipendenza del dominio di applicazione è assai elevata, e quasi sempre l’annotazione dei corpora riflette l’insieme di fenomeni e relazioni semantiche rilevanti per quel dato dominio. 3.2 Criteri utilizzati per il confronto degli schemi Il confronto tra i vari schemi di annotazione verrà effettuato rispetto a varie dimensioni che hanno lo scopo globale di valutare: • l'applicabilità dello schema nel caso di linguaggio parlato • l'adeguatezza dello schema ad essere proposto come standard. Per quel che riguarda invece la possibilità di generalizzazione dei vari schemi, questo appare un fattore particolarmente critico nel caso del livello concettuale, in cui la dipendenza non solo dal dominio, ma addirittura dalla definizione viene assunta per definizione. Occorrerà quindi valutare la facilità nel portare ogni schema su domini e applicazioni diverse da quelle per cui è stato progettato. Il fatto di usare lo schema per annotare dei dialoghi orali influisce non solo su alcune peculiarità del linguaggio parlato rispetto al linguaggio scritto, ma anche su alcuni degli scopi a cui un corpus annotato è destinato. Infatti, l’analisi automatica del parlato si fonda in larga misura su metodi statistici. Pare dunque opportuno valutare anche l’adeguatezza degli schemi di annotazione adottati alla definizione e identificazione di modelli statistici. La valutazione dei vari parametri si basa sulla documentazione disponibile per i vari schemi. Per la maggior parte di loro, ci si può basare solo sull'esperienza degli autori. Dove possibile, però, la valutazione si baserà su evidenze misurabili, come ad esempio, l’aver portato lo schema su domini diversi nella valutazione della portabilità su domini diversi, e sull’esame dei criteri di progetto, laddove ne sia disponibile documentazione. 1. Fenomeni Annotati: lista dei concetti previsti dall’annotazione, anche se limitata al particolare dominio su cui l’annotazione è stata definita. E-60 Linea 1.1 – Dialoghi Annotati 2. Grado di copertura: una valutazione della percentuale di concetti rilevanti per il dominio annotati; la rilevanza per il dominio dovrebbe qui essere valutata a prescindere dalla particolare applicazione, in modo da poter dare un punteggio sulla riusabilità dell'annotazione in applicazioni diverse. 3. Usabilità e perspicuità: si riferisce alla possibilità di avere intersezione non vuota tra annotazioni di fenomeni diversi, in modo da ridurre il più possibile i casi dubbi in cui l’annotatore deve soffermarsi. Questo parametro influisce anche sulla possibile analisi del corpus prodotto con metodi statistici, visto che l’intersezione tra fenomeni diversi introduce rumore nella stima di distribuzioni di probabilità sugli spazi corrispondenti. 4. Documentazione: la presenza di un manuale di annotazione chiaro e di facile utilizzo facilita le operazioni di annotazione e migliora l’affidabilità del risultato. 5. Consistenza: questo parametro si riferisce non solo all’assenza di contraddizioni tra fenomeni annotati, ma al “grado di continuità” dell’annotazione, nel senso che a fenomeni simili dovrebbero corrispondere annotazioni simili. Anche in questo caso, la consistenza generalizzata in questo modo risulta particolarmente importante nel caso di analisi statistiche, in quanto permette di scegliere tra partizioni di interesse nello spazio di probabilità. Nella tabella sinottica, i due aspetti di non contradditorietà e di continuità verranno considerati separatamente. 6. Grado di portabilità su lingue diverse: questo parametro influisce molto sulla possibilità di proporre lo schema come standard internazionale. 7. Grado di portabilità su domini diversi: come sopra. 8. Grado di portabilità su applicazioni diverse: come sopra. 9. Puntatori alla sottostringa corrispondente ad ogni fenomeno annotato 10. Adeguatezza alla codifica del parlato Non sono stati considerati invece: 1. Neutralità teorica 2. Conformità agli standard esistenti: non ci sono noti standard per questo livello, che è tipicamente molto legato all’applicazione specifica. Le principali applicazioni che ci sono note sono la richiesta di informazioni nel caso di dialoghi uomo/macchina, risolta con l'accesso ad una base di dati e applicazioni di traduzione nel caso di dialoghi uomo-uomo. 3.3 Indice degli schemi di annotazione esaminati Sono stati esaminati quattro schemi per l'annotazione concettuale: 1. ATIS, usato per l'annotazione di una serie di dialoghi uomo/macchina per accesso a informazioni su voli aerei; 2. VERBMOBIL, usato per annotare una raccolta di dialoghi uomo-uomo nel dominio della negoziazione di appuntamenti e delle informazioni turistiche; E-61 Linea 1.1 – Dialoghi Annotati 3. COCONUT, usato per annotare una raccolta di dialoghi uomo/uomo mediati dalla macchina con l'obiettivo di concordare l'acquisto di mobili per l'arredamento di due locali; è l'unico caso in cui lo schema non è stato progettato per l'annotazione del parlato, bensì dello scritto; 4. C-Star, usato per annotare una raccolta di dialoghi uomo/uomo nel dominio delle prenotazioni alberghiere, dei trasporti e delle informazioni turistiche. 3.3.1 ATIS Schema adottato per dialoghi uomo-macchina nel dominio delle informazioni riguardanti voli aerei e per applicazioni di accesso a basi di dati. L'annotazione è una interrogazione SQL (Standard Query Language), in cui i vincoli espressi nell'interrogazione corrispondono ai concetti. 3.3.1.1 Fenomeni annotati Vengono annotati tutti i fenomeni utili alla formulazione dell'interrogazione alla base di dati. Ne viene annotata la presenza nella frase, ma senza riferimento alla sottostringa corrispondente al concetto. I possibili valori da associare ad ogni concetto corrispondono a tutti e soli i valori presenti nella base di dati. Viene trattato in modo particolare il caso in cui la richiesta riguardi il valore del concetto corrispondente: in questo caso, infatti, la posizione del concetto cambia posizione nell'interrogazione SQL, da vincolo ad argomento del select. Un’altra interpretazione potrebbe considerare come concetti la combinazione tabella-colonna, ma in quel caso si perde la fattorizzazione. D’altra parte non c’è possibilità di formulare una richiesta senza sapere a quale tabella accedere. Va considerato quello che si usa direttamente nell’annotazione. 109 concetti: advance_purchase aircraft_code aircraft_code_sequence aircraft_description airline_code airline_flight airline_name airport_code airport_location airport_name application arrival_airline arrival_flight_number E-62 Linea 1.1 – Dialoghi Annotati arrival_time basic_type basis_days begin_time booking_class capacity city_code city_name class_description class_type code column_description column_name columns compartment connections country_name cruising_speed day_name day_number days_code departure_airline departure_flight_number departure_time description direction discounted dual_airline dual_carrier economy end_time E-63 Linea 1.1 – Dialoghi Annotati engines fare_airline fare_basis_code fare_id flight_days flight_id flight_number from_airport ground_fare heading high_flight_number hours_from_gmt leg_flight leg_number length low_flight_number main_airline manufacturer maximum_stay meal_code meal_description meal_number miles_distant minimum_connect_time minimum_stay minutes_distant month_name month_number night no_discounts note E-64 Linea 1.1 – Dialoghi Annotati one_direction_cost pay_load period premium pressurized propulsion range_miles rank restriction_code round_trip_cost round_trip_required saturday_stay_required season service_name state_code state_name stop_airport stop_days stop_number stop_time stopovers stops table_description table_name time_elapsed time_zone_code time_zone_name to_airport transport_type unit weight E-65 Linea 1.1 – Dialoghi Annotati wide_body wing_span year 3.3.1.2 Grado di copertura Se il grado di copertura è riferito all’applicazione, esso è per definizione perfetto, perché annota tutti e soli quei fenomeni che sono presenti nella base di dati: di conseguenza tutti e soli quei fenomeni per cui si può fare una richiesta. 3.3.1.3 Usabilità e perspicuità Anche in questo caso, il fatto di riferirsi ad una particolare applicazione rende l’annotazione molto chiara, in quanto vengono annotati tutti quei casi per cui ci si aspetta una risposta dal sistema, e la risposta attesa serve da criterio di disambiguazione. 3.3.1.4 Documentazione La documentazione consiste nella descrizione della base di dati, e comprende quindi tutte le informazioni necessarie all'annotazione. Da notare, inoltre, come questo renda lo schema di annotazione molto facile da portare su diversi domini, laddove resti fissa l’applicazione, ovvero l'accesso ad una base di dati (ben documentata). 3.3.1.5 Consistenza La consistenza dell’annotazione si riconduce alla consistenza della base di dati: possiamo quindi considerare garantita la non contraddittorietà. Per quel che riguarda la continuità, non è sempre semplice da valutare. In generale, dipende da come è stata progettata la base di dati. Se essa è stata progettata con approcci attenti alla struttura complessiva (ad esempio, il modello entità/relazione), essa dovrebbe essere abbastanza probabile. Ad esempio, in ATIS, l'annotazione appare abbastanza consistente. 3.3.1.6 Grado di esportabilità a lingue diverse Poiché l'annotazione è definita sulla base non dei fenomeni linguistici, ma dell'applicazione, il suo livello di portabilità su lingue diverse è molto alto. 3.3.1.7 Grado di portabilità su domini diversi È condizionato alla disponibilità della documentazione sulla base di dati; ove si abbia a disposizione tale documentazione, la portabilità è molto alta e richiede uno sforzo minimo. E-66 Linea 1.1 – Dialoghi Annotati 3.3.1.8 Grado di portabilità su applicazioni diverse Dal momento che lo schema di annotazione si basa sulla struttura della base di dati a cui fare accesso, la sua portabilità su applicazioni diverse è nulla. 3.3.1.9 Puntatori alla sottostringa corrispondente ad ogni fenomeno annotato Assente 3.3.1.10 Adeguatezza alla codifica del parlato Lo schema di annotazione è stato progettato e usato per annotare linguaggio parlato. 3.3.2 VERBMOBIL VERBMOBIL è un progetto finanziato dal governo tedesco che si occupa di traduzione da parlato a parlato su domini limitati. Le lingue di ingresso considerate sono: tedesco, inglese e giapponese. La prima fase di Verbmobil considera il dominio della negoziazione di appuntamenti; la seconda fase, invece, considera la pianificazione di un viaggio e prenotazioni alberghiere. In entrambi i domini assumono una grande importanza le espressioni temporali, per le quali è stato sviluppato un linguaggio apposta: TEL, Temporal Expression Language. Questo tipo di annotazione pone particolare attenzione alla necessità di robustezza rispetto agli errori e alle sgrammaticature tipiche del linguaggio parlato, dove diviene una necessità l'estrazione delle sole informazioni di interesse, anche in caso di rumore introdotto da tali errori. Per il dominio dei viaggi, invece, è in corso di sviluppo un secondo linguaggio, DRL, per il quale non è stata ancora pubblicata alcuna documentazione. Entrambi i formalismi sono stati sviluppati sulla base dei fenomeni effettivamente trovati nei corpora di VERBMOBIL. Questo dà garanzie sulla robustezza del formalismo nell'annotazione di dialoghi reali. TEL si occupa dell'annotazione di espressioni temporali, mentre DRL comprende informazioni legate al dominio dei viaggi, come città di origine e partenza, dati riguardanti gli alberghi e punti di incontro.I concetti considerati da DRL sono ovviamente dipendenti dal dominio, tra cui move, book_action, duration e date; inoltre, essi hanno dei ruoli, come has_move, has_location e has_book_theme. Reithinger (1999) presenta i seguenti esempi di uso di TEL: (1) sechzen Uhr (le sedici) => [from:[tod:4:0,pod:pm]] dove, tod = "time of day", pod = "part of day", e quindi l'espressione tra quadre più interna sta per "le ore del giorno 4:00, nella parte del giorno: pomeriggio (pm)". L'introduzione di un "from" a modificare l'espressione corrisponde ad un'ipotesi, evidentemente di default, che quando non sia altrimenti specificato, l'espressione temporale coincide con l'inizio di un intervallo. (2) From ten to twelve (dalle dieci alle dodici) => [interval:min_between([tod:10:0],[tod:12.0])] (3) E-67 Linea 1.1 – Dialoghi Annotati the twenty ninth thirtieth and thirty first (il 29 30 e 31) => [from:set(dom:29,dom:30,dom:31)], dove dom = “day of month” indica il giorno del mese, mentre “set” indica che si tratta di una lista e di DRL (1) we take the train at seven to berlin (prendiamo il treno alle sette per berlino) => [suggest,traveling,has_move:[move, has_date:[date,tempex='tempex(i1,[from:tod:7:0])'], has_dest_location:[geo_location,has_name='berlin'], has_transportation:[rai]]] In cui “suggest” è un atto del dialogo che verrà trattato nella prossima sezione; “travelling” indica l’argomento del dialogo; il resto indica uno spostamento, insieme con gli attributi relativi allo spostamento. Altri possibili argomenti sono: scheduling, accomodation, entertainment. Da notare che non ci sono puntatori che riportano i singoli attributi a sottostringhe: il tutto viene fatto a livello di unità semantica. Inoltre non è chiaro in quale modo i due formalismi, TEL e DRL possono essere usati assieme e messi in relazione. 3.3.2.1 Fenomeni annotati TEL divide le espressioni temporali in tre grandi categorie: a) espressioni temporali che indicano una durata (DURATION) b) espressioni temporali che indicano un punto fisso (POINT) c) espressioni temporali che indicano una data (DATE) Ogni categoria viene suddivisa in sottocategorie più piccole, che servono per annotare le espressioni temporali in modo molto preciso e granulare. Per le espressioni che indicano una durata vengono individuate le seguenti sottocategorizzazioni: 1) BASIC_DUR, ovvero espressioni di durata semplici; 2) RANGE, intervalli di tempo; 3) FUZZY_DUR, espressioni di durata imprecise; 4) ANA_DUR, espressioni anaforiche come ad esempio, "non più a lungo di quanto ho detto"; 5) top-level, cioè un insieme di espressioni temporali che indicano una durata. Per le espressioni che indicano un punto nel tempo preciso si identificano le sottocategorie: E-68 Linea 1.1 – Dialoghi Annotati 1) espressioni temporali semplici: indicazioni di ora e parte del giorno; giorno della settimana; giorni festivi (Natale, Pasqua..., viene indicata una lista precisissima di giorni festivi); settimana, mese, anno; 2) espressioni temporali complesse: intervalli di tempo; indicazioni relative (SHIFT), cioè espressioni del tipo "tre settimane dopo Pasqua"; espressioni temporali numerabili (ad es. "il terzo sabato dopo Capodanno"); indicazioni temporali relazionate ad altri elementi (es. "la settimana del dodici"); espressioni temporali deittiche; espressioni temporali con modificatori (presto, tardi, la prima meta'...); espressioni quantitative (ogni lunedi'); espressioni anaforiche. DRL considera invece espressioni legate al dominio. 3.3.2.2 Grado di copertura TEL pare coprire tutte le possibili espressioni temporali. La documentazione non è sufficiente a valutare la copertura nel caso di DRL, anche se l’affermazione che è stato sviluppato a partire da corpora di dati reali dà qualche garanzia. 3.3.2.3 Usabilità e perspicuità Il formalismo di TEL pare molto completo, anche se un po’ complesso. È possibile che alcune delle assunzioni di default fatte creino problemi. 3.3.2.4 Documentazione La documentazione per TEL si basa su un rapporto di VERBMOBIL che pare molto completo, ma è in tedesco. Invece, non è disponibile alcuna documentazione pubblica per DRL. 3.3.2.5 Consistenza Per TEL la consistenza pare garantita dall'accuratezza della progettazione. Per DRL, la documentazione a nostra disposizione non è sufficiente per alcuna valutazione. 3.3.2.6 Grado di esportabilità a lingue diverse Da (Reithinger 1999) si potrebbe evincere che sia stato provato su almeno tre lingue: tedesco inglese e giapponese, anche se questo non viene affermato esplicitamente. La non disponibilità di manuali di annotazione in lingue diverse dal tedesco fa supporre il contrario, ma potrebbe essere spiegato dai criteri di riservatezza adottati in VERBMOBIL. 3.3.2.7 Grado di portabilità su domini diversi Le espressioni temporali rappresentano uno dei fenomeni di più complessa gestione nell'annotazione concettuale; inoltre, esse sono molto importanti perché presenti in quasi tutti i domini. In questo senso la portabilità di TEL su domini diversi appare molto buona. DRL, invece, è completamente dipendente dal dominio. E-69 Linea 1.1 – Dialoghi Annotati 3.3.2.8 Grado di portabilità su applicazioni diverse L’applicazione di traduzione richiede di gestire tutti i fenomeni rilevanti per il dominio. Un’annotazione sviluppata per traduzione, quindi, dovrebbe presentare un buon grado di portabilità anche su applicazioni diverse. 3.3.2.9 Puntatori alla sottostringa corrispondente ad ogni fenomeno annotato Assente 3.3.2.10 Adeguatezza alla codifica del parlato Lo schema di annotazione è stato progettato e usato per annotare linguaggio parlato. 3.3.3 Coconut L’obiettivo del progetto COCONUT è quello di etichettare un corpus di dialoghi digitati a computer (e quindi si tratta di dialoghi uomo-uomo mediati dalla macchina). Non sono comunque registrazioni vocali, ma scritte a calcolatore e trasmesse all'altro partner in tempo reale. I dialoghi hanno lo scopo di spendere un fondo comune per arredare due stanze (cucina e soggiorno): è data una certa somma da spendere; inoltre ogni soluzione guadagna più o meno punti a seconda di quanto la spesa effettiva si avvicina alla somma disponibile, di quanti mobili sono stati comprati, e di quanto stanno bene assieme. L'annotazione prevista in COCONUT prevede l'uso di diversi menu. 3.3.3.1 Fenomeni annotati Nel menu "topic" è prevista l'annotazione di alcuni fenomeni che potrebbero essere inclusi nell'annotazione concettuale. L'obiettivo di questo menu è di descrivere di cosa parla la frase. In questa dimensione vengono codificati due aspetti semi-indipendenti: 1) il soggetto vero e proprio, e 2) l’atteggiamento di chi parla Come soggetto viene registrato se si sta parlando di un mobile, di soldi o di punti. L’aspetto atteggiamento, invece, registra l’atteggiamento di chi parla nei confronti dell’oggetto di cui si parla, sia esso un pezzo di mobilio, il budget o i punti accumulati, oppure verso una possibile soluzione o piano. Non si applicano ad altri soggetti della conversazione. L’altro menù che può essere ricollegato al livello concettuale è il menù ItemFeature, che riguarda le proprietà degli oggetti in esame. In particolare: 1) prezzo, colore, tipo e punti; 2) possibili combinazioni delle proprietà di cui al punto 1; 3) genl, per “in generale”: viene usato per indicare una soluzione o un piano nel loro complesso Ricapitolando, quindi COCONUT considera le seguenti caratteristiche che sono riconducibili al livello concettuale: E-70 Linea 1.1 – Dialoghi Annotati Soggetti • riguardanti il mobilio: 1. needItem 2. haveItem 3. getItem 4. elaborateItem 5. otherItem • riguardanti il budget: 1. budgetAmount 2. budgetRemains 3. costAccum • riguardanti i punti 1. pointAmount 2. pointAccum Atteggiamenti 1. evaluate: con valori positivo o negativo 2. relate: con valori better, worse, same, different Proprietà: 1. prezzo, colore, tipo, punti 2. combinazioni di tali proprietà atomiche 3. generale 3.3.3.2 Grado di copertura La copertura dell’etichettatura concettuale di COCONUT va riferita specificatamente non solo al dominio, ma alla particolare applicazione e allo scenario adottato, che appare piuttosto limitato. In altre parole, sono stati limitati i concetti presenti nel corpus, e solo essi vengono coperti. 3.3.3.3 Usabilità e perspicuità Le regole d’uso non appaiono né molto semplici né molto chiare dal manuale. 3.3.3.4 Documentazione E’ disponibile un manuale di annotazione (Di Eugenio, Jordan & Pylkkänen, 1998). 3.3.3.5 Consistenza Essendo l’annotazione limitata a pochi fenomeni, l’annotazione è consistente. E-71 Linea 1.1 – Dialoghi Annotati 3.3.3.6 Grado di esportabilità a lingue diverse Anche se è stato provato solo per l’inglese, lo schema in sé non appare particolarmente legato a questa lingua. E’ diverso il discorso per quanto riguarda il manuale di annotazione, che si basa pesantemente sull’uso di espressioni inglesi (ad esempio, per spiegare l’uso di getItem). 3.3.3.7 Grado di portabilità su domini diversi L’annotazione è molto legata al tipo di corpus raccolto per COCONUT: non appare facilmente portabile su altri domini. 3.3.3.8 Grado di portabilità su applicazioni diverse Come sopra. 3.3.3.9 Puntatori alla sottostringa corrispondente ad ogni fenomeno annotato Assente. 3.3.3.10 Adeguatezza alla codifica del parlato Lo schema di annotazione è stato progettato e usato per annotare linguaggio scritto: la portabilità sul linguaggio parlato potrebbe presentare qualche difficoltà. 3.3.4 C-Star L’annotazione considerata in C-Star è finalizzata ad applicazioni di traduzione da parlato a parlato: è dipendente dal dominio e vuole essere quanto più possibile indipendente dalla lingua. E’ stata portata su domini diversi: trasporti (prenotazioni alberghiere, trasporti, comprendenti treni e aerei, e informazioni turistiche). L’annotazione concettuale corrisponde in C-Star al livello di argomenti. Gli argomenti sono coppie nome/valore, dove corrisponde al nome dell’argomento, mentre il valore può essere atomico o composto. La definizione sintattica è indipendente dal dominio, mentre la lista dei nomi degli argomenti e dei possibili valori atomici è strettamente legata al dominio. La definizione della sintassi degli argomenti segue le seguenti regole: • N = V, dove N è un nome e V un valore, è un argomento • Dati due argomenti P e Q, allora sono argomenti anche P, Q (lista); P ; Q (disgiunzione) e P & Q (congiunzione) • Dati due valori V1 e V2, allora sono valori anche V1, V2 (lista); V1 ; V2 (disgiunzione); V1 & V2 (congiunzione) • Se V è un valore, allora (V, quantity=n) è un valore • Nè gli argomenti nè i valori seguono un ordine particolare E-72 Linea 1.1 – Dialoghi Annotati Date queste regole, la definizione è completata dalla lista dei nomi e dei valori atomici corrispondenti al dominio considerato. Merita un commento la penultima regola: l’introduzione dell’argomento quantity permette di introdurre in modo omogeneo il numero di oggetti considerato: room-type=(double, quantity=2) sta per due doppie In alcuni casi, però, quantity può venir usato come un argomento qualunque: duration=(time-unit=day, quantity=14) sta per quattordici giorni 3.3.4.1 Fenomeni annotati Viene dapprima definito un insieme di macro, usate per fattorizzare insiemi di valori tra loro omogenei: (*activity* nature_hike dining shopping sightseeing hiking boating biking climbing rock_climbing mountain_biking swimming horseback_riding archery golf orienteering skiing snow_skiing downhill_skiing cross-crountry_skiing water_skiiing ice_skating curling surfing hang-gliding paragliding cannoeing cayaking parachuting flying roller_blading rafting scuba_diving snorkling alpinism camping curling ski_jumping ski_alpinism ski_extreme telemarking monoski_surfing sledge-dogging touring tennis mountaineering) (*person-name* (<person-title> <given-name> <secondary-name> <family-name>)) (*secondary-name* [a-z] *first-name* *family-name*) (*family-name* abe cho choi chung degasperi brown ferrari gates hadley harris hayashi helman helwig hwang johnson kato kim klein lavie lee maeda maier malkin mattis meyer mueller nelson newman noh ohtsuki okada park philips phillips sakamoto sato schmidt shimizu shin siegler simmons smith son song stevens sullivan sung suzuki tanaka vaidya waibel watanabe watson won yu ) (*given-name* annamaria byeongsun byeongyun byungsu byungtae changsu cheolho cheongsuk chinyoung chihun einseop gianfranco kyoko kenji alex alon william paul jack lisa sondra sarah jennifer akira amy andrea anuj barb bob brian carla carol chaemin chet chris cindy dave david debbie detlef dongkwang donna eincheol hiroko hiroshi hyeongil hyeojeong hyunkil ian jackie jan jane jeanie jen jieun john johnny judy karen kazuko kazuo keunho klaus lori martin mary matthew matthias monika naoko patty peter rob roger sam sandy seolhyung seungyeon sharon sherry soyeon sunmyung susan takeshi tanja taro thomas todd tony yoko yonggu younggu yumi youngseon youngsin yugyeong) (*dow* monday tuesday wednesday thursday friday saturday sunday dow-question) (*currency* dollar us_dollar euro canadian_dollar pound british_pound lira yen japanese_yen mark german_mark won korean_won franc swiss_franc french_franc belgian_franc peseta peso question) (*cstar-name* cmu etri atr irst clips uka) (*travel-agency* cstar_travel american_travel_bureau japanese_travel_bureau pacific_tour pittsburgh_travel world_wide_travel gray_line globetrotter_viaggi washington_tour atlanta_tour) (*hotel-name* aliz alpha astoria ambassador admiral arena albergo_arena albergo_gabbia_doro alps_hotel atria bahnhofshotel belvedere E-73 Linea 1.1 – Dialoghi Annotati best_western_pittsburgh best_western capriolo chicago_park europaeischer_hof golden_star grand grand_hyatt grand_view hyatt hilton holiday_inn holiday_inn_crowne_plaza holiday_inn_pittsburgh hotel_d_angleterre hotel_de l_institut hotel_europe hotel_frantour hotel_heinz hotel_mercure hotel_suisse_et_bordeaux hotel_terminus ibis kamogawa_ryokan keio_plaza koellner_hof kyoto_century kyoto_tourist le_president les_trois_roses madison man_nyon_park_hotel manhattan miramonti new_miyako miyako new_yorker new_york_city new_washington new_ohtani omni_prince osaka_imperial park_hotel plaza ramada_inn renaissance ritter ritz_carlton royal_plaza royal_tourist_hotel san_marco schlosshotel sheraton sheraton_manhattan shilla_hotel silla_hotel stazione takaragaike_prince tokyo_hotel touring_hotel new_grand yusung_tourist_hotel washington washington_hilton wellington question) (*city-name* city-question atlanta beppu berlin boston brennero chicago detroit edinburgh frankfurt fuessen fukuoka grenoble hakone heidelberg karlsruhe kimpo kobe kuam kyeongju kyoto kyougju las_vegas london los_angeles madonna_di_campiglio mexico_city miami moena munich nagasaki nara narita neuschwanstein new_york_city niagara_falls osaka paris pittsburgh pusan rome rothenburg rovereto san_francisco saipan san_michele_all_adige seattle seoul st_louis taejon tokyo trento val_di_fassa vancouver venice verona washington_dc) (*area-name* area-question black_forest rhein_valley piazza_bra greentree oakland america yellowstone cheju_island chiri_mountain kyeogju_bomun_site kyeoryong_mountain najeong_beach pacific_ocean toham_mountain upper_and_lower_manhattan east_coast europe asia middle_east) (*state-province-name* state-question province-question alaska california florida new_york pennsylvania hawaii washington ontario quebec pfalz baden_wuerttemberg baden bavaria)) (*country-name* country-question united_states japan germany spain italy korea france canada israel australia great_britain) (*tourist-site* arts_festival bulguk_temple carnegie_museum carnegie_museum_of_art museum_of_natural_history statue_of_liberty un_headquarters yankee_stadium un_nations_building pittsburgh_three_rivers_arts_festival kabuki theatre gion_festival cherry_blossom_festival opera zepplin_museum staedel_museum goethe_museum paulskirche boerse roemer palmengarten isartor castle_neuschwanstein castle castle_gardens deutsches_museum loreley pinakothek boat_trip sightseeing_tour beer_garden temple shopping) (*sight-type* sight type art_collection battle_field beer_garden brewery building castle cathedral church exhibit expo historical_site hot_spring house lake market memorial monument mountain mountains museum opera_house palace park plaza river shrine stadium temple university war_memorial place) (*sight-name* adige_river alpine_botanical_gardens alps alters_rathaus alte_pinakothek andy_warhol_museum antique_street arco_castle arena_di_verona asakusa_kannon_temple autrans_vercors beseno_castle boerse brenta_river bulguk_temple buonconsiglio_castle_museum cmu etri atr irst clips uka carnegie_museum carnegie_museum_of_art carnegie_science_center castle_gardens caves_et_distillerie_de_la_chartreuse chamrousse changgyong_p_ango chemin_de_fer_de_la_mure cherry_blossom_festival chinatown chongmyo_shrine ch_angdukkung_palace compagnie_serge_papagalli_theatre deutsches_museum diocesan_museum disney_land duomo_cathedral dusquesne_incline ensemble_departemental_d_art_sacre_contemporain_de_l_eglise_de_saint_hugues_de_c hartreuse falling_water fifth_avenue folk_village frauenkirche fuji-mountain funiculaire_de_saint_hilaire_du_touvet ginkakuji_temple gion gion_festival goethe_house goethe_museum grand_angle grand_central_station grotte_de_choranche grotte_de_la_balme haeinsa_temple heian_shrine heidelberg_castle hollywood horyuji_temple isartor itaewon kabuki_theatre kapsa_temple kimchi_museum kinkakuji_temple kiyomizu_temple kofuku-ji_temple kumsan_ginseng_market E-74 Linea 1.1 – Dialoghi Annotati kyeryongsan_national_park kyongbokung_palace kyoto_imperial_palace lans-envercors la_bastille les_deux_alpes les_sept_laux-prapoutel loreley l_alpe_d_huez madison_avenue maison_de_la_culture maison_stendhal manhattan metropolitan_museum_of_art minami-za_theater monastere_de_la_grande_chartreuse mt_bondone mt_kaya mt_kyeryongsan mt_kyeryongsan_national_park mt_pomunsan munich_stadtmuseum musee_archeologique_de_l_eglise_saint_laurent musee_dauphinois musee_des_tresors_de_l_eglise_abbatiale musee_de_grenoble musee_de_la_correrie musee_de_la_resistance_et_de_la_deportation musee_de_la_revolution_francaise musee_stendhal museo_diocesano museum_of_fine_arts museum_of_modern_art museum_of_natural_history museum_of_uses_and_customs_of_the_trentino_people myong-dong namdaemun_market nanno_castle nara_park nature_museum naturmuseum_senckenberg neckar_river neues_rathaus neue_pinakothek neuschwanstein_castle nijyo_castle nymphenburg_castle opera oper_frankfurt osaka_castle palazzo_delle_albere palmengarten parc_archeologique_de_larina park_avenue paulskirche pinakothek pittsburgh_dance_council pittsburgh_public_theater pittsburgh_three_rivers_arts_festival pulguksa_temple rocca_di_riva rockefeller_center roemer ryouanji_temple santa_maria_maggiore_church soho sokkuram_grotto sokkuram_grotto staedel_museum station_square statue_of_liberty stenico_castle st_peter summumav_innsbruck taedok_science_town taejon_expo_science_park tanghaksa_temple telepherique_de_grenoble theatre_de_grenoble thun_castle toblino_castle todai-ji_temple tonghaksa_temple trentino_castle universal_studio un_building un_headquarters venetian_villas world_trade_center yankee_stadium yasaka_shrine yusong_hot_spring zepellin_museum rheinfahrt loreley romantische_strasse burgen_strasse ) (*event-name* gion_festival pittsburgh_symphony_orchestra commedia_dell_arte_performance yusong_hot_spring_festival taekgyon hanami kouyou omizutori teleferique_ride pittsburgh_three_rivers_regatta oktoberfest pittsburgh_three_rivers_arts_festival cherry_blossom_festival carpenter_collection cats les_miserable phantom_of_the_opera world_series) (*location* *hotel-name* *city-name* *area-name* *state-province-name* *country-name* *tourist-site* any verona_catullo_airport gatwick station pusan_seobu_terminal abroad airport area downtown hotel museum place tour_desk front_desk main_lobby major_hotel near [nth]_floor south_entrance here there town city outskirts safe_area outside inside) (*airport* (see the file "airport.values")) ;; removed daily and everyday (see frequency=), removed noon (use 12pm) (*time* *hour-minute* *md* *dow* *year* *month* year day week week-question night morning late afternoon evening approximate question <after> <before> <end-time> <start-time> *time-ref*_*dow* *time-ref*_morning *timeref*_afternoon *time-ref*_evening *time-ref*_night *time-ref*_day *timeref*_*year* *time-ref*_year *time-ref*_month *time-ref*_*month* *time-ref*_week tomorrow yesterday today day_after_tomorrow soon immediately later monthquestion then) (*time-ref* last next following this that each beginning middle end first second third fourth previous) (*year* 1998 1999 2000 2001 2002 2003 2004 2005) (*md* md1 md2 md3 md4 md5 md6 md7 md8 md9 md10 md11 md12 md13 md14 md15 1md6 md17 md18 md19 md20 md21 md22 md23 md24 md25 md26 md27 md28 md29 md30 md31 mdquestion) (*who* people i we you he she they adult child husband wife spouse conductor family travel_agent client customer everyone friend branch *person-name*) (*what* thing heliport meal garage breakfast lunch dinner tax breakfast_buffet E-75 Linea 1.1 – Dialoghi Annotati continental_breakfast english_breakfast nice *currency* *information*) ;; "booking number" is a reservation_number (*information* pamphlet brochure information confirmation_number reservation_number number telephone_number fax_number fax location time money price_information summary itinerary) (*train-name* amtrak renfe) (*carrier-name* british_airways usair twa iberica sas ke korean_airlines delta_airlines northwest panam japan_airlines all_nippon_airway united air_france air_pacific american mexican_airlines asian_airlines lufthansa) (*taxi-name* peoples_cab checker_cab yellow_cab) (*hour-minute* 00:01to24:00 hour-question) (*special-modifier* question negation any same) (*general-modifier* additional best better different good clean typical quiet beautiful famous interesting popular fun new other *special-modifier*) (*size-modifier* big bigger biggest small smaller smallest medium *special- modifier*) Di seguito, tali macro verranno usate per associare ai diversi nomi di argomento (prima del segno di uguaglianza) la lista dei possibili valori che vi si può associare: (bank= question mellon banca_centrale negation) (account-name= question *person-name* negation) (account-number= [n/a-z] question negation) (activity= *activity*) (admission-type= question negation admission type ticket fee registration) (affiliation= question negation *travel-agency* carnegie_mellon_university *hotel-name* united_nations_tour_desk arena *taxi-name* *carrier-name* *cstarname*) (after= question *hour-minute* <quantity> <time-unit>)) *md* *dow* *year* *month* (<order-ref> (order-ref= *time-ref*) (age= <quantity> year month under over question negation) (bed-type= bed twin double king queen *general-modifier* *size-modifier*) (before= question negation (<quantity> <time-unit>)) (x-car-size= *size-modifier* x-mid-sized x-compact x-economy x-subcompact) (x-car-type= x-car x-mini-van x-sedan *general-modifier*) (x-car-make= question negation x-honda x-hyundai x-toyota x-dodge) E-76 Linea 1.1 – Dialoghi Annotati (x-car-model= question negation x-coup x-neon ) (carrier-name= question negation *carrier-name*) (change-from= question [any-arg]) (change-to= question [any-arg]) (class= question negation class first second third ambassador cl-business coach economy a b c) (connection-type= question negation connection nonstop connecting stopover) (contain= question negation balcony cot kitchen mini_kitchen bedroom living_room bathroom standard tv color_tv minibar elevator telephone shower private_bath wheelchair_access adaptor electric_adaptor telephone_plug modem_plug plug_adaptor safe room_safe hotel_safe heliport) (destination= question negation *location*) (distance= (<quantity> <distance-unit> <locomotion> <origin>) walking close far question negation ) (distance-unit= question negation minute hour day mile foot yard meter kilometer centimeter) (duration= (<order-ref> <quantity> <time-unit>) x-extended approximate exact longest shortest longer shorter long short minimum maximum entire-time question negation ) (end-time= question negation *time*) (event-name= *event-name*) (event-type= question negation type event jazz omnimax party open_house arts_festival beer_festival cruise exhibition festival baseball_game football_game american_football_game movie play musical opera concert kabuki film dance_performance theater_performance broadway_musical mask_dancing sacrificial_music sacrificial_rites science_expo show traditional_dance breakfast lunch dinner ) (event-group= pittsburgh_pirates atlanta_braves new_york_mets new_york_yankees la_dodgers la_lakers) pittsburgh_steelers (flight-type= flight express domestic international *general-modifier*) (flight-number= question negation [n/a-z]) (train-number= question negation [n/a-z]) (for= question negation *what* cot) (for-whom= question negation *who*) (frequency= negation frequent infrequent daily question (<quantity>, <timeunit>) (<quantity>, <per-unit>)) (hotel-facility= question negation sauna bar meeting_room restaurant outdoor_pool indoor_pool gym garage parking private_parking storage_room) (hotel-name= question negation *hotel-name*) E-77 pool Linea 1.1 – Dialoghi Annotati (hotel-service= question negation porter maid-service housekeeping 24hr-roomservice room-service dry-cleaning valet-parking babysitting internet) (hotel-type= hotel motel inn four_star five_star six_star *general-modifier*) (how-many= [n] question pension hostel one_star two_star three_star western_style japanese_style *size-modifier* negation) (include= question negation breakfast lunch meal dinner taxes breakfast_buffet continental_breakfast english_breakfast movie mile unlimited-mileage beach all-meals extra_driver reservation_charge supplement ) (language= question negation japanese english spanish german italian french korean) (letters= [a-z] question negation ) (location= *location* question negation ) (locomotion= on-foot car bus train question negation) (meal-type= meal breakfast continental_breakfast dinner snack *size-modifier* *general-modifier*) full_breakfast brunch lunch (method= eurocheque mastercard visa diners_card discover travelers_check cash major_credit_cards group_credit_card american_express question credit-card bank_transfer check question negation) (numeral= [n/a-z] question negation) (occupancy= [n] question negation) (office= question negation reservation_assistance help_desk info_desk) (origin= *location* away question negation) (family-name= *family-name*) (given-name= *given-name*) (secondary-name= *given-name* *family-name*) (person-name= *person-name* question negation) (price= question negation approximate better reasonable expensive too-expensive more-expensive most-expensive cheap cheaper cheapest free less total additional different minimum maximum half 2x 3x quarter third (<quantity> <currency> <perunit>)) (price-type= question negation tax surcharge supplement service_charge price) (per-unit= each adult child night day week person couple family first_night total mile kilometer gallon liter percent *what*) (currency= *currency*) (purpose= question *activity*) negation business business_trip E-78 vacation *event-name* Linea 1.1 – Dialoghi Annotati (quantity= [n] question negation all both couple either few many several some half quarter third) (rate= question negation hourly daily nightly weekend weekly monthly annual special discount corporate_discount aaa_discount) (room-location= question negation floor wing same_floor [nth]_floor top_floor west_wing east_wing north south adjoining) (room-number= [n/a-z] question negation) (room-type= room luxury modest matrimoniale twin double single family suite junior_suite senior_suite bedroom meeting conference smoking non-smoking western_style japanese_style *general-modifier*) (room-size= *size-modifier*) (room-view= city-view ocean-view view) (row-number= [n/a-z] question negation) (seat-type= modifier*) seat aisle window smoking non-smoking *size-modifier* *general- (sight-name= question *sight-name*) (sight-type= question negation *sight-type*) (send-by= fax phone mail e-mail question negation) (smoking-section= available unavailable not_permitted) (nonsmoking-section= available unavailable) (start-time= *time*) (telephone-number= question [n]) (time= *time*) (time-unit= day night minute hour week month year sec weekend) (to-whom= *hotel-name* hotel *who* question negation) (tour-name= question negation national_museum_tour Half-around_Japan_tour sound_of_music_tour folk_village_tour pottery_village_tour) (tour-number= question [n/a-z]) (tour-type= day_trip full_day half_day package_tour group_tour individual_tour tour cruise bus_tour bicycle_tour hiking_tour helicopter_tour balloon_tour airplane_tour museum_tour city_tour castle_tour river_cruise walking_tour sightseeing_tour guided_tour *size-modifier* *general-modifier*) (train-name= *train-name* question negation) (train-type= ave ec ice train eurostar intercity interregionale talgo express bullet shinkansen *size-modifier* *general-modifier*) (train-facility= modifier*) sleeping_car lounge_view_car E-79 restaurant_car bar *general- Linea 1.1 – Dialoghi Annotati (transportation-name= *taxi-name*) question negation (transportation-type= transportation flight train ground rental_car car modifier*) *train-name* on-foot metro bus 28x_shuttle shuttle taxi public *size-modifier* *general- (transportation-number= question negation (trip-type= trip one_way round_trip eastern *general-modifier*) port_authority_transit [n/a-z]) package_tour transfer outgoing return (what= *what* question negation) (of-what= family_name given_name person_name secondary_name) (to-what= *what* question negation) (via= *location* question negation) (web-page-object= question www title frame web_page section link) (web-page-image= question image icon photo drawing paragraph map description) (web-page-information= question *information*) (temperature= hot cold freezing warm cool degree degree-f degree-c degree-k question negation below-freezing high moderate low) (time-relativity= this_time_of_year now then soon early earlier late later before after question negation) (weather= good best better bad rain snow sleet hail icy clear sunny overcast windy humid dry question negation) (season= rainy dry summer winter fall spring monsoon question negation) (who= *who* question negation) (with-how-many= [n] question negation) (with-whom= *who* question negation) (address= (<po-box-number> <street-number> <street-name> <city> <state-province> <country> <zipcode-number> <apt-number>) question negation) (city= *city-name* question negation) (state-province= *state-province-name* question negation) (country= *country-name* question negation) (street-number= [n/a-z] question negation) (apt-number= [n/a-z] question negation) (po-box-number= [n/a-z] question negation) (zipcode-number= [n/a-z] question negation) E-80 Linea 1.1 – Dialoghi Annotati (street-name= forbes_avenue question negation) fifth_avenue madison_avenue corso_san_giovanni (person-title= mr mrs ms miss dr prof) (nationality= question negation *country-name*) (speed= question negation fast slow faster slower (<quantity> <distance-unit> <time-unit>)) 3.3.4.2 Grado di copertura La lista di argomenti elencata al punto precedente è stata messa a punto sulla base dello studio dei corpora raccolti dai singoli partner indipendentemente. Dovrebbe quindi garantire una buona copertura per lo meno per quel che riguarda lo scenario adottato. Ovviamente, laddove lo scenario venga variato, anche senza cambiare il dominio, occorre variare almeno la lista dei valori per gli argomenti considerati: ad esempio, la lista delle località turistiche dipende dalle località considerate per la visita. 3.3.4.3 Usabilità e perspicuità Lo schema è stato studiato in modo da non introdurre ambiguità. 3.3.4.4 Documentazione La documentazione consiste in un manuale che descrive la sintassi seguita dalle coppie nome di argomento/valore e dalla lista dei nomi di argomento per il dominio considerato, insieme ai possibili valori. 3.3.4.5 Consistenza È stata curata in fase di progettazione dell’annotazione: ad esempio, sono stati evitati ove possibile, l’uso di valori uguali con significati diversi (l’espressione “seconda classe” viene annotata come class = second, mentre la durata temporale “un secondo” viene annotata con duration=(quantity=1, time-unit=sec)). Anche la continuità è abbastanza buona, a parte qualche caso isolato che non incide sulla valutazione globale, in quanto di facile correzione. 3.3.4.6 Grado di esportabilità a lingue diverse L'annotazione concettuale in C-Star è stata sviluppata sulla base dell'esperienza di annotazione su sei lingue diverse: italiano, francese, tedesco, inglese (americano), coreano e giapponese. Questo sembra garantire una buona portabilità inter-lingua, vista oltretutto la presenza di lingue asiatiche accanto alle europee. 3.3.4.7 Grado di portabilità su domini diversi Per ogni nuovo dominio, va specifica la lista dei nomi di argomento assieme alla lista di valori che può assumere; la sintassi delle etichette invece è fissa. E-81 Linea 1.1 – Dialoghi Annotati 3.3.4.8 Grado di portabilità su applicazioni diverse Essendo un’applicazione di traduzione, in cui si cerca di riportare tutto il contenuto informativo della frase che sia legato al dominio, l’insieme dei fenomeni annotati è il più ampio possibile (in relazione al dominio) e dovrebbe garantire una buona portabilità, che però non ci risulta essere stata mai sperimentata. 3.3.4.9 Puntatori alla sottostringa corrispondente ad ogni fenomeno annotato Assente. 3.3.4.10 Adeguatezza alla codifica del parlato Lo schema di annotazione è stato progettato e usato per annotare linguaggio parlato. 3.3.5 Riepilogo ATIS VERBMOBIL TEL COCONUT C-STAR DRL Fenomeni annotati concetti legati a dominio e applicazione espressioni temporali concetti legati concetti specifici al dominio dello scenario Copertura relativa all’applicazione buona ??? relativa all’applicazione buona Usabilità ok ok ??? ok ok Documentazione ok in tedesco no ok ok Consistenza ok ok ??? buona buona Consistenza: continuità dipende dalla base di dati ok ??? buona abbastanza buona possibile provata scarsa provata Portabiltà interlingua provata Portabilità interdominio facile Portabilità interapplicazione nulla traduzione scarsa traduzione assenti assenti assenti assenti per definizione forse per definizione Puntatori Adeguatezza al per definizione parlato provata concetti legati a dominio e applicazione buona non determinabile E-82 Linea 1.1 – Dialoghi Annotati 3.3.6 Conclusioni Dalle brevi note e dall’esame dei quattro schemi considerati crediamo di poter concludere che i moduli di analisi sintattico-semantica dei sistemi di dialogo orale tipicamente utilizzano conoscenze semantiche che sono strettamente legate alle relazioni tematiche e semantiche del dominio di applicazione. Un certo livello di comunalità tra approcci teorici diversi al parsing e tra applicazioni diverse è data dall’adozione di stili di rappresentazione semantica che si basano sulle strutture predicato-argomento. L’annotazione dei corpora utilizzati come risorsa per l’addestramento dei sistemi o come test suites per la valutazione delle loro prestazioni riflette questa dipendenza dal dominio di applicazione I tentativi di standardizzazione tesi a favorire la riutilizzabilità dei corpora, come in questo progetto, devono orientarsi a garantire da un lato la possibilità di definire all’interno dello schema di annotazione le etichette dipendenti dal dominio che sono proprie di ciascuna applicazione, dall’altro le specifiche per un formalismo di annotazione che consenta di rappresentare le relazioni semantiche dipendenti dal dominio in termini di relazioni predicato-argomento. In tutti gli schemi considerati l’annotazione concettuale si riferisce ad un’intera unità semantica in cui può essere implementato più di un concetto. Lo schema di annotazione TEL per le espressioni temporali pare interessante per livello di generalità, ma per poter decidere bisognerebbe studiare il manuale (in tedesco). Lo schema proposto da COCONUT pare troppo legato alla particolare applicazione, e così pure lo schema usato da ATIS, troppo legato alla base di dati di riferimento. E-83 Linea 1.1 – Dialoghi Annotati 4 Livello pragmatico E-84 Linea 1.1 – Dialoghi Annotati 4.1 Overview Lo scopo di questo stato dell’arte è quello di fornire informazioni di base per le specifiche di annotazione del livello concettuale pragmatico che saranno adottate all’interno del progetto SITAL. Il presente rapporto è composto da due parti. Nella prima parte si è proceduto alla descrizione e all’analisi degli schemi di annotazione attualmente esistenti sviluppati dai vari gruppi di ricerca in ambito europeo, americano e giapponese per annotare corpora di lingua parlata in lingue diverse. L’obiettivo è stato quello di fornire un quadro della realtà di partenza il più possibile completo ed aggiornato. Nella seconda parte si è poi passati al confronto dei fenomeni pragmatici identificati e classificati nei diversi schemi di annotazione ed alla successiva valutazione degli schemi stessi allo scopo di verificare la loro conformità ad un insieme di requisiti generali. 4.2 Introduzione L’annotazione linguistica ha recentemente conosciuto un impiego sempre maggiore nell’ambito dello studio scientifico del linguaggio, della ricerca e dello sviluppo delle tecnologie legate al linguaggio, e, più in generale, delle applicazioni ad esso connesse. Si sono registrati molti sforzi indipendenti messi in atto al fine di fornire degli strumenti software atti a creare annotazioni linguistiche, produrre formati generali per esprimerle e sviluppare degli strumenti software in grado di creare database linguistici annotati e di consentire delle interrogazioni al loro interno. Negli ultimi quindici anni sono stati realizzati centinaia di database annotati linguisticamente. Mentre l’utilità degli strumenti software, formati e database esistenti è indubbia, la loro varietà e la mancanza di standard in grado di mediare fra loro – sta diventando un problema di importanza fondamentale. Generalmente le basi di dati sono create per esigenze particolari, usando formati e strumenti software creati ad hoc per rispondere a dette necessità, e sono dunque basate sulle risorse e sulle pratiche della comunità coinvolta nel progetto. L’annotazione di un corpus presente in un dato database presuppone l’esistenza di uno schema di annotazione. Il modo in cui tali schemi vengono progettati dipende dagli obiettivi su cui si focalizzano gli sviluppatori dello schema e dai particolari fenomeni linguistici che si intende descrivere. Lo stile caratteristico di ogni autore ha inoltre notevoli effetti sullo schema. Una volta creato, un database linguistico può essere utilizzato per una varietà di scopi, sia all’interno che al di fuori della comunità che lo ha progettato. Adattare il software esistente per la creazione, l’aggiornamento, l’indicizzazione, la ricerca e la visualizzazione di database sviluppati da altri generalmente richiede un estensivo processo di riorganizzazione. Lavorare con un insieme di database richiede dunque numerosi adattamenti di questo tipo. Vista la grande varietà di strumenti software, database e corpora annotati esistenti, in considerazione di problemi sopra elencati è nata l’esigenza, a livello internazionale, di sviluppare una serie di standard che rendano possibile il riutilizzo delle risorse linguistiche di gruppi di ricerca e progetti diversi. In questa prospettiva sono nati alcuni progetti che condividono sostanzialmente lo stesso obiettivo. Nel 1992 un gruppo di ricercatori esperti in problemi e tecnologie legate al linguaggio diede inizio al progetto ToBi – Tones and Break Indices (vedi http://ling.ohiostate.edu/phonetics/E_ToBI e http://julius.ling.ohio-state.edu:80/ Phonetics/ToBI). Scopo del progetto era la definizione di uno standard comune da adottare per la E-85 Linea 1.1 – Dialoghi Annotati trascrizione dei tratti prosodici delle varietà di inglese americano, in modo da permettere la condivisione dei database raccolti da vari centri di ricerca per il raggiungimento di scopi di ricerca e obiettivi tecnici diversi. Il progetto DRI – Discourse Resource Initiative (http://www.georgetown.edu/ luperfoy/Discourse-Treebank/dri-home.html) si propone invece di sviluppare uno standard da impiegare per l’annotazione delle caratteristiche semantico-pragmatiche e discorsive di corpora diversi. Anche in questo caso, lo scopo del progetto è creare una base per unire le risorse linguistiche di fonti diverse in modo tale da sostenere e potenziare la ricerca e le applicazioni nel campo del linguaggio. In ambito europeo, il progetto MATE – Multilevel Annotation, Tools Engineering (http://mate.nis.sdu.dk) ricopre un ruolo di importanza fondamentale. Il progetto si propone infatti di facilitare il riutilizzo delle risorse linguistiche di gruppi di ricerca e progetti diversi affrontando i problemi legati alla creazione, all'acquisizione e al mantenimento di corpora di dialoghi. Gli obiettivi sono essenzialmente due: i) sviluppare uno standard per l’annotazione delle risorse linguistiche, e ii) fornire uno strumento software che renda più efficiente il processo di acquisizione ed interrogazione dei database. In particolare, MATE si occupa dell’annotazione di corpora di dialoghi su più livelli, e si concentra su prosodia, morfo-sintassi, coreferenza, atti linguistici, problemi di comunicazione e interazione tra più livelli. MATE si propone inoltre di integrare i tentativi di standardizzazione già effettuati negli Stati Uniti, in Europa e in Giappone. Mentre il lavoro del progetto DRI è essenzialmente focalizzato sull’annotazione di dialoghi in inglese, MATE prende invece in considerazione corpora di dialoghi in lingue diverse. Il progetto SI-TAL si colloca nel quadro degli sforzi volti a sviluppare una pratica standard per l’annotazione delle caratteristiche semantico-pragmatiche e discorsive di corpora di dialoghi, il che consentirebbe una valutazione obiettiva delle prestazioni dei vari schemi di annotazione già esistenti e faciliterebbe lo scambio di dati tra i vari gruppi di ricerca. Il presente rapporto si propone di prendere come punto di partenza il lavoro fatto nell’ambito di MATE e di integralo ed aggiornarlo sia per quanto riguarda gli schemi in esso già descritti (in modo tale da avere a disposizione uno stato dell’arte il più aggiornato possibile), sia per quando riguarda le attività nuove. Il progetto SI-TAL si occupa dell’annotazione di dialoghi persona-persona e di dialoghi macchina-persona. Per poter essere utilizzata da sistemi per il trattamento di dialoghi in applicazioni diverse, l’annotazione deve essere definita in modo sufficientemente generale ed eventualmente deve poter essere specializzata, attraverso lo sviluppo di ulteriori specifiche aggiuntive, per i diversi domini applicativi. Il soddisfacimento di questi due requisiti consente di fare un passo avanti nella direzione del riutilizzo dei corpora, riducendo ad esempio il numero delle costose acquisizioni necessarie per ogni nuova applicazione di un sistema di dialogo parlato. Il progetto TAL prevede di lavorare su cinque livelli di annotazione: morfosintattico, sintattico, semantico-concettuale, prosodico e pragmatico. Lo scopo di questa relazione è fornire lo stato dell’arte degli schemi di annotazione che coinvolgono il livello pragmatico. 4.2.1 L’annotazione degli atti linguistici Gli schemi per l’annotazione degli atti linguistici sono stati tutti sviluppati avendo come fondamento teorico le considerazioni dei filosofi del linguaggio J. L. Austin (1962) e J. Searle (1969), secondo i quali gli atti linguistici, nella letteratura specifica talvolta chiamati “atti E-86 Linea 1.1 – Dialoghi Annotati illocutivi”, sono gli elementi alla base della comunicazione umana. Un dialogo è diviso in unità chiamate “turni”, che fanno riferimento ai cambi di parlante. Un turno, a sua volta, è composto da una serie di enunciati, anche chiamati “segmenti”. Gli schemi per l’annotazione degli atti linguistici sono impiegati con lo scopo di segnalare le azioni comunicative sostenute dagli enunciati. Tali annotazioni indicano il ruolo di un dato enunciato all’interno di un dialogo specifico e rendono più chiare le relazioni tra i vari enunciati. La maggior parte degli schemi per l’annotazione di atti linguistici sono fino ad oggi stati sviluppati principalmente per annotare dialoghi “task-oriented”. Con questa denominazione indichiamo quei dialoghi che prevedono la partecipazione di una o più persone (o di una persona e di una macchina) che interagiscono e collaborano per raggiungere un determinato obiettivo prefissato. Il contenuto informativo dai dialoghi orientati al raggiungimento di un dato obiettivo può essere essenzialmente diviso in a) informazioni che riguardano il compito da svolgere, e b) informazioni che concernono il processo di comunicazione. Per garantire la generalità e dunque la maggior flessibilità dello schema, nella scelta delle etichette i due livelli informativi dovrebbero essere considerati separatamente 4.3 Criteri utilizzati per la descrizione degli schemi Nella presentazione e descrizione degli schemi di annotazione esistenti verranno presi in considerazione i seguenti criteri, il cui soddisfacimento è considerato un requisito fondamentale di ogni buon schema di annotazione: a) Documentazione (esistenza di un manuale per la codifica) Gli schemi di annotazione devono essere ben documentati. Per questo motivo è necessaria la presenza di un manuale di codifica che descriva gli scopi, il dominio e le applicazioni per i quali lo schema è stato sviluppato. b) Fenomeni annotati Per confrontare i diversi schemi di annotazione attualmente esistenti e sviluppare uno standard è di importanza fondamentale avere a disposizione una lista dei fenomeni annotati da ciascun singolo schema. c) Esempi Per capire meglio il funzionamento dei diversi schemi di annotazione è essenziale avere degli esempi. d) Numero degli annotatori Gli schemi devono essere stati usati da un numero rilevante di annotatori diversi. Ciò è dovuto al fatto che gli schemi di codifica che sono stati usati esclusivamente da coloro che li hanno sviluppati tendono ad essere eccessivamente soggettivi e difficili da usare. e) Numero dei dialoghi/enunciati/segmenti annotati Per dimostrare i suoi possibili impieghi, lo schema deve essere stato impiegato per annotare un numero rilevante di dialoghi. f) Valutazione dello schema La valutazione dell’indice di accordo tra gli annotatori riflette l’affidabilità dello schema di annotazione. L’indice κ è usato come unità di misura comune (cfr. Krippendorf 1980). E-87 Linea 1.1 – Dialoghi Annotati Il coefficiente κ è calcolato in base alla seguente formula: κ= P( A) − P( E ) 1 − P( E ) dove P(A) rappresenta la probabilità che gli annotatori concordino, mentre P(E) sta per la probabilità che gli annotatori concordino per caso. L’accordo dovuto al caso è calcolato come n P( E ) = ∑ pi2 i =1 dove p i rappresenta i casi di accordo reale. Un parametro importante di cui tenere conto nella valutazione dell’affidabilità di uno schema di annotazione è il seguente: uno schema con indice di affidabilità pari a κ=0,8 (o valori superiori) è da considerarsi così affidabile da non richiedere ulteriori miglioramenti, mentre valori di κ compresi tra 0,67 e 0,8 indicano che lo schema dovrebbe essere migliorato. Un altro parametro che è bene menzionare è l’indice α (cfr. Krippendorf 1980), che è calcolato come: α = 1− D0 DE dove D0 = observed _ disagreeme nts DE = expected _ disagreeme nts I valori di α vanno da 1 a –1. α è pari a 1 se i due insiemi di dati concordano completamente; α è pari a 0 se non ci sono più accordi di quanti si verificherebbero per caso. g) Obiettivo per il quale è stato generato lo schema di valutazione Gli schemi di annotazione sono spesso legati al compito o al dominio per il quale sono stati sviluppati. Questo potrebbe ridurre le loro possibilità di impiego. h) Linguaggio di codifica Per poter realizzare dei programmi che traducono uno schema di codifica in un altro schema, è necessario conoscere il linguaggio di codifica dello schema dato. È inoltre interessante vedere qual è il linguaggio di codifica maggiormente usato. j) Esistenza di uno strumento software per l’annotazione Gli strumenti software per l’annotazione facilitano l’annotazione e quindi aumentano la probabilità che un dato schema di annotazione venga utilizzato. k) Possibilità di impiego Gli schemi di annotazione dovrebbero essere impiegati in sistemi già esistenti in modo da mostrare le loro possibilità di impiego. Tutti gli schemi che verranno presi in considerazione verranno valutati seguendo queste linee guida. E-88 Linea 1.1 – Dialoghi Annotati 4.4 Elenco degli schemi di annotazione esaminati Sono stati presi in esame i seguenti schemi di annotazione: • Alparon • Schema di annotazione dell’Università di Chiba • Chat • COCONUT • Schema di annotazione di Condon e Cech • C-STAR • DAMSL • Dialogos • GDA • Janus • Schema di annotazione di Giovanni Flammia (MIT) • LinLin • Maptask • Schema di annotazione di Christine Nakatani (AT&T, Bell Labs) • SLSA • Schema di annotazione per il progetto Switchboard SWBD-DAMSL (University of Colorado) • Schema di annotazione di David Traum (University of Maryland) • Schema di annotazione per il progetto Verbmobil Alcuni degli schemi che verranno presentati qui di seguito (Alparon, Coconut, C-STAR, Dialogos e SLSA) contengono anche un certo numero di etichette semantiche, che non verranno però riportate in quanto non rilevanti ai fini dell’annotazione dei fenomeni del livello pragmatico. Nella descrizione degli schemi le etichette adottate di volta in volta per annotare i vari fenomeni verranno riportate in inglese, poiché la loro traduzione potrebbe risultare fuorviante e generare confusione. 4.4.1 Alparon (Delft University of Technology) 4.4.1.1 Documentazione: ftp://ftp.twi.tudelft.nl/TWI/publications/tech-reports/1996/DUT-TWI-96-137.ps.gz Autori: R.J. van Vark, J.P.M. de Vreught, L.J.M. Rothkrantz Titolo: Analysing OVR dialogue coding scheme 1.0; Report 96-137 E-89 Linea 1.1 – Dialoghi Annotati 4.4.1.2 Fenomeni annotati: • • Phases • Greeting (G) • Query (Q) • Pause (P) • Information (I) • Subquery (S) • Goodbye (B) Moves (Dialogue Acts) • Greeting (Gre) • Acknowledgement (ack) • Alignment (Ali) • Bye (Bye) • Statement (Sta) • Check (Che) • Clarification (Cla) • Question (Que) • Pause (Pau) • Reconfirmation (Rec) • Other (Oth) 4.4.1.3 Esempi 2: goedemorgen reisinformatie (good morning travel information) 1: goedemorgen [achternaam] kunt u mij zeggen hoe laat de[uh] bus van Lochem naar Deventer toe gaat (good morning [last name] can you tell me what time the[uh] bus departs from Lochem to Deventer) 2: hoe laat ongeveer zou u mee willen (how late approximately would you like to go) 1: [uh] rond een uur of negen ([uh] about nine o’clock) Gre(G,[],[]) Gre(G,[Per(Nam)],[]), Que(Q,[Tt(DaS([Unspecified])]), RI([T rT([Bus_Tram(0)])]),Loc([DeP([C ity( 1)]),ArP([City(2)])])],[]) Que(S,[Tm([DeT([Unspecified])]) ],[]) Sta(Q,[Tm([DeT([About(3)])])].[ ]) E-90 Linea 1.1 – Dialoghi Annotati 2: oke (ok) 2: negen uur twee mevrouw buslijn zesenvijftig (two past nine madam bus line fiftysix) Ack(Q,[Ack([Pos])],[]) Sta(1,[Tm([DeT([Exact(4)])]), RI([TrT([Bus_Tram(5)])])],[]) Ali(B,[Ann],[],Bye(B,[Bye([Tha] )],[]) 1: oke dank u wel (ok thank you) Bye(B,[Bye([ReG])],[]) 2: tot uw dienst (at your service) 1: ja hoor dag (yes fine bye) Bye(B,[Bye([ReG,Goo])],[]) Bye(B,[Bye([Goo])],[]) 2: goodemorgen (good morning) 4.4.1.4 Numero degli annotatori: 3 (tutti informatici). 4.4.1.5 Numero dei dialoghi annotati: circa 500 (in olandese), con 12000 turni e 16000 segmenti. 4.4.1.6 Valutazione dello schema: ftp://ftp.kbs.twi.tudelft.nl/pub/alparon/publications/1997/L.J.M.Rothkrantz-SALT-97.ps.gz Non sono state pubblicate valutazioni che utilizzano l’indice κ. Lo schema è però stato impiegato nel sistema VIOS per dialoghi che riguardano il sistema di trasporti pubblici nell’ambito di Netland.Communication. 4.4.1.7 Obiettivo per il quale è stato generato lo schema di annotazione: Lo schema è stato progettato nell’ambito del dominio della raccolta di informazioni riguardanti i servizi offerti dalla rete di trasporti pubblici olandese. 4.4.1.8 Linguaggio di codifica: Gli atti linguistici sono termini Prolog con alcuni segni di punteggiatura extra in modo tale da creare la lista degli atti linguistici e segnare quale degli agenti stava parlando. 4.4.1.9 Esistenza di uno strumento software per l’annotazione: Codificatore OVR: E-91 Linea 1.1 – Dialoghi Annotati • strumento software per la codifica manuale • linguaggio di implementazione: tcl/tk 4.4.1.10 Possibilità di impiego: Lo schema di annotazione Alparon è impiegato in VIOS, il prototipo ASP (Automated Speech Processing) dell’OVR (Openbaar Vervoer Reiseinformatie, Public Transport Travel Information). E-92 Linea 1.1 – Dialoghi Annotati 4.4.2 Schema di annotazione dell’Università di Chiba (Chiba University) 4.4.2.1 Documentazione: Anziché avere un solo schema di annotazione, lo schema di annotazione Chiba comprende tre schemi che si distinguono per il tipo di unità etichettate: • etichettatura dei markers discorsivi per parola o sintagma (A) • etichettatura delle unità di enunciato per un enunciato (frase) (B), e • etichettature delle unità di discorso per i cosiddetti segmenti di discorso (C). Questi diversi schemi vengono applicati ad ogni task. Il manuale di codifica sarà presto disponibile su Internet, ma è scritto in giapponese. Il profilo del lavoro è stato riportato in occasione della First International Conference on Language Resources and Evaluation tenutasi in Spagna nel maggio 1998. “Standardising Annotation Schemes for Japanese Discourse”, A. Ichikawa, et al. 4.4.2.2 Fenomeni annotati: • conventional: opening, closing • initiation: request, suggest, persuasion, propose, confirm, yes-no question, wh-question, promise, demand, inform, other assertion, other ititiation • response: positive, negative, answer, hold, other response • follow-up: understanding • response with initiation: l’elemento di questa categoria può essere rappresentato come response/initiation. 4.4.2.3 Esempi: 66 U: hai, etto, shinkanseN waNji hatsu desu ka. 67 (I) (What’s the departure time of the bullet train?) 68 S: e, jyuu nana ji haN ni natte orimasu. 69 (R) (It’s 17:30) 70 U: hai. 71 (F) (I see) E-93 Linea 1.1 – Dialoghi Annotati 4.4.2.4 Numero degli annotatori 10 annotatori. 4.4.2.5 Numero dei dialoghi annotati: Task Dialoghi Enunciati 14 509 Indicazioni stradali 3 131 Vendite al telefono 4 277 Informazioni turistiche 1 68 Gestione di appuntamenti 4.4.2.6 Valutazione dello schema: Indice alpha A B C 0,577 0,680 0,612 In Ichikawa, A., Araki, M., Horiuchi, Y. et al., 1999, Evaluation of Annotation Schemes for Japanese Discourse, viene indicata un’ulteriore valutazione dalla quale risulta un indice k pari a 0.64. 4.4.2.7 Obiettivo per il quale è stato generato lo schema di annotazione: Indicazioni stradali, programmazione, vendite al telefono, informazioni turistiche. 4.4.2.8 Linguaggio di codifica: Il linguaggio di codifica si presenta come mostrato qui di seguito (variante di SGML): <Dialog> <Utt Id=0000 Utterance_unit=open_dialogue Speaker=“S” Topic=scheduling Depth_of_segment=2> [Well] <then> please start. I marker discorsivi sono etichettati nella trascrizione. Le unità di enunciato e di discorso sono descritte secondo i canoni SGML. E-94 Linea 1.1 – Dialoghi Annotati 4.4.2.9 Esistenza di uno strumento software per l’annotazione: Viene impiegata una variante di DAT (DRI). Include la predizione dell’etichetta dell’unità di enunciato (l’accuratezza della predizione è di circa 70% in test aperto). 4.4.2.10 Possibilità di impiego: Non esistono informazioni disponibili in merito. E-95 Linea 1.1 – Dialoghi Annotati 4.4.3 Chat (Carnegie Mellon University, Dipartimento di Psicologia) 4.4.3.1 Documentazione: http://poppy.psy.cmu.edu/childes/index.html http://atila-www.uia.ac.be/childes Autore: Brian MacWhinney Titolo: The CHILDES Project: Tools for Analysing Talk 4.4.3.2 Fenomeni annotati: Speech act codes: • Interchange type categories (“x”): • CMO [CoMfOrting]: per confortare ed esprimere comprensione in caso di avversità • DCA [Discussing Clarification of Action]: per discutere i chiarimenti di atti comunicativi non verbali dell’ascoltatore • DCC [Discussing Clarification of Communication]: per discutere i chiarimenti riguardanti comunicazione verbale ambigua messa in atto dall’ascoltatore o conferme della sua comprensione da parte del parlante • DFW [Discussing the Fantasy World]: per intrattenere una conversazione nell’ambito di un gioco di fantasia • DHA [Directing Hearer’s Attention]: per ottenere il focus comune di attenzione indirizzando l’attenzione dell’ascoltatore verso oggetti, persone ed eventi facenti parte dell’ambiente circostante • DHS [Discussing Hearer’s Sentiments]: per intrattenere una conversazione riguardante i pensieri e i sentimenti dell’ascoltatore • DJF [Discussing a Joint Focus of attention]: per intrattenere una conversazione riguardante un elemento dell’ambiente circostante condiviso da entrambi i partecipante alla conversazione, ad es. oggetti, persone, azioni in corso di svolgimento (sia dell’ascoltatore che del parlante), eventi in corso di svolgimento • DNP [Discussing the Non Present]: per intrattenere una conversazione su argomenti che non sono osservabili nell’ambiente circostante, ad es. azioni passate o future, oggetti e persone lontani, questioni astratte (escludendo le conversazioni che riguardano stati d’animo) • DRE [Discussing a Recent Event]: per intrattenere una conversazione su azioni ed eventi verificatisi da poco E-96 Linea 1.1 – Dialoghi Annotati • DRP [Discussing the Related-to-Present]: per discutere attributi non osservabili di oggetti o persone presenti nell’ambiente circostante o per discutere eventi passati o futuri legati a detti referenti • DSS [Discussing Speaker’s Sentiments]: per intrattenere una conversazione a proposito dei pensieri e sentimenti del parlante • MRK [MaRKing]: per esprimere sentimenti socialmente attesi in occasioni specifiche, come ad es. ringraziamenti, scuse, o per contrassegnare un dato evento • NCS [Negotiate Copresence and Separation]: per gestire la transazione • NFA [Negotiating an Activity in the Future]: per negoziare azioni ed attività nel lontano futuro • NIA [Negotiating the Immediate Activity]: per negoziare l’iniziazione, continuazione, fine ed interruzione di azioni o attività; per indirizzare le azioni dell’ascoltatore e del parlante; per distribuire ruoli, mosse e turni in attività comuni • NIN [Non INteractive speech]: il parlante parla da solo o produce frasi che sono chiaramente non indirizzate all’ascoltatore presente • NMA [Negotiate Mutual Attention]: per stabilire l’attenzione, la prossimità o il ritiro comune • PRO [PeRfOrming verbal moves]: per effettuare mosse in un gioco o altra attività pronunciando l’appropriata forma verbale • PSS [negotiating PoSSession of objects]: per determinare o discutere chi è il possessore di un oggetto • SAT [Showing Attentiveness]: per dimostrare che il parlante sta prestando attenzione all’ascoltatore • TXT [read written TeXT]: per leggere ad alta voce o recitare un testo scritto • OOO enunciati non intelligibili • YYY enunciati non interpretabili • Categories of Illocutionary Force (“i”) • Directives: • AC [Answer Calls]: per mostrare attenzione nei confronti della comunicazione • AD acconsentire a svolgere l’azione richiesta o proposta dall’altra persona • AL acconsentire a fare qualcosa per l’ultima volta • CL richiamare l’attenzione dell’ascoltatore chiamandolo per nome o con esclamazioni sostitutive E-97 Linea 1.1 – Dialoghi Annotati • CS [Contro-Suggerimento]: un rifiuto indiretto • DR sfidare o incitare l’ascoltatore a svolgere una data azione • GI [Give In]: accettare le insistenze o i rifiuti dell’altra persona • GR [Give Reason]: addurre motivazioni, giustificare la richiesta di un’azione, un rifiuto o una proibizione • RD rifiutare di svolgere l’azione richiesta o proposta dall’altro • RP richiedere, proporre o suggerire un’azione all’ascoltatore o ad ascoltatore e parlante • RQ domanda o suggerimento si/no a proposito dei desideri ed intenzioni dell’ascoltatore • SS segnale per iniziare un’azione, come ad es. correre o far rotolare una palla • WD [Warn of Danger]: segnalazione di perico • Speech Elicitations • CX [Complete teXt]: completare il testo • EA incoraggiare la produzione di suoni onomatopeici o di versi di animali • EI incoraggiare l’imitazione di una parola o di una frase • EC incoraggiare a completare una parola o una frase • EX incoraggiare a completare un testo imparato a memoria • RT ripetere o imitare le frasi pronunciate da altri • SC completare affermazioni o altre frasi • Commitments • FP chiedere il permesso di svolgere un’azione • PD promettere • PF proibire/vietare/contestare lo svolgimento di un’azione da parte dell’ascoltatore • SI esprimere l’intenzione di svolgere un’azione, descrivere l’azione che si sta svolgendo • TD minacciare di fare qualcosa • Declarations • CD creare un nuovo stato di cose con una dichiarazione • DP dichiarare qc. riguardante la realtà fittizia/di gioco E-98 Linea 1.1 – Dialoghi Annotati • ND essere in disaccordo con una dichiarazione • YD concordare con una dichiarazione • Markings • CM commiserare, esprimere compassione/comprensione per il dolore dell’ascoltatore • EM esclamazione di dolore • EN esprimere un’emozione positiva • ES esprimere sorpresa • MK segnalare lo svolgimento di un dato evento (ringraziare, salutare, scusarsi, congratularsi ecc.) • TO segnalare il trasferimento di un dato oggetto al parlante • XA segnalare attenzione nei confronti dell’ascoltatore • Statements • AP concordare con le proposte espresse dal parlante precedente • CN contare • DW essere in disaccordo con le proposte fatte dal parlante precedente • ST affermare qualcosa • WS esprimere un desiderio • Questions & Answers • AQ domanda aggravate, espressione di disapprovazione effettuata riformulando una domanda • AA risposta affermative a una domanda si/no • AN risposta negativa a una domanda si/no • EQ domanda aperta • NA risposta intenzionalmente non soddisfacente • QA rispondere a una domanda con una domanda wh- • QN fare una domanda wh- • RA rifiutarsi di rispondere • SA risposta a una domanda wh- con un’affermazione E-99 Linea 1.1 – Dialoghi Annotati • TA risposta ad una domanda ad alternativa limitata • TQ fare una domanda ad alternativa limitata • YQ fare una domanda si/no • Performances • PR effettuare un’azione verbale in un gioco • TX leggere ad alta voce o recitare un testo • Evaluations • AB approvare un comportamento appropriato. Esprimere una valutazione positiva riguardante un’azione del parlante o dell’ascoltatore • CR criticare o segnalare un errore con un atto non verbale • DS disapprovare un comportamento errato. Esprimere una valutazione negativa riguardante un comportamento inappropriato del parlante o dell’ascoltatore • ED esclamazione di disapprovazione • ET esclamazione di sorpresa o entusiasmo, espressione di entusiasmo per un’azione dell’ascoltatore • PM lode per un atto motorio, ad es. per un comportamento non verbale • Demands for clarification • RR chiedere di ripetere la frase • Editing di testo • CT correggere, fornire una forma verbale corretta al posto di una sbagliata • Vocalizations • YY pronunciare un suono simile ad una parola senza una funzione precisa • 00 vocalizzazione non intelligibile 4.4.3.3 Esempi: *MOT: are you okay? %spa: $x:dhs $i:yq E-100 Linea 1.1 – Dialoghi Annotati 4.4.3.4 Numero degli annotatori: Il sistema CHAT è uno standard reale per la trascrizione e la codifica del linguaggio infantile in un certo numero di lingue europee e non europee. Questo significa che il sistema CHAT è stato impiegato da un gran numero di annotatori per scopi diversi, in modo tale che risulta difficile indicare il numero esatto degli annotatori. La maggior parte degli annotatori erano comunque linguisti. 4.4.3.5 Numero dei dialoghi annotati: Un numero enorme di dialoghi è stato annotato con il sistema CHAT. Tale numero supera l’ammontare di dialoghi disponibili nel database, poiché molti progetti che si occupano di linguaggio infantile fanno uso di CHAT senza contribuire al database generale di CHILDES. Il database di CHILDES riconosciuto a livello internazionale include trascrizioni provenienti da oltre quaranta grandi progetti in inglese e dati aggiuntivi provenienti da 19 altre lingue (portoghese brasiliano, cinese mandarino, cinese cantonese, danese, olandese, francese, tedesco, greco, ebraico, ungherese, italiano, giapponese, mambila, polacco, russo, spagnolo, svedese, tamil, turco e ucraino). Il database comprende attualmente 160 milioni di caratteri (160 MB). 4.4.3.6 Valutazione dello schema: Dato il suo impiego a livello mondiale, CHAT viene costantemente valutato ed aggiornato in modo da adattarlo alle esigenze di lingue ed utenti diversi. Non esistono comunque valutazioni statistiche e quantitative del suo livello di affidabilità. 4.4.3.7 Obiettivo per il quale è stato progettato: Analisi del linguaggio infantile. 4.4.3.8 Linguaggio di codifica: Formato proprio di CHAT. 4.4.3.9 Esistenza di uno strumento software per l’annotazione: Il sistema CHILDES contiene molti strumenti software separati ma integrati, suddivisi in due maggiori strumenti. Il primo strumento software è un editor orientato a trattare files ASCII (CED, Childes Editor), progettato per facilitare l’editing dei files di CHAT e per controllare l’accuratezza delle trascrizioni. Il secondo strumento software, attualmente un gruppo di molti strumenti minori, è un insieme di programmi per computer chiamato CLAN (Child Language Analysis) che può essere impiegato per analisi di diversi tipi. I seguenti manuali spiegano e mostrano il funzionamento del sistema: MacWhinney, B. (1995). The CHILDES project: Tools for analyzing talk, Hillsdale, NJ: Erlbaum Sokolov, J. e C. Snow (Eds.). (1994). Handbook of research in language development using CHILDES. Hillsdale, NJ; Erlbaum. E-101 Linea 1.1 – Dialoghi Annotati 4.4.3.10 Possibilità di impiego: Usato nel progetto CHILDES. E-102 Linea 1.1 – Dialoghi Annotati 4.4.4 COCONUT (The University of Pittsburgh Intelligent Systems Program; The Natural Language Group at SRI International) 4.4.4.1 Documentazione: http://www.isp.pitt.edu/~intgen/research-papers.html Autore: Barbara Di Eugenio, Pamela W. Jordan, Liina Pylkkänen Titolo: The COCONUT project: dialogue annotation manual (draft) 4.4.4.2 Fenomeni annotati: • Informative level • • Task • EvaluatePlan • GameProcedure Task management • • Strategize Action • Communication management • Other Level Forward-Communication Function • • Statement • Assert • Reassert • Other-Statement Influence-on-Listener • Open-Option • Directive • Info-Request • • • Action-direction Influence-on-speaker • Offer • Commit Other-forward-function • ConventionalOpening E-103 Linea 1.1 – Dialoghi Annotati • • ConventionalClosing • ExplicitPerformative • Exclamation Backward Comunicative Function • Initiate • Agreement • • • Accept • Accept-Part • Maybe • Reject-Part • Reject • Hold • ClarificationRequest Understanding • Signal-non-understanding • Signal-understanding • Acknowledge • RepeatRephrase • (Completion) • CorrectMisspeaking • CorrectAssumption Answer • Information Relations • Coreference / Set Relations • Segment Tag • Fragment 4.4.4.3 Esempi: S1: (a) so we shold move to the engine at Avon engine E to S2: (b) engine E one CorrMisspeak(a) S1: (c) E one to Bath Accept(b) E-104 Linea 1.1 – Dialoghi Annotati 4.4.4.4 Numero degli annotatori: 3 per lo sviluppo, ma solo due per l’annotazione vera e propria. 4.4.4.5 Numero dei dialoghi annotati: Sono stati annotati 16 dialoghi (ca. 800 enunciati), di cui 9 sono stati annotati due volte. Tutti i dialoghi sono in inglese. 4.4.4.6 Valutazione dello schema: Disponibile al sito: http://www.isp.pitt.edu/~intgen/research-papers.html 4.4.4.7 Obiettivo per il quale è stato generato lo schema di annotazione: Acquisto di mobili per il salotto e il soggiorno di una casa. 4.4.4.8 Linguaggio di codifica: Una variante di DAMSL. 4.4.4.9 Esistenza di uno strumento software per l’annotazione: È stato utilizzato il software Nota Bene (Nb) di Giovanni Flammia • manuale • linguaggio di implementazione: Tcl/Tk (Versione Tcl 7.4 e Versione Tk 4.0 o superiore) 4.4.4.10 Possibilità di impiego: Sistema COCONUT. E-105 Linea 1.1 – Dialoghi Annotati 4.4.5 Schema di annotazione di Condon e Cech (Discourse Intervention Project, University of Southwestern Louisiana) 4.4.5.1 Documentazione: ftp://sls-ftp.lcs.mit.edu/pub/multiparty/coding_schemes/condon Autore: Sherri Condon, Claude Cech Titolo: Manual for Coding Decision-Making Interactions 4.4.5.2 Fenomeni annotati: Top-Level Functions: • Move (MOVE) • Response (RESP) • Other (OTHR) Ogni enunciato deve essere associato ad una sola funzione appartenente ad una delle seguenti categorie: • Move Functions: • SA Suggest Action (for the decision task) locations, activities and orders for them • RA Request Action (requires immediate action) • RV Request Validation/Verification/Acknowledgement (of some statement) • RI Request Information (Information Questions) • ER Elaborates, Explains, Supports, Repeats previous utterance (Relevant comment) • NC No Clear MOVE function • Response Functions: • AS Agrees with Suggestion • DS Disagrees with Suggestion, Refuses to Comply with Request • CR Complies with Request • AO Acknowledges Only • NC No Clear RESPONSE function • Other functions: • DM Discourse Marker • ML Metalanguage • OS Orientation of Suggestion E-106 Linea 1.1 – Dialoghi Annotati • PI Requests, Offers, Refers to, Evaluates Personal Information • JE Jokes, Exaggerates • NC No Clear OTHER function 4.4.5.3 Esempi: • Funzioni di spostamento: SA: Let’s go to New Orleans RA: Write that down RV: right?, you know?, agreed?, To New Orleans? (checking questions) RI: Where do you want to go?, How long does it take to drive to New Orleans? ER: This is fun, I love New Orleans NC: Fillers • Funzioni di risposta: AS: ok, good idea, we should have a great time there DS: no, sounds boring, that is too much in one day CR: ok, it takes about an hour to drive to Baton Rouge AO: me, too, really, I know • Altre funzioni: DM: so, well, let’s see ML: Let’s decide where the party will be first, We’re finished OS: To go to New Orleans, let’s hire a jet, In New Orleans we can go on a riverboat PI: Were you in the service?, Have you ever been there?, I go there all the time JE: yeah/mall warriors, party on! 4.4.5.4 Numero degli annotatori: Cinque studenti, tutti non linguisti. 4.4.5.5 Numero dei dialoghi annotati: Il primo corpus (schema di codifica originario) contiene 4141 enunciati provenienti da 16 interazioni faccia a faccia e 918 enunciati provenienti da 16 interazioni mediate dal computer. Il nuovo schema è stato usato per annotare 8 interazioni faccia a faccia e 60 interazioni sincroniche mediate dal computer. Inoltre si sta lavorando sull’annotazione di 20 interazioni diacroniche (via email) mediate dal computer. L’obiettivo di queste interazioni era progettare la cerimonia per gli MTV video awards. E-107 Linea 1.1 – Dialoghi Annotati 4.4.5.6 Valutazioni dello schema: Non è ancora stata effettuata alcuna valutazione. Il sistema è però stato testato al workshop sull’annotazione di dialoghi tenutosi al Penn, durante il quale alcuni linguisti computazionali, il cui training consisteva nella semplice lettura del manuale di annotazione, hanno lavorato su una serie di dati Verbmobil ed hanno raggiunto un accordo perfetto in 33 enunciati su 36. 4.4.5.7 Obiettivo per il quale è stato generato lo schema di annotazione: Prendere delle decisioni. 4.4.5.8 Linguaggio di codifica: Linguaggio di codifica Nb. Non è completamente compatibile al formato SGML, ma con Nb viene distribuito un programma che converte i file annotati in Nb in file standard SGML. 4.4.5.9 Esistenza di uno strumento software per l’annotazione: Interfaccia Nb Tcl/Tk di G. Flammia. 4.4.5.10 Possibilità di impiego: Usato nel Discourse Processing Project. E-108 Linea 1.1 – Dialoghi Annotati 4.4.6 C-STAR (C-STAR Consortium) 4.4.6.1 Documentazione: Disponibile via ftp.cs.cmu.edu in project/enthusiast/cstar/current/manual.ps Autore: non indicato Titolo: Template translation and Dialogue Act Annotation 4.4.6.2 Lista dei fenomeni annotati: Circa 25 atti linguistici. Circa 500 azioni specifiche di dominio. Gli atti linguistici sono composizionali. Un atto linguistico è composto da tre livelli di rappresentazione che indicano aspetti diversi dell’enunciato: l’atto linguistico (ad es. quando il parlante effettua l’atto di accettare, dare un’informazione ecc.), il concetto che donota il focus di informazione dell’enunciato in questione (ad es. quando il parlante fornisce informazioni a proposito della disponibilità di camere, o riguardanti un viaggio, un volo ecc.) e gli argomenti che denotano i contenuti specifici dell’enunciato (ad es. quando il parlante dà informazioni a proposito di camere singole o doppie, uno o due voli ecc.). Gli argomenti sono ereditati sia dall’atto linguistico che dai concetti. Dialogue acts: accept, acknowledge, affirm, apologize, closing, give-information, greeting, introduce-self, introduce-topic, negate, offer, please-wait, reject, request-action, request-affirmation, request-information, request-suggestion, request-verification, suggest, suggest-action, thank, verify; 4.4.6.3 Esempi: The week of the twelfth we have both singles and doubles available. a:give-information+availability+room time=(week, md12)) (room-type=(single 4.4.6.4 Numero degli annotatori; 5 (linguisti, linguisti computazionali, informatici). 4.4.6.5 Numero dei dialoghi annotati: Inglese, CMU Numero di dialoghi Numero di turni Numero di segmenti 31 1605 2523 E-109 & double), Linea 1.1 – Dialoghi Annotati Coreano, con traduzioni in inglese, ETRI (Corea) 70 453 1140 Italiano, con traduzioni in inglese, IRST (Italia) 5 132 233 Giapponese, con traduzioni in inglese, ATR (Giappone) 124 4424 5887 Totale 230 6614 9783 4.4.6.6 Valutazione dello schema: L’accordo tra gli annotatori non è stato testato. 4.4.6.7 Obiettivo per il quale è stato generato lo schema di annotazione: Lo schema è stato sviluppato per dialoghi tra due agenti aventi come dominio la pianificazione di viaggi. In tali dialoghi un agente di viaggio e un cliente sono impegnati in diversi scenari di viaggio come ad es. prenotazione di voli/hotel, vendita di biglietti, domande sui mezzi di trasporto, richiesta di informazioni a proposito di tour e visite guidate ecc. Lo schema per l’annotazione degli atti linguistici è stato progettato per l’analisi di discorso parlato. L’attuale insieme di atti linguistici è principalmente basato su dialoghi riguardanti la prenotazione di hotel, ma lo schema è sufficientemente generale da poter essere esteso all’analisi di altri domini. 4.4.6.8 Linguaggio di codifica: Formato di intercambio. 4.4.6.9 Esistenza di uno strumento software per l’annotazione: Non esiste uno strumento software per l’annotazione. 4.4.6.10 Possibilità di impiego: Usato nel sistema dei membri del consorzio. E-110 Linea 1.1 – Dialoghi Annotati 4.4.7 DAMSL (Discourse Representation Initiative) 4.4.7.1 Documentazione: http://www.cs.rochester.edu:80/research/trains/annotation Autori: James Allen, Mark Core Titolo: Draft of DAMSL: Dialog Act Markup in Several Layers 4.4.7.2 Fenomeni annotati: • • • Communicative Status (registra se l’enunciato è intelligibile e se è stato completato con successo) • Uninterpretable • Abandoned • Self-talk Information Level (caratterizzazione del contenuto semantico dell’enunciato) • Task • Task-management • Communication-management • Other-level Forward Looking Function (come l’enunciato in esame influenza i pensieri e le azioni dei partecipanti e quale effetto ha sul discorso) • • Statement • Assert • Reassert • Other-statement Influencing-addressee-future-action • Suggestion • • • Action-directive Info-Request • • Weak Suggest or Negative Suggest Check Committing-speaker-future-action • Offer • Commit E-111 Linea 1.1 – Dialoghi Annotati • • Conventional • Opening • Closing • Explicit-performative • Exclamation • Other-forward-function Backward Looking Function • • Agreement • Accept • Accept-part • Maybe • Reject-part • Reject • Hold Understanding • Backchanneling • Signal-non-understanding • Signal-understanding • • • • Acknowledge • Repeat-rephrase • Completion Correct-misspeaking Answer Information-relation 4.4.7.3 Esempi: utt1: u: mm <click> okay Reassert utt2: four hours from Avon to Bath Action-directive utt3: and then I guess attach that to the boxcar to Corning utt4: it’s four hours and utt5: how long Info-request Abandoned utt6: it is two hours from Bath to Corning Info-request E-112 Linea 1.1 – Dialoghi Annotati 4.4.7.4 Numero di annotatori: A Rochester, solo due dei 18 dialoghi DAMSL annotati sono stati annotati da studenti di linguistica. Gli altri 16 sono stati annotati da uno studente di informatica e uno studente di ingegneria. 4.4.7.5 Numero di dialoghi annotati: 18 (1037 turni, 1524 enunciati) – tutti in inglese. 4.4.7.6 Valutazione dello schema: • Funzioni in avanti • Affermazione: k = 0,66 • Influenza sulle azioni future del destinatario: k = 0,70 • Impegno che coinvolge le azioni future del parlante: k = 0,15 • Altre funzioni in avanti: k = 0,48 • Funzioni all’indietro • Agreement: k = 0,42 • Understanding: k = 0,57 • Answer: k = 0,76 • Respnse: k = 0,77 4.4.7.7 Obiettivo per il quale è stato generato lo schema di annotazione: Questo schema di annotazione è stato definito per fornire una struttura di alto livello adatta ad annotare una serie di dialoghi per molti scopi diversi. 4.4.7.8 Linguaggio di codifica: DAMSL (una variante di SGML). 4.4.7.9 Esistenza di uno strumento software per l’annotazione: È stato utilizzato il tool dat (dialog annotation tool) • manuale • linguaggio di implementazione: Perl 5.004_04, Perl Tk 402.003 E-113 Linea 1.1 – Dialoghi Annotati 4.4.7.10 Possibilità di impiego: COCONUT, SWBD-DAMSL, CLARIFY, VERBMOBIL. Questo schema di annotazione è anche stato utilizzato da CSELT per l’annotazione di alcuni dialoghi del sistema di dialogo DIALOGOS (dominio: informazioni orari dei voli). E-114 Linea 1.1 – Dialoghi Annotati 4.4.8 Dialogos (CSELT – Centro Studi e Laboratori Telecomunicazioni S.p.A.) 4.4.8.1 Documentazione: Autori: Danieli, Morena e Carletti, Laura Titolo: Information about the coding of the Italian human-machine dialogues 4.4.8.2 Fenomeni annotati: • Analisi sintattico-semantica dei concetti generati dal parser utilizzati a livello discorsivo • • • CONFERMA – il parlante conferma o nega i parametri proposti nella domanda generata dal sistema • CONF-SI • CONF-NO Contesti di dialogo • STANDARD – indica il contesto normale di dialogo (c’è corrispondenza tra le aspettative del sistema e il comportamento dell’utente) • DIAL_WAIT – indica gli atti fatici (sia l’utente che il sistema di dialogo sono in attesa che qualche altro modulo del sistema compia una determinata azione, ad es. il collegamento con il database) • NOT-UND – il sistema non è in grado di capire uno o più turni precedenti dell’utente • NO-CONT – la risposta dell’utente era fuori dal focus, il che può essere il risultato di i) una mancata comprensione o ii) un turno di recovery messo in atto dal parlante • NEW-REQ – i parametri forniti dall’utente non sono sufficienti per accedere al database; il sistema chiede quindi al parlante di fornire altri parametri • ISOL-REC – dopo aver attraversato parecchi turni di NOT-UND e NO-CONT, il sistema di dialogo chiede all’utente di fornire il valore di un dato parametro pronunciando una parola alla volta, in modo da correggere i ripetuti errori di riconoscimento • CLOSE – chiusura del dialogo da parte dell’utente o da parte del sistema • SYST-ERR – interruzione del dialogo dovuta a fenomeni irreparabili di mancata comprensione Atti linguistici • REQ – richiesta di uno o più parametri da parte del sistema (es. “Mi dica da dove parte e dove vuole andare”) • VER – verifica del valore di un parametro (es. “Parte intorno alle cinque?”) • REQ#VER – combinazione dei due atti linguistici precedenti (es. “Da dove parte per andare a Milano?”) E-115 Linea 1.1 – Dialoghi Annotati • SELECT – seleziona; è usato dal sistema per chiedere all’utente di chiarire un parametro ambiguo (es. “Parte da Roma o arriva a Roma?”) • INFO – il sistema usa questo atto linguistico per generare le risposte che riguardano le informazioni acquisite dal database 4.4.8.3 Esempi: #Date: 990615 21:51:04 #File: 990615/001/0024p0.pri #C_Id: 0003990615214122 002 #Tipo: MOA 0001 1 ###################################################### PATTERN: <DA_5> T1S> [0] [INTRO, REQ,C_DEP,C_ARR] Il Servizio è automatico e fornisce gli orari dei treni che collegano le principali città italiane ed alcune città europee. Risponda alle domande del sistema, dopo il segnale acustico: Ora, mi dica da dove parte e dove vuole andare. <Utt Id=T2Uf> parto da firenze voglio andare a parigi &REQ,C_DEP,C_ARR T2Uf> [V:0 LM:9] @ parto da firenze e voglio andare a parigi -->C_DEP=FIRENZE C_ARR=PARIGI PATTERN: <DA_78 | Firenze | Parigi> T3S> [21] [STANDARD, VER,C_DEP,C_ARR] Vuole andare da Firenze a Parigi? <Utt Id=T4Uf> si &VER,C_DEP,C_ARR T4Uf> [V:0 LM:2] @ si --> CONFERMA=SI PATTERN: <DA_169 | <rd1 | domani>> T5S> [28] [STANDARD, VER,R_DAY] Parte domani? <Utt Id=T6Uf> si &VER,R_DAY T6Uf> [V:0 LM:6] @ si --> CONFERMA=SI PATTERN: <DA_198> T7S> [33] [DIAL_WAIT,PHA] Attenda: PATTERN: <DA_21> T8S> [34] [STANDARD, REQ,SP_TIME] A che ora desidera partire? <Utt Id=T9Uf> undici e trenta &REQ,SP_TIME T9Uf> [V:0 LM:11] @ undici e trenta -->HR=UNDICI MIN=TRENTA PATTERN: <DA_192 | <hr14 | undici | trenta>> T10S> [40] [STANDARD, VER,HOUR] Parte intorno alle undici e trenta? <Utt Id=T11Uf> si &VER,HOUR T11Uf> [V:0 LM:4] @ si -->CONFERMA=SI PATTERN: <DA_198> T12S> [47] [DIAL_WAIT, PHA] Attenda: PATTERN: <FLAG5> T13S> [49] [SPEC] Attenda in linea! E-116 Linea 1.1 – Dialoghi Annotati ##### Total time: 51 N_TURNI: 10 n.utt:5 n.pariso:0 #####ESITO:SUCC TOT_COLL:1 N_COLL:0 N_NOTE:0 DEP:880.0 ARR:2748.0 ############################################## <Dial ESITO=SUCC PF=ALL NS=YES> 4.4.8.4 Numero degli annotatori: 4 annotatori. 4.4.8.5 Numero dei dialoghi annotati: 94 dialoghi del corpus DIALOGOS-EUROSPEECH97 e 210 dialoghi del corpus FSINFORMACONT. 4.4.8.6 Valutazione dello schema: Non è ancora stata effettuata alcuna valutazione. 4.4.8.7 Obiettivo per il quale è stato generato lo schema di annotazione: • Informazione sugli orari dei treni • Informazioni sugli orari dei voli. 4.4.8.8 Linguaggio di codifica: • Stringhe ASCII per l’annotazione. • SGML per la valutazione dei dialoghi. 4.4.8.9 Esistenza di uno strumento software per l’annotazione: Una parte dell’annotazione è fatta in modo automatico dal sistema, un’altra è manuale e può essere effettuata con un comune editor. 4.4.8.10 Possibilità di impiego: Questo schema di annotazione è utilizzato nel sistema di dialogo DIALOGOS sviluppato da CSELT. E-117 Linea 1.1 – Dialoghi Annotati 4.4.9 GDA (Global Document Annotation) (Hasida Koiti, Electrotechnical Laboratory) 4.4.9.1 Documentazione: http://www.etl.go.jp/etl/nl/GDA/tagset.html 4.4.9.2 Fenomeni annotati: L’insieme di etichette GDA è stato pensato per annotare testi elettronici scritti su livelli diversi. Le etichette che vengono impiegate per codificare gli atti linguistici sono le seguenti: • Pragmatic relation • Understand und • Not understand nun • Reply rpl • Reply wh- rpw • Reply YES rpy • Reply NO rpn • Accept acc • Reject rej • Hold hld • Communicative Functions (forward-looking functions and backward-looking functions) • Statement stt • Order ord • Request req • Offer ofr • Commitment or promise cmt • YES/NO Query qyn • WH Query qw • Convention, including greetings cnv • Summon smn • Exclamation exc • Abuse abu • Blame blm E-118 Linea 1.1 – Dialoghi Annotati 4.4.9.3 Esempi Non sono documentati. 4.4.9.4 Numero degli annotatori Non esiste documentazione in merito. 4.4.9.5 Numero dei dialoghi annotati Non esiste documentazione in merito. 4.4.9.6 Valutazione dello schema Non esiste documentazione in merito. 4.4.9.7 Obiettivo per il quale è stato generato lo schema di annotazione: Lo scopo di GDA è quello di rendere automaticamente riconoscibile la struttura semantica e pragmatica dei testi elettronici. L’insieme di etichette è sviluppato in modo tale da poter essere facilmente integrato negli insiemi di etichette TEI, EAGLES e HTML. Alcune etichette sono mutuate direttamente dai suddetti linguaggi di codifica. Nel caso in cui una etichetta venga definita in due o più linguaggi di codifica, si preferisce adottare quella in HTML, visto che ci si aspetta che le etichette di GDA vengano impiegate prevalentemente in file HTML. GDA non è limitato ad alcun tipo di applicazione di elaborazione del linguaggio naturale o di intelligenza artificiale, ma cerca di comprendere il maggior numero possibile di quegli aspetti del linguaggio che possono essere utili per la traduzione, la ricerca di informazioni, il riassunto, la risposta a domande, lo studio di un dato caso, la presentazione ecc. Benché gli esempi si riferiscano principalmente all’inglese, l’insieme di etichette GDA non è legato ad alcuna lingua in particolare. L’insieme di etichette GDA non è legato ad alcuna teoria linguistica. Esso codifica le strutture semantiche e pragmatiche dei documenti conservando una posizione per così dire “neutrale”, al di sopra delle varie teorie linguistiche. 4.4.9.8 Linguaggio di codifica: Poiché questo schema è stato derivato da DAMSL, il linguaggio di codifica usato è probabilmente SGML. 4.4.9.9 Esistenza di uno strumento software per l’annotazione Non esiste documentazione in merito. E-119 Linea 1.1 – Dialoghi Annotati 4.4.9.10 Possibilità di impiego Non esiste documentazione in merito E-120 Linea 1.1 – Dialoghi Annotati 4.4.10 Janus (Carnegie Mellon University, Language Technology Institute, Universität Karlsruhe) 4.4.10.1 Documentazione: Non esiste un manuale di codifica disponibile al pubblico. 4.4.10.2 Fenomeni annotati: Atti linguistici composizionali. Si veda l’elenco dei fenomeni annotati da C-STAR (§ 2.6.2). 4.4.10.3 Esempi: [nicety] (Hello Dr. Noah) [nicety] (Hi Tor) [suggest-meeting] (let’s set up a meeting for a couple of hours) [temporal] (in the next two weeks) [your availability] (when’s good for you) [interject] (let’s see) [suggest time] (how about Friday the second in the morning) [my-unavailability] (I’m busy that morning) 4.4.10.4 Numero degli annotatori: Tra 4 e 10 (linguisti, linguisti computazionali, informatici). 4.4.10.5 Numero dei dialoghi annotati Numerosi set di test. Ogni set comprende circa 100 enunciati. 4.4.10.6 Valutazione dello schema: La metrica non standard utilizzata (“correct word to state classification”) ammonta all’8%. Non è pubblica la formula che permette di calcolare la metrica qui riportata. 4.4.10.7 Obiettivo per il quale è stato generato lo schema di annotazione: Programmazione/organizzazione di appuntamenti E-121 Linea 1.1 – Dialoghi Annotati 4.4.10.8 Linguaggio di codifica: Formato proprio dello schema. 4.4.10.9 Esistenza di uno strumento software per l’annotazione: L’annotazione è effettuata manualmente. 4.4.10.10 Possibilità di impiego: Sistema Janus. E-122 Linea 1.1 – Dialoghi Annotati 4.4.11 Schema di annotazione di Giovanni Flammia (Spoken Language Systems Group, Laboratory for Computer Science, Massachussetts Institute of Technology) 4.4.11.1 Documentazione: ftp://sls-ftp.lcs.mit.edu/pub/multiparty/coding_schemes/flammia Autore: Giovanni Flammia Titolo: Instructions for Annotating Segments in Dialogues 4.4.11.2 Fenomeni annotati: Fenomeni strutturali/funzionali, quali ad es. la divisione dei dialoghi in segmenti riguardanti ognuno un dato argomento (topic). Un segmento è quindi definito come la sequenza di due o più turni di dialogo (che includono almeno un enunciato di ciascun parlante), all’interno dei quali si ha il passaggio di un’informazione rilevante tra i partecipanti alla conversazione. La rilevanza è definita in termini di necessità ai fini della prosecuzione del compito definito dal dialogo. Lo schema di annotazione Flammia non fornisce le categorie con le quali annotare i segmenti; gli annotatori sono liberi di scegliere la descrizione che ritengono più appropriata per ciascun segmento. In ogni caso, alcune etichette di atti linguistici esemplificate nell’approccio di Flammia sono: Request, Response, Acknowledge, Accept, Reject, Repeat, Confirm e Question Confirm. È specificata una procedura decisionale a proposito di come “ritagliare” i segmenti dai dialoghi, insieme ad alcune regole euristiche riguardanti le possibili corrispondenze tra le forme di superficie ed i confini di segmento. Ai fenomeni di discorso quali saluti, introduzioni, offerte di aiuto, fenomeni di mantenimento del canale (atti fatici), suggerimenti per la continuazione, ringraziamenti e chiusure non viene riconosciuto uno status rilevante ai fini della segmentazione. Vengono segnalati ed annotati esclusivamente i segmenti che contengono informazioni rilevanti per il compito da svolgere. 4.4.11.3 Esempi: http://sls-www.lcs.mit.edu/~flammia/Nb/example_output.gif 4.4.11.4 Numero degli annotatori: 16 studenti con qualche conoscenza di informatica e linguistica. 4.4.11.5 Numero dei dialoghi annotati: 25 dialoghi composti mediamente da 40 turni ciascuno e 29 dialoghi contenenti 120 enunciati ciascuno. La lingua dei dialoghi è l’inglese americano. E-123 Linea 1.1 – Dialoghi Annotati 4.4.11.6 Valutazione dello schema: Disponibile al sito: http://www.sls.lcs.mit.edu/~flammia/publications.html • “Empirical evaluation of human performance and agreement in parsing discourse constituents in spoken dialogue”; • “Learning the structure of mixed initiative dialogues using a corpus of annotated conversations”; L’indice di accordo tra i valutatori riguardante la definizione dei confini di segmento è pari a 83,4%. L’indice medio di accuratezza simbolica di coppia per scopi riguardanti i segmenti è pari a 80,1%. k = 0,6 4.4.11.7 Obiettivo per il quale è stato generato lo schema di annotazione: Dialoghi di raccolta di informazioni; conversazioni telefoniche tra utenti ed operatori del servizio Movies Now di BellSouth – un numero telefonico che fornisce informazioni a proposito dei film in programmazione ad Atlanta. 4.4.11.8 Linguaggio di codifica: Linguaggio di codifica di Nb. Questo linguaggio non è pienamente compatibile con SGML, ma con Nb viene distribuito un programma che converte i file annotati con Nb in file SGML standard. 4.4.11.9 Esistenza di uno strumento software per l’annotazione: Interfaccia Nb Tcl/Tk di G. Flammia. 4.4.11.10 Possibilità di impiego: Non sono disponibili informazioni in merito. E-124 Linea 1.1 – Dialoghi Annotati 4.4.12 LinLin (Linköping University) 4.4.12.1 Documentazione: http://www.cs.umd.edu/users/traum/DSD/arne2.ps Autori: Nils Dahlbäck e Arne Jönsson Titolo: A coding manual for the Linköping dialogue model Per ulteriori informazioni vedi Larsson (1998), Ahrenberg, Dahlbäck & Jönsson (1995), Jönsson (1995a), Jönsson (1995b), Jönsson, 1993. 4.4.12.2 • • Initiative • Update (U): l’utente fornisce informazioni al sistema • Question (Q): l’utente ottiene informazioni dal sistema Response • • Fenomeni annotati: Answer (A): risposta del database del sistema, risposta a una richiesta di chiarimento Discourse management • Opening (DO) • Ending (DE) • Discourse Continuation (DC) 4.4.12.3 Esempi: S: [Welcome to Cardata] DO U: [show mercedes] Q S: [Wait…] DC [Cardata è un sistema in grado di rispondere a domande su una serie di modelli di macchine a proposito di produttore, modello, anno, paese di produzione, predisposizione alla ruggine, classe di grandezza e a domande a proposito di prezzo, sicurezza, spazio e dati tecnici] A: [Any particular wishes?] Q U: [cost and space] A 4.4.12.4 Numero degli annotatori: Attualmente nessuno. In precedenza lo schema è stato utilizzato da quattro persone. E-125 Linea 1.1 – Dialoghi Annotati I dialoghi sono stati analizzati da linguisti, da uno psicologo e da un informatico. La maggior parte del lavoro di etichettatura dei dialoghi è stato effettuato da due studenti, uno di scienze cognitive e uno di informatica. 4.4.12.5 Numero dei dialoghi annotati: Il corpus usato per lo sviluppo di LinLin comprende 30 dialoghi con 1749 enunciati. Il modello di dialogo è anche stato applicato a 100 dialoghi SUNDIAL con circa 700 enunciati e a 10 dialoghi Waxholm con circa 400 enunciati (tutti i dialoghi sono in svedese). 4.4.12.6 Valutazione dello schema: Non è disponibile alcun indice K relativo allo schema di annotazione LinLin, ma è stato raggiunto un accordo tra i valutatori del 97%. 4.4.12.7 Obiettivo per il quale è stato generato lo schema di annotazione: LinLin è stato progettato per analizzare dialoghi scritti uomo-macchina (simulata) riguardanti la ricerca di informazioni. Attualmente è anche applicato al corpus AIRPLANE con dialoghi di istruzioni uomo-uomo. 4.4.12.8 Linguaggio di codifica: Linguaggio di codifica Nb (pseudo SGML – non pienamente compatibile). 4.4.12.9 Esistenza di uno strumento software per l’annotazione: Nb (NotaBene) per la codifica, perlscript per l’analisi. 4.4.12.10 Possibilità di impiego: Lo schema è usato nel progetto S-DIME (Swedish Dialogue Move Engine). E-126 Linea 1.1 – Dialoghi Annotati 4.4.13 Maptask (Human Communication Research Centre, University of Edinburgh) 4.4.13.1 Documentazione: http://www.hcrc.ed.ac.uk/~jeanc/ Autori: Carletta, J.C., Isard, A., Isard, S., Kowtko, J., Doherty-Sneddon, G. e Anderson, A. Titolo: HCRC Dialogue Structure Coding Manual Human Communication Research Centre HCRC TR-82, University of Edinburgh, Edinburgh, Scotland, 1996 Una versione più breve delle istruzioni per l’annotazione è presente in: Autori: Carletta, J.C., Isard, A., Isard, S., Kowtko, J., Doherty-Sneddon, G. e Anderson, A. Titolo: The Reliability of Dialogue Structure Coding Scheme. Computational Linguistics, 23, 13-31. 1997 4.4.13.2 Fenomeni annotati: Vengono annotati soprattutto atti linguistici, ma le documentazioni descrivono anche l’annotazione e gli indici di affidabilità relativi a strutture discorsive di livello più alto costruite partendo dagli atti linguistici, in termini di giochi che comprendono dialoghi orientati al raggiungimento di un obiettivo e transazioni riguardanti la pianificazione del dialogo. • • • Initiating Moves • Instruct • Explain • Check • Align • Query-YN • Query-W Response Moves • Acknowledge • Reply-Y • Reply-N • Reply-W • Clarify Ready Move E-127 Linea 1.1 – Dialoghi Annotati 4.4.13.3 Esempi: *TA15 *A 3 3,4 *E 7 IG instruct And go up to about the middle of the map. *M instruct *TB16 *B 7,* The middle of the map. *M acknowledge *TA 17 And stop. *M instruct 4.4.13.4 Numero degli annotatori: La maggior parte del corpus Map Task è stato annotato da quattro diversi annotatori. In tutto almeno 50 persone hanno provato lo schema, che è stato utilizzato da una dozzina di progetti di ricerca. La maggior parte degli annotatori erano dottorandi in linguistica o psicologia. 4.4.13.5 Numero dei dialoghi annotati: 128 nel corpus Map Task originario (dialoghi in inglese), più almeno altrettanti dialoghi annotati usando lo stesso schema o varianti minori, compresi nel Map Task con dialoghi in altre lingue e/o in altre condizioni (solo audio, mediati da un video, con bambini) o con dialoghi con un obiettivo diverso (ad es. organizzazione di viaggi, simulazione di servizi finanziari, task più semplici per bambini). 4.4.13.6 Valutazione dello schema: I risultati della valutazione sono pubblicati in: Carletta, J.C., Isard, A., Isard, S., Kowtko, J., Doherty-Sneddon, G. e Anderson, A. (1997) The Reliability of a Dialogue Structure Coding Scheme. Computational Linguistics, 23, 13-31. Valori degli indici registrati: per la segmentazione degli atti: k = 0.92 (N = 4079, k = 4) per la classificazione degli atti nel corpus principale: k = 0.83 (N = 563, k = 4) E-128 Linea 1.1 – Dialoghi Annotati per la classificazione degli atti usando annotatori non esperti ed istruzioni scritte: k = 0.67 (N = 139, k = 3, indice di accordo k = 0.69 quando anche gli sviluppatori dello schema di annotazione si sono uniti al gruppo) per la distinzione principale tra apertura (initiation) , reazione (response) o “pronto” (ready), usando annotatori non esperti: k =0 .84. I disaccordi sono stati registrati tra CHECK e QUERY-YN, INSTRUCT e CLARIFY, e ACKNOWLEDGE, READY e REPLY-Y. 4.4.13.7 Obiettivo per il quale è stato generato lo schema di annotazione: Lo schema è motivato linguisticamente, ma è stato sviluppato sul map task. 4.4.13.8 Linguaggio di codifica: L’attuale linguaggio di codifica è specificato in un documento interno dello HCRC; il linguaggio è compatibile con SGML ed è basato su TEI. 4.4.13.9 Esistenza di uno strumento software per l’annotazione: Non esiste uno strumento software pubblicamente disponibile. Gli strumenti software interni per l’annotazione operano in python usando LT-XML e Tk, e in Microsoft Word. Per effettuare l’annotazione è possibile configurare Nb (implementato in TCL/Tk). Non è disponibile l’annotazione semi-automatica. 4.4.13.10 Possibilità di impiego: Questo schema di annotazione è stato usato per a) strutturare l’elemento di pianificazione del dialogo in un sistema di dialogo, b) imparare ad annotare gli atti linguistici basati sul riconoscimento del topic e c) effettuare il training della relazione tra il tipo di prosodia e il tipo di atto linguistico. E-129 Linea 1.1 – Dialoghi Annotati 4.4.14 Schema di annotazione di Christine Nakatani (Harvard University, USA and AT&T Bell Laboratories, USA) 4.4.14.1 Documentazione: ftp://sls-ftp.lcs.mit.edu/pub/multiparty/coding_schemes/nakatani Autore: Christine H. Nakatani, Barbara J. Grosz, David D. Ahn e Julia Hirschberg (1995) Titolo: “Instructions for Annotating Discourses”. Technical Report Number TR-21-95. Center for Research in Computing Technology, Harvard University, Cambridge, MA. 4.4.14.2 Fenomeni annotati: Lo scopo di questo schema è annotare gli scopi dei segmenti di discorso, cioè il motivo per cui un parlante pronuncia un dato segmento di discorso. Lo scopo di ogni segmento è descritto all’inizio del segmento, su una riga che inizia con una semplice etichetta WHY?. Gli scopi sono individuati facendo riferimento alle conoscenze personali e all’intelligenza generale degli annotatori. Viene consigliato agli annotatori di usare espressioni adatte a descrivere l’intenzione del parlante il più possibile specifiche, e quindi di preferire espressioni del tipo “dare un consiglio su come rimuovere la vena sotto l’acqua corrente”, anziché espressioni come “spiegare la pulitura della venatura”. In generale, un segmento viene associato ad un intento, ma un segmento può anche essere relazionato a molti scopi e viceversa. Gli intenti che corrispondono a segmenti di discorso diversi sono organizzati in modo gerarchico, da WHY? usato per in indicare lo scopo generale agli scopi minori sussidiari dei segmenti minori. I segmenti vanno dall’intero dialogo/discorso alle frasi; i sintagmi avverbiali e preposizionali (chiamati mini-segmenti) che forniscono informazioni aggiuntive non sono etichettati con un’etichetta WHY?. Non ci sono regole a proposito del numero dei sottosegmenti che ogni segmento può contenere. I segmenti e gli scopi allo stesso livello non devono necessariamente essere allo stesso livello di dettaglio o riguardare lo stesso tipo di informazione. I segmenti e gli intenti allo stesso livello possono non essere direttamente relazionati uno all’altro, ma devono essere necessariamente relazionati al segmento/intento immediatamente più grande. Due sintagmi consecutivi possono condividere o non condividere lo stesso scopo; se lo condividono, i loro scopi appartengono allo stesso livello: se non lo condividono, uno dei due scopi è sussidiario dell’altro e quindi uno dei due sintagmi introduce un sottosegmento in esso incastonato. I segmenti discontinui (come nel caso di digressioni, incisi, elaborazioni ecc., che sospendono momentaneamente il topic in corso di svolgimento) appaiono come un sottosegmento compreso all’interno del segmento più grande, che lo “avvolge”. 4.4.14.3 Esempi: WHY? Teach new cook how to make stuffed sole We’re going to be making sole, stuffed with shrimp mousse. WHY? Explain steps of initial preparation of ingredients and equipment WHY? Identify ingredients E-130 Linea 1.1 – Dialoghi Annotati In the small bag is the sole and the shrimp. And there are ten small sole fillets and there’s half a pound of medium shrimp WHY? Instruct new cook to get equipment ready. Okay, and you’re going to need a blender to make the mousse. So you should get your blender out. WHY? Explain how to make shrimp mousse Okay, the first thing we want to do, we should do is we should make the shrimp mousse. WHY? Tell how to prepare shrimp And, what you want to do is you want to take the shrimp, okay and you want to peel and devein them. WHY? Describe peeling Okay, what you do is you peel the outer shell off. WHY? Describe deveining process WHY? Tell how to find vein by cutting Okay, and then you hold the shrimp and you run a knife down the outside, it’s like the back of the shrimp, okay, just cut in about a sixteenth of an inch. What you’ll see, is there’ll be a vein, there. WHY? Tell how to remove vein Okay, it, it’ll either be a pinkish vein or a black vein. WHY? Explain removal of pink vein Okay, if there’s a pink vein you can just pull it out. WHY? Explain removal of dark vein Okay, if there’s a dark colored vein, you can, you wash that out. Run your thumb down one of your fingers down the back to get that out. WHY? Give tip on removing vein under faucet And you know, what I usually do is, to rinse or wash out the vein, I just hold the shrimp under the sink, under the uh, the faucet. I cut it and then I put it under the faucet. WHY? Explain how to blend shrimp and other ingredients to make mousse Okay now um, let’s see, take the shrimp and place the shrimp in the blender. … E-131 Linea 1.1 – Dialoghi Annotati WHY? Describe how to prepare sole for “stuffing” Now, get out a large casserole, like a nine by twelve. … Now you want to place five of the um, the sole fillets side by side in the baking dish. WHY? Explain how to “stuff” sole with shrimp mousse Okay, and now you take the shrimp mousse and you uh, you place a fifth of the mousse on each of the fillets. … Use all the mousse. Spread it evenly over each fillet. 4.4.14.4 Numero degli annotatori: Un gruppo di sei annotatori ha ricevuto un addestramento per imparare ad usare il manuale per il progetto sul Boston Directions Corpus all’università di Harvard (il gruppo comprendeva gli autori del manuale). Gli annotatori non avevano conoscenze linguistiche. Si è appositamente scelto di impiegare annotatori inesperti per ottenere delle annotazioni “non prevenute” (da confrontare ad es. con le annotazioni fatte dai ricercatori stessi). 4.4.14.5 Numero dei dialoghi annotati: Sono stati annotati circa 72 monologhi in cui venivano fornite indicazioni stradali effettuati da quattro parlanti diversi. L’annotazione è stata effettuata ascoltando i monologhi. Tutti i monologhi sono in inglese. I monologhi sono stati segmentati in unità prosodiche intermedie ai fini dell’annotazione del dialogo. 4.4.14.6 Valutazione dello schema: I risultati delle valutazioni statistiche e quantitative effettuate sullo schema non sono ancora stati pubblicati. 4.4.14.7 Obiettivo per il quale è stato generato lo schema di annotazione: Questo schema non è limitato ad alcun compito o scopo particolare. È comunque principalmente applicato all’analisi di dialoghi che forniscono indicazioni stradali. Lo schema non è adatto ad analizzare conversazioni orali che non hanno un chiaro intento comunicativo. 4.4.14.8 Linguaggio di codifica: Linguaggio di codifica Nb. Questo linguaggio non è completamente compatibile con SGML, ma con Nb viene distribuito un programma che converte i file annotati in Nb in file SGML standard. E-132 Linea 1.1 – Dialoghi Annotati 4.4.14.9 Esistenza di uno strumento software per l’annotazione: Interfaccia Nb Tcl/Tk di G. Flammia. 4.4.14.10 Possibilità di impiego: Boston Directions Project, anche nel lavoro sui correlati intonativi della struttura del discorso (Barbara Grosz, Julia Hirschberg, Christine Nakatani). E-133 Linea 1.1 – Dialoghi Annotati 4.4.15 SLSA (Göteborg University} 4.4.15.1 Documentazione: Feedback e gestione dei turni: Autori: Joakim Nivre, Jens Allwood, Elisabeth Ahlsén Titolo: Nivre, Joakim, Allwood, Jens & Elisabeth Ahlsén (1998). Interactive Communication Management: Coding Manual. Göteborg University: Department of Linguistics. Gestione della comunicazione Autori: Jens Allwood, Elisabeht Ahlsén, Joakim Nivre, Staffan Larsson Titolo: Own Communication Management (in svedese) 4.4.15.2 • • Fenomeni annotati: Per i feedback e la gestione dei turni: • Categorie grammaticali • Operazioni strutturali (fonologiche, morfologiche, contestuali) • Posizione (delle unità strutturali all’interno del FBU/ all’interno di un enunciato ampio) • Funzione del FBU Per la gestione della comunicazione: • Struttura (pausa, parola, sintagma, ripetizione, ecc.) • Funzione (principalmente scelta vs. cambio) • Atti comunicativi all’interno di un dialogo in tribunale • Atti comunicativi olistici • Funzione espressiva principale • Funzione evocativa principale • Obblighi • Relazioni con i contributi precedenti 4.4.15.3 Esempi: A: kommer du? (Are you coming?) B: ja (Yes.) E-134 Linea 1.1 – Dialoghi Annotati A: kan du [1 ta me en] 1 penna (Can you take a pencil with you?) B: [1 va sa du] 1 (What did you say?) B: okay // vill du ha en egen (All right, would you like to have your own one?) A: ja de vill ja (Yes, please!) 4.4.15.4 Numero degli annotatori: 7 linguisti. 4.4.15.5 Numero dei dialoghi annotati: Circa 100 (in svedese). 4.4.15.6 Valutazione dello schema: Sono stati fatti test per misurare l’affidabilità dello schema, ma i risultati non sono disponibili. 4.4.15.7 Obiettivo per cui è stato generato lo schema di annotazione: • Dipendente dal dominio (dialoghi in tribunale) • Motivati linguisticamente – si distingue tra: • Tipi di attività sociale • Tipi di parlante • Sottosequenze • Mezzo • Scritto vs. orale • Partner umano vs. partner non umano • Faccia a faccia vs. mediato 4.4.15.8 Linguaggio di codifica: Il linguaggio di codifica non è basato su alcuno dei linguaggi di codifica standard. È invece basato sulla logica come linguaggio di annotazione. 4.4.15.9 Esistenza di uno strumento software per l’annotazione: Tractor (sviluppato all’università di Göteborg): lavora su Ix-Window, UNIX e Power Macs. E-135 Linea 1.1 – Dialoghi Annotati • Possibilità di identificare livelli strutturali e descrittivi; • Possibilità di distinguere tra schema multi-valore e schema a valore singolo; • Possibilità di distinguere tra proprietà e relazioni; • Supporto di affidabilità corretto; • Supporto di analisi automatiche; • Possibilità di effettuare schemi gerarchici; • Possibilità di includere facilmente schemi alternativi diversi. 4.4.15.10 Possibilità di impiego: Usato nel sistema SLSA. E-136 Linea 1.1 – Dialoghi Annotati 4.4.16 Schema di annotazione del progetto Switchboard SWDB-DAMSL (University of Colorado) 4.4.16.1 Documentazione: http://stripe.Colorado.EDU/~jurafsky/manual.august1.html Autori: Dan Jurafsky, Liz Shriberg, Debra Biasca Titolo: Switchboard SWBD-DAMSL, Ahallow-Discourse-Function Annotation; Coders Manual, Draft 13 4.4.16.2 • • Fenomeni annotati: Communicative Status • Uninterpretable (%): But, uh, yeah • Non-verbal (x); [Laughter] • Abandoned or Turn-Exit (%): So,- • Self-talk (t1): What’s the world I’m looking for… • 3rd-party-talk (t3): My goodness, Diane, get down from there. Forward-Communicative-Function • • • Statement • Statement-non-opinion (sd): Me, I’m in the legal department • Statement-opinion (sv): I think it’s great. Influencing-addressee-future-action • Yes-No-Question (qy): Do you have any special training? • Wh-Question (qw): Well, how old are you? • Open-Question (qo): How about you? • Or-Clause (qrr): Or is it more of a company? • Declarative Yes-No-Question (qy^d): So you can afford to get a house? • Declarative Wh-Question (qw^d): You are what kind of buff? • Tag-Question (^q): Right? • Action-directive (ad): Why don’t you go first? • Backchannel in question form (bh): Is that right? • Rhetorical-Questions (qh): Who would steal a newspaper? Committing-speaker-future-action • Offers, Options, Commits (oo,cc,co): I’ll have to check that out E-137 Linea 1.1 – Dialoghi Annotati • • Other-forward-function • Conventional-opening (fp): How are you? • Conventional-closing (fc): Well, it’s been nice talking to you. • Thanking (ft): Hey thanks a lot. • Apology (fa): I’m sorry. Backwards-Communicative-Function • • • Agreement • Agree/Accept (aa): That’s exactly it. • Maybe/Accept-part (aap/am): Something like that • Reject (ar): Well, no. • Hold before answer/agreement (^h): I’m drawing a blank. Understanding • Signal-non-understanding (br): Excuse me? • Response Acknowledgement (bk): Oh, okay. • Repeat-phrase (b^m): Oh, fajitas. • Collaborative Completion (^2): Who aren’t contributing? • Acknowledge (b): Uh-huh. • Summarise/reformulate (bf): Oh, you mean you switched schools for the kids. • Appreciation (ba): I can imagine. • Downplayer (bd): That’s all right. Answer • Yes answers (ny): Yes. • No answers (nn): No. • Affirmative non-yes answers (na.ny^e): It is. • Negative non-no answers (ng.nn^e): Uh, not a whole lot. • Other answers (no): I don’t know • Dispreferred answers (arp,nd): Well, not so much that. • Other • Quotation (^q): You can’t be pregnant and have cats. • Hedge (h): I don’t know if I’m right or not. 4.4.16.3 ad Esempi: A63 utt2: {C and } think [what, + what’s] is going to be like for [ E-138 Linea 1.1 – Dialoghi Annotati youngest,] + [an +] my oldest] son, when he goes to school. qh A.63 utt3: What’s going to happen? / sd A.63 utt4: {E I mean} [I, + I’m] afraid for him to go. / 4.4.16.4 Numero degli annotatori: 9 (linguisti). 4.4.16.5 Numero dei dialoghi annotati: 1155 conversazioni/oltre 250 000 enunciati/1,4 milioni di parole. 4.4.16.6 Valutazione dello schema: 0,80 < k < 0,84 4.4.16.7 Obiettivo per il quale è stato generato lo schema di annotazione: Conversazioni telefoniche tra persone che non si conoscono. 4.4.16.8 Linguaggio di codifica: Una variante di DAMSL (che è a sua volta una variante di SGML). 4.4.16.9 Esistenza di uno strumento software per l’annotazione: Non esiste uno strumento software per l’annotazione. Gli enunciati vengono annotati a mano. 4.4.16.10 Possibilità di impiego: Questo schema è usato per effettuare il training di grammatiche discorsive stocastiche e per costruire Modelli di Linguaggio (LM) migliori per l’Automatic Speech Recognition (ASR) di Switchboard. Una variante di SWBD-DAMSL è CLARIFY, che viene attualmente sviluppata alla Carnegie Mellon University (Lori.Levin@alexis.boltz.cs.cmu.edu). E-139 Linea 1.1 – Dialoghi Annotati 4.4.17 Schema di annotazione di David Traum (University of Maryland) 4.4.17.1 Documentazione: ftp://sls-ftp.lcs.mit.edu/pub/multiparty/coding_schemes/traum Autore: David Traum Titolo: Coding Schemes for Spoken Dialogue Structure 4.4.17.2 • • • Fenomeni annotati: Relatedness • e Explicit Acknowledgement • Related to • 0 relazionato all’enunciato più recente del parlante precedente • 1 relazionato all’enunciato prima del più recente ma non all’enunciato più recente • 2 relazionato a due enunciati prima del più recente • etc. numeri più alti di enunciati andando a ritroso • , relazionati a materiale precedente dell’altro parlante, ma non è chiaro all’annotatore se sono relazionati all’enunciato immediatamente precedente o ad enunciati ancora precedenti • u non relazionato a quanto detto in precedenza da un parlante • ? è incerto se gli enunciati sono relazionati a quanto detto in precedenza dall’altro parlante • u-e non relazionato seguente un riconoscimento esplicito • 1-e relazionati al penultimo enunciato dell’altro parlante, quando l’ultimo enunciato contiene solo un riconoscimento esplicito Grounding Acts • Initiate: inizia una nuova unità di discorso (DU) con contenuto separato da quello delle DU precedenti incomplete • Continue: continuazione del materiale precedente da parte dello stesso parlante • Acknowledge: dimostra o sostiene la comprensione del materiale in precedenza pronunciato dall’altro parlante • Repair: corregge (potenziali) incomprensioni del contenuto di un’unità di discorso (DU) • Request Repair: segnale di mancata comprensione • Request Ack: segnala all’altro di attestare che ha capito • Cancel: cancella una precedente DU Surface Form E-140 Linea 1.1 – Dialoghi Annotati • • • Declarative • Interrogative • Imperative • Fragment • Cue word • Non-linguistic Illocutionary Function • INFORM: il parlante fornisce informazioni nuove (include anche l’atto di fornire informazioni richieste quando si risponde ad una domanda) • YNQ: il parlante fa una domanda si/no per cercare di determinare la polarità di una proposizione • CHECK: il parlante tenta di verificare la veridicità di una certa (sospetta) proposizione • WHQ: il parlante fa una domanda wh- per cercare di determinare il valore di un dato item in una proposizione • SUGGEST: il parlante propone un nuovo item (azione, proposizione, limitazione di un piano) • REQUEST: il parlante mira a far eseguire una qualche azione all’ascoltatore • ACCEPT: il parlante accetta una proposta precedente dell’ascoltatore • REJECT: il parlante rifiuta una proposta precedente del parlante • SUPP-INF: il parlante fornisce informazioni aggiuntive (magari già note) che aiutano l’ascoltatore ad interpretare un altro atto linguistico. Generalmente questo atto linguistico viene effettuato in una proposizione secondaria o in un sintagma appositivo. • SUPP-SUG: il parlante fa un ulteriore suggerimento di contenuto, che si suppone faccia parte del piano avviato da un altro suggerimento o da un’altra richiesta. Questo atto linguistico viene generalmente effettuato con una proposizione finale (purpose clause) • EVAL: il parlante fa una valutazione a proposito di un item. Questo include sia valutazioni fattuali (ad es. la probabilità di successo di un’azione) che valutazioni personali, che descrivono cosa prova l’autore nei confronti di qualcosa. • GREET: il parlante cerca di stabilire una connessione, ad es. dicendo “hello” o dicendo il nome dell’ascoltatore all’inizio del dialogo • APOLOGIZE: il parlante si scusa per qualche azione (ad es. parlare al di fuori del proprio turno) o interpretazione errata Argumentation Structure • (: so act1 act2): l’atto 1 è rilevante per l’interpretazione dell’atto 2. Se l’atto 2 è un atto informativo, la veridicità del suo contenuto dovrebbe essere parzialmente supposta dall’atto 1. Se l’atto 2 è un suggerimento, allora il suggerimento dovrebbe riguardare il (o parte del) piano dominato dall’atto 1. • (: and act1 act2): l’interpretazione dell’atto 2 è collegata all’atto 1 in modo tale da formare un tutto coerente. Se l’atto 2 è un suggerimento, allora dovrebbe essere parte dello stesso piano cui appartiene l’atto 1. E-141 Linea 1.1 – Dialoghi Annotati • (: and-then act1 act2): l’interpretazione dell’atto 2 è collegata all’atto 1 in modo tale da formare un tutto coerente. Se l’atto 2 è un suggerimento, allora dovrebbe far parte dello stesso piano cui appartiene l’atto 1. Inoltre, l’atto 2 dovrebbe essere temporalmente successivo all’atto 1. • (: purpose act form): l’atto deve essere fatto allo scopo di raggiungere una forma • (: background act1 act2): l’atto 1 viene compiuto con l’intento di rendere l’atto 2 più chiaro all’ascoltatore. 4.4.17.3 Esempi: u: so we have to start in Avon s: okay u: how long does it take to bring engine one to Dansville S: three hours u: okay <sil> and then <sil> back to Avon to get the bananas S: three more hours si(x) – six in all u: how long does it take to load the bananas UU# 31.9 Speaker M Utterance Grounding act label it would get there at 3, is that what you’re saying? 31.10 32.1 S it would get there at 4. 33.1 M it would get there at 4. 4.4.17.4 Repair Numero degli annotatori: 2 per l’annotazione della coerenza tra i turni; 1 (l’autore stesso) per l’annotazione di base. 4.4.17.5 Numero dei dialoghi annotati: 26 del corpus TRAINS-93 per l’annotazione della coerenza tra i turni (dialoghi in inglese); 10 del corpus TRAINS-91 per l’annotazione di base (dialoghi in inglese). 4.4.17.6 Valutazione dello schema: È stata effettuata una valutazione di questo schema, ma non sono stati pubblicati i risultati. E-142 Linea 1.1 – Dialoghi Annotati 4.4.17.7 Obiettivo per il quale è stato generato lo schema di annotazione: Questo schema è stato progettato per essere applicato ad ogni tipo di dialogo; attualmente viene applicato a dialoghi orientati verso un obiettivo specifico. 4.4.17.8 Linguaggio di codifica: Linguaggio di codifica Nb. Questo linguaggio non è del tutto compatibile con SGML, ma con Nb viene distribuito un programma che converte i file annotati in Nb in file SGML standard. 4.4.17.9 Esistenza di uno strumento software per l’annotazione: Interfaccia Nb Tcl/Tk di G. Flammia. 4.4.17.10 Possibilità di impiego: Sistema TRAINS-93. E-143 Linea 1.1 – Dialoghi Annotati 4.4.18 Schema di annotazione del progetto Verbmobil (Deutsches Forschungszentrum für Künstliche Intelligenz, Saarbrücken) 4.4.18.1 Documentazione: http://www.dfki.de/cgi-bin/verbmobil/htbin/doc-access.cgi Autori: Jan Alexandersson, Bialnka Buschbeck-Wolf, Tsutomu Fujinami, Elisabeth Maier, Norbert Reithinger, Birte Schmitz, Melanie Siegel Titolo: Dialogue Acts in VERBMOBIL-2 REPORT 304, Mai 1997 4.4.18.2 Fenomeni annotati: ACCEPT, CLARIFY, CLARIFY_ANSWER, CONFIRM, CONVENTION, DELIBERATE, DEVIATE_SCENARIO, DIGRESS, EXPLAINED_REJECT, GREETING, GREETING_BEGIN, GREETING_END, FEEDBACK, FEEDBACK_BACKCHANNELING, FEEDBACK_NEGATIVE, FEEDBACK_POSITIVE, GIVE_REASON, INFORM, INIT, INTRODUCE, NOT_CLASSIFIABLE, POLITENESS_FORMULA, REFER_TO_SETTING, REJECT, REQUEST, REQUEST_CLARIFY, REQUEST_COMMENT, REQUEST_SUGGEST, SUGGEST, THANK 4.4.18.3 Esempi: RMW002: <:<# <#Klicken <A <#Klicken how ‘bout <;comma <#Klicken <#Klicken at <;comma three on <;comma <A February third <;quest <A <;seos @SUGGEST #Rascheln would that be okay <;quest <# <#Klicken <# <# <;seos @REQUEST_COMMENT 4.4.18.4 Numero degli annotatori: 3 (tutti non linguisti). 4.4.18.5 Numero dei dialoghi annotati: Inglese: 252 (1869 turni, 4923 segmenti); giapponese: 400 (7057 turni, 8747 segmenti); tedesco: 520 (5530 turni, 13932 segmenti). 4.4.18.6 Valutazione dello schema: Per lo schema di dialogo usato in VERBMOBIL-1 è stato raggiunto un indice k=0.83 per 10 dialoghi presegmentati etichettati da due annotatori con uguale esperienza. Il valore per la stabilità nel tempo è stato k=0.84 fatto registrare dagli stessi annotatori che hanno etichettato dialoghi identici a un anno di distanza dal primo esperimento. E-144 Linea 1.1 – Dialoghi Annotati 4.4.18.7 Obiettivo per il quale è stato generato lo schema di annotazione: Programmazione di appuntamenti. 4.4.18.8 Linguaggio di codifica: Verbmobil. 4.4.18.9 Esistenza di uno strumento software per l’annotazione: È stato utilizzato il tool AnnoTag • manuale; • linguaggio d’implementazione: Tcl/Tk. 4.4.18.10 Possibilità di impiego: Sistema Verbmobil. E-145 Linea 1.1 – Dialoghi Annotati SEZIONE II - SPECIFICHE DELL’ANNOTAZIONE IN SI-TAL E-146 Linea 1.1 – Dialoghi Annotati 1 Architettura generale di annotazione A partire da segnale vocale verranno prodotti diversi documenti, corrispondenti a diversi livelli di annotazione riguardanti il contenuto linguistico del segnale stesso. Il livello di base è dato dalle trascrizioni, comprendenti sia le parole pronunciate dai parlatori, che eventuali fenomeni non linguistici, quali colpi di tosse e esitazioni, e rumori esterni, che possono aiutare la comprensione del dialogo. Al livello delle trascrizioni faranno poi riferimento tutti i livelli di annotazione considerati, eccetto eventualmente l'annotazione prosodica, per la quale può risultare necessario riferirsi direttamente al segnale acustico. In questo modo, l'allineamento tra le varie annotazioni viene mantenuto più facilmente anche in caso di correzioni di un qualche livello o della trascrizione: quest'ultimo caso è l'unico in cui bisogna intervenire per propagare la correzione, i cui effetti hanno però caratteristiche di località rispetto al turno. Tutti i documenti considerati, e quindi sia le trascrizioni che i diversi livelli di annotazione, saranno prodotti in XML, per le ragioni di compatibilità con il resto del sistema e di standardizzazione già esposti nell'introduzione. In notazione XML, l'ipotesi che tutti i livelli di annotazione facciano riferimento alle trascrizioni implica che gli unici link possibili tra oggetti etichettati appartenenti a file diversi vanno dai file di annotazione relativi ai vari livelli verso i file di trascrizione. Non ci saranno link che vanno dai file di trascrizione verso i file di annotazione, e soprattutto non ci saranno link tra file di annotazione relativi a livelli diversi. Ogni documento di annotazione conterrà le informazioni relative al file di riferimento. Quindi, il file di trascrizioni conterrà il riferimento al file o ai file contenenti il segnale acustico trascritto. Se un file di trascrizioni si riferisce a più file di materiale acustico, allora la trascrizione verrà segmentata in tante parti quanti sono i file e ogni parte conterrà un attributo che fa riferimento al file corrispondente a quella parte. Si noti che un file di trascrizioni può anche non far riferimento a nessun file di segnale laddove questo non sia disponibile. Questo non avverrà nel materiale reso disponibile in SI-TAL, dove per ogni dialogo verrà fornito sia il segnale acustico che le trascrizioni e tutti i livelli di annotaizone, ma va previsto per permettere agli utenti di completare il corpus con altro materiale che avessero a disposizione. L'unico livello assolutamente obbligatorio è rappresentato dalle trascrizioni. Non è infatti pensabile alcuna annotazione senza avere a disposizione il contenuto lessicale del materiale considerato. Nel caso minimale, le trascrizioni possono non essere completate con l'informazione extra-linguistica, sia relativa al parlante (esitazioni, risate, starnuti) che relativa all'ambiente (rumori di fondo, squilli). Ogni file di annotazione conterrà quindi il riferimento al file delle trascrizioni cui fa riferimento. In pratica, l'annotazione verrà realizzata producendo un file per ogni dialogo e per ogni livello: ad esempio, nel nostro caso in cui vengono considerati quattro livelli, avremo per ogni dialogo un file di trascrizioni e quattro file per i quattro livelli di annotazione. Tutti e cinque questi file saranno in formato XML. La segmentazione del materiale acustico potrà invece essere più dettagliata (ad esempio, per turno). Infatti le condizioni di acquisizione del materiale possono imporre dei vincoli che non permettono di avere una registrazione continua di tutto il materiale. Nel caso di dialoghi uomouomo, infatti, l'acquisizione può essere fatta su un unico canale, ad esempio con un unico microfono E-147 Linea 1.1 – Dialoghi Annotati posto in prossimità dei due parlatori, o su due canali, uno per parlatore. Se infatti i parlatori non si trovano vicini, è necessario usare due microfoni, ed è possibile che l'architettura del sistema di acquisizione consigli di effettuare due acquisizioni separate. In questo caso, una volta segmentato il materiale in turni, si riordinerà il dialogo ordinando i turni, ma risulta conveniente lasciare le registrazioni del segnale su file separati. Per l'annotazione, invece, risulta più comodo avere il dialogo su un unico file, in modo da poterne seguire l'evoluzione. Questo è particolarmente importante per livelli in cui l'annotazione non fa riferimento solo al singolo turno, come il livello pragmatico. Ogni file conterrà quindi una prima parte di informazioni e una seconda parte con l'annotazione vera e propria. Tra le informazioni verranno inclusi i dati relativi all'acquisizione (data, ora, luogo, tipo di ambiente), i dati relativi al parlatore o ai parlatori (sesso, fascia d'età, provenienza, ...) ed eventualmente altre informazioni disponibili (dominio, scenario, ...). Questa struttura permette di arricchire facilmente l'architettura dello schema di annotazione con nuovi livelli: basterà infatti che ogni nuovo livello faccia anch'esso riferimento alle trascrizioni per mantenere l'allineamento. Lo strumento software per l'annotazione, la visualizzazione e la ricerca potrà fare affidamento sull'ipotesi di un solo livello di linking per risolvere efficientemente i problemi di visualizzazione e ricerca su più livelli. E-148 Linea 1.1 – Dialoghi Annotati 2 Livello prosodico E-149 Linea 1.1 – Dialoghi Annotati 2.1 Requisiti Obiettivo di questo capitolo è l’identificazione di un insieme di unità prosodiche (unità fonologiche con un ambito più ampio di un segmento), e di un insieme di fenomeni prosodici (‘sovraimposti’ a queste unità) al fine di contribuire alla definizione delle specifiche per il livello prosodico. La descrizione si basa sul lavoro effettuato da S. Quazza e J.M. Garrido all’interno del progetto MATE e presuppone lo stato dell’arte dell’annotazione prosodica illustrato nei paragrafi precedenti. Le unità prosodiche costituiscono l’ambito naturale degli eventi prosodici. Nella letteratura (si veda il capitolo sullo stato dell’arte) sono stati proposti diversi tipi di unità prosodiche: paragrafi, enunciati, gruppi intonativi, gruppi intermedi, sillabe, … Sebbene la prosodia sia, per definizione, sovrasegmentale, le analisi prosodiche spesso considerano il fonema come l’unità minima di descrizione dove misurare le variazioni ritmiche e gli eventi intonativi. La famiglia dei fenomeni prosodici include le features o tratti sovrasegmentali di intonazione, accento, ritmo e velocità di eloquio, le cui variazioni sono rilevanti per esprimere la funzione delle diverse unità prosodiche: le sillabe prominenti in una parola saranno marcate dall’accento, un contorno intonativo discendente marcherà la conclusione di una frase, una velocità di eloquio più marcata e un’intonazione più bassa caratterizzano una parentetica, e così via … Questi tratti prosodici sono realizzati fisicamente nel parlato in termini di variazioni di parametri acustici. L’analisi acustico-fonetica identifica i seguenti correlati fonetici della prosodia: la frequenza fondamentale (f0), i cambiamenti di durata segmentale, le pause, l’altezza e la qualità della voce. In base allo scopo della ricerca in cui il compito di annotazione si realizza, i fenomeni prosodici possono essere individuati in un corpus di parlato per mezzo di semplici segni diacritici nella trascrizione ortografica, per mezzo di etichette che classificano i contorni intonativi ed i limiti delle unità di descrizione (in base alla teoria fonologica adottata) o per mezzo di misurazioni dettagliate dei parametri acustico-fonetici. Le assunzioni di base che operiamo per individuare i requisiti dell’annotazione prosodica sono le seguenti: • l’annotazione dovrebbe prendere in considerazione almeno la durata segmentale, le pause e l’intonazione; • l’annotazione dovrebbe considerare il ruolo strutturale della prosodica e fornire metodologie per delimitare le unità prosodiche (per esempio, marcando i phrase boundaries) • l’annotazione dovrebbe consentire sia descrizioni fenomenologiche dettagliate che descrizioni funzionali più astratte, fornendo livelli distinti per l’annotazione fonetica e fonologica. 2.2 Il “meta-schema” di MATE per l’annotazione prosodica. Nessuno degli schemi di annotazione prosodica esistenti è in grado di soddisfare autonomamente tutti i requisiti identificati nel paragrafo precedente. Questo è dovuto principalmente al fatto che ciascuno schema è stato definito per rispondere ad esigenze specifiche di annotazione prosodica a partire da punti di vista teorici e pratici che tendevano a privilegiare uno o l’altro degli aspetti della descrizione prosodica. Questa peculiarità è stata messa in luce nel progetto MATE, nel cui ambito si è realizzata l’integrazione di un insieme di schemi originari (“meta-schema”) con l’obiettivo di E-150 Linea 1.1 – Dialoghi Annotati coprire quanto più possibile l’ambito di annotazione prosodica e di soddisfare i requisiti che abbiamo introdotto nel paragrafo 2.1. Il meta-schema di MATE viene descritto qui di seguito e verrà adottato per la descrizione prosodica in SI-TAL. 2.2.1 Il “meta-schema” Nell’ambito del progetto europeo MATE la proposta di annotazione per il livello prosodico prevede un “meta-schema” che consente di integrare diverse convenzioni di notazione e di introdurre convenzioni specifiche per il dominio applicativo scelto. Il meta-schema è sufficientemente dettagliato e flessibile da consentire il riempimento parziale delle strutture previste e per integrare schemi di annotazione diversi. La sua definizione riflette sia la distinzione tra unità prosodiche e fenomeni prosodici che la natura multilivello della ricerca prosodica, il fatto cioè che la prosodia può essere studiata sia da un punto di vista fonetico che fonologico. Il “meta-schema” di MATE per la prosodia è una struttura di annotazione a quattro livelli, in cui è possibile render conto dei requisiti descritti nel paragrafo precedente. I livelli sono i seguenti: 1. Trascrizione fonetica: questo livello è concepito per rappresentare i segmenti fonetici, ma anche per trascrivere altri fenomeni correlati agli aspetti segmentali della prosodia (in particolare le pause e le unità inferiori alla parola, per esempio le sillabe). 2. Rappresentazione fonetica dell’intonazione: questo livello consente l’annotazione fonetica dei fenomeni intonativi, dove vengono descritte in dettaglio le curve fondamentali di frequenza e i possibili correlati acustici dell’intonazione (per esempio l’energia). 3. Rappresentazione fonologica dell’intonazione: consente agli schemi che annotano l’intonazione da un punto di vista fonologico, in termini di rappresentazioni funzionali, di annotare la funzione degli eventi intonativi rilevanti rispetto alle unità prosodiche. 4. Segmentazione prosodica: consente di segmentare gli enunciati in termini di unità prosodiche di alto livello (per esempio, in termini di gruppi intonativi). I quattro livelli non rappresentano una gerarchia rigida: i due livelli fonetici, destinati alla segmentazione in fonemi e alla descrizione di f0, sono direttamente allinenati con il segnale vocale e in questo senso si possono considerare livelli di base. I due livelli fonologici descrivono gli eventi linguisticamente rilevanti dell’intonazione, mantenendo una relazione sia con i livelli di base che con altre unità linguistiche. Si possono così stabilire diversi legami tra i livelli di descrizione: per esempio, è possibile associare un evento intonativo come l’accento sia alla parola (livello ortografico) che alla sillaba o vocale in cui l’accento si realizza (livello di trascrizione fonetica), che alla configurazione corrispondente di ‘pitch movement’ (livello di descrizione fonetica di f0). La figura seguente mostra i possibili legami tra i livelli: segmentazione prosodica rappresentazione fonologica dell’intonazione trascrizione ortografica trascrizione fonetica rappresentazione fonetica dell’intonazione file di voce E-151 Linea 1.1 – Dialoghi Annotati Nell’uso reale di questo schema di annotazione, i livelli e i loro legami possono essere totalmente o parzialmente specificati. Per esempio, in un contesto di studio della prosodia orientato alla tecnologia linguistica, si potrà adottare un approccio maggiormente orientato al segnale, mentre uno studio più linguisticamente orientato potrà privilegiare i livelli più alti di descrizione fonologica. 2.2.2 Schemi di annotazione rappresentabili nel “meta-schema” Il ‘meta-schema’ descritto nel paragrafo precedente e realizzato nel progetto MATE, consente di rappresentare in un formato comune diversi schemi di annotazione. In particolare per ciascun livello il meta-schema supporta i seguenti schemi 1) Trascrizione fonetica : SAMPA ([Wells et al. 1992]) 2) Rappresentazione fonetica dell’intonazione: INTSINT ([Hirst, 1991, 1994; Hirst & Di Cristo, 1998]; D1.1A), IPO ([t’Hart et al., 1990]) 3) Rappresentazione fonologica dell’intonazione: ToBI (‘Tones’layer) ([Silverman et al. 1992]; D1.1A ) 4) Segmentazione prosodica: ToBI (‘Break-Indices’ layer) Per ciascun livello, almeno uno degli schemi esistenti deve essere adattato alla rappresentazione XML per poter essere integrato nel tool di MATE che sarà adottato in SI-TAL (vedi parte II, sez. 2). Ciascuno schema potrà esere utilizzato singolarmente o integrato con gli altri: per esempio, ci si potrà riferire a SAMPA per la segmentazione fonetica e a IPO per la descrizione di f0, oppure integrare i quattro livelli utilizzando SAMPA, INTSINT e ToBI. Per consentire questo approccio modulare, nella seconda parte del progetto si definiranno DTD separate per ciascuna coppia livelloschema, mentre definiamo qui di seguito gli elementi e gli attributi identificati in ciascuno degli schemi selezionati. In primo luogo, è necessario osservare che il secondo livello, sia in IPO che in INTSINT, presuppone una struttura interna che corrisponde a una tipica procedura a tre passi per l’annotazione fonetica dell’intonazione: ottenere la curva f0 (elemento <f0>), stilizzarla (elementi <closecopy> e <mome1>) ed infine etichettarla (elementi <pitmove> e <intone>). A livello di segmentazione fonetica, un’estensione utile è rappresentata dall’elemento <sillaba>, a cui può essere subordinato l’elemento <phone> e a cui si possono con profitto collegare le etichette intonative proprie del livello di rappresentazione fonologica. Per i livelli 3 e 4 si introduce un singolo elemento principale: <tobitone> per il livello 3, (<target>, <f0range>, e <repair> sono informazioni ausiliarie) e <breakindex> per il livello 4. La lista di elementi resi compatibili con la notazione XML è la seguente: 1) Trascrizione fonetica: <syllable> <phone> 2) Rappresentazione fonetica dell’intonazione: <f0> E-152 Linea 1.1 – Dialoghi Annotati <closecopy> (IPO) <pitmove> (IPO) <momel> (INTSINT) <intone> (INTSINT) 3) Rappresentazione fonologica dell’intonazione: <tobitone> <target> <f0range> <repair> 4) Segmentazione prosodica: <breakindex> Nel manuale per l’annotazione prosodica, ciascuna coppia livello:schema sarà descritta singolarmente. Per il livello 2, al fine di evitare duplicazioni di descrizione, si fornirà una singola descrizione dell’elemento <f0> (presente sia nello schema IPO che in INTSINT). Si noti, inoltre, che non vi è apparentemente alcuna differenza formale tra gli elementi <closecopy> e <momel> per la curva stilizzata, perché entrambi si realizzano in punti target sulla curva F0. La differenza sostanziale risiede nella funzione di interpolazione tra i punti target, che è lineare per <closecopy> e parabolica per <momel>, e nella procedura di stilizzazione (manuale nel primo caso, automatica nel secondo). E-153 Linea 1.1 – Dialoghi Annotati 3 Livello morfosintattico e sintattico E-154 Linea 1.1 – Dialoghi Annotati In questa sezione illustriamo le specifiche relative agli schemi di annotazione morfosintattica e sintattica che verranno adottati in SI-TAL per il tema Dialoghi Annotati. Le specifiche qui illustrate sono da intendersi come aventi carattere generale e sono passibili di ulteriori raffinamenti ed adattamenti in base alle esigenze teoriche e pratiche che emergeranno dall’annotazione-pilota di 30 dialoghi (20 uomo-macchina e 10 uomo-uomo) prevista nella linea 1.2 del progetto. La sezione si struttura nel modo seguente: • Introduzione • Articolazione interna dello schema di annotazione morfosintattica e sintattica • Specifiche relative all’annotazione morfosintattica • Specifiche relative all’annotazione sintattica 3.1 Introduzione L’annotazione morfosintattica e sintattica della lingua parlata rappresentano un compito relativamente nuovo e non banale, che è solo parzialmente sovrapponibile con l’analoga annotazione della lingua scritta. E’ evidente che esistono delle differenze tra i modi in cui il parlato e lo scritto sfruttano la gamma delle costruzioni grammaticali offerte dalla lingua, e tuttora abbiamo poche prove sicure della precisa natura di queste differenze. Il linguaggio parlato, nondimeno, manifesta dei tipi ulteriori di costruzioni grammaticali che di norma non si riscontrano nello scritto e che necessitano di nuove strategie di annotazione. I fenomeni forse più significativi sono i cosiddetti fenomeni di “gestione del parlato”, come le interruzioni e le correzioni, che manifestano il fatto che il parlato è in genere prodotto senza pianificazione precedente. L’elaborazione automatica del parlato ha bisogno di modi per distinguere tra le parole rese obsolete da interventi successivi e le parole che le sostituiscono. Altre questioni significative da un punto di vista strutturale più o meno specifiche del parlato sono gli elementi di discorso usati per segnalare la forza pragmatica delle enunciazioni, la cui annotazione è di rilievo per il riconoscimento automatico degli atti del discorso, ed i fenomeni di esitazione, la cui incidenza relativamente alla struttura circostante è in potenza una traccia importante per l’analisi automatica. Un esempio chiarirà questi punti: G029: <inspirazione> va bene , ora facendo colle delle rond+ / dove sta il colle delle rondini <pl> fai un altro mezzo cerchio sempre verso sinistra e inizia a arri+ / inizia a arrivare verso dove sta la figura barche <pl> e fermati dove coincide la punta piu' alta della barca <pl> con i trattini <sospiro> 6 Una rappresentazione adeguata di questa enunciazione deve mostrare, per esempio, che la clausola iniziante con “ora facendo” è interrotta prima del suo completamento, e rifrasata dalla clausola successiva che inizia dopo il punto di interruzione (rond+). Analogamente, deve poter essere chiaro che il primo “inizia a” della terza linea è una falsa partenza che viene sostituita dall’enunciazione che comincia con il secondo “inizia” . In un caso come il seguente, invece, l’annotazione deve inoltre indicare che il ma iniziale è un tipo di “elemento del discorso” che ha un ruolo speciale nel parlato, in questo caso quello di segnalare il 6 Le convenzioni di trascrizione adottate in questi esempi sono diverse da quelle che verranno adottate in SI-TAL e sono descritte in questo deliverable, parte I, sez. 3. E-155 Linea 1.1 – Dialoghi Annotati modo in cui questa enunciazione è intesa connettersi all’enunciazione precedente prodotta dall’altro parlante. Questo tipo di elementi, pur se ricorrenti anche nella lingua scritta, sono di gran lunga più frequenti e variegati nella lingua parlata, e per questo motivo è stata spesso segnalata l’esigenza di prevedere delle categorie ad hoc per classificare questa classe di elementi lessicali (vedi oltre, sez. 3.2.2.4). F024: ma non lo posso fare perche' l'ho fatto da+ ehm nell'altra direzione quindi va verso la destra del foglio <pb> il cerchio e' rivolto verso la #<G025> destra del foglio # G025: #<F024> no deve # andare verso la sinistra del foglio <pb> cancella e vai verso sinistra <P> <RUMORE> <f.vocale> <RUMORE> hai fatto ? Infine, è necessario integrare in qualche modo i fenomeni di esitazione, come le pause vocalizzate ed i frammenti di parola (ehm e da+ dell’esempio precedente). Per esempio, se le esitazioni occorrono di frequente dove i costituenti sono interrotti e seguiti da una correzione, è necessario decidere in modo consistente se gli elementi di esitazione devono essere trattati grammaticalmente come parte del costituente interrotto, come parte di quello che lo sostituisce, o come costituente separato e distinto da entrambi. A prescindere dalle singole decisioni di rappresentazione adottate, è evidente che qualsiasi schema di annotazione che debba essere applicato al parlato deve confrontarsi con questo tipo di fenomeni. Uno schema di annotazione esplicito deve dunque specificare delle modalità di trattamento consistenti e, soprattutto, prevedibili, in modo che occorrenze simili di uno stesso fenomeno siano trattate in modo predicibile, e che annotatori diversi che utilizzano lo schema per annotare lo stesso corpus producano lo stesso tipo di analisi. E’ inoltre opportuno che lo schema di annotazione tenga conto dei più recenti sviluppi in materia e valuti le strategie di rappresentazione adottate per fenomeni simili. Infine, è necessario che vengano fissati dei limiti chiari relativamente al tipo di fenomeni rappresentati ad un dato livello di descrizione linguistica, ovvero che livelli di informazione diversa non vengano confusi. 3.1.1 Il metodo: approccio normalizzante vs. non-normalizzante Come si è illustrato nel capitolo relativo allo stato dell’arte, gli approcci all’annotazione del linguaggio parlato possono essere utilmente distinti tra approcci normalizzanti e non normalizzanti. Il primo approccio interviene sulla trascrizione eliminando tutti i fenomeni tipici del parlato che causerebbero il fallimento dei programmi di analisi automatica, sviluppati per la lingua scritta. In questo modo, il testo parlato viene emendato di tutti i fenomeni di “rumore” e ricondotto ad una versione scritta e, in alcuni casi particolarmente complessi, ad una vera e propria parafrasi del testo originario. Tutti i fenomeni di disfluenza sono considerati quindi come fondamentalmente estranei all’annotazione grammaticale del parlato. La maggioranza degli schemi di annotazione adottano questo approccio, da PENN TREEBANK all’INTERNATIONAL CORPUS OF ENGLISH, a CHILDES. L’approccio alternativo consiste invece nell’estendere l’annotazione al trattamento di materiale disfluente e di una quantità di fenomeni non standard. Questo è l’approccio adottato per esempio da CHRISTINE e MATE. Se da una parte l’approccio normalizzante è troppo “ingegneristico”, l’approccio nonnormalizzante corre il rischio di essere linguisticamente non informativo, dal momento che, almeno in alcuni casi, l’annotazione possibile del testo diventa così generica da essere del tutto vacua. L’approccio illustrato qui di seguito sembra realizzare un giusto compromesso tra le due strategie: i) materiale non standard e disfluenze vengono segnalate a mano in sede di trascrizione ortografica emendata (vedi sotto, par. 3.1.3); ii) tutto o parte di questo materiale viene poi annotato ad alcuni livelli di analisi linguistica soltanto. Ad esempio, il livello di analisi morfologica, generalmente E-156 Linea 1.1 – Dialoghi Annotati condotto in modo del tutto automatico, presuppone la disponibilità di parole in forma standard, che dovranno quindi essere annotate al livello di trascrizione emendata (ed associate alle forme non standard realmente attestate). Il livello di costituenti immediati, d’altra parte, si applica anche a sintagmi parziali, forme di anacoluto e altri esempi ancora di sintassi markoviana. Questo è utile, ad esempio, per poter condurre un’analisi di quali tipi di sintagma vengono più comunemente ripetuti o sospesi. L’annotazione a livello di trascrizione emendata avverrà manualmente, sulla base della trascrizione ortografica che costituisce il livello standard di input per tutte i livelli di annotazione linguistica in SI-TAL. Le annotazioni a livello morfosintattico e sintattico saranno invece eseguite automaticamente e successivamente corrette a mano. 3.1.2 Articolazione interna dello schema di annotazione morfosintattica e sintattica L’annotazione morfosintattica e sintattica si distribuisce su due livelli distinti: • annotazione a livello morfosintattico o grammaticale, delle parti del discorso degli elementi lessicali e dei tratti morfosintattici associati; • annotazione sintattica, a livello di costituenti immediati o chunks. A questi due livelli, che rappresentano l’annotazione linguistica vera e propria, si associa un terzo livello, cosiddetto di Trascrizione Emendata (vedi sezione 3.1.3), contenente l’eventuale annotazione di fenomeni di disfluenza la cui annotazione sia necessaria per permettere l’analisi automatica del testo in input. Il livello di Trascrizione Emendata costituisce, per così dire, una fase di pre-elaborazione del testo, che deve essere via via adattata alle peculiarità dei sistemi di annotazione automatica, da una parte, e dall’altra a quelle del testo dialogico. Il diagramma in Fig. 3.1 illustra l’insieme di relazioni che sussiste tra i livelli di annotazione morfosintattica. Tutti i livelli presuppongono direttamente o indirettamente il documento contenente la trascrizione ortografica, eventualmente emendata (TE), a sua volta collegato con il testo grezzo (TO). In particolare, il livello di analisi sintattica a costituenti immediati (AS) fa riferimento al documento contenente l’analisi morfosintattica (AM), dove la nozione di unità morfologica ha preso il posto di quella ortogonale di unità fonologica. TOt -g T-E AM AS C-I Fig. 3.1: Struttura logica dell’annotazione morfosintattica E-157 Linea 1.1 – Dialoghi Annotati Questi tre livelli saranno mantenuti anche fisicamente distinti attraverso l’annotazione distribuita in tre files separati per ogni dialogo annotato7 . Proceduralmente, tuttavia, l’annotazione a livello morfosintattico precede quella a livello sintattico e ne è presupposta. La sintassi del linguaggio di annotazione XML sembra particolarmente duttile sotto questo aspetto. L’informazione relativa ai vari livelli di annotazione può essere distribuita in documenti logicamente e fisicamente separati, ciascuno dei quali strutturato autonomamente in termini di unità pertinenti. Tutti questi documenti puntano direttamente o indirettamente ad un unico documento matrice, quello del dato linguistico non strutturato, che varia naturalmente a seconda del medium prescelto. Nel seguito di questo capitolo illustreremo le caratteristiche di tre di questi documenti: quello relativo alla trascrizione ortografica “emendata”, quello morfosintattico, ed infine quello sintattico per l’analisi a costituenti immediati. Questa architettura presenta una serie di vantaggi. In primo luogo, la modularità dei livelli li rende unità operativamente autonome: nel caso un utente disponga di un testo già annotato a livello morfosintattico, l’annotazione sintattica può essere eseguita partendo da quel testo in input, senza dover necessariamente ripetere l’assegnazione delle categorie grammaticali. La distribuzione dell’informazione su più documenti indipendenti consente inoltre di annotare il testo a livelli graduali di astrazione. Infine, la complementarità multidimensionale dell’informazione contenuta nei vari livelli sembra realizzare un buon compromesso tra un approccio normalizzante, che presume di sapere troppo, ed un’annotazione del tutto superficiale, in cui si finirebbe per dire troppo poco. Da una parte un’analisi a stati finiti quale quella a costituenti non ricorsivi è in grado di riconoscere un’anomalia locale a livello di struttura sintattica, ad esempio dovuta ad un’interruzione o ad una cattiva trasmissione del segnale, senza che l’anomalia venga a ripercuotersi sull’intera struttura dell’enunciato. D’altra parte, l’annotazione a livello morfosintattico dovrebbe essere in grado di garantire quel livello di base di analisi del testo, che prescinde da problemi di disfluenza. In questo modo ci sembra possibile evitare in linea di principio quella confusione tra non conformità ad una norma sintattica ideale ed extra-grammaticalità che sembra informare buona parte degli approcci contemporanei all’analisi linguistica del parlato, riportando così la nozione di grammaticalità alla sua natura di gradiente. 3.1.3 Trascrizione emendata Emendare una trascrizione implica l’identificazione e l’annotazione di tutta una serie di fenomeni tipici del parlato che in un modo o nell’altro sono estranei all’annotazione morfosintattica e sintattica in senso stretto e potrebbero pregiudicare la performance dei sistemi di analisi automatica. Da quanto sostenuto nei paragrafi precedenti dovrebbe essere chiaro che il concetto di “Trascrizione Emendata” avanzato in questa sede non deve essere confuso con l’approccio cosiddetto normalizzante all’annotazione del parlato. In quest’ultimo caso, infatti, tutti i fenomeni tipici del parlato vengono eliminati o standardizzati, producendo una versione del testo parlato il più simile possibile ad una sua variante scritta. Nel caso della trascrizione emendata, invece, si fornisce un luogo per annotare alcuni fenomeni soltanto che non sono di stretta pertinenza della morfosintassi ma che può essere comunque utile annotare. E’ questo il caso, ad esempio, delle sequenze di ripetizione, delle correzioni, o degli usi non standard. Questo approccio ha due motivazioni fondamentali. La prima è la convinzione che si debba mantenere al minimo indispensabile ogni intervento normalizzante sul testo parlato: idealmente, il testo in input non dovrebbe essere suscettibile di nessuna modifica; in pratica, tuttavia, è noto che alcune modifiche si 7 Come già accennato, gli aspetti relativi alla rappresentazione in XML dell’annotazione linguistica saranno affrontati nella linea 1.2 del progetto. E-158 Linea 1.1 – Dialoghi Annotati rendono indispensabili o quanto meno raccomandabili per evitare un carico eccessivo in fase di ‘post-elaborazione’. Il secondo motivo è che la trascrizione emendata è intesa come una fase provvisoria e di passaggio per arrivare ad un’analisi automatica robusta ed efficace del testo parlato. E’ evidente, infatti, che i sistemi di analisi automatica esistenti, essendo stati sviluppati ed affinati per l’analisi di testi scritti, non saranno in grado di trattare un testo rumoroso come quello parlato in modo completamente soddisfacente, ma necessiteranno di un lavoro di adattamento. In quest’ottica, il livello di annotazione della trascrizione emendata rappresenta una sorta di fase di transizione in cui i fenomeni di disturbo vengono normalizzati e classificati per poter poi intervenire, riadattandoli, sui sistemi di annotazione automatica. I fenomeni che si prevede possano richiedere un intervento di normalizzazione sono i seguenti: 1 frammenti di parole, risultanti da correzioni, interruzioni ed in genere da enunciazioni incomplete (per esempio, quando un parlante viene interrotto o si interrompe a metà parola, e questa resta “sospesa”): (1a) ma # non lo posso fare perché l'ho fatto da+ <ehm> nell'altra direzione in altri casi i frammenti di parola risultano da una trascrizione imperfetta, vuoi per imperfezioni della registrazione, vuoi per difficoltà nella comprensione da parte del trascrittore. (1b) prefer- il secondo (dal contesto non si riesce a stabilire univocamente il completamento: potrebbe essere "preferISCO", "preferIREI"...) In questi casi la normalizzazione in sede di trascrizione emendata può consistere o nell’eliminazione del frammento di parola o nella sua standardizzazione verso la forma più probabile. Entrambe le scelte hanno pro e contro. Nel primo caso, l’eliminazione del frammento può comportare un fallimento dell’analisi al successivo stadio di analisi sintattica. Nel secondo caso, la standardizzazione può implicare un alto grado di arbitrarietà. 2 parole mal pronunciate per le quali non è possibile recuperare la forma standard intesa: (2) aloa voglio andare da Roma a Torino anche in questo caso valgono le considerazioni fatte per l’esempio precedente. 3 elementi lessicali omessi, vuoi per obbedienza a regole non standard (vedi punto 4), vuoi per imperfezioni della trascrizione: in questi casi si può ritenere opportuno reinserire la forma omessa, se dal contesto è sufficientemente chiaro quale essa sia. 4 usi non standard, genericamente descrivibili come forme lessicali non standard (per esempio, forme dialettali), oppure costruzioni sintattiche non standard. Queste ultime si realizzano spesso come omissioni di uno o più elementi lessicali (vedi punto precedente). E-159 Linea 1.1 – Dialoghi Annotati (4) ora prosegui diritto vai diritto e arriva praticamente all’inizio della figura fiume e inizi a risalire verso ‘sta figura poiché l’analizzatore automatico si basa su un lessico standard, la forma dialettale ‘sta non potrebbe essere analizzata. In casi come questo il livello di trascrizione emendata può servire a normalizzare la forma all’unico scopo di consentire l’analisi automatica dell’enunciato; la forma originaria resta comunque registrata nella trascrizione ortografica corrispondente. Le categorie di problemi e gli esempi riportati sopra sono solo illustrativi di classi di fenomeni che possono richiedere un intervento di normalizzazione. Poiché l’identificazione e la classificazione dei fenomeni di disfluenza dipende strettamente dal tipo di dati da una parte, e dal tipo di risposta dei meccanismi di annotazione automatica di fronte ad un dato rumoroso, le specifiche relative a questo sotto-livello saranno sviluppate durante la Linea 1.2 del progetto 8 . Il livello di Trascrizione Emendata costituisce anche la sede adatta per la rappresentazione di una serie di fenomeni che spesso vengono annotati a livello di annotazione morfosintattico o sintattico ma che a nostro avviso non concernono l’annotazione della struttura grammaticale della lingua. E’ questo il caso, ad esempio, dei fenomeni di ripetizione, false partenze, e delle sequenze di correzione (vedi parte II, sez. 2). Si consideri l’esempio seguente: (5) F080: non sto su+ / i trattini non stanno sotto la figura ambulante <pb> stanno # in questo esempio, il segmento interrotto non sto su+ rappresenta una cosiddetta “falsa partenza”: il parlante comincia la sua enunciazione ma poi si interrompe e ricomincia la produzione con una struttura diversa. La sequenza che segue il punto di interruzione (segnalato mediante il simbolo / ) è intesa dal parlante come una correzione della sequenza precedente. Se è sicuramente utile analizzare la struttura sintattica delle sequenze di correzione o di ripetizione, l’indicazione che una certa struttura grammaticale occorre nel particolare contesto di una più ampia struttura di correzione o di ripetizione non è di stretta pertinenza dell’annotazione morfosintattica. D’altra parte, è utile mantenere traccia del contesto di occorrenza di certe strutture. Per esempio, per attività come il riconoscimento del parlato può essere utile segnalare le ripetizioni, di modo che queste non entrino a far parte del modello del dialogo e quindi non disturbino il funzionamento o il training di un modello markoviano di transizioni di categoria. Oppure, può essere utile recuperare l’informazione del fatto che una struttura b) in realtà sovrascrive la struttura a), così che un sistema di estrazione automatica dell’informazione recuperi solo l’informazione “corretta”, ignorando quella che lo stesso parlante ha inteso e segnalato come errata. Gli stessi termini usati per descrivere quest’ultimo fenomeno tuttavia evidenziano come l’annotazione di questo tipo di informazione abbia in realtà molti punti in comune con il livello in cui vengono annotate le caratteristiche pragmatiche del dialogo, ovvero le intenzioni comunicative con cui certe strutture grammaticali vengono prodotte (in questo caso, correggere un’enunciazione precedente). Per questi motivi l’approccio raccomandato in SI-TAL consiste nel non annotare questi fenomeni a livello morfosintattico e sintattico in senso stretto, ma di fornire un luogo, il livello di Trascrizione Emendata, dove questi fenomeni possano essere rappresentati. Si prevede dunque che 8 Come previsto dal Capitolato Tecnico. E-160 Linea 1.1 – Dialoghi Annotati almeno tre classi di fenomeni possano essere rappresentati al livello di Trascrizione Emendata: ripetizioni, false partenze e sequenze di correzione. 1. Ripetizioni Gli elementi ripetuti possono essere segnalati identificando un segmento corrispondente alla porzione di testo che viene ripetuta, marcato mediante l’attributo “repetition” per l’attributo “type”: (6) G091: <segment type=”repetition”> va bene </segment> va bene allora passa <pb> passa <pl> tra (7) G105: come se stessi facendo <segment type=”repetition”> un mezzo </segment> un mezzo otto <pb> una Esse rovesciata , come la vuoi chiamare In pratica, le ripetizioni sono trattate come un caso particolare di false partenze (vedi sotto). 2. False partenze e sequenze di correzione Le sequenze di correzione o false partenze occorrono quando un parlante “interrompe” il processo di produzione interrompendo la costruzione del costituente corrente, ritorna ad un punto precedente della stessa enunciazione e ricomincia da capo la formulazione dell’enunciato. L’identificazione della falsa partenza è relativamente semplice, mentre di più difficile attribuzione è l’identificazione della correzione. Per esempio, nel caso seguente mentre è non problematico identificare il segmento non sto su+ come una falsa partenza, non è chiaro stabilire l’estensione della correzione: se tutta l’enunciazione seguente o solo una parte di essa. Per questo motivo, e poiché l’attribuzione del valore di correzione ad una enunciazione implica considerazioni di carattere pragmatico, preferiamo qui identificare soltanto la porzione corrispondente alla falsa partenza. La porzione di testo che sovrascrive la falsa partenza viene inferita per default. (8) F080: <segment type=”falsestart”> non sto su+ </segment> / i trattini non stanno sotto la figura ambulante <pb> stanno # (9) G087: <segment type=”falsestart”> vicino c'e' una paro+ </segment> / vicino c'e' una figura che si chiama abeti ? (10) G103: <segment type=”falsestart”> ce+ c'era una </segment> / c'e' <segment type=”repetition”> una </segment> una figura sopra all' albergo che si chiama discoteca Zaza' ? </turn> Il termine “falsa partenza” è interpretato in senso più ampio di quanto il nome lascerebbe supporre, andando a coprire anche i fenomeni di interruzione nella formulazione di un costituente in posizione intermedia di enunciazione: (11) allora vai <segment type=”falsestart”> con questi tratti+ con questi di </segment> con questo punto tratteggiato fino ad albergo E-161 Linea 1.1 – Dialoghi Annotati Le esatte modalità di rappresentazione verranno meglio definite nella linea 1.2 in base ad una classificazione dettagliata dei fenomeni che potrà essere effettuata solo a partire dall’osservazione dei dati. 3.2 Specifiche di annotazione per il livello morfosintattico L’annotazione morfosintattica consiste nell’assegnazione di un’etichetta di categoria morfosintattica o grammaticale ad ogni elemento lessicale del corpus, con l’aggiunta dei relativi tratti morfosintattici. L’insieme delle etichette usate per classificare gli elementi lessicali è noto come tagset. A tale scopo è necessario un tagset di riferimento, ovvero l’insieme delle categorie necessarie per l’analisi morfosintattica di un corpus di italiano parlato. La lista delle etichette, insieme alle loro definizioni e ai criteri necessari per applicarle ad un corpus prende il nome di schema di annotazione. Le pagine seguenti descrivono lo schema di annotazione morfosintattica per l’annotazione del corpus di italiano parlato in SI-TAL. L’annotazione del corpus avverrà in modo automatico, ma l’annotazione sarà controllata manualmente, sia in fase di pre- che di postelaborazione. Pertanto, i criteri di annotazione espressi concernono esclusivamente la fase di preannotazione del corpus (vedi sez. 3.1.3), e la fase di controllo, per la disambiguazione manuale laddove l’annotazione automatica fallisca o produca più di un’analisi possibile. L’operazione di annotazione implica anche l’assegnazione di un lemma corrispondente ad ognuna delle forme etichettate. Nei paragrafi successivi verranno illustrate le caratteristiche generali e specifiche del tagset per l’annotazione morfosintattica in SI-TAL. 3.2.1 Il tagset per l’annotazione morfosintattica Il tagset per l’annotazione morfosintattica in SI-TAL si basa sul tagset di ILC/PAROLE, opportunamente esteso e modificato allo scopo di meglio rappresentare i fenomeni tipici del parlato. La scelta di utilizzare il tagset ILC/PAROLE come punto di partenza assicura il soddisfacimento della maggior parte dei requisiti generali richiesti ad uno schema di annotazione. Il tagset di ILC/PAROLE soddisfa infatti il requisito di conformità agli standard esistenti essendo conforme alle raccomandazioni di EAGLES. Essendo sviluppato per l’italiano assicura inoltre un alto grado di copertura. Lo schema di annotazione è stato applicato in altri progetti, assicurando così la sua usabilità e portabilità a domini di applicazione diversi, e ad un numero considerevole di lingue diverse. Dalla conformità alle specifiche di EAGLES derivano le caratteristiche di flessibilità e modularità. Infine, precedenti esperienze di annotazione automatica assicurano la portabilità del tagset all’annotazione semi-automatica. Vi sono inoltre importanti motivi pratici che spingono verso l’adozione in SI-TAL di una versione modificata ed estesa del tagset ILC/PAROLE. Il primo è il fatto che il formato di annotazione è compatibile con i requisiti di formato di input del sistema automatico di analisi sintattica (Chunker, vedi sez. 3.3.2) che verrà usato per l’annotazione sintattica del corpus. Il secondo è che in tal modo le specifiche morfosintattiche per il tema Dialoghi Annotati sono armonizzate con quelle del tema Treebank, che adotta lo stesso tagset per l’annotazione morfosintattica del corpus. Questo costituisce un importante punto di contatto e consente, negli usi futuri di SI-TAL, la comparabilità delle risorse per scopi applicativi e di ricerca. Il tagset ILC/PAROLE originario, pur essendo uno schema sviluppato ed applicato esclusivamente all’analisi di testi scritti, per le particolari caratteristiche di formato si presta ad essere modificato e adattato per rappresentare i fenomeni del parlato, che ovviamente non sono E-162 Linea 1.1 – Dialoghi Annotati adeguatamente trattati nella versione originaria dello schema. Per questo motivo, lo schema è stato ampliato e modificato sulla base delle pratiche correnti e dell’esempio dei più recenti sforzi in materia di annotazione del parlato, in particolare il progetto CHRISTINE (vedi parte II, cap. 2). E’ importante notare tuttavia come le modifiche apportate consistano essenzialmente in ampliamenti dello schema mediante l’introduzione di categorie aggiuntive o sottocategorie di categorie già esistenti; in tal modo infatti è assicurata la sostanziale uniformità dello schema con la sua controparte “scritta”, e lo stesso tagset può essere applicato indifferentemente alla lingua parlata o alla lingua scritta, con vantaggi evidenti per la portabilità dello schema e per gli usi successivi. Da questo punto di vista l’annotazione morfosintattica in SI-TAL percorre un percorso simile a quello che, per l’inglese, ha condotto allo sviluppo del corpus CHRISTINE a partire dal corpus SUSANNE: come in questo caso, uno schema di annotazione morfosintattica in uso per lo scritto (in Treebank) viene adattato ed esteso alla rappresentazione del parlato (in Dialoghi), attraverso stadi successivi di raffinamento. Nei paragrafi successivi vengono illustrate le specifiche morfosintattiche di base, comuni tanto alla versione del tagset per lo scritto che a quella per il parlato. Nella sezione 3.2.2 verranno invece presentate le estensioni relative alla rappresentazione dei principali fenomeni del parlato. 3.2.1.1 Formato di annotazione Il formato di annotazione consiste in una stringa di caratteri per ognuna delle categorie sintattiche. Ogni carattere alfabetico rappresenta il valore di un attributo. I valori degli attributi hanno delle posizioni fisse e predefinite all’interno della stringa. Per esempio, il valore relativo alla categoria morfosintattica è sempre in posizione iniziale ed è marcato mediante una lettera maiuscola. Il carattere @ separa l’indicazione della categoria morfosintattica dai caratteri che indicano i tratti morfosintattici, anch’essi espressi in lettere maiuscole. Riportiamo qui di seguito le diverse categorie previste, insieme al simbolo che le rappresenta. 1. Nomi (S) 2. Verbi (V) 3. Aggettivi (A) 4. Pronomi (P) 5. Predeterminatori (T) 6. Determinatori (D) 7. Articoli (R) 8. Avverbi (B) 9. Preposizioni (E) 10. Congiunzioni (C) 11. Numerali (N) 12. Interiezioni (I) 13. Punteggiatura (@@) 14. Abbreviazioni (SA) 15. Classe Residua (X) E-163 Linea 1.1 – Dialoghi Annotati 3.2.1.2 Inventario delle etichette ed esempi Nei paragrafi successivi elenchiamo le etichette del tagset, per ognuna delle categorie sintattiche. La prima colonna della tabella contiene l'etichetta nel formato di annotazione, la seconda contiene la descrizione corrispondente e la terza un esempio di applicazione. Una legenda degli attributi e valori è riportata alla fine della sezione. 3.2.1.2.1 Nomi (S) Il tagset distingue tra nomi comuni (S), nomi propri (SP) e nomi stranieri (SW). Se i nomi si trovano in locuzione, la lettera L è aggiunta prima del simbolo @. I tratti morfosintattici, che seguono il simbolo @, sono espressi in posizioni fisse: 1. la prima posizione dopo il simbolo @ è riservata per la specificazione del genere (M = maschile, F = femminile, N = comune) 2. la seconda posizione dopo il simbolo @ è riservata per la specificazione del numero (S = singolare, P = plurale, N = invariato) Etichetta S@MS S@MP S@MN S@FS S@FP S@FN S@NS S@NP S@NN SL@MS SL@MP SL@MN SL@FS SL@FP SL@FN SL@NS SL@NP SL@NN SP@NN SPL@NN SW@MN SW@FN SW@NN SWL@NN Descrizione nome comune, maschile, singolare nome comune, maschile, plurale nome comune, maschile, invariato nome comune, femminile, singolare nome comune, femminile, plurale nome comune, femminile, invariato nome comune, comune, singolare nome comune, comune, plurale nome comune, comune, invariato nome comune in locuzione, maschile, singolare nome comune in locuzione, maschile, plurale nome comune in locuzione, maschile, invariato nome comune in locuzione, femminile, singolare nome comune in locuzione, femminile, plurale nome comune in locuzione, femminile, invariato nome comune in locuzione, comune, singolare nome comune in locuzione, comune, plurale nome comune in locuzione, comune, invariato nome proprio, comune, invariato nome proprio in locuzione, comune, invariato nome straniero, maschile invariato nome straniero, femminile invariato nome straniero, comune, invariato nome straniero in locuzione, comune, invariato E-164 Esempio libro libri re, caffè (il/i) casa case attività (la/le) insegnante (l’/la) insegnanti (gli/le) sosia (il/la, i/le) Paolo, Roma, Alpi, weekend, software Linea 1.1 – Dialoghi Annotati 3.2.1.2.2 Verbi (V) I tratti morfosintattici relativi alla classe dei verbi sono riportati, come d’uso, dopo il simbolo @. Per quanto riguarda la posizione in cui i tratti sono rappresentati ed i simboli usati per la rappresentazione, dobbiamo distinguere tra forme verbali infinite e forme verbali finite. • Per le forme infinite, la prima posizione dopo il simbolo @ serve per specificare il modo verbale. Valori possibili sono: G (gerundio) F (infinito) Ad esempio: • andando V@G andare V@F Per le forme finite, sono previste quattro posizioni: 1. prima posizione: numero (S = singolare, P = plurale) 2. seconda posizione: persona (1, 2, 3) 3. terza posizione: modo del verbo (I = indicativo, C = congiuntivo, D = condizionale, M = imperativo) 4. quarta posizione: tempo del verbo (P = presente, F = futuro, I = imperfetto, R = passato) Ad esempio, l’etichetta V@S1II associata con una forma verbale come viaggiavamo si legge, da destra verso sinistra, come “imperfetto indicativo prima persona singolare”. • Per le sole forme participiali, abbiamo le seguenti convenzioni: 1. prima posizione: genere (M = maschile, N = femminile, N = comune) 2. seconda posizione: numero (S = singolare, P = plurale) 3. terza posizione: modo (P = participio) 4. quarta posizione: tempo (presente, passato, ecc.) L’etichetta V@NPPP (amanti) si legge quindi “presente participio, plurale comune”. Etichetta V@G V@GY V@F V@FY V@S1IP V@S2IP Descrizione gerundio presente gerundio presente, con clitico infinito presente infinito presente, con clitico presente indicativo, 1 persona singolare presente indicativo, 2 persona singolare E-165 Esempio ballando ballandoci ballare ballarci ballo balli Linea 1.1 – Dialoghi Annotati V@S3IP V@P1IP V@P2IP V@P3IP V@S1IF V@S2IF V@S3IF V@P1IF V@P2IF V@P3IF V@S1II V@S2II V@S3II V@P1II V@P2II V@P3II V@S1IR V@S2IR V@S3IR V@P1IR V@P2IR V@P3IR V@S1CP V@S2CP V@S3CP V@P1CP V@P2CP V@P3CP V@S3CPY presente indicativo, 3 persona singolare presente indicativo, 1 persona plurale presente indicativo, II persona plurale presente indicativo, III persona plurale futuro indicativo, I persona singolare futuro indicativo, II persona singolare futuro indicativo, III persona singolare futuro indicativo, I persona plurale futuro indicativo, II persona plurale futuro indicativo, III persona plurale imperfetto indicativo, I persona singolare imperfetto indicativo, II persona singolare imperfetto indicativo, III persona singolare imperfetto indicativo, I persona plurale imperfetto indicativo, II persona plurale imperfetto indicativo, III persona plurale passato indicativo, I persona singolare passato indicativo, II persona singolare passato indicativo, III persona singolare passato indicativo, I persona plurale passato indicativo, II persona plurale passato indicativo, III persona plurale presente congiuntivo, I persona singolare presente congiuntivo, II persona singolare presente congiuntivo, II persona singolare presente congiuntivo, I persona plurale presente congiuntivo, II persona plurale presente congiuntivo, III persona plurale presente congiuntivo, III persona singolare, con clitico V@P1CPY presente congiuntivo, I persona plurale, con clitico V@S1CI imperfetto congiuntivo, I persona singolare V@S2CI imperfetto congiuntivo, II persona singolare V@S3CI imperfetto congiuntivo, II persona singolare V@P1CI imperfetto congiuntivo, I persona plurale V@P2CI imperfetto congiuntivo, II persona plurale V@P3CI imperfetto congiuntivo, III persona plurale V@S1DP presente condizionale, I persona singolare V@S2DP presente condizionale, II persona singolare V@S3DP presente condizionale, III persona singolare V@P1DP presente condizionale, I persona plurale V@P2DP presente condizionale, II persona plurale V@P3DP presente condizionale, III persona plurale V@S2MP presente imperativo, II persona singolare V@S2MPY presente imperativo, II persona singolare, con clitico V@P2MP presente imperativo, II persona plurale V@P2MPY presente imperativo, II persona plurale, con clitico V@NPPP presente participio, plurale invariato V@NSPP presente participio, singolare invariato E-166 balla balliamo ballate ballano ballerò ballerai ballerà balleremo ballerete balleranno ballavo ballavi ballava ballavamo ballavate ballavano ballai ballasti ballò ballammo ballaste ballarono balli balli balli balliamo balliate ballino dicasi balliamoci, amiamoci ballassi ballassi ballassi ballassimo ballaste ballassero ballerei balleresti ballerebbe balleremmo ballereste ballerebbero balla ballaci ballate ballateci amanti amante Linea 1.1 – Dialoghi Annotati V@FPPR V@FPPRY V@MPPR V@MPPRY V@FSPR V@FSPRY V@MSPR V@MSPRY 3.2.1.2.3 passato participio, plurale femminile passato participio, plurale femminile, con clitico passato participio, plurale maschile passato participio, plurale maschile, con clitico passato participio, singolare femminile passato participio, singolare maschile, con clitico passato participio, singolare maschile passato participio, singolare maschile, con clitico amate amatesi amati amatisi amata amatasi amato amatolo Aggettivi (A) La classe morfosintattica degli aggettivi è contraddistinta dal simbolo A. Se gli aggettivi si trovano in locuzione, la lettera L è aggiunta prima del simbolo @. Se si tratta di parole straniere, il simbolo W viene aggiunto dopo il simbolo A e prima dell’eventuale simbolo L. I tratti morfosintattici, che seguono il simbolo @, sono espressi in posizioni fisse: 1. prima posizione: genere (M = maschile, F = femminile, N = comune) 2. seconda posizione: numero (S = singolare, P = plurale, N = invariato) 3. terza posizione: grado (S = superlativo). Il grado positivo è dato come scelta di default e pertanto non viene marcato. Ad esempio, l’etichetta A@FSS (grandissima) si legge, da sinistra verso destra, come “aggettivo femminile singolare, grado superlativo”. Etichetta A@MS A@MP A@FS A@FP A@NN A@NS A@NP A@MSS A@MPS A@FSS A@FPS AL@MS AL@MP AL@MN AL@FS AL@FP AL@FN AL@NS AL@NP Descrizione aggettivo maschile singolare aggettivo maschile plurale aggettivo femminile singolare aggettivo femminile plurale aggettivo comune invariato aggettivo comune singolare aggettivo comune plurale aggettivo maschile singolare, grado superlativo aggettivo maschile plurale, grado superlativo aggettivo femminile singolare, grado superlativo aggettivo femminile plurale, grado superlativo aggettivo in locuzione maschile singolare aggettivo in locuzione maschile plurale aggettivo in locuzione maschile invariato aggettivo in locuzione femminile singolare aggettivo in locuzione femminile plurale aggettivo in locuzione femminile invariato aggettivo in locuzione comune singolare aggettivo in locuzione comune plurale E-167 Esempio vero veri vera vere pari, dappoco, rosa dolce dolci bellissimo bellissimi bellissima bellissime Linea 1.1 – Dialoghi Annotati AL@NN AL@MSS AP@MS aggettivo in locuzione comune invariato aggettivo in locuzione maschile singolare, superlativo aggettivo in locuzione maschile plurale, superlativo aggettivo in locuzione femminile singolare, superlativo aggettivo in locuzione femminile plurale, superlativo aggettivo possessivo, maschile singolare AP@MP aggettivo possessivo, maschile plurale AP@FS aggettivo possessivo, femminile singolare AP@FP aggettivo possessivo, femminile plurale AP@NN AW@ AWL@ aggettivo possessivo, comune invariato aggettivo straniero aggettivo straniero in locuzione AL@MPS AL@FSS AL@FPS 3.2.1.2.4 grado grado grado grado mio, tuo, suo, nostro, proprio miei, tuoi, suoi, nostri, propri mia, tua, sua, nostra, propria mie, tue, sue, nostre, proprie loro, altrui grammatica core vostro, vostri, vostra, vostre, Pronomi (P) La classe morfosintattica dei pronomi è contraddistinta dal simbolo P. Il tagset distingue tra sette tipi di pronomi (D = dimostrativo, E = esclamativo, I = indefinito, P = possessivo, Q = personale, R = relativo e T = interrogativo). L’indicazione del tipo segue il simbolo P e precede il simbolo @. I tratti morfosintattici, che seguono il simbolo @, sono espressi in posizioni fisse: 1. prima posizione: genere (M = maschile, F = femminile, N = comune) 2. seconda posizione: numero (S = singolare, P = plurale, N = invariato) 3. terza posizione (per i soli pronomi personali): persona (1, 2, 3). Ad esempio, l’etichetta PQ@NP1 si legge, da sinistra verso destra, come “pronome personale, invariato, plurale, prima persona”. Etichetta PD@MS Descrizione pronome dimostrativo, maschile singolare PD@MP pronome dimostrativo, maschile plurale PD@FS pronome dimostrativo, femminile singolare PD@FP pronome dimostrativo, femminile plurale PD@NN pronome dimostrativo, comune invariato E-168 Esempio questo, quello, stesso, medesimo, questi, quegli, colui, costui, … questi, quelli, stessi, medesimi, … questa, quella, stessa, medesima, colei, costei, … queste, quelle, stesse, medesime, … ne, ci, vi Linea 1.1 – Dialoghi Annotati PD@NS PD@NP pronome dimostrativo, comune singolare pronome dimostrativo, comune plurale tale, ciò tali, coloro, costoro PE@MS PE@MP PE@FS PE@FP PE@NN PE@NS PE@NP pronome esclamativo, maschile singolare pronome esclamativo, maschile plurale pronome esclamativo, femminile singolare pronome esclamativo, femminile plurale pronome esclamativo, comune invariato pronome esclamativo, comune singolare pronome esclamativo, comune plurale quanto! quanti! quanta! quante! chi! quale! quali! PI@MS pronome indefinito, maschile singolare PI@MP PI@FS pronome indefinito, maschile plurale pronome indefinito, femminile singolare PI@FP PI@NN PI@NS PI@NP pronome indefinito, femminile plurale pronome indefinito, comune invariato pronome indefinito, comune singolare pronome indefinito, comune plurale uno, nessuno, alcuno, ciascuno, qualcuno, ognuno, niente, nulla, qualcosa, altri … alcuni una, nessuna, alcuna, ciascuna, qualcuna, ognuna … alcune altrui tale, chiunque, chicchessia,… tali PP@MS PP@MP PP@FS PP@FP PP@NN pronome possessivo, maschile singolare pronome possessivo, maschile plurale pronome possessivo, femminile singolare pronome possessivo, femminile plurale pronome possessivo, comune invariato (il) mio, nostro, … (i) miei, nostri (la) mia, nostra, … (le) mie, nostre, … altrui, (il/la/i/le) loro PQ@NS1 PQ@NP1 PQ@NS2 PQ@NP2 PQ@MS3 PQ@MP3 PQ@FS3 PQ@FP3 PQ@NN PQ@NP3 PQ@NN3 pronome personale, I persona comune singolare pronome personale, I persona comune plurale pronome personale, II persona comune singolare pronome personale, II persona comune plurale pronome personale, III persona maschile singolare pronome personale, III persona maschile plurale pronome personale, III persona femminile singolare pronome personale, III persona femminile plurale pronome personale, comune invariato pronome personale, III persona comune plurale pronome personale, III persona comune riflessivo (forma tonica e atona) io, mi, me noi, ci tu, te, ti voi, vi lui, lo, egli, esso, gli essi, li lei, ella, essa, le, la esse, le ne loro sé, si PR@MS PR@MP PR@FS PR@FP PR@NN PR@NS PR@NP pronome relativo, maschile singolare pronome relativo, maschile plurale pronome relativo, femminile singolare pronome relativo, femminile plurale pronome relativo, comune invariato pronome relativo, comune singolare pronome relativo, comune plurale quanto quanti quanta quante che, cui (il/la) quale, chiunque, chi (i/le) quali PT@MS pronome interrogativo, maschile singolare quanto? E-169 Linea 1.1 – Dialoghi Annotati PT@MP PT@FS PT@FP PT@NN PT@NS PT@NP 3.2.1.2.5 pronome interrogativo, maschile plurale pronome interrogativo, femminile singolare pronome interrogativo, femminile plurale pronome interrogativo, comune invariato pronome interrogativo, comune singolare pronome interrogativo, comune plurale quanti? quanta? quante? che? chi? quale? quali? Predeterminatori (T) La classe morfosintattica dei predeterminatori è contraddistinta dal simbolo T. I tratti morfosintattici associati del genere e del numero sono espressi rispettivamente in prima e seconda posizione dopo il simbolo @. Etichetta T@MS T@MP T@FS T@FP T@NP 3.2.1.2.6 Descrizione predeterminatore, maschile singolare predeterminatore, maschile plurale predeterminatore, femminile singolare predeterminatore, femminile plurale predeterminatore, comune plurale Esempio tutto tutti, entrambi tutta tutte, entrambe ambedue, ambo Determinatori (D) La classe morfosintattica dei determinatori è contraddistinta dal simbolo D. Il tagset distingue tra cinque tipi di determinatori (D = dimostrativo, E = esclamativo, I = indefinito, R = relativo e T = interrogativo). L’indicazione del tipo segue il simbolo D e precede il simbolo @. I tratti morfosintattici, che seguono il simbolo @, sono espressi in posizioni fisse: 1. prima posizione: genere (M = maschile, F = femminile, N = comune) 2. seconda posizione: numero (S = singolare, P = plurale, N = invariato) Ad esempio, l’etichetta DD@MS associata con la forma questo si legge, da sinistra verso destra, come “determinatore dimostrativo, maschile singolare”. Etichetta DD@MS DD@MP DD@FS DD@FP DD@NS DD@NP Descrizione determinatore dimostrativo, maschile singolare determinatore dimostrativo, maschile plurale determinatore dimostrativo, femminile singolare determinatore dimostrativo, femminile plurale determinatore dimostrativo, comune singolare determinatore dimostrativo, comune plurale Esempio questo, codesto, quello, quel questi, codesti, quelli, quei questa, codesta, quella queste, codeste, quelle tale tali DE@MS DE@MP determinatore esclamativo, maschile singolare determinatore esclamativo, maschile plurale quanto! quanti! E-170 Linea 1.1 – Dialoghi Annotati DE@FS DE@FP DE@NN DE@NS DE@NP determinatore esclamativo, femminile singolare determinatore esclamativo, femminile plurale determinatore esclamativo, comune invariato determinatore esclamativo, comune singolare determinatore esclamativo, comune plurale quanta! quante! che! quale! quali! DI@MS determinatore indefinito, maschile singolare DI@MP DI@FS determinatore indefinito, maschile plurale determinatore indefinito, femminile singolare DI@FP DI@NS DI@NN determinatore indefinito, femminile plurale determinatore indefinito, comune singolare determinatore indefinito, comune invariato alcuno, alcun, nessuno, nessun, certo, poco, molto, … alcuni, certi, pochi, molti, … alcuna, nessuna, certa, poca, molta, … alcune, certe, poche, molte, … ogni, qualsiasi, qualche, … niente DR@NS DR@NP DR@MS determinatore relativo, comune singolare determinatore relativo, comune plurale determinatore relativo, maschile singolare quale, qualunque quali quanto DT@MS DT@MP DT@FS DT@FP DT@NN DT@NS DT@NP determinatore interrogativo, maschile singolare determinatore interrogativo, maschile plurale determinatore interrogativo, femminile singolare determinatore interrogativo, femminile plurale determinatore interrogativo, comune invariato determinatore interrogativo, comune singolare determinatore interrogativo, comune plurale quanto? quanti? quanta? quante? che? quale? quali? 3.2.1.2.7 Articoli (R) La classe morfosintattica degli articoli è contraddistinta dal simbolo R. La distinzione principale è tra articoli determinativi o definiti (RD) e articoli indeterminativi o indefiniti (RI). I tratti morfosintattici, che seguono il simbolo @, sono espressi in posizioni fisse: 1. prima posizione: genere (M = maschile, F = femminile, N = comune) 2. seconda posizione: numero (S = singolare, P = plurale, N = invariato) Ad esempio, l’etichetta RI@MS indeterminativo, maschile singolare”. Etichetta RD@MS RD@MP RD@FS RD@FP RD@NS RI@FS RI@MS si legge, da sinistra verso destra, come “articolo Descrizione articolo determinativo, maschile singolare articolo determinativo, maschile plurale articolo determinativo, femminile singolare articolo determinativo, femminile plurale articolo determinativo, comune singolare articolo indeterminativo, femminile singolare articolo indeterminativo, maschile singolare E-171 Esempio il, lo gli, i la le l’ una, un’ un, uno Linea 1.1 – Dialoghi Annotati 3.2.1.2.8 Avverbi (B) Il tagset distingue fra avverbi in locuzione (BL) e avverbi non in locuzione (B). Etichetta B@ BL@ 3.2.1.2.9 Descrizione avverbio avverbio in locuzione Esempio bene, ci, vi, ne di qua, di sopra, … Preposizioni (E) La classe morfosintattica delle preposizioni è contraddistinta dal simbolo E. La distinzione principale è tra preposizioni semplici e preposizioni composte; queste ultime sono ulteriormente specificate per i tratti morfosintattici rilevanti, ovvero, in posizioni fisse: 1. prima posizione: genere (M = maschile, F = femminile, N = comune) 2. seconda posizione: numero (S = singolare, P = plurale, N = invariato) Un’ulteriore distinzione è introdotta tra preposizioni in locuzione (EL) e preposizioni non in locuzione (E). L’etichetta E@MS ad esempio, si legge da sinistra verso destra come “preposizione articolata, maschile singolare”. Etichetta E@ Descrizione preposizione semplice E@MS E@MP E@FS E@FP E@NS EL@ EL@MS EL@MP EL@FS EL@FP EL@NS preposizione articolata, maschile singolare preposizione articolata, maschile plurale preposizione articolata, femminile singolare preposizione articolata, femminile plurale preposizione articolata, comune singolare preposizione semplice, in locuzione preposizione articolata in locuz., maschile singolare preposizione articolata in locuz., maschile plurale preposizione articolata in locuz., femminile singolare preposizione articolata in locuz., femminile plurale preposizione articolata in locuz., comune singolare 3.2.1.2.10 Esempio di, a, da, in, con, su, per, tra, fra, … del, dello, al, allo,… dei, degli, ai, agli, … della, alla, sulla, … delle, alle, sulle, … dell’, all’, sull’, dall’, … Congiunzioni (C) La classe morfosintattica delle congiunzioni è contraddistinta dal simbolo C. Il tagset distingue tra congiunzioni coordinative (CC) e congiunzioni subordinative (CS). Il simbolo L è aggiunto prima del simbolo @ se la congiunzione si trova in locuzione. Etichetta CC@ CS@ Descrizione congiunzione coordinativa congiunzione subordinativa Esempio e, ma, o, … perché, siccome, sebbene, … E-172 Linea 1.1 – Dialoghi Annotati CCL@ CSL@ 3.2.1.2.11 congiunzione coordinativa in locuzione congiunzione subordinativa in locuzione Numerali (N) La classe morfosintattica dei numerali è contraddistinta dal simbolo N. Il tagset distingue tra numerali cardinali (N) e numerali ordinali (NO). I tratti morfosintattici rilevanti sono specificati dopo il simbolo @, secondo le convenzioni generali. Etichetta N@ N@MS N@FS NO@MS NO@MP NO@FS NO@FP 3.2.1.2.12 Descrizione numerale cardinale numerale cardinale, maschile singolare numerale cardinale, femminile singolare numerale ordinale, maschile singolare numerale ordinale, maschile plurale numerale ordinale, femminile singolare numerale ordinale, femminile plurale Esempio due, tre, quattro, … uno una primo, secondo, … primi, secondi, … prima, seconda, … prime, seconde, … Interiezioni (I) Il tagset permette di distinguere le interiezioni in locuzione (IL) da quelle non in locuzione (I). Etichetta I@ IL@ Descrizione Interiezione interiezione in locuzione 3.2.1.2.13 Punteggiatura (@@) Esempio oh!, eccome, già! I segni di punteggiatura, se presenti nella trascrizione 9 , sono etichettati mediante il doppio simbolo @@. Non sono previste categorie più specifiche né distinzioni tra punteggiatura “forte” (. ; : ! ?) e “debole” (,). 3.2.1.2.14 Abbreviazioni (SA) Le abbreviazioni (ecc., pagg., fig., vol., …) ricevono l’etichetta SA. 3.2.1.2.15 Classe Residua (X) Gli elementi che non possono essere classificati in una delle diverse classi ricevono l’etichetta X@. Ad esempio, le formule, le sequenze alfanumeriche (41esima). 9 Non è questo il caso, ad esempio, delle trascrizioni dei dialoghi uomo-macchina in SI-TAL. E-173 Linea 1.1 – Dialoghi Annotati 3.2.1.3 Legenda delle abbreviazioni Categorie morfosintattiche: @@: Punteggiatura A: Aggettivi A: Articoli B: Avverbi C: Congiunzioni D: Determinatori E: Preposizioni I: Interiezioni N: Numerali P: Pronomi S: Nomi SA: Abbreviazioni T: Predeterminatori V: Verbi X: Classe Residua Altri simboli che precedono il simbolo @: C (associato alla categoria C): coordinativa C (associato alla categoria C): subordinativa D (associato alla categoria P o D): dimostrativo D (associato alla categoria R): determinativo E (associato alla categoria P o D): esclamativo I (associato alla categoria P o D): indefinito I (associato alla categoria R): indeterminativo L: in locuzione O (associato alla categoria N): ordinale P (associato alla categoria A o P): possessivo P (associato alla categoria N): proprio Q (associato alla categoria P): personale R (associato alla categoria P o D): relativo T (associato alla categoria P o D): interrogativo W: straniero Simboli che seguono il simbolo @ Tratti morfosintattici: genere: F: femminile E-174 Linea 1.1 – Dialoghi Annotati M: maschile numero: P: plurale S: singolare persona: 1: prima 2: seconda 3: terza modo del verbo: C: congiuntivo D: condizionale F: infinito G: gerundio I: indicativo M: imperativo P: participio tempo del verbo: F: futuro I: imperfetto P: presente R: passato Altri: S: superlativo Y: forma con clitico E-175 Linea 1.1 – Dialoghi Annotati 3.2.2 Estensioni del tagset Come accennato nel paragrafo 3.2.1, lo schema di annotazione presentato nelle sezioni precedenti rappresenta quella parte del tagset che può essere applicata tanto allo scritto che al parlato, e che pertanto è conforme sia alle specifiche del tagset ILC/PAROLE che alle specifiche morfosintattiche del tema Treebank in SI-TAL. La rassegna degli schemi di annotazione (vedi parte II, sez. 2) ha evidenziato un insieme di fenomeni che sono trattati, con strategie diverse, da tutti gli schemi di annotazione morfosintattica che siano stati applicati al parlato. A nostro avviso tale gruppo rappresenta l’insieme dei fenomeni che uno schema di annotazione deve assolutamente etichettare per essere considerato sufficientemente completo. Qui di seguito illustriamo quindi alcune proposte di estensione del tagset presentato nei paragrafi precedenti, volte a coprire i fenomeni tipici del parlato. L’estensione avviene sostanzialmente mediante tre strategie: a) introduzione di nuove categorie; b) ulteriore specificazione di categorie già esistenti; c) adeguamento dei criteri d’uso del tagset 10 . Questi interventi tesi a rendere il tagset il più possibile adeguato alla rappresentazione, oltre che dello scritto, anche della lingua parlata, si basano su una procedura rigorosamente bottom-up: quei fenomeni che o non ricevono nessuna classificazione in base allo schema generale descritto in 2.1 o non ricevono una classificazione adeguata sono raccolti e classificati sulla base del loro emergere dall’applicazione dello schema generico alle trascrizioni di alcuni dialoghi. D’altra parte, le particolari modalità di trascrizione influiscono sui fenomeni da annotare, dal momento che vengono annotati a livello morfosintattico solo quei fenomeni che sono rappresentati a livello di trascrizione e, eventualmente, solo quei fenomeni che siano stati filtrati attraverso lo stadio della Trascrizione Emendata (vedi sez. 3.1.3). Le estensioni descritte qui di seguito sono pertanto da intendersi come provvisorie e suscettibili di modifiche sulla base della più estensiva applicazione dello schema di annotazione ad un primo campione di dialoghi, come previsto per la linea 1.2 del progetto. Più in dettaglio, i fenomeni principali del parlato che impongono una revisione del tagset morfosintattico sono i seguenti: - parole incomplete - forme non standard - vocalizzazioni quasi lessicali - avverbi, interiezioni, marcatori del discorso, particelle pragmatiche 10 Poiché questa operazione ricade nella più generica specificazione dei criteri di applicazione dello schema di annotazione, essa verrà condotta nella seconda linea del progetto. E-176 Linea 1.1 – Dialoghi Annotati 3.2.2.1 Parole incomplete I criteri di trascrizione (vedi parte I, cap. 3 del manuale) prevedono che le parole incomplete per le quali è possibile fornire un completamento siano completate. Ad esempio: (1) colle delle rondini vabbe' allora fai ~una cosa in questo caso, il simbolo ~ segnala che la parola ha un troncamento iniziale, ovvero che il segmento realmente enunciato (o percepito dal trascrittore) è “na” 11 . In tal caso, a livello morfosintattico la parola verrà etichettata normalmente. L’annotazione morfosintattica del segmento precedente avrà pertanto la forma seguente: (1a) colle delle rondini vabbè allora fai ~una cosa S@MS E@FP S@FP I@ CC@ V@S2MP RI@FS S@FS lemma=”colle” lemma=”di” lemma=”rondine” lemma=”vabbè” lemma=”allora” lemma=”fare” lemma=”una” lemma=”cosa” Laddove invece sia trascritta soltanto la porzione riconoscibile della parola incompleta, si utilizzerà l’etichetta morfosintattica prevista per la classe residua (X@). Ad esempio: (2) arriva <pl> par~ <pl> vai dalla partenza <pb> fai quel mezzo cerchio verso sinistra circumnavigando colibri' in questo esempio, non è possibile stabilire la parola-target corrispondente al frammento par~ (potrebbe essere tanto “parti” quanto “partenza”, o qualsiasi altra parola). L’annotazione morfosintattica corrispondente sarà dunque come segue: (2a) arriva par~ vai dalla partenza fai quel mezzo cerchio verso V@S2MP X@ V@S2MP E@FS S@FS V@S2MP DD@MS A@MS S@MS E@ lemma=”arrivare” lemma=”andare” lemma=”da” lemma=”partenza” lemma=”fare” lemma=”quello” lemma=”mezzo” lemma=”cerchio” lemma=”verso” 11 Talora è difficile distinguere se una parola èsia una forma non standard oppure una forma troncata. E’ questo il caso dell’esempio appena fatto, dove l’enunciazione è stata prodotta da un parlante di provenienza dialettale meridionale. La forma “’na” potrebbe essere anziché una forma troncata la forma dialettale corrispondente alla forma standard dell’articolo indeterminativo “una”. Un altro esempio è il seguente: ci devi passa' vicino non ci de+ non devi <RUMORE> anda' # sulle figure la distinzione fra i due casi molto dipende dalla sensibilità del trascrittore. E-177 Linea 1.1 – Dialoghi Annotati sinistra circumnavigando colibrì S@FS V@G S@MN lemma=”sinistra” lemma=”circumnavigare” lemma=”colibrì” 3.2.2.2 Forme non standard 3.2.2.2.1 Differenze dialettali vs. errori di esecuzione Come si è discusso nel capitolo 2 (parte II) a proposito dei fenomeni tipici del parlato, è necessario distinguere tra quei casi in cui l’uso di una forma lessicale da parte di un parlante è regolare dal punto di vista della sua variante regionale o sociale, anche se deviante rispetto alla varietà standard della lingua, ed i casi in cui un parlante produce una forma che è mal formata anche dal suo punto di vista, come nel caso degli errori di esecuzione. Quest’ultima categoria comprende le parole pronunciate in modo scorretto, i lapsus o “slips of the tongue”, come nei due esempi seguenti: (1) G129: hai satto un hai fatto un percorso tra partenza e arrivo ? (2) F120: io dalla discoteca sono arrivata a automobili , poi ? G121: no automobili non le devi pensare <pb> devi arrivare diritto fino ad arrivo <pb> Il caso delle forme devianti rispetto alla norma standard, ma grammaticali rispetto ad una qualsiasi variante geo- o socio-dialettale è più complesso e delicato, dal momento che qualsiasi intervento di normalizzazione implica anche un giudizio di accettabilità vs. non accettabilità delle forme devianti: (3) G075: prosegui fin' e sopra fai un quattro cinque trattini (4) G067: vabbè <pb> allora f~ <pb> arriva fino addo' sta 'sto viale della verità Non è infrequente che degli usi non standard in questo secondo senso siano interpretati come errori di esecuzione. Nell’enunciazione seguente, ad esempio, le due forme evidenziate in grassetto potrebbero essere interpretate tanto come forme dialettali che come forme troncate di “passare” ed “andare”: ci devi passa' vicino non ci de+ non devi <RUMORE> anda' # sulle figure Molto dipende dalla frequenza dei fenomeni (se un fenomeno è molto frequente in un dialogo è probabile che si tratti di un uso non standard più che di un errore di esecuzione sistematico), e dalla preparazione e sensibilità linguistica dei trascrittori. E-178 Linea 1.1 – Dialoghi Annotati 3.2.2.2.2 Annotazione di forme non standard Le linee-guida per l’etichettatura morfosintattica delle forme non standard sono le seguenti. Per ognuno dei casi descritti sopra vi sono diverse strategie possibili, a seconda delle scelte di rappresentazione che siano state fatte in sede di trascrizione. 3.2.2.2.2.1 Errori di esecuzione Nel caso degli errori di esecuzione è probabile che già in sede di trascrizione si sia provveduto a normalizzare la forma trascrivendo la corrispondente forma-target, se questa è ricostruibile con sufficiente sicurezza. L’attuale pratica di trascrizione in base a queste specifiche (vedi parte I, cap. 3) è infatti quella di trascrivere la forma usando la forma standard corrispondente, indipendentemente dal modo in cui è pronunciata, con l’aggiunta di un simbolo che indica che si tratta appunto di una parola mal pronunciata. Questa pratica ha il vantaggio di assicurare che ogni forma lessicale della trascrizione corrisponda ad un’entrata lessicale nel lessico di riferimento, sia esso un dizionario standard pre-esistente o un lessico generato specificamente per un dato corpus (vedi Gibbon 1999: 20). Tuttavia, lo svantaggio è che in tal modo non viene registrata la forma realmente enunciata, con evidente perdita di informazione per eventuali riutilizzazioni del corpus annotato. Un’alternativa possibile è di intervenire normalizzando la forma a livello di trascrizione emendata (vedi sez. 3.1.3); in tal modo si assicura che la forma realmente prodotta rimanga registrata al livello di trascrizione, e che la normalizzazione riguardi esclusivamente il livello di annotazione morfosintattica. Qualsiasi delle due strategie venga adottata, a livello di annotazione morfosintattica verrà assegnata un’etichetta corrispondente a quella della forma target, che è anche la forma registrata in trascrizione, ortografica o emendata. Ovviamente, nel caso in cui non sia possibile recuperare una forma di riferimento, la parola, se trascritta, sarà annotata mediante la categoria X@. Gli esempi (1) e (2) precedenti sarebbero dunque annotati come segue (il simbolo asterisco è usato in trascrizione per indicare che la forma realmente prodotta è diversa da quella riportata in trascrizione): (1a) hai fatto* un hai fatto un percorso tra partenza e arrivo V@S2IP V@MSPR RI@MS V@S2IP V@MSPR RI@MS S@MS E@ S@FS CC@ S@MS lemma=”avere” lemma=”fare” lemma=”uno” lemma=”avere” lemma=”fare” lemma=”uno” lemma=”percorso” lemma=”tra” lemma=”partenza” lemma=”e” lemma=”arrivo” no automobili non le devi passare* devi arrivare I@ S@MP B@ PQ@FP3 V@S2MP V@F V@S2MP V@F lemma=”no” lemma=”automobile” lemma=”non” lemma=”le” lemma=”dovere” lemma=”passare” lemma=”dovere” lemma=”arrivare” (2a) E-179 Linea 1.1 – Dialoghi Annotati diritto fino ad arrivo B@ BL@ EL@ S@MS lemma=”diritto” lemma=”fino” lemma=”a” lemma=”arrivo” Il precedente esempio (2a) illustra tuttavia la problematicità di adottare un approccio di tipo normalizzante, a qualsiasi livello esso avvenga. In questo esempio infatti è sì possibile che “pensare” sia un errore di esecuzione e che la forma intesa fosse “passare”, ma “pensare” potrebbe anche essere la forma realmente intesa dal parlante (in questo caso, a differenza dell’esempio (1), non abbiamo la conferma rappresentata dalla successiva correzione da parte dello stesso parlante); comunque sia, è spesso difficile o puramente arbitrario ricostruire la forma intesa dal parlante. Sarebbe quindi forse più opportuno non normalizzare la forma in nessun caso, adottando tuttavia una strategia di annotazione differenziata distinguendo fra due casi possibili: 1) la forma prodotta non ha una controparte nel lessico (il caso di “satto”); in tal caso è più probabile che si tratti di un errore di esecuzione; 2) la forma prodotta ha una controparte nel lessico (il caso di “pensare”); in questo caso non si è possibile decidere se si tratti o meno di un errore di esecuzione se non prendendo decisioni arbitrarie. Se la forma non ha una controparte nel lessico, come nel caso di “satto” dell’esempio (1), ma è comunque possibile inferire la categoria morfosintattica di appartenenza della forma intesa, si etichetta la forma utilizzando l’etichetta corrispondente alla categoria morfosintattica che si inferisce, ma si aggiunge il simbolo E (mnemonico per “errore di esecuzione”) all’estrema destra prima del simbolo @. In tal caso non verrà specificato alcun lemma: (1b) hai satto un hai fatto un percorso V@S2IP VE@MSPR RI@MS V@S2IP V@MSPR RI@MS S@MS lemma=”avere” lemma=”x” lemma=”uno” lemma=”avere” lemma=”fare” lemma=”uno” lemma=”percorso” Questa strategia serve a rendere il testo annotato pur sempre passibile di annotazione sintattica a livello di costituenti immediati. In caso contrario, se cioè non venisse prodotta alcuna analisi della forma in questione, l’analizzatore sintattico non produrrebbe alcuna analisi per la forma in questione e le forme immediatamente adiacenti, con un incremento della perdita di informazione. Se la forma è probabilmente un errore di esecuzione, ma corrisponde comunque ad una forma che ha una controparte nel lessico di riferimento (come nel caso di “pensare”) sopra, si annota la forma realmente prodotta, secondo le modalità standard. A livello di correzione manuale verrà introdotto un simbolo che segnala che si tratta di un possibile errore di esecuzione: (2b) no automobili non le devi pensare I@ S@MP B@ PQ@FP3 V@S2MP VE@F lemma=”no” lemma=”automobile” lemma=”non” lemma=”le” lemma=”dovere” lemma=”pensare” E-180 Linea 1.1 – Dialoghi Annotati 3.2.2.2.2.2 Forme non standard Le forme devianti rispetto ad una variante standard sono invece annotate nel modo seguente: se è già stato effettuato un intervento di normalizzazione a livello di trascrizione ortografica o emendata, l’annotazione a livello morfosintattico avviene secondo la pratica standard. Se invece non si è intervenuti con interventi di normalizzazione, le forme verranno annotate nello stesso modo in cui verrebbero annotate le forme standard corrispondenti. Per segnalare che si tratta di una forma non standard, viene inserito un simbolo V (per “variante”) all’estrema destra prima del simbolo @, per ognuna delle categorie del tagset generico. I tratti morfosintattici specificati saranno quelli corrispondenti alla forma standard corrispondente, così come il lemma. Nell’esempio (3) precedente, la “e” nella espressione “fin’e sopra” equivale alla preposizione standard “a”. Ad esempio: (3a) prosegui fin' e sopra fai un quattro cinque trattini V@S2MP BL@ ELV@ S@MN V@S2MP RI@MS N@ N@ S@MP lemma=”proseguire” lemma=”fino” lemma=”a” lemma=”sopra” lemma=”fare” lemma=”un” lemma=”quattro” lemma=”cinque” lemma=”trattino” vabbè allora f~ arriva fino addo' sta 'sto viale della verita' I@ CC@ X@ V@S2MP BL@ CSV@ V@S3IP DDV@MS S@MS E@FS S@FN lemma=”vabbè” lemma=”allora” (4a) lemma=”arrivare” lemma=”fino” lemma=”dove” lemma=”stare” lemma=”questo” lemma=”viale” lemma=”di” lemma=”verità” E’ possibile che questa soluzione sia impraticabile, se i fenomeni si riveleranno molto frequenti o molto complessi. Per esempio, può non essere semplice identificare a quale parola della variante standard una certa forma corrisponda. Una pratica alternativa, adottata ad esempio in CHRISTINE, consiste nell’annotare la forma etichettandola secondo il suo omofono nella variante standard, ma annotare poi il costituente sintattico che la contiene in base alla funzione grammaticale che la forma ha in quel contesto. Secondo questa pratica, la “e” dell’esempio (3) sarebbe annotata come congiunzione a livello morfosintattico, mentre a livello sintattico il costituente “e sopra” sarebbe annotato come “chunk preposizionale” 12 . Questa soluzione, oltre ad avere pesanti controindicazioni per l’annotazione automatica, non è praticabile nei casi in cui non esista alcuna forma omofona nella variante standard della lingua, come è ad esempio il caso di (4) sopra. 12 Vedi oltre, paragrafo 3.3 e ss. E-181 Linea 1.1 – Dialoghi Annotati 3.2.2.3 Vocalizzazioni pseudo-lessicali Le vocalizzazioni pseudo lessicali sono suoni come um, uh-huh, ooh, ah, mhm, eh?, eccetera, prodotti dai parlanti con scopi pragmatici vari. Una prima distinzione approssimativa, che si basa tanto su considerazioni distribuzionali che di contenuto semantico-pragmatico, può essere fatta tra riempitivi di pause o esitazioni e vocalizzazioni di prompting. I riempitivi di pause o esitazioni, dette anche pause piene, sono quei suoni prodotti come modo convenzionale per mantenere un turno di parola mentre si stanno formulando le parole seguenti. Si tratta di un fenomeno molto frequente nel parlato spontaneo, che ha precise funzioni pragmatiche e di regolazione dell’interazione. Dal punto di vista dell’annotazione morfosintattica si pone il problema se trattare o meno questi elementi come elementi lessicali, assegnando loro una categoria morfosintattica. Provvisoriamente, suddividiamo questi fenomeni in due classi: suoni basati su una consonante nasale, come mhmh, mmm, um, … e suoni puramente vocalici, come eeeh, ahhh, ecc. (1) F024: ma non lo posso fare perché l'ho fatto da+ ehm nell'altra direzione quindi va verso la destra del foglio <pb> il cerchio è rivolto verso la destra del foglio Le vocalizzazioni di prompting si distinguono dalle pause piene per occorrere in posizione iniziale o finale di turno e per avere la funzione di assecondare un turno precedente o sollecitare un turno successivo da parte di un altro parlante. Ad esempio: (2) G001: Sara allora c'hai sulla tua sinistra <pb> una figura che s+ viene definita colibrì F002: mh Dal punto di vista dell’annotazione morfosintattica, entrambi i fenomeni sono classificati sotto la categoria delle interiezioni (vedi sopra, sez. 3.2.1.2.12). Conformemente alle raccomandazioni del gruppo di EAGLES sul parlato, distingueremo tra i riempitivi di pause a componente vocalico e i riempitivi a componente nasale. Le seguenti nuove etichette sono introdotte, come specificazione della categoria I: Etichetta I@PN I@PV I@VP Descrizione pausa piena a componente nasale pausa piena a componente vocale vocalizzazione di prompting Esempio mm, ehm, ecc. aah, eeh, ooh, ecc. mh, eh?, ah!, ecc. In questa sede, a differenza di quanto avviene in altri schemi di annotazione (in particolare quello del progetto CHRISTINE), non viene fatta distinzione tra vocalizzazioni di prompting con funzione affermativa (esempio 2 sopra) e vocalizzazioni con funzione interrogativa, in quanto è nostra convinzione che questo tipo di informazione sia di pertinenza del livello di annotazione pragmatica. E-182 Linea 1.1 – Dialoghi Annotati 3.2.2.4 Avverbi, interiezioni, marcatori del discorso e particelle pragmatiche La lingua parlata è molto ricca di elementi lessicali la cui categorizzazione grammaticale taglia trasversalmente le categorie delle interiezioni, degli avverbi e delle congiunzioni e che assolvono una ricca gamma di funzioni pragmatiche. Queste vanno dalla segnalazione del particolare tipo di relazione, semantica, pragmatica o retorica, in cui una enunciazione sta con un’enunciazione precedente (allora, ma, comunque, perché ecc. all’inizio di turno o enunciazione), all’indicazione di valori epistemici e di atteggiamento (in realtà, voglio dire, …), dall’espressione di atteggiamenti semi-convenzionali (ringraziamenti: grazie; forme di cortesia: per favore, prego, ..; saluti: arrivederci, ciao, buongiorno, …), all’espressione di funzioni di coordinamento dell’interazione dialogica, ad esempio per cedere il turno o richiederlo. Di fronte a questa varietà di funzioni sta una relativa uniformità di caratteristiche distribuzionali: si tratta infatti di forme periferiche rispetto alla clausola o alla frase, che possono occorrere isolatamente in un turno, grammaticalmente autonome oppure vagamente connesse a livello prosodico ad una struttura sintattica più ampia, in genere all’inizio o, meno comunemente alla fine. In alcuni schemi di annotazione morfosintattica del parlato si è cercato di cogliere l’uniformità di questa classe classificando le diverse forme sotto categorie grammaticali già esistenti e poco sviluppate, in genere la categoria delle interiezioni o quella degli avverbi. In CHRISTINE, ad esempio, si propone di ricondurre tutte queste forme alla più generica categoria delle interiezioni, che viene poi ulteriormente suddivisa in classi più specifiche (vedi parte II, cap. 2), a seconda delle funzioni svolte da quelle forme. La tabella seguente riporta la classificazione usata in CHRISTINE: UA UB UE UG UI UL UK UN UP UR UT UW UX UY Apology Smooth-over Engager Greeting Initiator Response Elicitor Attention Signal Negative please Response Thanks well Expletive Positive pardon, sorry, excuse_me don’t_worry, never_mind I_mean, mind_you, you_know hi, hello, good_morning anyway, however, now eh, what hey, look no as discourse marker fine, good, uhuh, OK, all_right thanks, thank_you as discourse marker damn, gosh, hell, good_heavens yes, yeah, yup, mhm Tabella 3.1: Classificazione delle interiezioni in CHRISTINE Una classificazione simile nel principio, ma effettuata a partire dalla categoria degli avverbi, è quella proposta nel LONDON-LUND CORPUS (Svartvik & Eeg-Olofsson, 1982) illustrata nella tabella seguente: TAG AQgre AQhes AQneg CATEGORY adverb adverb adverb SUBCAT discourse item discourse item discourse item SUBSUBCAT OR ITEM greeting hesitator negative E-183 EXAMPLE goodbye now no Linea 1.1 – Dialoghi Annotati AQord AQpol AQpos AQres adverb adverb adverb adverb discourse item discourse item discourse item discourse item order politeness positive response give over please yes, mm I see Tabella 3.2: Alcune sottocategorie avverbiali del LONDON-LUND CORPUS Questo approccio presenta una serie di problemi. Il primo problema è illustrato dalle diverse classificazioni che i due schemi citati attribuiscono alle stesse forme, che evidenzia il limite estremamente vago fra queste due categorie grammaticali periferiche. Si nota, infatti, come i due schemi siano inconsistenti tra loro relativamente alla classificazione di certe forme. Ad esempio, le stesse forme di saluto, di risposta e di cortesia sono classificate come interiezioni in CHRISTINE, e come avverbi nello schema LONDON-LUND. Il secondo problema è rappresentato dall’uso di queste categorie nell’annotazione: molte parole in queste classi occorrono in più di una categoria, tanto che la disambiguazione può essere estremamente problematica anche per un’annotazione manuale. Per esempio oh, classificato come un’esclamazione, in molti casi si comporta come un ‘discourse marker’, mentre okay, classificato come una forma di risposta, può anche occorrere in funzione di elicitatore di risposta e di ‘discourse marker’. Un ulteriore problema di ordine teorico è che questo tipo di approccio a nostro parere ha il difetto di confondere l’annotazione morfosintattica con l’annotazione della funzione pragmatica, che dovrebbero invece essere mantenute distinte. Inoltre, a livello di annotazione inter-livello può essere interessante vedere quali diverse categorie grammaticali svolgano la stessa funzione pragmatica. In alternativa, è stata spesso avanzata in letteratura l’esigenza di creare una classe grammaticale autonoma, eventualmente sottoclassificata in categorie più specifiche (inserire riferimenti). A questa categoria è stato spesso dato il nome di marcatori del discorso o connettivi. Questa alternativa, sebbene interessante, riduce notevolmente la possibilità di confronto fra annotazione morfosintattica dello scritto e del parlato, perché forme che compaiono anche nello scritto, sia pure con frequenza minore, verrebbero riclassificate in una nuova classe non prevista dal tagset morfosintattico per la lingua scritta. Per l’annotazione morfosintattica del parlato in SI-TAL, adotteremo provvisoriamente una strategia intermedia, che rappresenta un compromesso fra le due alternative descritte ed è conforme alle raccomandazioni espresse dal gruppo di EAGLES sul parlato (vedi Gibbon 1999: 36). Il nostro approccio consiste nello specificare criteri precisi di attribuzione delle diverse forme alle categorie già esistenti delle interiezioni, delle congiunzioni e degli avverbi. Le diverse classi possono poi essere ulteriormente specificate, ma la classificazione è fatta esclusivamente su base distribuzionale, evitando di usare categorie determinate su base pragmatica in quanto questo tipo di classificazione è rimandata al livello pragmatico. Una nuova sotto-categoria MD (marcatori del discorso) viene associata alle categorie degli avverbi e delle congiunzioni, quando occorrono in contesti particolari, per esempio isolatamente in un turno o in posizione iniziale o finale di turno. Una illustrazione preliminare dei criteri di attribuzione è riassunta nei paragrafi seguenti: 3.2.2.4.1 Interiezioni Alla classe delle interiezioni appartengono le forme seguenti (vedi anche sopra, sez. 3.2.2.3): • forme di saluto (ciao, buongiorno, arrivederci, …): E-184 Linea 1.1 – Dialoghi Annotati (1) buongiorno, vorrei avere informazioni sull’orario dei treni (2) grazie per aver chiamato, arrivederci • elicitatori di risposta (eh?, huh?, ok?) • esclamazioni (oh, ah, ooh): (4) G041: la seconda quella piu' in alto F042: ah ! quella più in alto ? • forme di risposta (ok, hu-huh, …): (5) F042: ah ! quella più in alto ? G043: eh <pb> sì ma non ci andare proprio sopra • forme di cortesia (grazie, prego): (6) A0_12: aveva bisogno anche di un albergo a new york ? B0_13: si` grazie 3.2.2.4.2 Avverbi Alcuni avverbi (B@) possono essere ulteriormente classificati mediante la sottocategoria MD, quando occorrono in posizione iniziale o finale di turno, o costituiscono un turno completo. Alcuni esempi sono riportati di seguito, insieme all’indicazione generica della funzione pragmatica tipica corrispondente: • Elicitatori di risposta: (1) G003: descrivigli un ce~ un mezzo cerchio dove c'è scritto partenza fai un mezzo cerchio andando verso sinistra <pl> la devi circumnavigare questa figura F004: si' <pb> poi? • Forme di risposta: (2) G003: descrivigli un ce~ un mezzo cerchio dove c'è scritto partenza fai un mezzo cerchio andando verso sinistra <pl> la devi circumnavigare questa figura F004: si' <pb> poi? (3) B0_09: c' e` disponibilita` di un posto in seconda classe ? A0_10: certo un biglietto in seconda classe costa due cento quindici dollari E-185 Linea 1.1 – Dialoghi Annotati • Connettivi: (3) G005: hai fatto ? ora prosegui diritto <pl> vai diritto <pb> e arriva In tutti i casi precedenti, la forma evidenziata in grassetto riceve l’etichetta B@MD 3.2.2.4.3 Congiunzioni Le congiunzioni, sia coordinative che subordinative, quando si trovano all’inizio di turno o di enunciazione sono marcate mediante l’aggiunta del simbolo MD dopo il simbolo @. Alcuni esempi: (1) G023: fino a dove sta questo c~ valle di colibrì qua <P> ci sei arrivata ? F024: ma non lo posso fare perché l'ho fatto da+ ehm nell'altra direzione quindi va verso la destra del foglio (2) G017: allora stammi a sentire (3) F018: ce ne sono due però In tutti i casi precedenti, la forma evidenziata in grassetto riceve l’etichetta CC@MD o CS@MD. E-186 Linea 1.1 – Dialoghi Annotati 3.3 Specifiche di annotazione per il livello sintattico L’annotazione sintattica del parlato pone dei problemi particolari, in considerazione da una parte delle peculiarità dei fenomeni che caratterizzano la lingua parlata rispetto alla lingua scritta, e dall’altro dell’inadeguatezza a rappresentare quei fenomeni da parte della maggioranza degli schemi di annotazione sintattica esistenti, che sono stati sviluppati sulla base della lingua scritta. Per fare un esempio, come è stato già accennato nella parte di questo manuale relativa allo stato dell’arte (vedi parte II, cap. 2), la nozione canonica di frase della lingua scritta, come massima unità analizzabile contenente almeno un verbo finito, costituisce soltanto un tipo di struttura ideale nella segmentazione dei dialoghi reali. In realtà, infatti, le enunciazioni spesso consistono di sintagmi, non raramente costituiti di una sola parola, che spesso non è un verbo, come illustrato anche dagli esempi riportati nei paragrafi precedenti. Se, in aggiunta, si considerano i fenomeni di anacoluto, di incompletezza sintattica ed altri fenomeni simili di “gestione” del parlato, è evidente che qualsiasi tentativo di costruire delle proiezioni sintattiche massime sulla base della concatenazione di strutture sintagmatiche intermedie è condannato al fallimento. Alcuni corpora annotati sintatticamente (o treebanks), in pratica usano delle parentesizzazioni massimali che comprendono l’intera unità analizzabile, senza fare assunzioni sulla sua struttura interna. Questo è ad esempio l’approccio adottato dal BRITISH NATIONAL CORPUS sotto il nome di “principio di minimizzazione strutturale”, ed è sicuramente preferibile all’alternativa di eliminare le principali disfluenze in modo da poter eseguire l’analisi sintattica su delle enunciazioni normalizzate. In primo luogo, infatti, è difficile vedere come la strategia di normalizzazione possa essere applicata a delle enunciazioni marcatamente disfluenti senza per ciò stesso imporre un’interpretazione artefatta del dialogo. In secondo luogo, è utile poter analizzare la struttura sintattica anche di fenomeni di incompletezza e di correzione, in quanto questa analisi può costituire un’importante fonte di informazione sia per l’annotazione che per lo sviluppo di strumenti software di analisi automatica robusta. Infine, i fenomeni di disfluenza non sono l’unica fonte di difficoltà nell’analisi a costituenti della lingua parlata. Altri fenomeni, infatti, come l’occorrenza massiccia di dislocazioni, costruzioni a tema sospeso, topicalizzazioni, sintagmi interrotti, per citarne solo alcuni, rappresentano una grossa difficoltà per le analisi a costituenti, che sono state eseguite soprattutto in riferimento ad esempi di lingua scritta. Questi fenomeni, che pure si presentano anche nella lingua scritta, ma con frequenza sensibilmente inferiore, rendono le strategie di rappresentazione sintattica a costituenti non sempre opportune e spesso inadeguate. Ad esempio, la frequenza dei costituenti discontinui richiederebbe un pesante ricorso all’uso del meccanismo ‘filler-trace’, con il risultato di produrre degli alberi sintattici considerevolmente diversi dalle sottostanti strutture predicato-argomento. E’ tra l’altro significativo che tutti quegli schemi che adottano un’analisi sintattica a costituenti e che sono stati applicati al parlato adottino anche un approccio normalizzante, con un’unica eccezione, rappresentata dal corpus CHRISTINE. Inoltre, altri due argomenti vanno contro l’adozione di una struttura di base a costituenti: • i modelli di struttura a costituenti stipulati per le lingue non configurazionali differiscono notevolmente fra di loro, costituendo così una potenziale contraddizione per la neutralità teorica dello schema • la struttura a costituenti serve da mezzo esplicativo della variazione dell’ordine delle parole, il che contraddice il requisito di descrittività. E-187 Linea 1.1 – Dialoghi Annotati Una alternativa di analisi rispetto all’adozione di principi di minimizzazione strutturale o di strategie di normalizzazione, e che al contempo aggira le difficoltà poste all’analisi strutturale dalla lingua parlata, è rappresentata dalla cosiddetta “analisi a costituenti immediati” o shallow parsing. 3.3.1 Shallow Parsing Con il termine di “shallow parsing” si intende un’ampia gamma di approcci all’analisi sintattica, che usano tecniche diverse (per esempio, tecniche basate su regole oppure tecniche stocastiche) e sono rivolti a scopi diversi (per esempio, acquisizione di conoscenza lessicale, traduzione automatica, controllo di stile, ecc.). In termini molto generali, per analisi a costituenti immediati (o “shallow parsing”) si intende un’analisi incompleta o parziale della struttura sintattica del testo, ovvero l’annotazione, nel testo, dei soli nuclei sintagmatici non ricorsivi. La rappresentazione sintattica risultante è un’analisi incompleta o parziale, che non fornisce alcuna informazione relativa ai legami di dipendenza tra nuclei sintagmatici, ma si limita a verificare la correttezza “markoviana” delle sequenze di parole enunciate. Questo tipo di annotazione presenta correlazioni interessanti con il livello prosodico, e consente di annotare qualsiasi tipo di testo, anche assai “rumoroso”, grazie al carattere locale e non ricorsivo delle sue regole. Esistono vari approcci a questo tipo di analisi, che adottano visioni leggermente diverse nella definizione dei costituenti e delle categorie associate. L’aspetto comune ai diversi approcci di analisi sintattica parziale è il carattere comunque locale delle analisi proposte, con un’enfasi particolare posta sul fatto che le relazioni sintattiche fra i costituenti non devono essere necessariamente specificate. Questo aspetto è particolarmente rilevante per l’annotazione sintattica del dialogo, per esempio in relazione all’analisi di sintagmi parziali o di “fusioni” sintattiche. Dal momento che l’analisi in costituenti immediati non implica il controllo di consistenza dei livelli di incassamento strutturale ad un livello superiore a quello dei costituenti identificati (in altre parole, del modo in cui i costituenti siano connessi ai nodi superiori di un albero sintattico), un analizzatore sintattico parziale (o shallow parser), non si interrompe di fronte al verificarsi di un sintagma incompleto, né cerca di mantenere un anacoluto in linea con la costruzione sintattica complessiva. Da questo punto di vista, l’analisi sintattica parziale restituisce un risultato che rappresenta la controparte della rappresentazione richiesta dal “principio di minimizzazione strutturale”: invece di fornire la massima struttura compatibile con i dati, l’analisi parziale restituisce una lista di strutture sintattiche minime e non connesse che sono compatibili con i dati in entrata. Da un punto di vista molto generale, gli analizzatori sintattici a costituenti immediati prendono in input l’output di un analizzatore morfologico, preferibilmente ma non necessariamente disambiguato in contesto mediante applicazione di un tagger. Al di là delle varie differenze nella tipologia della rappresentazione in output, gli analizzatori sintattici “shallow” condividono la proprietà che le analisi risultanti non devono essere complete; in altre parole, le strutture non riconosciute e le relazioni di dipendenza fra parole che non vengono identificate sono lasciate sottospecificate per quanto riguarda la loro natura ed il loro dominio. L’output di uno shallow parser è computato sulla base di un minimo di conoscenza linguistica presupposta, che si aggiunge all’informazione posseduta dalla rappresentazione in input, ovvero informazione morfosintattica, informazione relativa al lemma, e informazione sull’ordine delle parole. Questo concetto può essere espresso dicendo che il punto di partenza di uno shallow parser è tipicamente una sorta di “lessico sintattico vuoto”, e che le analisi che ne risultano non sono guidate lessicalmente: per esempio, tutti i costituenti sono rappresentati sullo stesso piano, come figli del E-188 Linea 1.1 – Dialoghi Annotati nodo-frase, data l’impossibilità di fare affidamento su informazione di tipo lessicale (soprattutto schemi di sottocategorizzazione) per stabilire le dipendenze appropriate. 3.3.2 Chunking In questa sezione e nelle sezioni seguenti viene illustrata una particolare accezione della nozione di “shallow parsing”, a cui faremo riferimento con il termine di “chunking”. In questa particolare accezione dell’analisi a costituenti immediati il concetto di “analisi incompleta” viene reinterpretato nel senso di “analisi sottospecificata”, suscettibile di e compatibile con dei livelli di analisi sintattica più raffinati. Come prima approssimazione, analizzare un testo, scritto o parlato, in termini di chunking significa segmentare il testo in una sequenza non strutturata di unità sintatticamente organizzate dette “chunks” (Abney, 1991). Nell’interpretazione adottata in questa sede, che prende come punto di partenza quella adottata nello standard di SPARKLE (vedi sotto, sez. 3.3.2.3), questa segmentazione deve avvenire con un minimo di informazione linguistica presupposta, ovvero tramite il ricorso ad un lessico sintattico “semi-vuoto” contenente nessun altra informazione al di là del lemma dell’entrata, della categoria grammaticale e dei tratti morfosintattici. Le analisi che ne risultano sono analisi piatte: tutti i chunks sono rappresentati allo stesso livello strutturale, come figli dello stesso nodo-radice. A sua volta, ogni chunk C è una struttura sintatticamente organizzata (definita in termini di coppie attributo-valore), che mostra i tratti specifici del chunk insieme alla natura e all’ambito delle dipendenze che sussistono tra le parole coperte da C. Il chunking del testo è eseguito per mezzo di un automa a stati finiti, d’ora in avanti definito “Chunker” (Federici et al., 1996) che prende in input un testo etichettato morfosintatticamente. Alla base dello sviluppo dello schema di annotazione e del software ad esso correlato sta una vasta gamma di obiettivi, dalla minimizzazione dei problemi tipici dell’analisi automatica dei testi reali all’identificazione affidabile di costituenti sintattici in un testo per mezzo dell’informazione minima disponibile, all’acquisizione di informazione lessicale da corpora. 3.3.2.1 La nozione di chunk Nell’interpretazione adottata in questa sede, un chunk è una unità testuale di elementi lessicali adiacenti. Le parole che sono comprese in un unico chunk condividono la proprietà di essere connesse per mezzo di catene di dipendenza che possono essere identificate in modo non ambiguo in contesto senza ricorso ad informazione lessicale diversa dalla categoria morfosintattica ed i tratti associati. Un chunk è sempre una unità massimale e non ricorsiva, che non può essere incassata in un chunk più inclusivo. In concreto, data una enunciazione LE NUOVE TECNOLOGIE INFORMATICHE HANNO UN SEMPRE MAGGIORE IMPATTO SUL PROCESSO PRODUTTIVO, la segmentazione prevede sei chunks distinti: A. [LE NUOVE TECNOLOGIE] B. [INFORMATICHE] C. [HANNO] D. [UN SEMPRE MAGGIORE IMPATTO] E. [SUL PROCESSO] E-189 Linea 1.1 – Dialoghi Annotati F. [PRODUTTIVO] Ogni chunk include una sequenza di elementi lessicali adiacenti che sono connessi fra loro attraverso legami di dipendenza di tipo specificabile. La struttura interna del chunk mantiene traccia di questi legami di dipendenza: le nuove tecnologie Un testo analizzato in chunks non contiene informazione sulla natura e l’ambito delle dipendenze fra chunks. Di conseguenza, se due sottostringhe di un testo sono assegnate a due chunks distinti, questo non esclude necessariamente l’esistenza di una relazione di dipendenza fra i due. Per esempio, la rappresentazione in chunks riportata sopra non dice niente sulla relazione tra IMPATTO e SUL PROCESSO, ma questo non significa che una tale relazione non sussista. Semplicemente, l’informazione lessicale disponibile al Chunker non permette di affermare in modo non ambiguo quale chunk si connette ai chunk vicini e quale sia la natura di questa relazione. Facendo astrazione dal contenuto lessicale dei chunks della frase precedente, E è potenzialmente dipendente da D o da C e questo non può essere deciso senza fare ricorso ad informazioni di sottocategorizzazione (ovvero che IMPATTO, a differenza del verbo AVERE, sottocategorizza un sintagma preposizionale la cui testa è SU). In mancanza di questa informazione, la dipendenza tra chunks è lasciata sottospecificata. In sintesi, i chunks sono definiti su base strettamente sintattica: seguendo una definizione di Abney (1996), un chunk può essere inteso come “il nocciolo non ricorsivo di un costituente intraclausale, che si estende dall’inizio del costituente fino alla sua testa, ma non include i dipendenti che seguono la testa”. Nell’esempio precedente, l’uso della sottospecificazione (da leggere qui come non attachment) è anche il motivo del trattamento particolare e non convenzionale degli aggettivi INFORMATICO e PRODUTTIVO da una parte, e di NUOVE e MAGGIORE dall’altra. Si noti che “nuove” e “maggiore” sono per così dire “intrappolati” tra il determinatore ed il nome, diventando così parte di un chunk (nominale) più ampio. Nel caso di INFORMATICO e PRODUTTIVO, d’altra parte, gli aggettivi formano un chunk indipendente. Il diverso trattamento riflette l’idea intuitiva che il Chunker debba ricercare esclusivamente delle dipendenze non ambigue. La posizione di INFORMATICO, nel contesto, non lascia ambiguità relativamente al suo governor (il nome seguente), e questo è catturato rendendolo parte dello stesso chunk. Ciò non è vero per i modificatori aggettivali postnominali, che sono dunque mantenuti separati come chunks indipendenti. 3.3.2.2 La nozione di “potential governor” La definizione di chunk adottata qui è centrata sulla nozione di “potential governor”. Un chunk contiene al massimo un potential governor (segnato in grassetto nella frase precendente), che è sempre l’elemento più a destra della sequenza di parole coperta dal chunk ed in genere (ma non sempre) rappresenta la testa sintattica del chunk. Dal punto di vista delle relazioni fra chunks, il potential governor è la parola con cui i chunk vicini possono combinarsi sintatticamente in una relazione di dipendenza. Chiaramente, la natura e la direzione di questa dipendenza (se dalla testa verso il dipendente o dal dipendente verso la testa) dipende da se questo potential governor sottocategorizzi qualcosa o sia sottocategorizzato da qualcos’altro nel contesto considerato. Anche se, come si è detto in precedenza, il Chunker ignora le dipendenze fra chunks, tuttavia prepara la strada ad una loro assegnazione ad uno stadio successivo dell’analisi, schematizzando, per così dire, E-190 Linea 1.1 – Dialoghi Annotati la mappa delle unità linguistiche possibili (ovvero i potential governors) tra le quali possono sussistere delle dipendenze sintattiche. Nelle sezioni seguenti sono elencate le categorie dello schema di annotazione, le etichette usate ed alcuni esempi di applicazione di quelle etichette. 3.3.2.3 Inventario delle categorie ed esempi Lo schema di annotazione a costituenti immediati o chunks illustrato nelle sezioni seguenti si basa sullo standard sviluppato nell’ambito del progetto LE-2111 SPARKLE (Shallow PARsing and Knowledge extraction for Language Engineering, Carroll et al. 1996), opportunamente modificato ed adattato per essere applicato a dati di lingua parlata. E’ inoltre conforme con lo schema di annotazione a costituenti immediati adottato nell’ambito del recente progetto MATE (Multilevel Annotation, Tools Engineering, vedi MATE 1998), dove pure l’annotazione sintattica del parlato avviene mediante uno schema basato su un’analisi a costituenti immediati. Analogamente a quanto fatto per le specifiche di annotazione morfosintattica (sez. 3.2 di questo documento), lo schema di annotazione sintattica descritto nei paragrafi successivi illustra le specifiche sintattiche di base, che possono essere applicate tanto allo scritto che al parlato. Nella sezione 3.3.3 verranno invece presentate le modifiche apportate per poter estendere l’applicazione dello schema all’analisi del parlato. Nello schema di annotazione, ad ogni chunk che viene identificato viene assegnata una categoria. Due sono i tipi principali di chunk: chunk che contengono un potential governor o chunk “sintagmatici” e chunk che non contengono elementi che possono agire come potential governor. Questi ultimi, esemplificati dalla punteggiatura e dalle congiunzioni coordinative, sono detti anche chunks “marcatori”, e rivestono una notevole importanza per gli scopi dell’acquisizione lessicale, dal momento che tengono traccia dei marcatori testuali che sono usati come “segnaposto” nella fase di acquisizione (vedi Federici et al., 1998). La tipologia completa dei chunks è riassunta nella tabella seguente: Etichetta ADJ_C ADV_C FV_C G_C I_C N_C P_C PART_C C_C BE_C ADJPART_C di_c PUNCT_C Tipo chunk aggettivale chunk avverbiale chunk verbale (verbo finito) chunk gerundivo chunk infinitivo chunk nominale chunk preposizionale chunk participiale chunk congiuntivo chunk predicativo (aggettivale/participiale) chunk aggettivale/participiale chunk introdotto dalla preposizione di chunk di punteggiatura Come si sarà notato, l’insieme delle categorie sintattiche si allontana dall’insieme classico di categorie sintagmatiche usate nella sintassi a costituenti: da una parte compaiono delle distinzioni più granulari, come la distinzione fra i chunk verbali a seconda del modo del verbo; dall’altra E-191 Linea 1.1 – Dialoghi Annotati categorie tradizionali come quelle di that-clause, wh-clause ecc. non compaiono nella lista in quanto vengono decomposte in sequenze di chunk di base. Le congiunzioni subordinative e coordinative sono marcate come chunk indipendenti solo quando non sono seguite dal verbo essere. Il tagset prevede anche alcune categorie sottospecificate (di_C, ADJPART_C, che_C, vedi sez. 3.3.2.3.11) che vengono applicate laddove non sia possibile sulla base dell’informazione disponibile stabilire con sicurezza l’appartenenza del chunk ad una categoria univoca. 3.3.2.3.1 Chunk aggettivali (ADJ_C) I chunk aggettivali si estendono da un qualsiasi avverbio premodificatore o intensificatore fino ad una testa costituita da un aggettivo. Questa definizione fornisce solo una condizione necessaria per l’identificazione dei chunk aggettivali, ma non sufficiente. In realtà, i sintagmi aggettivali che occorrono in posizione pre-nominale non sono marcati come chunk separati dal momento che la loro relazione con il nome che li governa è identificata senza ambiguità all’interno del chunk nominale. Lo stesso vale nel caso di sintagmi aggettivali predicativi governati dal verbo essere che sono parte di chunks di tipo BE_C (vedi sotto, par. 3.3.2.3.10). I chunk aggettivali dunque includono: • sintagmi aggettivali post-nominali, sia che seguano immediatamente il nome modificato sia che si trovino più oltre nella frase. Ad esempio: [N_C un bambino] [ADJ_C bravo] [N_C la progettazione] [P_C di tecniche] [P_C di base] [ADJ_C indispensabili] [P_C al progresso] [ADJ_C industriale] • sintagmi aggettivali predicativi non governati dal verbo ESSERE: [FV_C diventa] [ADJ_C più difficile] [FV_C lo considera] [ADJ_C molto opportuno] Il fatto che i sintagmi aggettivali predicativi governati da verbi copulativi diversi da essere siano trattati diversamente dai sintagmi aggettivali governati dal verbo essere deriva dall’assunto che il Chunker debba basarsi esclusivamente su informazione linguistica di base relativa ai lemmi e alle categorie morfosintattiche. La classe di tutti i verbi copulativi è una classe potenzialmente aperta, e quindi la sua definizione va al di là della conoscenza linguistica presupposta dal Chunker. 3.3.2.3.2 Chunk avverbiali (ADV_C) I chunk avverbiali si estendono da un qualsiasi pre-modificatore avverbiale alla testa avverbiale. Questa definizione, tuttavia, fornisce un’indicazione necessaria ma non sufficiente per l’identificazione dei chunks avverbiali. In realtà, i sintagmi avverbiali che occorrono tra un verbo ausiliare ed un participio passato non sono isolati come chunks distinti a causa del fatto che dipendono dal verbo in modo non ambiguo. Per lo stesso motivo, quegli avverbi che premodificano immediatamente verbi o aggettivi vengono considerati parte rispettivamente di un chunk verbale o aggettivale. Inoltre, i sintagmi nominali usati avverbialmente (per esempio, LA SETTIMANA SCORSA, QUESTA MATTINA) sono trattati come chunks nominali. E-192 Linea 1.1 – Dialoghi Annotati Alcuni esempi: [FV_C ha sempre camminato] [ADV_C molto] [FV_C ha finito] [ADV_C molto rapidamente] 3.3.2.3.3 Chunk verbali – modo finito (FV_C) I chunks di tipo FV_C sono chunks contenenti un verbo finito che includono tutti i modali, gli ausiliari ordinari e causativi così come avverbi intermedi e pronomi clitici fino alla testa verbale. Per esempio: • chunk verbale con verbo ausiliare o modale e avverbio intermedio: [FV_C può ancora camminare] • chunk verbale con avverbio pre-modificatore: [FV_C non ha mai fatto] [ADV_C così] • l’ausiliare ESSERE in forme verbali perifrastiche (sia attive che passive) come SONO CADUTO, SONO STATO COLPITO, o MI SONO ACCORTO, è trattato come parte di un chunk verbale finito, a meno che il verbo ESSERE non sia seguito da un participio passato che il dizionario classifica anche come aggettivo; in tal caso è segmentato come un chunk di tipo BE_C (vedi sotto, par. 3.3.2.3.10). [FV_C è] [N_C un simpatico ragazzo] • gli ausiliari ed i modali preposti costituiscono dei chunks FV_C separati: [FV_C può] [N_C la commissione] [I_C deliberare] [P_C su questa materia]? • costruzioni causative perifrastiche: [FV_C fece studiare] [N_C il bambino] • i pronomi clitici sono parte del chunk la cui testa è il verbo immediatamente adiacente: [FV_C lo ha sempre fatto] 3.3.2.3.4 Chunk verbali – modo gerundio (G_C) I chunks di tipo G_C contengono una forma verbale al modo gerundio. Se fa parte di un gruppo verbale marcato per il tempo (per esempio, nelle costruzioni progressive), la forma verbale gerundiva non viene marcata indipendentemente. Il tipo G_C include anche le forme gerundive che funzionano come sintagmi nominali. Ad esempio: • [FV_C sta studiando] • [G_C studiando] [FV_C ho imparato] [ADV_C molto] E-193 Linea 1.1 – Dialoghi Annotati 3.3.2.3.5 Chunk verbali – modo infinito (I_C) I chunks di tipo infinitivale (I_C) includono tanto gli infiniti semplici che gli infiniti introdotti da una preposizione: • [FV_C ha promesso] [I_C di arrivare] [ADV_C presto] • [FV_C desidera] [I_C partire] [ADV_C domani] 3.3.2.3.6 Chunk nominali (N_C) I chunk di tipo N_C si estendono dall’inizio del sintagma nominale fino alla sua testa, ed includono chunk nominali le cui teste possono essere nomi, pronomi, verbi all’infinito se preceduti da un articolo, e nomi propri. I sintagmi nominali in funzione avverbiale (per esempio, QUESTA MATTINA) sono trattati come chunks nominali. Tutti i tipi di modificatori e/o specificatori che occorrono tra l’inizio del sintagma nominale e la testa sono inclusi nel chunk N_C. Alcuni esempi: • [N_C un bravo bambino] • [N_C tutte le possibili soluzioni] • [N_C i sempre più frequenti contatti] • [N_C questo] • [N_C il camminare] • [N_C il bello] Nello schema di annotazione, i chunks nominali coprono una porzione soltanto della gamma dei fenomeni linguistici normalmente coperti dai sintagmi nominali, ovvero soltanto quei sintagmi nominali con complementazione prenominale. 3.3.2.3.7 Chunk preposizionali (P_C) I chunk di tipo preposizionale (P_C) si estendono da una preposizione fino alla testa del gruppo nominale seguente. La maggior parte dei criteri definiti per i chunk di tipo nominale si applicano anche a questo caso. Esempi tipici di chunk preposizionali sono seguenti: • [P_C per i prossimi due anni] • [P_C fino a un certo punto] 3.3.2.3.8 Chunk participiali (PART_C) I chunk participiali (PART_C) includono costruzioni participiali come le seguenti: • [PART_C finito] [N_C il lavoro] , [N_C Giovanni] [FV_C andò] [P_C a casa] E-194 Linea 1.1 – Dialoghi Annotati 3.3.2.3.9 Chunk congiuntivi (C_C) I chunk congiuntivi (C_C) includono una congiunzione, sia coordinativa che subordinativa. Le congiunzioni sono segmentate come chunks separati solo quando non sono seguiti immediatamente da un gruppo verbale. Si confronti, ad esempio, la struttura della frase seguente • [FV_C non so] [C_C quando] [N_C il direttore] [FV_C mi riceverà] con la struttura della frase seguente, che differisce dalla precedente per avere il soggetto della clausola subordinata in posizione postverbale: • [FV_C non so] [FV_C quando mi riceverà] [N_C il direttore] 3.3.2.3.10 BE_C I chunk di tipo BE_C consistono di una forma del verbo ESSERE seguita da un aggettivo o da un participio passato, includendo gli eventuali sintagmi avverbiali inframmezzati. Ad esempio: • [BE_C è intelligente] • [BE_C è molto bravo] • [BE_C è appena arrivato] 3.3.2.3.11 Categorie sottospecificate: di_C, ADJPART_C, che_C Non sempre il Chunker è in grado di identificare con certezza la categoria di un chunk. In questo caso, il problema può essere parzialmente aggirato mediante l’uso di categorie sottospecificate, che si aggiungono all’inventario delle categorie precedenti. Il Chunker fa ricorso a categorie sottospecificate in casi di ambiguità sistematica. Per esempio, il chunk di_C include una preposizione complessa introduttiva di che può essere interpretata sia come una preposizione sia come articolo partitivo, come nel caso di un’espressione come dello zucchero. La categoria di_C è compatibile con entrambe le analisi e dunque sussume sia chunks di tipo N_C che di tipo P_C. L’ambiguità sistematica tra aggettivi e participi presenti o passati rappresenta un altro caso. Si consideri, per esempio, il sintagma UN’IMMAGINE COLORATA e la sua rappresentazione in chunks qui sotto: A. [N_C un’immagine] B. [?_C colorata] Qui, il potential governor in B. può essere tanto una forma participiale del verbo COLORARE che un aggettivo (COLORATO). La categoria corrispondente potrebbe dunque variare tra PART_C e ADJ_C. In questo caso, l’ambiguità è mantenuta per mezzo della categoria sottospecificata ADJPART_C, che sussume sia ADJ_C che PART_C. La categoria ?_C espressa sopra sarebbe dunque sostituita da [ADJPART _C colorata]. Infine, l’omografia tra il pronome relativo CHE e la congiunzione subordinativa CHE dà luogo ad un’altra ambiguità sintattica possibile. La categoria che_C serve come categoria generica che copre entrambe le costruzioni; il chunk corrispondente si estende da un’occorrenza di CHE ed è costruito E-195 Linea 1.1 – Dialoghi Annotati come un C_C (vedi sopra, par. 3.3.2.3.9). La categoria morfosintattica contestualmente appropriata è lasciata sottospecificata. 3.3.2.3.12 Punteggiatura I segni di punteggiatura, se presenti, formano un chunk separato, identificato dalla categoria PUNCT_C. 3.3.2.4 Dipendenze interne e dipendenze esterne In questa sezione, dopo aver illustrato brevemente i criteri e le categorie del chunking, affrontiamo il problema del tipo di dipendenze che sussistono fra gli elementi di un chunk, e del modo in cui sono rappresentate le dipendenze non decidibili che sussistono fra chunks. 3.3.2.4.1 Rappresentazione interna dei chunks Ogni chunk è una struttura sintatticamente organizzata, che mostra la natura ed il raggio delle dipendenze che sussistono tra le parole al suo interno. Ogni chunk è descritto da un insieme di coppie attributo-valore la cui configurazione varia a seconda del tipo e della categoria di chunk. Nel caso dei chunk di tipo “sintagmatico” (ovvero che possiedono un potential governor, vedi sopra, sez. 3.3.2.2), due attributi sono obbligatoriamente specificati: a) la Categoria del Chunk (CC), i cui valori possibili sono quelli descritti nella sezione 3.3.2.3; e b) il POTential GOVernor (POTGOV), il cui valore è il lemma del potential governor, specificato per la categoria morfosintattica e per altri tratti morfosintattici. La rappresentazione è esemplificata qui sotto per il chunk elementare “la legislazione”: (1) [ [CC: N_C] [POTGOV: legislazione#SF] ] Questa struttura di base può contenere ulteriori attributi. Ad esempio, nel caso di chunks di tipo preposizionale e infinitivo un attributo PREP specifica la preposizione che “introduce” il chunk, mentre un attributo MOD specifica i premodificatori aggettivali (ovvero che si trovano fra un determinatore ed un potential governor) in chunks di tipo nominale e preposizionale. Ad esempio: (2) a questo riguardo [ [CC: P_C] [PREP: a] [POTGOV: (3) riguardo#SM] ] per verificare [ [CC: I_C] [PREP: per] [POTGOV: (3) verificare#VTP] ] un bravo bambino [ [CC: N_C] [MOD: bravo] [POTGOV: bambino#SM] ] I chunks verbali (FV_C, I_C) possono inoltre contenere indicazione del seguente insieme di elementi: • (4) il pronome o i pronomi clitici (CLIT) che occorrono in congiunzione con la forma verbale: lo disse E-196 Linea 1.1 – Dialoghi Annotati [ [CC: FV_C] [CLIT: lo] [POTGOV: (5) farlo [ [CC: FV_C] [CLIT: lo] [POTGOV: • dire#VT] ] fare#VT] ] l’ausiliare (AUX) usato nelle forme verbali perifrastiche: (6) è stata trasmessa [ [CC: FV_C] [AUX: essere] [POTGOV: (7) ha dichiarato [ [CC: FV_C] [AUX: avere] [POTGOV: • dichiarare#VTR] ] il verbo modale (MODAL) usato nelle costruzioni modali: (8) che possono essere sbarcati [ [CC: FV_C] [INTRO: sbarcare#VTI] ] • trasmettere#VT] ] che] [AUX: essere] [MODAL: potere] [POTGOV: il verbo causativo (CAUS) usato nelle costruzioni causative: (9) lascia intendere [ [CC: FV_C] [CAUS: lasciare] [POTGOV: intendere#VTIPB] ] Le congiunzioni coordinative e subordinative se immediatamente seguite da un gruppo verbale sono incluse nel chunk verbale corrispondente e registrate come valore dell’attributo CONJ: (10) dove si trova [ [CC: FV_C] [CONJ: dove] [CLIT: si] [POTGOV: trovare#VTBP] ] Si ricordi che le congiunzioni che non sono immediatamente seguite da un chunk verbale come in DOVE LA MIA FAMIGLIA SI TROVA sono trattate come chunks indipendenti (C_C). Analogamente, la congiunzione o pronome CHE se immediatamente seguite da un gruppo verbale, sono incluse nel chunk verbale e registrate come valore dell’attributo INTRO. Se invece non sono immediatamente seguite da un chunk verbale sono segmentate separatamente, come un che_C (vedi sopra, sez. 3.3.2.3.11): (11) che possono essere sbarcati [ [CC: FV_C] [INTRO: sbarcare#VTI] ] (12) che] [AUX: essere] [MODAL: potere] [POTGOV: che lui dice [CC: che_C] [ [ CC: N_C] [POTGOV: lui#PP@MS] ] [ [CC: FV_C] [POTGOV: dire#VTI] ] E-197 Linea 1.1 – Dialoghi Annotati 3.3.2.4.2 Dipendenze tra chunks distinti Quelle dipendenze che non possono essere identificate in modo non ambiguo per natura ed estensione sono distribuite su chunks distinti. A scopo illustrativo, si consideri il sintagma insiemi di leggi utili, dove l’aggettivo utili può entrare in due catene di dipendenza distinte, a seconda dell’interpretazione: insiemi di leggi utili insiemi di leggi utili L’output dell’analisi in chunks è compatibile con entrambe le interpretazioni, dal momento che i potential governors di UTILE (INSIEME e LEGGE), così come lo stesso UTILE, sono assegnati a chunks distinti, rispettivamente ad un chunk nominale, ad uno preposizionale e ad un chunk aggettivale: [ [CC: N_C] [POTGOV: insieme#SM] ] [ [CC: P_C] [PREP: di] [POTGOV: [ [CC: ADJ_C] [POTGOV: legge#SF] ] utile#A] ] 3.3.3 Applicazione dello schema all’analisi del parlato Nel corso della rassegna degli schemi di annotazione sintattica (vedi parte II, sez. 2) abbiamo evidenziato un insieme di fenomeni che devono poter essere trattati da uno schema di annotazione del parlato perché questo possa considerarsi sufficientemente completo. Come è già stato accennato in 3.3.1, l’annotazione a costituenti immediati si presta naturalmente, per le sue caratteristiche intrinseche, a trattare fenomeni sintattici specifici del linguaggio parlato, anche, e diremmo nel nostro caso soprattutto, per quel che riguarda quella varietà di parlato particolarmente frammentata e ancorata al contesto comunicativo che si realizza attraverso lo scambio dialogico. Infatti l’annotazione a costituenti sintattici immediati, evitando l’uso di strutture “incassate”, e cioè di unità sintattiche complesse (come ad esempio il sintagma frasale F) che contengono al loro interno unità più semplici (ad es. i sintagmi nominale SN e verbale SV), individua nel cosiddetto chunk la sola unità sintattica di riferimento. In questo modo si evita l’inconveniente, in qualche misura paradossale, di dover ripensare radicalmente il sistema di regole sintattiche messe a punto per il trattamento della lingua scritta nel passaggio ad un’analisi della lingua parlata. E’ infatti a livello dell’organizzazione dei costituenti sintattici maggiori, o non immediati, e tra questi principalmente a livello di organizzazione della frase nel suo complesso, che si evidenziano le discrepanze più significative tra l’organizzazione sintattica del parlato e quella dello scritto (Voghera 1992), al punto da dover concludere che la riscrittura canonica della frase come F → SN SV è semplicemente inadeguata per una descrizione accurata del parlato. D’altra parte è ragionevole attendersi che il linguaggio parlato e quello scritto si avvalgano fondamentalmente degli stessi procedimenti di organizzazione interna dei costituenti sintattici immediati, distanziandosi semmai nel modo in cui questi costituenti a) si dispongono linearmente, b) si co-selezionano in sequenze minime grammaticalmente accettabili, e c) infine realizzano loro funzione comunicativa: in una sola espressione, al livello di quelle relazioni inter-sintagmatiche che un’analisi a costituenti immediati semplicemente non codifica. E-198 Linea 1.1 – Dialoghi Annotati E’ possibile individuare almeno quattro diversi tipi di problemi sintattici relativi all’analisi del linguaggio parlato (Voghera 1992): 1) presenza di sintagmi interrotti o distribuiti su più turni Leibniz è innanzitutto # il suo mestiere è innanzitutto quello di ingegnere 2) presenza di enunciati predicativi a testa non verbale: bella questa casa! da domani # dieta 3) presenza di enunciati formati da unità sintattiche dai confini incerti scherzi spero c’è poi una lunga lista un vero minestrone i click si producono premendo diciamo schiacciando la parte mobile 4) trattamento di fenomeni tipici del parlato, quali interiezioni, riempitivi di pause o segnali di esitazione ma non lo posso fare perché l'ho fatto da+ ehm nell'altra direzione Qui di seguito daremo alcune indicazioni generali relative alle strategie che possono essere utilmente adottate per affrontare questi problemi nel quadro di un sistema di annotazione sintattica a costituenti immediati, ed evidenzieremo al tempo stesso alcuni degli adattamenti che si sono resi necessari. 3.3.3.1 Incompletezze sintattiche o costituenti parziali Le incompletezze sintattiche si verificano in tutti quei casi in cui un parlante non completa una enunciazione, a causa vuoi di una interruzione spontanea (eventualmente motivata dall’esigenza metalinguistica di usare un’espressione più chiara o appropriata), vuoi di una qualsiasi altra corruzione del processo di produzione, come nel caso dell’interruzione da parte di un altro parlante. Nel par. 3.2.3 abbiamo affrontato il fenomeno dei frammenti di parola come un problema per l’annotazione morfosintattica. A livello sintattico si presenta un problema analogo di frammenti di costituenti, dove un costituente è interrotto prima del suo completamento. Per gli approcci tradizionali basati su un’analisi sintattica a costituenti incassati, il fenomeno dei costituenti parziali rappresenta una caratteristica estremamente problematica del parlato, perché per poter costruire una unità sintattica massima è necessario fare delle ipotesi relativamente al costituente interrotto. Un caso a parte è rappresentato dall’annotazione delle sequenze di correzione, per le quali in un’analisi a costituenti classica si pone il problema se espungere la sequenza soggetta a correzione o riformulazione, oppure se inglobarla nella più ampia struttura della correzione. Dal punto di vista dell’analisi automatica a costituenti immediati che, lo ripetiamo, non implica il controllo di consistenza dei livelli di incassamento strutturale ad un livello superiore a quello dei costituenti non ricorsivi, l’occorrenza di costituenti incompleti non costituisce di per sé un problema insormontabile. La struttura incompleta viene segnalata come un chunk (erroneo) di categoria sconosciuta, ma nulla viene detto sulla relazione tra la struttura appena individuata e il testo che segue. Il chunk sconosciuto si chiude di fronte alla prima parola del testo incompatibile con l’analisi in corso, lasciando naturalmente fuori quest’ultima. Da questo punto del testo in avanti l’analisi riprende markovianamente da zero, cioè senza memoria del fallimento appena incontrato. E-199 Linea 1.1 – Dialoghi Annotati Questa situazione, sebbene ricorrente, non è immune da incidenti di percorso. Ad esempio, va sottolineato il fatto che l’analisi a costituenti immediati presuppone un testo già etichettato morfosintatticamente. E’ ragionevole attendersi che sequenze interrotte, riprese, autocorrezioni e fenomeni analoghi introducano errori nel corso dell’etichettatura morfosintattica, portando inevitabilmente fuori strada l’analisi a costituenti. Una parte considerevole del lavoro di adattamento al parlato di un software sviluppato per l’analisi morfosintattica e sintattica dello scritto consiste nel rendere il software stesso meno sensibile alle deformazioni testuali frequenti nel linguaggio parlato. Lo scenario descritto finora ignora la possibilità che il testo da analizzare sia costituito non da una pura trascrizione ortografica del documento sonoro originale, ma da una trascrizione in qualche modo “emendata”. In quest’ultimo caso, come abbiamo già visto, almeno alcune delle cause di incompletezza dei costituenti immediati verrebbero ad essere segnalate dall’annotatore. Il software di analisi sintattica potrebbe far tesoro di questi marcatori aggiunti, e generare su questa base, in fase di pre-elaborazione, una sequenza di etichette morfosintatticamente coerente sulla quale operare l’analisi a costituenti vera e propria. L’utilità di questa operazione è evidente quando si consideri una categoria particolare di costituenti interrotti, quelli distribuiti su più turni. La distribuzione di un costituente su più turni si può manifestare in due modi diversi: a) come completamento da parte dell’interlocutore B di un’espressione linguistica parziale enunciata dall’interlocutore A; e b) come completamento di un’espressione linguistica parziale enunciata dall’interlocutore A da parte dello stesso interlocutore, a seguito di un’alternanza momentanea di turno. E’ ovvio che dal punto di vista dell’annotazione a costituenti immediati, questo tipo di distribuzione causa problemi solo nel caso in cui sia il costituente immediato ad essere soggetto a completamento su più turni. Un’annotazione automatica non può che limitarsi ad evidenziare la struttura incompleta come “erronea”. In fase di correzione manuale, è ragionevole ipotizzare che la struttura erronea venga specificata come incompleta, eventualmente attraverso il riferimento appropriato alla sequenza di parole che ne consentono il completamento. Si consideri ad esempio il caso seguente: (1) descrivigli un ce+ un mezzo cerchio [ [ CC: FV_C] descrivigli] [ [ CC: X_C] un] [ [ CC: X_C] ce+] [ [ CC: N_C] [ POTGOV: CERCHIO#S@MS] un mezzo cerchio] In questo caso, il fallimento dell’analisi è ben localizzato nei due sintagmi non riconosciuti (ed annotati come X_C) e non pregiudica le analisi successive al punto in cui il fallimento è avvenuto. L’intervento manuale dell’annotatore si può ragionevolmente limitare ad una specificazione della natura dell’errore, ad esempio come costituente interrotto e poi ripreso. In altri casi, tuttavia, il fallimento indotto dall’interruzione ha ripercussioni sulle analisi successive. Questo avviene, in particolare, quando il costituente incompleto viene completato ad un turno successivo senza ripresa della sequenza interrotta, come illustrato dall’esempio seguente: (2) A01: allora tra parentesi quadre noi mettiamo la … E-200 Linea 1.1 – Dialoghi Annotati [ [ CC: ADV_C] allora] [ [ CC: P_C] tra parentesi] [ [ CC: ADJ_C] quadre] [ [ CC: N_C] noi] [ [ CC: FV_C] mettiamo] [ [ CC: X_C] la] B01: trascrizione fonetica [ [ CC: N_C] trascrizione] [ [ CC: ADJ_C] fonetica] Chiaramente, in questo caso l’annotatore manuale non dovrebbe limitarsi a caratterizzare come interrotto il costituente incompleto che comincia con la ([ [ CC: X_C] la]). Un’analisi esaustiva deve mettere in evidenza che la sequenza la trascrizione fonetica forma un unico costituente nominale. Automatizzare questo processo sarebbe desiderabile, ma oggettivamente assai complesso. Si tenga presente, infatti, che il completamento del costituente interrotto può non essere contenuto nel turno immediatamente seguente, ma, come sottolineato in precedenza al punto b), nella ripresa del turno di A. Se si considera infine che, in molti casi, a un costituente incompleto può non fare seguito alcun completamento, diventa chiaro che l’automatizzazione di un tale compito può rivelarsi estremamente complessa. In alternativa, sarebbe teoricamente auspicabile che l’annotatore manuale evidenzi casi di ripresa su più turni in fase preliminare, a livello di trascrizione emendata, ad esempio annotando la natura incompleta della sequenza interrotta, con indicazione di dove si trovi il suo completamento. Si noti, a questo proposito, che la sintassi del linguaggio di mark-up testuale XML offre una serie di strumenti di annotazione formale particolarmente adatti per questo tipo di usi. Il software per l’annotazione automatica dovrebbe essere quindi messo in condizione di interpretare correttamente il testo emendato in XML, e di ricostruire ed annotare in questo modo la struttura a completamento. Sebbene desiderabile, questa strategia non è al momento implementata. Vale la pena, infine, mettere in evidenza un limite interessante della strategia di normalizzazione del testo, alla luce di casi di riformulazione con costituenti interrotti. Si consideri l’esempio seguente: Leibniz è innanzitutto # il suo mestiere è innanzitutto quello di ingegnere Si noti che la sequenza successiva alla pausa (indicata come #) viene enunciata col chiaro intento di sostituire l’intera sequenza precedente la pausa stessa e poi interrotta (Leibniz è innanzitutto). Tuttavia, sarebbe impossibile comprendere l’enunciazione sostitutiva senza fare riferimento a Leibniz come referenzialmente implicato da suo. Sebbene sintatticamente rimpiazzato, l’enunciato sospeso è comunque pragmaticamente implicato dalla riformulazione sostitutiva. Un approccio normalizzante sarebbe per definizione incapace di stabilire questa correlazione. 3.3.3.2 Enunciati predicativi a testa non verbale Dal punto di vista di un’analisi sintattica a costituenti, il problema delle frasi a testa non verbale, o dalla testa verbale ellittica, rappresenta una seria difficoltà per quei sistemi a regole che presuppongono una struttura frasale canonica del tipo F → SN SV. Dal nostro punto di vista, l’annotazione si limiterà a prendere atto del fatto che in un’espressione del tipo bella questa casa! E-201 Linea 1.1 – Dialoghi Annotati esiste un costituente aggettivale ADJ_C immediatamente seguito da un costituente nominale N_C. Le regole per la costruzione dei due costituenti sono indipendentemente motivate dalla necessità di analizzare costruzioni predicative “normali” del tipo questa casa è ariosa e bella, laddove l’aggettivo ariosa viene a costituire un unico chunk con la copula che lo precede (BE_C), mentre l’aggettivo bella viene analizzato separatamente come un chunk indipendente, a causa dell’interposizione della congiunzione e. Si noti infine che nelle espressioni pragmaticamente affini bella casa! e una bella casa! l’aggettivo bella verrebbe a formare un unico chunk nominale con il sostantivo che segue. Questo fatto sembra evidenziare che non è possibile stabilire una corrispondenza biunivoca tra struttura a costituenti immediati e relazioni predicative tra costituenti. Allo stesso modo, un aggettivo in funzione attributiva è assegnato a costituenti immediati diversi a seconda che sia collocato in posizione pre-nominale (un bel libro) o post-nominale (un libro rosso). Si osservi per inciso che la relazione predicativa tra bella e casa può in ogni caso essere recuperata a livello di annotazione funzionale, come suggerito dalle specifiche tecniche per l’annotazione sintattica funzionale del tema TreeBank in SI-TAL. 3.3.3.3 Enunciati formati da unità sintattiche dai confini incerti In un’espressione come scherzi spero la relazione tra i due verbi finiti è solo in apparenza paratattica. Voghera (1992) suggerisce in modo persuasivo che scherzi sia in realtà in relazione di dipendenza ipotattica rispetto al verbo principale spero, con anticipazione enfatica della subordinata ed omissione del che (equivalente a spero che scherzi). Si tratta di una costruzione in qualche modo anomala, certamente tipica di un registro informale di parlato dialogico, che pone seri problemi a livello di ricostruzione complessiva dell’albero di frase, soprattutto in mancanza di informazione intonativa, che svolge in questo caso un importante ruolo di marcatore ipotattico. A livello di costituenti immediati, i due verbi verrebbero ad essere annotati come appartenenti a costituenti distinti, entrambi verbali di modo finito (FV_C), mentre la loro relazione reciproca verrebbe lasciata indefinita. Nell’enunciato i click si producono premendo diciamo schiacciando la parte mobile, non è chiara la relazione sintattica tra i due verbi al gerundio evidenziati in grassetto. In qualche modo, schiacciando è una riformulazione di premendo come evidenziato dall’inciso metalinguistico diciamo. D’altra parte, sarebbe certamente una forzatura interpretare schiacciando come una correzione intesa a rimpiazzare il precedente premendo: in qualche modo, premendo e schiacciando sembrano piuttosto condividere lo stesso sintagma nominale oggetto (la parte mobile). Non è affatto chiaro, tuttavia, come una struttura a costituenti ricorsiva possa rappresentare, senza sostanziali stravolgimenti delle regole di riscrittura, la relazione paratattica tra premendo e schiacciando, complicata dall’interposizione di una dichiarativa parentetica con valore metalinguistico di segnalatore della riformulazione, e dalla condivisione del sintagma nominale oggetto. Ancora una volta, un’analisi a costituenti immediati si limiterebbe all’individuazione delle strutture terminali non ricorsive G_C FV_C G_C N_C (Chunk Gerundivo, Chunk Verbale Finito, Chunk Gerundivo, Chunk Nominale), senza affrontare il problema della loro complessa interrelazione. 3.3.3.4 Interiezioni, riempitivi di pause e segnali di esitazione In questa sezione, ci limitiamo a considerare brevemente il trattamento sintattico di una serie di fenomeni non tutti esclusivi del parlato, ma che tuttavia si impongono in questo contesto all’attenzione dell’annotatore a causa della loro frequenza. E’ naturale attendersi che questo fatto abbia ripercussioni sull’adattamento al parlato dell’analisi sintattica a costituenti immediati sviluppata per il linguaggio scritto. E-202 Linea 1.1 – Dialoghi Annotati Ad esempio, si è resa necessaria l’introduzione di un chunk interiettivo (EX_C) che racchiuda tutte quelle espressioni categorizzate come interiezioni a livello morfosintattico (vedi 3.2.2.4). F042: ah ! quella più in alto ? [ [ CC: EX_C] ah] [ [ CC: N_C] quella] [ [ CC: ADV_C] più] [ [ CC: P_C] in alto] Analogamente, i riempitivi di pause o le esitazioni sono trattati in modo non problematico considerandoli equivalenti ai segni di punteggiatura, e marcati mediante la categoria E_C, come illustrato dall’esempio seguente: F024: ma non lo posso fare perché l'ho fatto da+ ehm nell'altra direzione [ [ CC: FV_C] ma non lo posso fare] [ [ CC: FV_C] perché l’ho fatto] [ [CC: X_C] da+] [ [ CC: E_C] ehm] [ [ CC: P_C] nell’ altra direzione] 3.3.4 Conclusioni In questa sezione abbiamo illustrato le specifiche di annotazione relative al livello sintattico. E’ stato proposto uno schema di annotazione basato su un’analisi sintattica a costituenti immediati, nella particolare accezione sviluppata definita “chunking”. L’approccio “minimalista” allo shallow parsing descritto nelle pagine precedenti segmenta un testo in unità che possono essere identificate con certezza sulla base di informazione linguistica limitata. Queste unità, denominate chunks, ricevono una rappresentaizone strutturata nella quale sono esplicitati i legami di dipendenza fra gli elementi. Il processo di chunking si ferma al livello di granularità oltre il quale l’analisi diventa non decidibile, ovvero quando più di un’analisi sintattica è possibile sulla base dell’informazione linguistica disponibile. I vantaggi di uno schema di annotazione a costituenti immediati sono molteplici, e sia di ordine teorico che pratico. In primo luogo, questo schema appare particolarmente adeguato in rapporto alla varietà parlata della lingua, che contiene numerosi esempi di incompletezze sintattiche, anacoluti, blendings, extraposizioni, ecc. Quando più di un’analisi sintattica è possibile, l’output del chunking non è compromesso con nessuna decisione, pur restando compatibile con tutte. Nel caso della cosiddetta “undergeneration”, un fallimento del chunking, dato il carattere locale dell’analisi non coinvolge mai l’intera frase (o enunciazione, o turno), ma riguarda una porzione limitata del testo. Di conseguenza, i chunks non E-203 Linea 1.1 – Dialoghi Annotati identificati non bloccano mai il processo di chunking come invece succede nel caso di analisi sintattiche basate su grammatiche generative. Il Chunker può anche essere concepito come il primo componente di un complesso sistema di analisi sintattica, dove questo componente iniziale produce uno schema sintattico suscettibile di revisione e modifica a stadi successivi dell’analisi. La rappresentazione prodotta in output dal Chunker è compatibile con le analisi sintattiche a costituenti e a dipendenze. Per esempio, un sintagma nominale come una interessante ricerca scientifica risulterebbe in una rappresentazione a chunks di questo tipo: [ [CC: N_C] [MOD: interessante] [POTGOV: [ [CC: ADJ_C] [POTGOV: ricerca#SF] ] scientifico#AF] ] Le corrispondenti rappresentazioni a dipendenze e a costituenti (in 1 e 2 sotto) verrebbero poi computate prendendo come input l’output della rappresentazione in chunks: (1) ...... una interessante ricerca scientifica (2) [NP una [ADJP interessante ADJP] ricerca [ADJP scientifica ADJP] NP] In (1), l’arco tratteggiato rappresenta il legame di dipendenza che non è rappresentato esplicitamente all’interno della rappresentazione a chunks, che tuttavia già isola gli elementi rilevanti di questa catena di dipendenza, ovvero i potential governors dei chunks N_C e ADJ_C. In (2), il sintagma nominale con i suoi pre- e post-modificatori è il risultato della ricombinazione del chunk nominale (che include il premodificatore nominale) con il chunk aggettivale postnominale. E’ interessante notare che in entrambi i casi le decisioni prese monotonicamente dal Chunker si connettono a livelli di analisi più elaborati in cui tutta la struttura linguistica è identificata correttamente. Nessuna revisione coinvolge mai la decomposizione dei chunks esistenti. Questo significa che un chunk potrebbe, in alcuni casi, non includere tutta l’informazione linguistica rilevante, ma rappresenta comunque il nocciolo di una struttura sintattica più inclusiva. In altre parole, ogni chunk rappresenta una specie di “atomo sintattico”, che strutture identificate a livelli di analisi successivi possono contenere (o esserne contenuti) soltanto nella sua integrità. E-204 Linea 1.1 – Dialoghi Annotati 4 Livello concettuale E-205 Linea 1.1 – Dialoghi Annotati 4.1 Introduzione Come già discusso, la principale caratteristica del livello di annotazione concettuale è forse la sua stretta dipendenza dal dominio applicativo. D’altra parte, risulta piuttosto svantaggioso rinunciare a priori ad ogni possibile definizione che sia sufficientemente portabile e indipendente dal dominio, perché queste sono le componenti cruciali per rendere possibile l’uso dello schema proposto in modo sufficientemente generale. Come già accennato nell’introduzione, è determinante non solo il riutilizzo dello schema proposto così com’è per l’annotazione di nuovi corpora, ma anche la possibilità di estenderlo in modo da ottenere annotazioni su corpora diversi, magari in domini diversi che siano tuttavia compatibili. Questo permette, ad esempio, di sfruttare la presenza di fenomeni comuni tra i due domini per lo sviluppo delle applicazioni di interesse. In quest’ottica, in questa parte del lavoro cercheremo di discutere tutte le caratteristiche di questo livello di annotazione per cui ogni decisione possa venir presa a prescindere dal dominio applicativo. 4.2 Discussione Le finalità dello schema di annotazione proposto dovrebbero essere duplici: 1. essere adeguate a descrivere tutta e sola l’informazione necessaria, al fine di supportarne l’elaborazione automatica; 2. facilitare il più possibile il riutilizzo dei dati, l’integrazione di corpora diversi e quindi di schemi sviluppati per domini diversi. Per avere un’annotazione omogenea anche su domini diversi occorre prima di tutto seguire una sintassi uniforme. La proposta più ragionevole ci sembra quella di usare uno schema argomentopredicato, che è d’altronde la soluzione più diffusa. Sempre a livello di sintassi dello schema, occorre anche definire sui valori alcune operazioni di base in modo da poter ottenere quanto meno liste, congiunzioni e disgiunzioni di valori. Per quel che riguarda la lista dei concetti da considerare per un particolare dominio, ci pare che sia interessante la soluzione proposta da VERBMOBIL, ovvero di dividere lo schema in diverse parti, e in particolare di partizionare i concetti da annotare in due grandi insiemi: concetti dipendenti dal dominio e concetti indipendenti dal dominio. Alla seconda classe appartengono ad esempio le espressioni temporali, per cui VERBMOBIL ha proposto uno schema specifico. Per ogni dominio, andrà poi definita la lista degli argomenti, ma in modo che questo compito sia il più possibile facilitato, che la sintassi dell’annotazione sia omogenea, in modo da funzionare anche per dialoghi che spaziano su domini diversi. Come discusso nel paragrafo 3, parte I di questo capitolo, la completezza dello schema rispetto al dominio può essere giudicata solamente a fronte di applicazioni reali. Tuttavia, perché uno schema possa essere utilizzato in tutti i casi, occorre che sia in grado di annotare tutti i concetti legati al dominio considerato, a prescindere dall’applicazione specifica. In questo modo, l’utente interessato solo ad un sottoinsieme dei possibili valori potrà semplicemente restringere lo schema. E-206 Linea 1.1 – Dialoghi Annotati Un’altra scelta riguarda a cosa riferire i singoli concetti: come visto, tutti gli schemi di annotazione che abbiamo analizzato li riferiscono all'enunciato a cui appartengono. L’altra possibilità è di isolare la sottostringa a cui si riferiscono. Questo si può fare in due modi: 1. definizione “minima”: quella sottostringa che corrisponde al concetto e tale per cui nessuna delle rispettive sottostringhe potrebbe essere associata allo stesso concetto (quindi in “c’è un treno diretto a roma” => <concetto destinazione="roma">roma</concetto>; il problema qui è che si sgancia dell’informazione che permette di classificare il concetto come destinazione; questo viene ad essere uno svantaggio ad esempio in applicazioni di apprendimento automatico 2. definizione “massima”: quella sottostringa che corrisponde al concetto e tale per cui non è una sottostringa propria di alcun altra sottostringa che potrebbe essere associata allo stesso concetto (quindi in “c’è un treno diretto a roma” => <concetto destinazione="roma">diretto a roma</concetto>. Pro e contro delle due scelte: 1. associata all’enunciato: permette di aver strategie chiare e ben definite in tutti i casi ambigui (correzioni, ripetizioni, ....) - questo è probabilmente il motivo per cui questa è la scelta più diffusa; 2. associata alla sottostringa: si adatta bene ad applicazioni di apprendimento automatico, soprattutto se supervisionati; potrebbe invece adattarsi ad approcci non supervisionati o parzialmente supervisionati, che usano solo l’informazione se il concetto c’è o meno nella frase. 4.3 Proposta 4.3.1 Espressioni temporali Lo schema di annotazione proposto da TEL in Verbmobil è molto completo e offre uno standard adeguato a rappresentare le espressioni temporali in domini anche molto diversi tra loro. D’altra parte, le espressioni temporali costituiscono una parte molto importante nella maggior parte delle applicazioni di interesse. Risulta quindi molto importante poter avere al proposito uno schema di annotazione standard, estendibile e quindi portabile su domini diversi. Inoltre per TEL è stata dimostrata la portabilità anche su lingue diverse, quanto meno per Inglese e Tedesco. TEL deriva da una versione precedente adottata in Verbmobil per l’annotazione delle espressioni temporali, ZeitGram (Küssner & Stede, 1995). Avendone provati nella pratica i limiti, è stato definito TEL in modo da risolvere i problemi precedentemente evidenziati. La descrizione che segue è stata tratta dal rapporto di Verbmobil (Endriß, 1998). TEL è descritto mediante la grammatica libera dal contesto che genera il linguaggio di tutte e sole le espressioni di TEL. Tale grammatica è data in forma di Backus-Naur. La parte destra di ogni produzione può contenere simboli terminali, non terminali o funzioni, quali ad esempio functor(arg1,arg2). Vengono inoltre usati particolari metasimboli per definire in modo compatto produzioni tra loro simili: <categ1|categ2|...|categN> indica una delle categorie categ1, categ2, .... Ad esempio, l’espressione E-207 Linea 1.1 – Dialoghi Annotati XXX ::= <func1|func2>(ARG1,<arg2a|arg2b>) indica in modo compatto le quattro regole di riscrittura: XXX ::= func1(ARG1,arg2a) | func1(ARG1,arg2rba) | funcr21(ARG1,arg2a) | funcr21(ARG1,arg2rba) TEL consiste dell’unione di tre linguaggi distinti, uno per le durate (DURATION), uno per gli istanti temporali (POINT) e uno per le date (DATE). Ogni data ha un inizio, una fine e una durata. Inizio e fine di una data sono istanti temporali. Vengono quindi date le definizioni prima di tutto di istante temporale e poi di durata. Sulla base di tali definizioni, verranno date le condizioni che le diverse componenti di una data devono soddisfare. In questo senso, la sintassi di TEL è modulare. 4.3.1.1 Regole per la definizione dei numeri INTEGER ::= 0 | 1 | -1 | 2 | -2 | 3 | -3 | ... NUMBER ::= 1 | 2 | 3 | ... NUMBER0 ::= 0 | NUMBER FRACTION ::= NUMBER | NUMBER:NUMBER | NUMBER:NUMBER:NUMBER 4.3.1.2 Regole per la definizione delle durate DURATION ::= set(DURATION+) | one_out_of(DURATION+) | BASIC_DUR | RANGE | OPEN_RANGE | FUZZY_DUR | ANA_DUR BASIC_DUR ::= dur(<FRACTION|several>,UNIT) UNIT ::= years | months | weeks | days | hours | minutes RANGE ::= range(DURATION,DURATION) OPEN_RANGE ::= <at_least|at_most|more|less>(DURATION) FUZZY_DUR ::= fuzzy_dur(DURATION) ANA_DUR ::= ana_dur 4.3.1.3 Regole per la descrizione degli istanti temporali 4.3.1.3.1 POINT Livello principale ::= POINT* | set(POINT+) | one_out_of(POINT+) | not(POINT) | only(POINT,POINT) | BASIC | E-208 Linea 1.1 – Dialoghi Annotati COMPLEX | MODIFIED | FUZZY | QUANTIFIED | ANA_POINT GENERIC ::= day | week | month | quarter_year | half_year | year MODIFIED ::= MOD(<POINT|GENERIC>) MOD ::= early | late | begin | middle | end | firsthalf | secondhalf FUZZY ::= fuzzy(POINT) QUANTIFIED ::= quantified(QUANTIFIER,<POINT|GENERIC>) | quantified(not(QUANTIFIER ),<POINT|GENERIC>) | quantified(every:NUMBER,COUNTABLE1) QUANTIFIER ::= NUMBER | several | every ANA_POINT ::= ana_point | that(<POINT|GENERIC>) | other(<POINT|GENERIC>) Espressioni semplici BASIC ::= now | moh:MOH | tod:TOD | pod:POD | dow:DOW | pow:POW | DEICTIC_DAY | dom:DOM | woy:WOY| month:MONTH | season:SEASON | qoy:QOY | hoy:HOY | year:YEAR | holiday | holiday:HOLIDAY MOH ::= NUMBER0 TOD ::= NUMBER0:NUMBER0 POD ::= am | pm | morning | morning_ger1 | morning_ger2 | midday | afternoon | evening | night | daytime DOW ::= mon | tue | wed | thu | fri | sat | sun POW ::= workday | weekend DEICTIC_DAY ::= today | tomorrow | yesterday | deictic_day:INTEGER DOM ::= NUMBER WOY ::= NUMBER MONTH ::= jan | feb | mar | apr | may | jun | jul | aug | sep | oct | nov | dec SEASON ::= spring | summer | fall | winter QOY ::= NUMBER HOY ::= NUMBER YEAR ::= NUMBER HOLIDAY ::= capodanno | pasqua | lunedi_dell_angelo | primo_maggio | E-209 Linea 1.1 – Dialoghi Annotati venticinque_aprile | ferragosto | morti | santi | ascensione | immacolata_concezione | festa_del_patrono | ringraziamento Espressioni complesse COMPLEX ::= LIMIT | LIMITS | SHIFTED | RELATED | ORDINAL | DEICTIC LIMIT ::= BEFORE_AFTER(POINT) LIMITS ::= between(POINT,POINT) | min_between(POINT,POINT) SHIFTED ::= <pos_shift|neg_shift>(DURATION,POINT) | <in|ago>(DURATION) RELATED ::= the_around(COUNTABLE,POINT) | week_between(POINT,POINT) | <the_before|the_after>(NUMBER,COUNTABLE,POINT) | <the_before|the_after>(COUNTABLE,POINT) | <dow_before|dow_after>(dow:DOW,DURATION,POINT) | <dow_before|dow_after>(dow:DOW,DURATION) ORDINAL ::= of(NUMBER,COUNTABLE,<POINT|GENERIC>) | last_of(NUMBER,COUNTABLE,<POINT|GENERIC>) | last_of(COUNTABLE,<POINT|GENERIC>) DEICTIC ::= this(COUNTABLE) | next(COUNTABLE) | last(COUNTABLE) | deictic(INTEGER,COUNTABLE) BEFORE_AFTER ::= before | after | in_before | in_after | ex_before | ex_after COUNTABLE ::= COUNTABLE1 | int:DURATION COUNTABLE1 ::= GENERIC | pod:POD | dow:DOW | pow:POW | dom:DOM | season:SEASON | holiday | holiday:HOLIDAY | ana_point Regole per definire una data TEMPEX ::= tempex(NAME,DATE) DATE ::= DATE* | set(DATE+) | one_out_of(DATE+) | not(DATE) | for:DURATION | POINTLABEL:POINT | POINTLABEL+:POINT POINTLABEL ::= from | to | during | interval | statement Al fine di mantenere la scelta iniziale di avere un’annotazione di tipo predicato-argomento, TEL verrà leggermente modificato, considerando la sintassi considerata per quel che riguarda la descrizione della struttura degli argomenti, ma aggiungendo comunque sempre il predicato a cui l’argomento si riferisce, ovvero il simbolo della parte sinistra della regola. Questo rischia di rendere l’annotazione ridondante, ma d’altra parte favorisce la leggibilità del testo annotato. Se ad esempio riprendiamo gli esempi considerati nella descrizione dello stato dell'arte dell’annotazione concettuale, otterremmo: sechzen Uhr (le sedici) => [from:[tod:4:0,pod:pm]] => date=(from=(tod=4:0, pod=pm)) E-210 Linea 1.1 – Dialoghi Annotati From ten to twelve (dalle dieci [interval:min_between([tod:10:0],[tod:12.0])] (min_between(tod=10:0, tod=12:0)) alle => dodici) interval => = the twenty ninth thirtieth and thirty first (il 29 30 e 31) => [from:set(dom:29,dom:30,dom:31)] => date=(from=(set=(dom=29, dom=30, dom=31))) 4.3.1.4 Altre espressioni indipendenti dal dominio Non ci sono altre classi di espressioni indipendenti dal dominio sufficientemente estese e generali per cui valga la pena di considerare il problema a se stante. 4.3.2 Espressioni dipendenti dal dominio La parte dipendente dal dominio verrà specificata nella Linea 1.2 del progetto. Per la codifica di queste espressioni verrà valutata la possibilità di adottare una strategia di rappresentazione conforme a quella sviluppata nel tema ItalWordNet, ovvero del tipo rete semantica. In tal modo sarebbe possibile armonizzare l’annotazione semantico-concettuale nel tema Dialoghi con l’annotazione semantica del corpus nel tema Treebank, utilizzando un comune riferimento alla risorsa ItalWordNet. A tale scopo, tuttavia, è necessario verificare che la terminologia relativa al dominio possa organizzarsi secondo le modalità tipiche di una rete semantica. In caso positivo, questa sorta di rete semantica terminologica aggiuntiva costituirà un’estensione di ItalWordNet, che potrà venire vantaggiosamente usata in fase di utilizzo dei corpora per lo sviluppo di sistemi automatici. Infatti, ItalWordNet potrà dare utili suggerimenti per considerare gruppi di sinonimi come equivalenti nell’applicazione. E-211 Linea 1.1 – Dialoghi Annotati 5 Livello pragmatico E-212 Linea 1.1 – Dialoghi Annotati 5.1 Valutazione degli schemi di annotazione Nella prima sezione di questo rapporto è stata effettuata una descrizione degli schemi di annotazione per il livello prosodico attualmente esistenti allo scopo di fornire un quadro della realtà di partenza il più completo possibile. Si passerà ora a confrontare e valutare gli schemi di annotazione in precedenza presentati. Secondo quanto indicato nel deliverable del progetto MATE (Klein et al. 1999), gli schemi di annotazione verranno valutati in base alle seguenti linee guida: • Orientamento verso un compito specifico: quasi tutti gli schemi esistenti fanno riferimento a dialoghi che sono volti allo svolgimento di un dato compito. La ricerca nel campo dell’ingegneria del linguaggio si concentra sull’analisi di dialoghi orientati allo svolgimento di un determinato compito, dato che in questo campo non è particolarmente utile analizzare conversazioni ordinarie. I valori utilizzati per l’analisi di questa categoria sono TD (task-driven) e NTD (non-task-driven). • Orientamento verso un’applicazione specifica: anche questo è un parametro rilevante per la ricerca nel campo dell’ingegneria del linguaggio. La maggior parte dei dialoghi volti alla realizzazione di un determinato task sono anche orientati verso una specifica applicazione, cioè indirizzati verso applicazioni commerciali o industriali. D’altro canto altri dialoghi, e di conseguenza gli schemi usati per la loro annotazione, non sono orientati verso alcuna applicazione. I valori per l’analisi di questa categoria sono positivo (orientato verso un’applicazione specifica) e negativo (non orientato verso alcuna applicazione). • Restrizione del dominio: la maggior parte dei dialoghi utilizzati nel campo dell’ingegneria del linguaggio sono ristretti ad un dominio altamente specializzato. Questo rappresenta un parametro rilevante, poiché gli schemi sono spesso influenzati dal tipo di dominio dei dialoghi annotati. I valori per questa categoria sono positivo (dominio ristretto) e negativo (dominio non ristretto). Il valore di tipo positivo può essere ulteriormente categorizzato secondo le seguenti tipologie di dominio: TR: viaggio (travel) TS: trasporto (transport) COS: sistemi operativi del calcolatore (computer operating systems) COU: interazioni/dialoghi svoltisi in tribunale (courtroom interaction) BA: appuntamenti di lavoro (business appointments) DES: servizi informativi sugli elenchi (directory enquiry services) FUR: arredare stanze in modo interattivo (furnishing rooms interactively) DIR: dare indicazioni stradali (giving directions) INST: dare istruzioni, ad es. riguardanti ricette di cucina (giving instructions) E-213 Linea 1.1 – Dialoghi Annotati • Tipo di attività: questa categoria fa riferimento al tipo di attività alla quale il dialogo può appartenere. Questa è un’altra dimensione secondo la quale gli schemi possono essere classificati. Pare che nell’attuale ricerca sui dialoghi ci sia una divisione tra due principali paradigmi: compito di cooperazione tra partecipanti umani (ad esempio la negoziazione di appuntamenti) e compito di raccolta di informazioni, nei quali un agente umano interroga un sistema automatico (o il surrogato umano di un sistema di dialogo automatico). Qui di seguito presentiamo una tipologia dei vari tipi di attività: CN: negoziazione cooperativa (cooperative negotiation) IE: raccolta di informazioni (information extraction) PS: risoluzione di problemi (problem solving) TI: istruzioni (teaching/instruction) CO: dare consigli (counselling) CH: fare conversazione (chatting) • Partecipazione uomo/macchina: HH: dialoghi uomo-uomo (human-human dialogues).Questa categoria è ulteriormente divisa in: MM: mediati dalla macchina (computer, telefono) (machine-mediated) NMM: non mediati dalla macchina HM: dialoghi uomo-macchina (human-machine dialogues). Questa categoria è ulteriormente divisa in: S: simulati NS: non simulati E-214 Linea 1.1 – Dialoghi Annotati 5.1.1 Tavole di valutazione generale Nelle tabelle seguenti i risultati delle linee guida ed i criteri adottati per la valutazione vengono applicati agli schemi precedentemente descritti. Schemi ALPARON CHAT CHIBA COCONUT Manuale di codifica si si si Si Numero 3 molto alto 10 2 Esperti esperti esperti esperti Esperti 500 dialoghi 160MB 22 dialoghi 16 dialoghi olandese molti giapponese Inglese 2 2 2 2 Orientamento verso un compito TD (NTD) TD TD Orientamento verso una applicazione si no no Si DES no DIR, BA, TR FUR IE CH CN, PS CN HH, MM HH, NMM HH, NMM(?) HH,MM (computer) Valutazione si (77% di accordo) no si (0.57 < alpha < 0.68) Si Linguaggio di codifica si, proprio si, proprio si, tipo SGML si, variante di DAMSL Strumento software per l’annotazione si, codificatore OVR si si, modifica di dat si, Nb Possibilità di impiego Si no ? Si Annotatori Informazioni Ampiezza sui dialoghi annotati Lingua Partecipanti Restrizione del dominio Tipo di attività Partecipazione umana/della macchina E-215 Linea 1.1 – Dialoghi Annotati Schemi CONDON & CECH C-STAR DAMSL FLAMMIA Manuale di codifica Si si Si Si Numero 5 5 4 7 Esperti Abbastanza esperti esperti esperti Allenati 88 dialoghi 230 dialoghi 18 dialoghi 25 dialoghi Inglese inglese, giapponese, coreano, italiano inglese Inglese Partecipanti 2 2 2 2 Orientamento verso un compito TD TD NTD TD Orientamento verso una applicazione Si si No Si Restrizione del dominio TS TR No DES Tipo di attività CN CN Molte IE HH, MM, NMM HH HH HH, MM Valutazione si (91% di accordo no si, K=0.56 si, K=0,6+ Linguaggio di codifica si, Nb si si, DAMSL Si Strumento software per l’annotazione si, Nb no si, dat Si Possibilità di impiego Si si Si ? Annotatori Informazioni Ampiezza sui dialoghi annotati Lingua Partecipazione umana/della macchina E-216 Linea 1.1 – Dialoghi Annotati Schemi Dialogos GDA si Si Numero 4 ? Esperti esperti ? 304 ? italiano Inglese 2 1 (?) Orientamento verso un compito TD NTD Orientamento verso una applicazione si No Restrizione del dominio TR No Tipo di attività IE ? HM, NS ? Valutazione no ? Linguaggio di codifica si, stringhe ASCII e SGML si, SGML Strumento software per l’annotazione si ? Possibilità di impiego si ? Manuale di codifica Annotatori Informazioni Ampiezza sui dialoghi annotati Lingua Partecipanti Partecipazione umana/ della macchina E-217 Linea 1.1 – Dialoghi Annotati Schemi JANUS LINLIN MAPTASK NAKATANI Manuale di codifica si si si Si Numero 4 4 4 6 Esperti esperti esperti esperti Inesperti Molti 140 dialoghi 128 dialoghi 72 dialoghi inglese svedese inglese Inglese Partecipanti 2 2 2 1 Orientamento verso un compito TD TD TD TD Orientamento verso una applicazione Si si si No Restrizione del dominio BA TR/TS DIR INSTR Tipo di attività CN IE PS TI Partecipazione umana/della macchina HH HM, NS HH, NMM HH, NMM Valutazione si (89% di accordo) si (97% di accordo) si, K=0.83 No Linguaggio di codifica si, proprio si, Nb si, proprio basato su SGML si, Nb Strumento software per l’annotazione no si, Nb si, proprio si, Nb Possibilità di impiego si si Si Si Annotatori Informazioni Ampiezza sui dialoghi annotati Lingua E-218 Linea 1.1 – Dialoghi Annotati Schemi SLSA SWBDDAMSL TRAUM VERBMOBIL Manuale di codifica Si si si Si Numero 7 9 3 3 Esperti esperti esperti esperti Inesperti 100 dialoghi 1155 dialoghi 36 dialoghi 1172 dialoghi svedese inglese inglese inglese, giapponese, tedesco Partecipanti 2 (?) 2 2 2 Orientamento verso un compito TD NTD NTD TD Orientamento verso una applicazione Si no si Si Restrizione del dominio COU no no BA Tipo di attività Molte molte CN CN HH, NMM HH, MM HH, NM HH, NMM Valutazione si (non pubblicata) si, 0.8 < K < 0.84 si (non pubblicata) si, K=0.84 Linguaggio di codifica si, proprio si, variante di DAMSL si, Nb si, proprio Strumento software per l’annotazione Si, TRACTOR no si, Nb si, AnnoTag Possibilità di impiego si si si Si Annotatori Informazio- Ampiezza ni sui dialoghi Lingua annotati Partecipazione umana/ della macchina E-219 Linea 1.1 – Dialoghi Annotati 5.1.2 Tavole di confronto delle etichette e dei fenomeni annotati a seconda del dominio Per sviluppare uno standard riteniamo opportuno confrontare gli schemi in base al task per il quale sono stati progettati e agli atti linguistici che sono in grado di annotare. Le tabelle seguenti raggruppano gli schemi a seconda del dominio e mostrano le equivalenze tra gli atti linguistici annotati. Dominio: raccolta di informazioni Alparon Moves Flammia LinLin Speech Acts Initiative Statement - Update Question Question-Confirm Question - Response Response Clarification - Answer - Confirm - (Dialogue Acts) Check Alignment Accept Reject Acknowledgement Acknowledge Reconfirmation Repeat Greeting - - Discourse Management Bye Opening Ending Continuation Pause - - Other - - E-220 Linea 1.1 – Dialoghi Annotati Dominio: indicazioni stradali Chiba Maptask Initiation Initiating moves Inform Explain Other assertion Yes-no-question Query-yn Wh-question Query-w Check Align Request Instruct Suggest Persuasion Propose Demand Promise - Response Response moves Positive Reply-y Negative Reply-n Answer Reply-w Other response Clarify Hold - Confirm - Acknowledge Follow-up - Understanding Conventional - Opening Closing Other initiation - E-221 Linea 1.1 – Dialoghi Annotati Dominio: organizzazione di appuntamenti Chiba Maptask Initiation Initiating moves Inform Explain Other assertion Yes-no-question Query-yn Wh-question Query-w Check Align Request Instruct Suggest Persuasion Propose Demand Promise - Response Response moves Positive Reply-y Negative Reply-n Answer Reply-w Other response Clarify Hold - Confirm - Acknowledge Follow-up - Understanding Conventional - Opening Closin Other initiation - E-222 Linea 1.1 – Dialoghi Annotati Dominio: generale DAMLS SWBD-DAMSL Traum Chat Forward looking function Forward Communicative Function Illocutionary Function Categories of Illocutionary Force Statement Statement Inform Statement; Assert Statement-nonopinion Supp-Inf AC, CN, DW, ST, WS Reassert Other Supp-Sug Statement-opinion Declarations; DC, DP Info-Request InfluencingAddressee-FutureAction (1) YNO Questions; WHQ AQ, AA, AN, EQ, NA, QA, QN, RA, SA, TA, TQ, YQ, RQ Request Directives (1): Suggest RP, RQ Offer Commitments: Yes-No-Question Wh-Question Or-Clause Declarative-YesNo-Question Declarative-WhQuestion Tag-Question Backchannel-inQuestion-Form Rhetorical-Question InfluencingAddressee-FutureAction InfluencingAddressee-FutureAction (2) Action-directive Open-Question Open-Option Action-Directive CommittingSpeaker-FutureAction CommitingSpeaker-FutureAction Offer Offers Commit Options Commits FP,PF,SI,TD Directives (2): CL, SS Explicitperformative Exclamation - - Promise PD Backward looking function BackwardsCommunicativeFunction - - E-223 Linea 1.1 – Dialoghi Annotati Answer Answer Eval Evaluations: AB, CR, DS, ED, ET, PM Yes Answer No Answer Affirmative non-yes answer Directives (3): AC Negative non-no answer Other answer Dispreferred answers Agreement Agreement Accept Directives (4): Accept Agree/Accept Reject Accept-part Maybe/Accept-part Check AD, AL, CS, RD, GI, GR, DR Maybe Reject Reject Hold before answer/agreement Reject-part Declarations (2): ND, YD Hold Understanding Understanding Grounding - - - RequestAck - Signalunderstanding ResponseAcknowledgement Acknowledge Speech Elicitations: Acknowledge Repeat-phrase Repeat-rephrase Collaborativecompletion Completion CX, EA, EI, EC, EX, RT, SC Acknowledge Summarize/Reformulate Appreciation Downplayer Signal-NonUnderstanding Signal-NonUnderstanding Request-Repair Demands for clarificaton: RR CorrectMisspeaking - Other-forwardfunction Repair Text editing: CT Greet - Apologise Conventionalopening Conventionalclosing Thanking Apology - - - - E-224 Linea 1.1 – Dialoghi Annotati - Other Citation - Vocalisation: YY, OO Hedge - - - Markings CM, EM, EN, ES, MK, TO, XA - - - Performances PR, TX A proposito delle tabelle sopra riportate è opportuno notare che: • Nello schema di annotazioni Janus non sono disponibili informazioni riguardanti gli atti linguistici che è possibile annotare • Per SLSA non sono menzionati atti linguistici specifici • Lo schema di annotazione Natakani et al. è stato sviluppato esclusivamente per l’annotazione del discorso; non vengono perciò specificati gli atti linguistici • Tutti gli altri schemi (ad es. COCONUT, Condon and Cech e C-STAR) non compaiono nelle tabelle precedenti perché sono stati progettati per task diversi (rispettivamente risoluzione di problemi, presa di decisioni, organizzazione di viaggi). 5.2 Confronto delle etichette previste negli schemi analizzati ed evidenziazione delle comunalità Nella tabella che riporteremo qui di seguito sono state raccolte tutte le etichette impiegate dai vari schemi di annotazione finora presentati. Ad ogni singola etichetta sono state affiancate le etichette impiegate dagli altri schemi per fare riferimento allo stesso fenomeno. In questo modo è stato possibile evidenziare le comunanze esistenti tra i vari schemi di annotazione ed avere un quadro dei fenomeni “centrali” per il livello pragmatico, in quanto presi in considerazione dalla maggioranza degli schemi analizzati. Dove disponibili sono inoltre stati riportati esempi tratti dai corpora di dialoghi etichettati. E-225 Linea 1.1 – Dialoghi Annotati 5.2.1 Tavole di evidenziazione delle comunanze tra gli schemi di annotazione esaminati ETICHETTA SCHEMI VARIAZIONI ESEMPI Abuse GDA ?? Accept Coconut - All right Chat Give in, accept other’s insistence or refusal (GI) - Okay - Yes, I think that will be fine C-STAR DAMSL GDA Acc Switchboard SWBD-DAMSL Agree/Accept (aa) Traum Verbmobil Accept-Part Coconut - Something like that DAMSL Switchboard SWBD-DAMSL Maybe/Accept-part (aap/am) Acknowledgement Alparon - Oh, okay Coconut Acknowledge - Uh-huh Condon and Cech Acknowledges Only (AO) - I know C-STAR Acknowledge DAMSL Acknowledge Maptask Acknowledge Switchboard SWBD-DAMSL Response Acknowledgement (bk) Acknowledge (b) Traum Action-Direction Acknowledge Coconut DAMSL - Why don’t you go first? Action directive E-226 - Let’s buy the living room Linea 1.1 – Dialoghi Annotati furniture first Switchboard SWBD-DAMSL Action-directive (ad) Affirm C-STAR ?? Agreement Coconut - That’s exactly it Condon and Cech Agrees with Suggestion (AS) Chat Agree to carry out act requested or proposed by other (AD) - Ok, good idea Agree to do for the last time (AL) Agree to a declaration (YD) Agree with a preposition or proposal expressed by previous speaker (AP) DAMSL Switchboard SWBD-DAMSL Alignment Alparon Maptask Answer Agree/accept (aa) This is the lefthand edge of the page, yeah? Align Chiba Chat - Yes Answer calls (AC) - No Answer in the affirmative to yes/no question (AA) Answer a question with a wh-question (QA) Answer a whquestion by a statement (SA) Answer a limitedalternative question (TA) E-227 - It is - I don’t know Linea 1.1 – Dialoghi Annotati Intentionally non satisfying answer (NA) Coconut DAMSL LinLin Switchboard SWBD-DAMSL Yes answer (ny) No answer (nn) Affirmative nonyes answer (na.ny^e) Negative non-no answer (ng.nn^e) Other answer (no) Dispreferred answer (arp, nd) Apologize C-STAR Switchboard SWBD-DAMSL - I’m sorry Apology (fa) Traum Appreciation Switchboard SWBD-DAMSL - I can imagine Approve of appropriate behaviour (AB) Chat - Good, well done! Ask for permission Chat Assert Coconut Chiba - I need to get cargo there Other assertion DAMSL Backchannel DAMSL Switchboard SWBD-DAMSL Is that right? Backchannel in question form (bh) Blame GDA ?? Call attention to hearer (CL) Chat - Peter! Check Alparon - To my right? DAMSL - As I look at it? Maptask E-228 Linea 1.1 – Dialoghi Annotati Traum Clarification Alparon - At the opposite side Coconut ClarificationReque - I mean Thursday st the twenty-third Maptask Clarify Verbmobil Clarify Clarify_Answer Comforting (CMO) Chat ?? Commiserate (CM) Chat - Oh, poor boy! Commit Coconut - Great, I’ll see you there DAMSL - I’ll come to your party Coconut - Let me see DAMSL - Can you hear me Communication Management - Wait a minute Completion Coconut Chat Who aren’t contributing? Complete text (CX) Complete statement (SC) DAMSL Switchboard SWBD-DAMSL Collaborative Completion (^2) Complies with Request (CR) Condon and Cech - Ok, it takes about an hour to drive to Baton Rouge Confirm Chiba - Si Dialogos Conferma Conf-Si - Ok, that would be wonderful Conf_no Verbmobil Continuation LinLin Discourse continuation Traum Continue E-229 ?? Linea 1.1 – Dialoghi Annotati Conventional Alparon Chiba Greeting - Hello Bye - How are you?! Opening - Well, it’s been nice talking to you Closing C-STAR Closing Greeting Coconut ConventionalOpening ConventionalClosing DAMSL Opening Closing GDA Cnv LinLin Opening (DO) Ending (DE) Switchboard SWBD-DAMSL Conventionalopening (fp) Conventionalclosing (fc) Traum Verbmobil Convention Greeting Greeting_Begin Greeting_End CorrectAssumption Coconut ?? CorrectMisspeaking S1: We should move to the engine at Avon engine E to Coconut Chat Correct, provide S2: engine E one correct verbal form (CT) DAMSL Count (CN) Chat ?? Criticize or point out error in nonverbal act (CR) Chat - Don’t pull it! Dare Chat Dare hearer to perform action E-230 ?? Linea 1.1 – Dialoghi Annotati (DR) Declare Chat Create a new state of affairs by declaration (DC) ?? Declare a makebelieve reality (DP) Deliberate Verbmobil - Let me check my calendar here Demand Chiba ?? Deviate_scenario Verbmobil S1:We could meet for lunch S2: And eat lots of ice cream and gain weight Dial_wait Dialogos C-STAR Digress Verbmobil Directing Chat - Attenda Please wait ?? Directing hearer’s attention (DHA) ?? Directing hearer’s sentiments (DHS) Disagree Chat Disagree with a declaration (ND) Disagree with proposition expressed by previous speaker (DW) - I don’t think that would be a good idea Condon and Cech Disagrees with suggestion, refuses to comply with request (DS) Disapprove Chat Disapprove disruptive behaviour (DS) ?? Discuss Chat Discussing clarification of action (DCA) ?? Discussing clarification of communication (DCC) E-231 Linea 1.1 – Dialoghi Annotati Discussing the fantasy world (DFW) Discussing a joint focus of attention (DJF) Discussing the non present (DNP) Discussing a recent event (DRE) Discussing the related-to-present (DRP) Discussing speaker’s sentiments (DSS) Downplayer Switchboard SWBD-DAMSL Elaborate Condon and Cech Elaborates, explains, supports, repeats previous utterance (ER) - This is fun, I love New Orleans Elicit Chat Elicit onomatopoeic or animal sounds (EA) - Il cane fa “bau”, il gatto fa… - That’s all right Elicit imitation of word or sentence (EI) Elicit completion of rote learned text (EX) Eliciting question (EQ) Eval Coconut Eval ?? EvaluatePlan Traum Exclamation Coconut Chat - Oh, my God! Exclaim in disapproval (ED) Exclaim in surprise and enthusiasm (ET) E-232 - That’s really great! Linea 1.1 – Dialoghi Annotati Exclaim in distress (EM) DAMSL GDA Explain Exc Maptask - Where the dead tree is on the other side of the stream there’s farmed land - I’m in between the remote village and the pyramid Explicit Performative Coconut - Ti prometto di arrivare per le 10 DAMSL Express Chat Express positive emotion (EN) - What a nice surprise! Express surprise (ES) Feedback Verbmobil Feedback - Well, boy Feedback_backcha - Oh ja, stimmt nneling Feedback_negative Feedback_positive Give reason Chat Because I have meetings all afternoon Verbmobil Hedge Switchboard SWBD-DAMSL - I don’t know if I’m making any sense or not Hold Chiba - I’m drawing a blank Coconut - You want to go from Avon to Dansville DAMSL GDA Hld Switchboard SWBD-DAMSL Hold before answer/agreement (^h) E-233 Linea 1.1 – Dialoghi Annotati Information Alparon - When does the next flight to Paris leave? Chiba Inform Coconut Information Relations C-STAR Give-information Dialogos Info Traum Inform - Is there an engine at Bath? Supp-Inf Introduce Verbmobil Inform C-STAR Introduce-self - It’s me again Introduce-topic Verbmobil Instruct Maptask Mark Chat - And go up to about the middle of the map Mark occurrence of ?? event (MK) Mark transfer of object to hearer (TO) Maybe Coconut ?? DAMSL Negate C-STAR Negotiate Chat ?? Negotiate copresence and separation (NCS) Negotiating an activity in the future (NFA) Negotiating the immediate activity (NIA) Negotiate mutual attention (NMA) Negotiating possession of objects (PSS) E-234 ?? Linea 1.1 – Dialoghi Annotati Offer Coconut - I’ll have to check that out C-STAR DAMSL Open-Option GDA Ofr Switchboard SWBD-DAMSL Offers,options,com mits (oo,cc,co) Coconut - How about the one at Cornig DAMSL Or-Clause Switchboard SWBD-DAMSL Order GDA Perform a verbal move Chat ?? Persuasion Chiba ?? - Or is it more of a company? Ord - Give me that book Politeness_formula Verbmobil ?? Praise Chat Praise for motor acts (PM) - That was a great jump! Prohibit Chat Prohibit performance of an act (PF) - Don’t climb up the ladder! Promise Chat I promise that I will come Chiba GDA Commitment or promise cmt Propose Chiba ?? Question Alparon - Do you have to have any special training? Chat Yes/no question about hearer’s wishes and intentions (RQ) Wh-question (QN) Limited alternative yes/no question (TQ) Yes/no question E-235 - Well, how old are you? - How about you? Linea 1.1 – Dialoghi Annotati (YQ) Aggravated question (AQ) Chiba Yes-no question Wh-question GDA Yes/No Query qyn Wh Query qw LinLin Maptask Query-YN Query-W Switchboard SWBD-DAMSL Yes-No-Question (qy) Wh-Question (qw) Open-Question (qo) Tag-Question (^q) RethoricalQuestion (qh) Declarative YesNo-Question (qy^d) Declarative WhQuestion (qw^d) Traum YNQ WHQ Quotation Switchboard SWBD-DAMSL - You can’t be pregnant and have cats Reassert Coconut ?? DAMSL Reconfirmation Alparon Read Chat Refer_to_setting Verbmobil ?? Reject Coconut - Well, no Chat ?? Read written text (TXT) ?? Refuse to carry out - I can’t, my arm is act requested or broken proposed by other - Actually this week (RD) E-236 Linea 1.1 – Dialoghi Annotati Refuse to answer (RA) is really bad for me C-STAR DAMSL GDA Rej Switchboard SWBD-DAMSL Traum Verbmobil Reject\ Explained_reject Reject-Part Coconut - Monday is Ok, but I can’t at 7 DAMSL Repair Traum - Is that what you are saying? RepeatRephrase Coconut - Te lo dico con altre parole Chat Request to repeat utterance (RR) Repeat or imitate other’s utterance (RT) DAMSL Reply Switchboard SWBD-DAMSL Repeat-phrase (b^m) Chiba Positive - Yes Negative - No Response with initiation - No, not at the moment GDA Reply rlp Reply wh- rpw Reply yes rpy Reply no rpn LinLin Response Maptask Reply-Y Reply-N Reply-W Request Chiba - Where do you E-237 Linea 1.1 – Dialoghi Annotati want go go? Chat Request, propose or suggest an action (RP) Coconut Info-Request Condon and Cech Request Action RA - Would that be ok? - Do you mean Thursday the twenty-third? Request Validatio/Verificati on/Acknowledgem ent RV Request Information RI C-STAR Request-action Requestaffirmation Requestinformation Request-suggestion Requestverification DAMSL Info-Request Dialogos New-req Req Req#Ver GDA Req Traum Request Request Repair Request Ack Verbmobil Request Request_Clarify Request_Comment Request_Suggest Select Dialogos ?? Self-talk DAMSL - What’s the word I’m looking for Switchboard E-238 Linea 1.1 – Dialoghi Annotati SWBD-DAMSL Show attentiveness Chat ?? Statement - Me, I’m in the legal department Alparon Chat State intent to carry - I think it’s great out act (SI) State or make a declarative statement (ST) Express a wish (WS) Coconut Other Statement DAMSL GDA Stt Switchboard SWBD-DAMSL Statement-nonopinion (sd) Statement-opinion (sv) Suggest Chiba - Let’s go to New Orleans Condon and Cech Suggest Action SA - How about Monday at 3? Chat Counter suggestion (CS) C-STAR Suggest Suggest-action DAMSL Suggestion Weak Suggest or Negative Suggest Traum Suggest Supp-sug Verbmobil Summarize/reform Switchboard ulate SWBD-DAMSL Summon GDA Task management Coconut - Oh, you mean you switched schools for the kids Smn ?? - Let’s work on getting the train to Avon first E-239 Linea 1.1 – Dialoghi Annotati Thank DAMSL - Do I need to state the problem? C-STAR - Hey thanks a lot Switchboard SWBD-DAMSL Thanking ft Verbmobil Third party talk Switchboard SWBD-DAMSL - My goodness, Diane, get down from there Threaten to do Chat ?? Understanding Chiba - Excuse me? Coconut Understanding -What did you say? Signal-nonunderstanding - Uh-huh Signalunderstanding DAMSL Understanding Signal-nonunderstanding Signalunderstanding Dialogos Not-und GDA Und Not understand nun Switchboard SWBD-DAMSL Understanding Signal-nonunderstanding (br) Update LinLin ?? Verify C-STAR - Parte intorno alle5? Dialogos Warn 5.3 Chat Warn of danger - Watch out! Indicazioni di best-practice Analizzando la tabella riportata qui sopra è stato possibile identificare un certo numero di fenomeni che sono presi in considerazione dalla maggior parte degli schemi di annotazione e vanno dunque a costituire il nucleo centrale del livello di annotazione pragmatico. A nostro avviso tale gruppo rappresenta l’insieme dei fenomeni che uno schema di annotazione deve assolutamente E-240 Linea 1.1 – Dialoghi Annotati etichettare per essere considerato sufficientemente completo. Poichè il nostro obiettivo è identificare uno schema generale che possa essere applicato a dialoghi di domini diversi, abbiamo escluso le etichette che venivano impiegate da un solo schema di annotazione, poichè si trattava prevalentemente di etichette eccessivamente specifiche e legate al task e al dominio per il quale erano state pensate, e perciò difficilmente estendibili all’analisi di corpora diversi. Abbiamo scelto di mantenere le etichette in inglese, in modo da facilitare il confronto con gli schemi di annotazione che impiegano etichette simili. Laddove necessario e possibile, le etichette impiegate da schemi diversi sono state uniformate: nel caso, ad esempio, delle etichette Statement, Afferm e Assert, che a nostro avviso rappresentano modi diversi di etichettare lo stesso fenomeno, si è optato per la scelta di una sola etichetta. Qui di seguito riportiamo la lista delle etichette: • Accept • Accept-part • Action-directive • Answer • Assert • Check • Clarification • Commit • Communication Management • Completion • Confirm • Conventional • Correct Misspeaking • Disagree • Exclamation • Explicit Performative • Hold • Information • Offer • Promise • Question • Reassert • Reject • Reject-part • RepeatRephrase E-241 Linea 1.1 – Dialoghi Annotati • Request • Suggestion • Task Management • Understanding Uno degli obiettivi della seconda linea del progetto SI-TAL per il livello pragmatico è ottenere un manuale da affiancare allo schema di annotazione raccomandato nella corrente fase del progetto. In tale manuale verrà ampliamente spiegato a quale tipo di fenomeno siano abbinate le singole etichette; ad ogni etichetta verrà inoltre affiancato un albero di decisione, che faciliterà gli annotatori nella scelta delle etichette da impiegare in fase di applicazione pratica dello schema per l’annotazione di corpora di dialoghi. Gli alberi di decisione saranno conformi al seguente modello (suggerito da Morena Danieli e Barbara Di Eugenio in Core et al. 1999, p. 23): Is S’s utterance presenting potential actions of H? Y N Is S in a position to create an obligation for H? Y N Tag as Open-Option Does S and H share enough information that S can expect H to be able to execute the presented action? Y N Tag as Open-Option Does S endorse the option presented to H? Y Tag as “none” N Tag as Action-Directive Tag as Open-Option Figura 5.1: Albero di decisione per le etichette Open-Option e Action-Directive Il pre-requisito per la stesura definitiva del manuale è comunque stato l’identificazione del set di etichette che andrà a costituire il corpo centrale dello schema di annotazione da noi consigliato per il livello pragmatico. Le etichette sono state scelte in seguito al confronto tra i vari schemi di annotazione presentati nella prima sezione del presente rapporto. È stata data maggiore rilevanza all’impianto adottato da: E-242 Linea 1.1 – Dialoghi Annotati a) gli schemi documentati (che prevedono cioè un manuale di spiegazione delle etichette e di guida all’annotazione); b) gli schemi già utilizzati in progetti di ricerca; c) gli schemi già valutati o che è possibile valutare calcolare l’indice di accordo tra annotatori k, che permette di avere un dato oggettivo dell’affidabilità dello schema. 5.3.1 Descrizione delle etichette consigliate Qui di seguito verrà fornita una breve presentazione dei fenomeni che saranno presi in considerazione dallo schema di annotazione per il livello pragmatico e una descrizione delle etichette corrispondenti. Negli esempi che forniremo verranno impiegati i seguenti simboli: • per i dialoghi uomo-uomo: P = parlante (il primo dei due partecipanti all’interazione) A = ascoltatore (il secondo partecipante all’interazione) • Per i dialoghi uomo-macchina: S = sistema U = utente Accept: questa tag viene impiegata per etichettare l’accettazione da parte del parlante di una proposta o di un’offerta effettuata dall’altro partecipante al dialogo, o per segnalare l’accordo con l’opinione espressa dall’altro partner conversazionale. Esempio: P: Potremmo spostare questi documenti nella cartella che ho appena creato. A: Va bene. Accept Accept-part: questa tag viene impiegata per etichettare la parziale accettazione di un’offerta o una proposta o la parziale condivizione dell’opinione espressa dall’altro partner del dialogo. Esempio: P: Vuoi del tè e dei biscotti? A: Solo il tè, grazie Accept-part Action-directive: questa tag viene impiegata per etichettare un enunciato che obbliga il ricevente a) ad eseguire una determinata azione; E-243 Linea 1.1 – Dialoghi Annotati b) a comunicare un rifiuto esplicito o l’impossibilità di svolgere l’azione richiesta. Esempio: P: Compra il giornale prima di venire a casa. Action-directive A: D’accordo. Answer: questa tag viene impiegata per etichettare la risposta ad una domanda precedentemente effettuata dall’altro partecipante al dialogo. Esempio: P: Qual è il treno più veloce che posso prendere adesso per Milano? A: Prenda l’Eurostar delle 11 e 10. Answer Assert: la funzione di questa tag è etichettare quegli enunciati per mezzo dei quali il parlante esprime una constatazione a proposito del mondo in generale o a proposito di qualcosa/qualcuno che è parte del dominio del discorso. In particolare, con questa etichetta vengono annotati quegli enunciati il cui obiettivo è cambiare le credenze/l’opinione dell’ascoltatore. Esempio: P: Ho bisogno di spazio e allora comprimo questi vecchi documenti. Assert Check: con questa etichetta vengono annotati quegli enunciati per mezzo dei quali il parlante cerca di accertarsi di aver correttamente inteso quello che l’interlocutore gli ha comunicato, ad esempio ripetendo quanto precedentemente pronunciato da quest’ultimo ed esortandolo a confermare ciò che ha recepito e di cui non è sicuro. Esempio: P: Per arrivare al municipio deve svoltare a destra e poi a sinistra. A: A destra e poi a sinistra, giusto? Check Clarification: con questa etichetta vengono annotati gli enunciati per mezzo dei quali il parlante chiarisce o precisa quanto ha già affermato in precedenza, o come reazione ad un “check”, o per risolvere casi di ambiguità. Esempio: P: Non sapevo che la sorella di Giorgio abitasse a Trieste. A: Ma io mi riferivo a Maria, non a Laura. Clarification Commit: questa etichetta viene impiegata per annotare quegli enunciati per mezzo dei quali il parlante si impegna a compiere una qualche azione futura. In particolare, la tag “commit” si differenzia dalla tag “promise” (con la quale ha molti punti in comune) per il fatto che l’impegno del parlante non è condizionato in alcun modo dall’atteggiamento o dall’accordo dell’ascoltatore. E-244 Linea 1.1 – Dialoghi Annotati Esempio: P: Verrò alla festa. Commit Communication Management: con questa etichetta vengono annotati quegli enunciati la cui funzione è gestire il processo di comunicazione, mantenendo il contatto e assicurando la comprensione tra i parlanti. A questa tag può essere associata la sottocategorizzazione Hold, che viene impiegata per annotare quegli enunciati la cui funzione è tenere aperto il canale di comunicazione e mantenere il turno, ad esempio mentre il parlante sta svolgendo un’altra azione. Esempio: P: Mi sente? È ancora in linea? Communication Management S: Parte intorno alle undici? U: Si. S: Attenda. Attenda in linea! Hold Completion: questa tag viene impiegata per etichettare quegli enunciati per mezzo dei quali il parlante completa un enunciato già iniziato dal suo interlcutore ma non ancora portato a termine. Esempio: P: due più due fa… A: quattro Completion Confirm: questa tag viene impiegata per etichettare gli enunciati che contengono una conferma del parlante a proposito di quanto egli stesso ha già affermato in precedenza. A questa etichetta possono essere associate le sottocategorizzazioni Confirm-yes e Confirm-no. Esempio: S: vuole andare da Roma a Milano il sette dicembre partendo alle otto del mattino? U: si Confirm-yes con questa etichetta vengono annotati quegli enunciati con cui, Conventional: convenzionalmente, si apre o si chiude un dialogo, si ringrazia, si porgono delle scuse. A questa tag possono essere associate le sottocategorizzazioni Conventional-opening, Conventional-closing, Conventional-thank e Conventional-apologize. Esempi: S: Il Servizio è automatico e fornisce gli orari dei treni che collegano le principali città italiane ed alcune città europee. Risponda alle domande del sistema, dopo il segnale acustico. Ora, mi dica da dove parte e dove vuole andare. Conventional-opening S: Arrivederci e buon viaggio. Conventional-closing S: Grazie per aver scelto Alitalia. Conventional-thank P: Mi scusi, non ho sentito. Conventional-apologize E-245 Linea 1.1 – Dialoghi Annotati Correct Misspeaking: con questa tag vengono annotati quegli enunciati per mezzo dei quali un parlante segnala che, secondo lui, il suo interlocutore non detto quello che veramente intendeva dire. Esempio: P: Devi aprire il file della presentazione “Mil2” e selezionare A: “Mil2.new” Correct Misspeaking P: “Mil2.new” e selezionare il comando “print” Disagree: con questa tag vengono etichettati gli enunciati che segnalano il disaccordo del parlante nei confronti di quanto affermato dal suo interlocutore. Esempio: P: Continuiamo domani. A: Non credo sia una buona idea. Disagree Exclamation: con questa etichetta vengono annotate le esclamazioni. Esempio: P: Splendido! Exclamation Explicit Performative: con questa etichetta vengono annotati quegli enunciato per mezzo dei quali il parlante compie un’azione. Esempio: P: Dichiaro la seduta aperta. Explicit Performative Information: con questa etichetta vengono annotati quegli enunciati tramite i quali il parlante fornisce al suo interlocutore un’informazione che non impegna il parlante ne’ crea un obbligo per l’ascoltatore. Esempio: P: A che ora parte il primo volo per Parigi? A: Alle otto. Information Offer: questa etichetta viene impiegata per annotare quegli enunciati per mezzo dei quali il parlante indica la sua disponibilità a compiere una determinata azione se il suo interlocutore è d’accordo. Il fatto che l’impegno da parte del parlante sia condizionato dalla volontà dell’interlocutore è l’elemento che differenzia l’etichetta Offer dall’etichetta Commit. Esempio: P: Potrei venire a trovarti stasera. Offer E-246 Linea 1.1 – Dialoghi Annotati Promise: con questa etichetta vengono annotati quegli enunciati nei quali il parlante si impegna formalmente a compiere una determiata azione. Questa tag può anche essere considerata una sottocategorizzazione dell’etichetta Explicit Performative. Esempio: P: Prometto che arriverò in tempo. Promise Question: con questa tag vengono etichettate le domande. A questa etichetta possono essere associate le sottocategorizzazioni Yes-No-Question e Open-Question. Esempi: P: È arrivata posta per me? Yes-No-Question P: A che ora vuole partire? Open-Question Reassert: la funzione di questa tag è etichettare quegli enunciati per mezzo dei quali il parlante ribadisce una constatazione già espressa in precedenza a proposito del mondo in generale o a proposito di qualcosa/qualcuno che è parte del dominio del discorso. Esempio: P: Vorrei partire alle dieci con un treno rapido. A: Cerco un treno che parta alle dieci. P: Un treno rapido. Reassert Reject: con questa etichetta vengono annotati gli enunciati per mezzo dei quali il parlante rifiuta una proposta o un’offerta del suo interlocutore o risponde negativamente ad una sua richiesta. Esempio: P: Ci incontriamo domani? A: Veramente per me questa settimana non va bene Reject Reject-part: con questa etichetta vengono annotati gli enunciati per mezzo dei quali il parlante rifiuta parzialmente una proposta o un’offerta del suo interlocutore o risponde negativamente a parte di una sua richiesta. Esempio: P: Perchè non ci incontriamo lunedì alle 19? A: Lunedì va bene, ma alle 19 non posso. Reject-part RepeatRephrase: questa etichetta viene impiegata per E-247 Linea 1.1 – Dialoghi Annotati a) ripetere quello che è appena stato detto per segnalare che il parlante ha capito quello che il suo interlocutore ha detto; b) ripetere con altre parole un enunciato che non è stato compreso. Esempi: P: Vorrei gli orari da Roma a Milano A: Da Roma a Milano. A che ora? RepeatRephrase P: cosa intendi? A: te lo dico con altre parole RepeatRephrase Request: con questa etichetta vengono annotati gli enunciati per mezzo dei quali il parlante pone una domanda al suo interlocutore con l’intento di ottenere qualcosa (un oggetto, lo svolgimento di una determinata azione). Esempio: P: Puoi aprire la finestra, per favore? Request Suggestion: con questa etichetta vengono annotati gli enunciati che suggeriscono un’azione senza obbligare in nessun modo il ricevente. Esempio: P: Cosa ne pensi di continuare il lavoro domani mattina? Suggestion Task management: questa tag viene impiegata per etichettare gli enunciati che trattano esplicitamente del raggiungimento del task e dei problemi ad esso connessi. Esempio: P: Per prima cosa cerchiamo di capire come funziona Task management Understanding: con questa etichetta vengono annotati gli enunciati che hanno la funzione di assicurare la comprensione tra i parlanti man mano che il dialogo procede. A questa etichetta vengono associate le sottoclassificazioni Signal-non-understanding (che segnala un problema nella comprensione dell’antecedente) e Signal-understanding (che segnala esplicitamente che l’enunciato precedente è stato correttamente compreso) Esempi: P: Telefona al dr. Rossi A: Al dr. Rossi dell’ufficio acquisti?/A chi? Signal-non-understanding P: Telefona al dr. Rossi A: Uh-huh Signal-understanding E-248 Linea 1.1 – Dialoghi Annotati 5.3.2 Valutazione dello schema di annotazione consigliato Sarà possibile valutare l’affidabilità dello schema di annotazione da noi consigliato e l’accordo tra annotatori applicando la formula per il calcolo dell’indice k (cfr. Krippendorf 1980, Carletta 1997, Walker et al. 1997). Si noti che lo schema consente di introdurre ulteriori sottoclassificazioni per ciascuna etichetta qualora un’applicazione specifica dovesse richiedere un livello di granularità più fine. Si deve infine considerare che le etichette, elencate in ordine alfabetico nel paragrafo precedente, non sono tutte mutualmente esclusive. Il loro insieme tende infatti a cogliere diverse dimensioni dell’atto linguistico che, per esempio in DAMSL, contribuiscono a descrivere diverse funzioni discorsive. Infatti, in un dialogo ciascun turno è collegato ai turni precedenti e può rappresentare l’intenzione del parlante di influire sui turni successivi (propri e dell’interlocutore). In DAMSL queste due funzioni sono chiamate rispettivamente “Forward-Communicative-Function” e “Backward-Communicative-Function”. In DAMSL le etichette sono infatti raggruppate in tre classi di ordine superiore. La prima classe, che comprende le etichette Task, Task-Management e Communication-Management, è denominata Info-level, ed analizza l’enunciato in questione dal punto di vista informativo. La seconda classe prende invece il nome di Forward-Communicative-Function e comprende etichette tipo Action-directive, Commit, Explicit Performative ecc., che rappresentano la volontà del parlante di influire sui turni successivi. La terza classe è chiamata Backward-Communicative-Function ed analizza gli enunciati dal punto di vista del loro legame con i turni precedenti. Essa include dunque etichette come Accept, Signal-Understanding, Signal-non-understanding, Answer ecc. Per chiarire questi concetti, riportiamo due esempi di enunciati annotati secondo le indicazioni di DAMSL. (1) S: Sistema automatico sperimentale di informazioni sugli orari dei voli. Mi dica da quale città parte e in quale città vuole arrivare. U: Devo andare da Torino a Parigi con un volo Alitalia. Secondo lo schema di DAMSL, l’annotazione della frase qui riportata in corsivo prenderà in considerazione i seguenti fenomeni e livelli: • Info-level: Task – in questo modo si analizza il livello informativo dell’enunciato in questione. Nel caso specifico, l’utente sta cercando di portare a termine il task che si è prefissato. • Forward-Communicative-Function: Assert, Commit – in questo livello viene analizzato il modo in cui il parlante cerca di influire sui turni successivi. Nell’enunciato in questione, l’utente fa un’affermazione e prende contemporaneamente un impegno. • Backward-Communicative-Function: Answer – si passa ora a prendere in considerazione qual è il legame tra l’enunciato in analisi ed i turni precedenti. Nel nostro caso, la frase pronunciata dall’utente è una risposta alla domanda precedentemente posta dal sistema. E-249 Linea 1.1 – Dialoghi Annotati (2) U: Parto da Parigi e vado a Barcellona. S: Vuole ritornare a Barcellona? U: Si. Secondo le indicazione di DAMSL, l’enunciato in corsivo dell’esempio (2) verrà annotato come segue: • Info-level: Communication-Management – dal punto di vista informativo, la funzione dell’enunciato in questione è assicurare la comprensione tra i partecipanti al dialogo. • Forward-Communicative-Function: Reassert, Commit – con questa frase, l’utente ribadisce quanto ha già affermato in precedenza ed allo stesso tempo prende un impegno (influenza quindi la prosecuzione del dialogo). • Backward-Communicative-Function: Accept, SU-Ackowledge, Answer – nell’enunciato in analisi l’utente risponde alla domanda posta dal sistema nel turno precedente, accettando così quanto gli è stato proposto, e contemporaneamente conferma i dati acquisiti dal sistema, segnalando la corretta comprensione degli enunciati precedenti. Questo livello prende quindi in esame i rapporti che intercorrono tra l’enunciato in esame ed i turni precedenti E-250 Linea 1.1 – Dialoghi Annotati PARTE III - SPECIFICHE RELATIVE AL SOFTWARE PER L’ANNOTAZIONE E-251 Linea 1.1 – Dialoghi Annotati 1 Stato dell’arte degli strumenti software E-252 Linea 1.1 – Dialoghi Annotati 1.1 Introduzione Lo scopo di questa rassegna consiste nell’acquisire informazione sugli strumenti software attualmente disponibili di ausilio all’annotazione di corpora di dialoghi e di supporto all’estrazione e alla visualizzazione annotata a livelli diversi. La rassegna servirà ad ottenere una panoramica delle funzionalità e caratteristiche possedute dai diversi strumenti software per valutare: • le funzionalità che, in base all’esperienza d’uso di altri strumenti, devono essere necessariamente implementate da uno strumento software che soddisfi i requisiti funzionali imposti dal tema “Dialoghi Annotati” in SI-TAL; • l’eventuale esistenza di strumenti software che per le loro caratteristiche si prestino ad essere acquisiti in SI-TAL, e gli eventuali adattamenti necessari. 1.2 Criteri utilizzati per il confronto degli strumenti software La rassegna dei vari strumenti software verrà effettuata sulla base di alcune dimensioni descrittive che nel loro insieme hanno lo scopo di valutare le funzionalità degli strumenti software e la loro rispondenza alle esigenze poste dal tema Dialoghi Annotati. In particolare, dunque, verranno valutate le funzionalità messe a disposizione dai diversi strumenti, con speciale riferimento alle funzionalità per l’annotazione dei dati dialogici su più livelli di analisi linguistica. Altri criteri che verranno tenuti in considerazione riguardano caratteristiche di usabilità dello strumento, caratteristiche di adattabilità ed estendibilità, ed il grado in cui i principali formati standard di markup testuale attualmente in uso sono supportati. Per lo più, la valutazione dei diversi strumenti software avviene sulla base della documentazione disponibile e dell’esperienza degli autori. I parametri considerati sono dunque i seguenti: Funzionalità disponibili: • funzionalità per la trascrizione: se e come il software possiede delle funzionalità per la trascrizione in formato testuale di dati vocali. • funzionalità per l’annotazione: se e come il software permette l’annotazione dei dati linguistici e a quali livelli; se è consentita l’annotazione a livelli multipli; la velocità, l’efficienza e l’affidabilità del processo; caratteristiche di facilità d’uso per l’utente e intuitività dell’interfaccia. Eventualmente, se è disponibile l’automatizzazione del processo di annotazione. • funzionalità per la visualizzazione e la ricerca: intuitività della visualizzazione del corpus annotato; possibilità di accedere al corpus annotato per condurre analisi statistiche, ricerche complesse ed estrazione dell’informazione. • funzionalità di import/export: possibilità di importare/esportare dati per e da il formato di annotazione in modo efficiente, facile ed economico; importazione di dati e di corpora già codificati in formati diversi. La descrizione di questi aspetti generali, insieme all’indicazioni di caratteristiche software e di piattaforma, insieme contribuiscono a classificare i vari strumenti lungo i criteri seguenti: E-253 Linea 1.1 – Dialoghi Annotati • usabilità: la facilità d’uso complessiva del software, nei termini sia di intuitività dell’interfacciautente, di disponibilità della documentazione, magari in linea, che di aspetti commerciali (quali licenze, possibilità di sviluppo ecc.) e di portabilità su più tipi di piattaforme. • adattabilità e possibilità di personalizzazione delle risorse, in termini di estendibilità degli strumenti mediante aggiunta di funzionalità e/o moduli ulteriori; verrà inoltre valutato se lo strumento possiede degli schemi di annotazione pre-caricati, e se offre la possibilità di importare schemi di annotazione diversi da quelli originari. • grado di supporto relativamente a standard esistenti (SGML, XML, …) 1.3 Indice degli strumenti esaminati 1) Alembic 2) AnnoTag 3) CLAN 4) DAT 5) DiET 6) EMU 7) Entropic Signal Processing System (Esps/xwaves+) 8) Fringe 9) MATE 10) Nb 11) Tatoe 12) Transcriber E-254 Linea 1.1 – Dialoghi Annotati 1.3.1 ALEMBIC (MITRE CORPORATION) 1.3.1.1 Introduzione Alembic è un sistema integrato che serve allo scopo di creare un ambiente di ingegneria del linguaggio nmaturale per lo sviluppo di corpora annotati. Per promuovere questo procresso, il software incorpora una serie di strumenti per l’analisi di un corpus, insieme al sistema Alembic per consentire l’acquisizione automatica di euristiche di annotazione specifiche del dominio. Alembic ha come scopo quello di ridurre notevolmente l’ammontare di lavoro necessario alla costruzione di corpora di training, e si propone di raggiungerlo in due modi: • rendendo estremamente semplice l’annotazione di dati testuali mediante insiemi di etichette interamente customizzabili. Tra i vari metodi usati per velocizzare il processo di annotazione vi è l’applicazione di euristiche di apprendimento automatico per il bootstrapping del processo di annotazione umano. • fornendo degli strumenti di valutazione per analizzare i dati annotati, sia allo scopo di valutare la performance dell’estrazione di informazione automatica, sia per misurare il grado di accordo fra annotatori per un corpus o un compito particolari. 1.3.1.2 Caratteristiche tecniche Alembic è disponibile nelle versioni per Unix (versione 2-12) e per windows 95/NT (versione beta 2-14). E’ distribuito gratuitamente. 1.3.1.3 Funzionalità • Funzionalità per la trascrizione: assenti • Funzionalità per l’annotazione: lo strumento di annotazione si basa su SGML. Oltre ai consueti modi di annotazione testuale, il software permette vari tipi di annotazione specializzata, incluse l’annotazione di co-referenza, vari tipi di puntatori inter-etichetta definiti dall’utente, e un template generale per l’annotazione (alias relazioni, frames, o eventi). Il sistema di NLP multilingue di Alembic fornisce accesso a taggers per un’ampia gamma di livelli di estrazione, e alcune applicazioni sono state costruite per alcune lingue. Il software ha un sofisticato componente di visualizzazione. Vi sono etichette definite ai livelli seguenti: – coreferenza – atti del discorso – morfosintassi Etichette e insiemi di etichette aggiuntivi possono essere definiti dall’utente. E-255 Linea 1.1 – Dialoghi Annotati Sono disponibili delle modalità di annotazione automatica: query-mode, auto mode e autoconfirm mode, usate per ripetere l’annotazione di un testo che compare ripetutamente in un documento. • Funzionalità per la visualizzazione e la ricerca: il software ha un sofisticato componente di visualizzazione e di analisi statistica dei dati. Sono inoltre disponibili le seguenti funzionalità: – possibilità di paragonare due documenti etichettati e di assegnare un punteggio alla comparazione; – Alembic Text Processing: questa routine crea e salva in un file l’output etichettato in SGML; – Learn Alembic Phrase Rules: “le Training Sources sono documenti che sono stati etichettati e da cui l’acquisitore creerà delle regole di lettura e di annotazione”; – la funzionalità “Extract Phrases” può essere usata per estrarre solo il testo che è stato etichettato. Le etichette appaiono in formato SGML e possono essere ordinate alfabeticamente (mediante la funzionalità Sort Phrases). Questo strumento è utile quando si controllano gli eventuali errori o si analizzano esclusivamente le etichette; – Segmentation Tagger: è studiato per aiutare l’utente a segmentare velocemente o risegmentare (cioè aggiungere, rimuovere, e sistemare gli spazi in) un documento E’ disponibile anche una modalità Editing, grazie alla quale è possibile inserire/cancellare dei caratteri nel documento. Il menù di Alembic (tratto dalla versione 2-12 per Unix): File • • • • • • • • • • • • About New Workbench Viewer Latin-1 CJK (caratteri cinesi, giapponesi, coreani) Help Open Document Close View Source SGML (mostra il codice SGML per un dato documento) View Alembic Phrase Finding Rules Save Recover Original File (carica il file originale) Quit Tag (questo menù contiene il tagset attivo) Options • Relations Load Relation E-256 Linea 1.1 – Dialoghi Annotati • • • • • • • Utilities • • • • • • • • • • Load on Main Window Load as Separate Window Auto Tag Add Coextensive Annotations Allow Partial Matching Off Query Mode Auto Mode Auto-Confirm Mode Language… (specifica la lingua usata nel documento. Un’ampia gamma di lingue è disponibile) Coreference Show Coreference Targets Highlight Coreference Chain Remove “Highlighting” of Coreference Chain “Hide” Coreference Chain Hide Selected Coref Chain Hide All Other Coref Chains Restore “Hidden” Coreference Chains File Loading Options File Saving Options Mouse and Display Options Tag Preferences Load Tag Preferences Edit Tag Preferences Find in current document… Score files AWB Scorer* MUC Scorer* Alembic Text Processing…* Learn Alembic Phrase Rules…* Perform Error Analysis of Rules…* Extract Phrases…* Compare Alternate Annotation…* Segmentation tagger…* (* = non disponibile nella versione beta 2-14 per Windows 95/NT) 1.3.1.4 Interfaccia utente La maggior parte dei compiti sono svolti nella finestra principale, che mostra il documento che deve essere annotato. Il software supporta lingue diverse e codici alfabetici diversi, per es. Giapponese, Cinese e Coreano Il testo può essere visualizzato: • in modalità a colori, che visualizza le etichette evidenziate E-257 Linea 1.1 – Dialoghi Annotati • in modalità SGML, che visualizza il testo in SGML in un colore I menu possono essere spostati ovunque sullo schermo. Sono disponibili comandi da tastiera per l’annotazione del testo. I comandi sono visualizzati accanto ad ogni etichetta nella barra menu. La barra di informazioni che si trova in basso rispetto alla finestra di testo mostra informazioni sull’etichetta a cui punta il mouse. 1.3.1.5 Conclusioni • Usabilità: Lo strumento è distribuito gratuitamente. La versione 2-14 per Windows 95/NT è facilmente installabile. Sono incluse molte funzionalità. Nel caricare i documenti, lo strumento distingue fra formati SGML e non-SGML. Per gli utenti esperti lo strumento potrebbe rappresentare una buona scelta. Per quanto riguarda gli aspetti negativi, l’uso dello strumento risulta poco intuitivo per utenti non esperti. Per quanto riguarda la visualizzazione, gli stessi colori sono usati per etichette diverse su livelli diversi, che può confondere l’utente. L’aiuto è inadeguato. Nella maggioranza delle finestre di aiuto il testo è incompleto. L’utente deve ricorrere alle pagine web di Alembic per ottenere l’informazione di cui ha bisogno. Mancano esempi che illustrino l’uso delle etichette, ed il feedback nella modalità di annotazione automatica è spesso insufficiente. Non esiste una funzionalità per rimuovere gradualmente l’etichettatura. se un utente marca troppe lettere, l’unico modo per correggere è premere il tasto di correzione e ricominciare E-258 Linea 1.1 – Dialoghi Annotati l’etichettatura da capo. Molte funzionalità disponibili nella versione 2-12 per Unix non sono disponibili nella versione beta 2-14 per Windows 95/NT • Adattabilità: buona portabilità generale. La possibilità di definire le etichette e i tagsets permette un’ampia gamma di usi e la portabilità a schemi di annotazione diversi. • Estendibilità: la documentazione non permette di valutare lo strumento sotto questo punto di vista. • Grado di supporto relativamente a standard esistenti: lo strumento supporta il formato SGML. 1.3.1.6 Documentazione Ulteriore documentazione è disponibile presso i siti: http://www.mitre.org/resources/centers/advanced_info/g04h/workbench.html http://www.mitre.org/resources/centers/advanced_info/g04h/workbenchv2.12/manual/ E-259 Linea 1.1 – Dialoghi Annotati 1.3.2 ANNOTAG 1.3.2.1 Introduzione ANNOTAG è uno strumento per l’annotazione di dialoghi a livello pragmatico, sviluppato al DFKI da Michael Kipp nel 1997. L’insieme delle etichette è fisso e non modificabile. ANNOTAG è attualmente in uso per l’annotazione al livello di atti dialogici all’interno del progetto VERBMOBIL, dove un insieme di 33 atti dialogici modella l’intenzione del parlante in dialoghi per fissare appuntamenti. 1.3.2.2 Caratteristiche tecniche ANNOTAG è scritto in Tcl/Tk (Tcl 7.5, Tk 4.1), usando l’estensione Tix (versione 4.1). E’ utilizzabile su workstations Sun con Solaris OS. Lo strumento è in grado di leggere e scrivere due formati che sono utilizzati nel progetto Verbmobil: files traslitterati e files BAS partitur. L’estensione ad altri formati come SGML è facilmente fattibile. 1.3.2.3 Funzionalità • Funzionalità per la trascrizione: assenti • Funzionalità per l’annotazione: lo strumento è specificamente progettato per l’annotazione degli atti dialogici. ANNOTAG distingue tra segmenti e turni. Una prima funzionalità consente di segmentare i turni della trascrizione in unità più piccole (i segmenti, corrispondenti alle unità a cui attribuire una categoria di atti dialogici): facendo doppio clic su una parola, l’annotatore inserisce un segnale di delimitazione all’interno di un turno. ANNOTAG evidenzia il testo tra il segno di delimitazione precedente (o dall’inizio del turno) e il segno di delimitazione inserito. Il testo così evidenziato può dunque essere annotato scegliendo un’etichetta da un insieme predeterminato di etichette pragmatiche. E’ inoltre possibile annotare un intero turno con una etichetta. In tal caso, non è necessario fissare dei segnali di delimitazione. Per un uso generale del software è importante considerare le seguenti restrizioni: • il testo sorgente deve avere dei confini di turno chiari (altrimenti l’intero testo viene considerato un turno); • un turno può essere annotato suddividendolo, ovvero possono esserci delle parti non annotate; • non è possibile annotare a cavallo di confini di turno. • Funzionalità per la visualizzazione e la ricerca: non sono disponibili informazioni su questo aspetto. • Funzionalità di import/export dei dati: due sono i formati di import/export supportati: un formato testo ed il formato BAS Partitur, in uso nel progetto Verbmobil. E’ tuttavia possibile estendere lo strumento al trattamento di dati in formato SGML. E-260 Linea 1.1 – Dialoghi Annotati 1.3.2.4 Interfaccia utente L’interfaccia di ANNOTAG è molto chiara. Una finestra principale rappresenta al centro il testo da annotare. Sul lato sinistro e destro vi sono dei bottoni etichettati con il nome delle etichette. Colori diversi sono usati per distinguere gruppi di etichette diversi. 1.3.2.5 Conclusioni • Usabilità: ANNOTAG è un esempio di strumento software con un’interfaccia ben disegnata. Le componenti nella finestra sono disposte in maniera chiara e l’annotazione dei dati è facile ed intuitiva. Per aiutare l’utente nel compito di selezione delle etichette da applicare ai segmenti, la gerarchia di atti dialogici di VERBMOBIL può essere richiamata in una finestra separata. Le correzioni avvengono semplicemente cliccando su un bottone Undo. Lo strumento è facile da usare anche per utenti non esperti; l’interfaccia utente è gradevole e chiara e permette un’annotazione veloce ed affidabile. Non sono disponibili comandi da tastiera: tutta l’annotazione avviene mediante mouse. Per quanto riguarda gli aspetti negativi, lo strumento non è disponibile liberamente. • Adattabilità: buona portabilità generale. L’insieme di etichette è modificabile, ma esclusivamente per un solo livello di annotazione linguistica (quello pragmatico). • Estendibilità: l’estendibilità dello strumento è possibile ma difficoltosa. • Grado di supporto relativamente a standard esistenti: sebbene SGML non sia direttamente supportato, l’estensione a questo tipo di formato e a XML è facilmente fattibile. 1.3.2.6 Documentazione N. Reithinger & M. Kipp. Large scale Dialogue Annotation in Verbmobil. In corso di pubblicazione. E-261 Linea 1.1 – Dialoghi Annotati 1.3.3 CLAN 1.3.3.1 Introduzione CLAN (Computerized Language Analysis) è un pacchetto integrato di programmi software in uso nell’ambito del sistema CHILDES per l’analisi di corpora annotati. I programmi CLAN sono progettati per sfruttare appieno il formato di trascrizione e di annotazione specifici del corpus CHILDES e per facilitare un’ampia gamma di ricerche e di analisi. 1.3.3.2 Caratteristiche tecniche Il programma CLAN è stato scritto in C++ da Leonid Spektor alla Carnegie Mellon University. La versione corrente usa una GUI e gira su piattaforme Macintosh e Windows. Versioni precedenti, senza interfaccia utente, girano anche su DOS e UNIX. CLAN permette di eseguire un’ampia gamma di analisi automatiche su dati trascritti e annotati. Le analisi includono conteggi di frequenza, ricerche di parole singole, analisi di co-occorrenza, conteggi di lunghezza media delle enunciazioni, analisi interazionali, ecc. Ognuna di queste ricerche è eseguibile invocando routines specifiche e indipendenti. Le routines possono essere richieste di produrre outputs indipendenti oppure possono essere invocate a cascata, di modo che l’output di una routine specifica può costituire l’input di un’altra routine. Ciò è possibile soltanto se l’output della prima funzione è dato in formato CHAT. Il programma è orientato specificamente al trattamento di dati codificati nel formato CHAT, anche se molte analisi possono essere eseguite su files ASCII di qualsiasi tipo. 1.3.3.3 Funzionalità e interfaccia utente CLAN ha un numero di modalità diverse. Quando viene usato come strumento di analisi, consente all’utente di eseguire delle analisi automatiche su trascrizioni. In questa modalità, fornisce una finestra di comando che consente di eseguire comandi per l’esecuzione di analisi, e l’output appare in un’altra finestra. CLAN include un editor che può essere usato in molti modi diversi. Nel modalità CHAT, viene facilitata la scrittura e l’editing di nuovi files o di files già esistenti in formato CHAT. Nella modalità Coder, viene fornito un modo sistematico per inserire dei codici nella trascrizione. Se le trascrizioni usate sono connesse a files audio digitali, la trascrizione può essere eseguita usando il modo “sonic CHAT”, e viene visualizzato un editor di forma d’onda. E’ inoltre possibile usare “Continuous Playback”, che fa ascoltare ogni enunciazione in sequenza, evidenziando le enunciazioni mano a mano, oppure ascoltare una singola enunciazione cliccandoci sopra. Altre funzionalità includono un editor video, un editor per la trascrizione secondo le convenzioni proprie della Conversation Analysis, ed un esteso supporto all’editore audio. E-262 Linea 1.1 – Dialoghi Annotati 1.3.3.4 Conclusioni • Usabilità: gli strumenti sono liberamente disponibili e costituiscono un insieme non integrato e di relativamente facile utilizzo. • Adattabilità: dubbia • Estendibilità: le informazioni disponibili non permettono di valutare lo strumento sotto questo aspetto. • Grado di supporto relativamente a standard esistenti: nessuno. 1.3.3.5 Documentazione Maggiori dettagli sono disponibili nel manuale di CHILDES, disponibile in formato pdf alla home page di CHILDES: http://atila-www.uia.ac.be/childes/ E-263 Linea 1.1 – Dialoghi Annotati 1.3.4 DAT (Dialogue Annotation Tool) 1.3.4.1 Introduzione DAT è lo strumento di annotazione sviluppato presso il Dipartimento di Computer Science dell’Università di Rochester, NY, USA, da Mark Core (mcore@cs.rochester.edu) e George Ferguson (ferguson@cs.rochester.edu). E’ stato sviluppato specificamente per essere usato come strumento di applicazione dello schema di annotazione DAMSL (Dialog Act Markup in Several Layers) (vedi parte II, sez. I, par. 4), creato all’interno della Discourse Resource Initiative. Per una migliore comprensione si consiglia pertanto di fare riferimento alla review dello schema di annotazione corrispondente. Il codice sorgente ed il manuale di annotazione possono essere recuperati al sito http://www.cs.rochester.edu/research/trains/annotation/. 1.3.4.2 Caratteristiche tecniche DAT è scritto in perl-tk è può essere usato su tutti i sistemi per i quali perl-tk è disponibile. Il formato di input dei dialoghi usa una etichetta speciale SGML per immagazzinare l’informazione relativa ai turni e al markup direttamente nella traslitterazione. Ogni file contiene un dialogo intero. I segmenti (o enunciazioni) nel file devono essere segmentati prima dell’annotazione. Questo significa che la segmentazione e l’annotazione sono considerate come azioni separate. E’ possibile ascoltare il segnale audio per i turni. Questo richiede un file audio per ogni turno. di conseguenza, il parlato in sovrapposizione non può essere facilmente presentato. Il file SGML ed i files audio devono essere nella stessa directory. 1.3.4.3 Funzionalità Funzionalità per la trascrizione: assenti. Funzionalità per l’annotazione: la finestra principale presenta tutte le possibili etichette di annotazione dello schema DAMSL, che permette di annotare lungo 15 dimensioni che sono raggruppate nelle categorie "Forward Communicative Functions", "Backward Communicative Functions", "Info Level", "Features". Compito dell’utente è selezionare un’etichetta per ogni dimensione di annotazione, il che implica almeno 15 clicks per ogni segmento da annotare. Se il segmento è una risposta ad un segmento o turno precedente, l’utente può o inserire manualmente il numero di identificazione del segmento o turno oppure, dopo aver cliccato sul bottone SELECT, può annotare il materiale direttamente nella finestra di testo. Se l’utente ha cambiato l’annotazione e procede oltre ad annotare il segmento seguente, deve confermare esplicitamente i cambiamenti apportati o premendo il bottone APPLY o, se se ne dimentica, da un messaggio di avvertimento in una finestra extra. Il software ha delle semplici regole per assicurare un minimo grado di consistenza dell’annotazione attraverso le 15 dimensioni. Queste regole, così come le etichette per l’annotazione sono cablate nel codice e non possono essere cambiate facilmente. E-264 Linea 1.1 – Dialoghi Annotati L’aiuto in linea non è disponibile. Funzionalità per la visualizzazione e la ricerca: per la visualizzazione vedi sotto. Non sono disponibili funzionalità per la ricerca sul materiale annotato. Funzionalità di import/export: limitate. I dati devono essere etichettati in un formato quasiSGML. 1.3.4.4 Interfaccia utente L’interfaccia consiste di tre finestre. La finestra di inizio consente all’annotatore di selezionare il dialogo da annotare. Una volta che un dialogo è stato selezionato, una nuova finestra sostituisce la prima (vedi Figura 1). Questa nuova finestra consente all’utente di inserire informazione sull’annotatore e sul contesto del dialogo. Fig. 1: La finestra di informazione E-265 Linea 1.1 – Dialoghi Annotati Se l’utente clicca su una linea nella finestra in cui è presentata la traslitterazione segmentata, la terza finestra rimpiazza la seconda (vedi Fig. 2): Fig. 2: La finestra di annotazione In alto troviamo il testo del dialogo. L’area principale della finestra mostra dei bottoni per la navigazione e per il markup (annotazione). Le dimensioni di annotazioni di DAMSL sono presentate in neretto sulla sinistra della finestra, ed i possibili valori sul resto della linea. La selezione avviene premendo i bottoni piccoli sulla sinistra delle etichette. E-266 Linea 1.1 – Dialoghi Annotati 1.3.4.5 Conclusioni • Usabilità: buona. L’interfaccia grafica è chiara e intuitiva. Per quanto riguarda gli aspetti negativi, l’applicabilità dello strumento è limitata all’annotazione del livello linguistico pragmatico, e le etichette non possono essere modificate. Inoltre, lo strumento presuppone che gli utenti conoscano bene lo schema di annotazione per il quale è sviluppato. Per le funzionalità disponibili, non è adatto per un’annotazione su larga scala. L’annotazione è lunga e tediosa. • Adattabilità: scarsa. L’impossibilità di definire le etichette e i tagsets limita l’usabilità dello strumento e la portabilità a schemi di annotazione diversi. • Estendibilità: la documentazione non permette di valutare lo strumento sotto questo punto di vista. • Grado di supporto relativamente a standard esistenti: lo strumento supporta il formato SGML. 1.3.4.6 Documentazione James Allen e Mark Core. 1997. Draft of DAMSL: Dialog Act Markup in Several Layers. University of Rochester. http://www.cs.rochester.edu/research/trains/annotation/ E-267 Linea 1.1 – Dialoghi Annotati 1.3.5 DiET (Diagnostic and Evaluation Tools for natural language applications) 1.3.5.1 Introduzione Lo scopo del progetto europeo DiET (LE 4204) consiste nello sviluppo di dati, metodi e strumenti per la valutazione di componenti di NLP. In particolare, il progetto si concretizza nella costruzione di uno strumento software che serva come un’architettura flessibile per l’integrazione di strumenti diversi per la costruzione, l’archiviazione, il mantenimento e la customizzazione di dati da usare per la valutazione di strumenti di NLP. Grande attenzione è posta ad evitare di imporre troppe restrizioni sul tipo di dati, di annotazioni e di moduli esterni per la costruzione dei dati. Benché quindi si tratti di uno strumento software concepito per un uso particolare e diverso da quello classico dell’annotazione, come vedremo possiede delle caratteristiche interessanti e modellabili alle necessità di uno strumento per l’annotazione. 1.3.5.2 Caratteristiche tecniche DiET si configura come un pacchetto software implementato in un’architettura client/server aperta, con un’interfaccia-utente grafica che costituisce il client centrale per la costruzione, l’annotazione e la configurazione dei dati, e vari moduli, tra cui un data base e diversi strumenti di annotazione automatica, che funzionano come servers. Il sistema è implementato in Java 1.15 ed il formato di annotazione supportato è XML. Si considera qui l’interfaccia utente grafica, in quanto rappresenta il modulo centrale per la costruzione, l’annotazione e la configurazione dei dati. 1.3.5.3 Funzionalità Funzionalità per la trascrizione: assenti Funzionalità per l’annotazione: la componente di annotazione di DiET permette di annotare del materiale testuale a livello morfologico, sintattico e di fenomeni del discorso. Il sistema fornisce uno schema di annotazione flessibile, che comprende una quantità di tipi di annotazione già esistenti; questi possono poi essere modificati facilmente dall’utente, oppure è possibile crearne di nuovi in relazione agli specifici interessi. Queste modifiche possono essere eseguite facilmente per mezzo dell’interfaccia grafica. Gli oggetti a cui è possibile associare un’annotazione sono: a) stringhe, b) gruppi ordinati di stringhe, c) segmenti di stringhe. Le annotazioni attualmente implementate riguardano il livello morfologico, sintattico e di analisi del discorso. A livello morfologico è possibile specificare informazione sulla categoria lessicale e connettere gli items lessicali alla rispettiva classe di ambiguità. A livello sintattico, l’informazione sull’analisi strutturale dei testi è visualizzata mediante alberi grafici e rappresentazioni di dipendenza, dove i nodi non terminali ricevono un’etichetta di categoria sintagmatica e gli archi sono annotati con delle funzioni grammaticali. E’ inoltre possibile assegnare un giudizio di buona formazione sintattica alla struttura complessiva. Il livello di analisi del discorso fornisce informazione sulla direzione (per esempio, antecedente) e sul tipo (per esempio, co-referenza) di relazioni semantiche tra i segmenti di testo. Funzionalità per la visualizzazione: vedi sotto. E-268 Linea 1.1 – Dialoghi Annotati Funzionalità per la ricerca: vedi sez. 3.5.4. Non sono disponibili funzionalità per l’analisi statistica dei dati. Funzionalità di import/export: la documentazione disponibile non fornisce informazioni su questo aspetto. 1.3.5.4 Interfaccia utente L’interfaccia-utente di DiET rappresenta il cuore dello strumento, e serve per inserire nuovi dati e per annotare gli elementi con gli attributi che possono essere liberamente scelti e configurati dall’utente. La figura (1) dà un’impressione della finestra principale dello strumento di annotazione. La finestra sulla sinistra contiene il testo da annotare. La finestra sulla destra è divisa in due parti: la finestra superiore mostra i tipi di annotazione, organizzati gerarchicamente, insieme ai valori attribuiti all’elemento selezionato; la parte inferiore presenta informazioni ulteriori sui valori del tipo di annotazione marcato nella finestra supriore. L’interfaccia ad oggi consiste di due finestre distinte, la finestra principale ed una finestra dove è specificata una gerarchia di annotazione di tipi diversi di annotazione (tags). La finestra principale contiene tre aree. Una serve per rappresentare test suites, un’altra per rappresentare la gerarchia di annotazione, ed una terza mostra i risultati dell’applicazione della gerarchia di annotazione ad un segmento di test suite specificato. Il processo di annotazione richiede per prima cosa uno schema di annotazione. Gli elementi di base dello schema sono i tipi e gli attributi dell’annotazione, che possono essere ad esempio strutture sintattiche ad albero con attributi come caso, numero, ecc. L’annotazione in sé è eseguita marcando la test-suite e l’attributo corrispondente nella gerarchia di annotazione. L’utente seleziona un elemento. Dal gruppo di tipi di annotazione sceglie un tipo di annotazione, per esempio syntactic analysis, NP_coordination, ecc. Nella finestra in basso a destra appaiono i campi appropriati per il tipo di annotazione dato, il che permette l’entrata dei valori. Nel caso dell’analisi sintattica, per esempio, si tratterà di una finestra ad albero. E-269 Linea 1.1 – Dialoghi Annotati Figura 1: La GUI di DiET L’utente può anche specificare un proprio tipo di annotazione. In tal caso, si apre una finestra di dialogo (vedi figura 2). Per definire un nuovo tipo di annotazione, l’utente sceglie un nome per il nuovo tipo, lo attribuisce al rispettivo tipo di dati, se necessario definisce la gamma di valori accettabili, e lo posiziona all’interno della lista gerarchica dei tipi di annotazione. L’assegnazione dei valori può essere configurata: i valori possono essere inseriti manualmente oppure possono essere forniti attraverso un qualche server, per esempio l’utente seleziona un servizio (per es., un tagger) che fornirà i valori. Esempi di annotazioni di questo tipo potrebbero essere strutture sintagmatiche o relazionali sulle stringhe, relazioni anaforiche che fanno uso di data type arc, giudizi di buona formazione con un valore booleano, ecc. Sebbene la maggior parte delle funzioni di dichiarazione, selezione ed inserimento dei dati descritte sopra venga eseguita nel modulo-cliente centrale, potrebbe anche esserci un numero di servers specializzati e potenzialmente decentralizzati che supportano i compiti della costruzione e dell’annotazione. L’annotazione (semi)-automatica dei dati per mezzo di servers è prevista per tipi di annotazione standard come i taggers morfosintattici. Questo è disponibile per le tre lingue del progetto (tedesco, inglese e francese), così come un componente morfologico per l’assegnazione di classificazioni morfosintattiche standardizzate. E-270 Linea 1.1 – Dialoghi Annotati Figura 2: Configurazione dei tipi di annotazione Il progetto DiET sviluppa un ambiente complessivo per la costruzione ed il mantenimento di dati strutturali di riferimento per la diagnosi e la valutazione di applicazioni NLP. Il sistema offre all’utente la possibilità di costruire e annotare dei dati scegliendo liberamente i tipi di annotazione da un insieme definito, che è corredato di funzioni di editing, visualizzazione e storing dell’annotazione. Attraverso il processo di corpus profiling, è possibile stabilire dei collegamenti tra gli elementi strutturati del test nel database ed i fenomeni connessi ai livelli della morfologia, sintassi e discorso che occorrono in corpora relativi ad un dominio specifico. Il database ed alcuni strumenti aggiuntivi permettono all’utente di definire uno scenario di valutazione e di recistrare il risultato dei cicli di valutazione. La ricerca e la visualizzazione dei dati sono dunque permesse dal sistema, ma non ancora implementate. 1.3.5.5 Conclusioni • Usabilità: DiET supporta l’annotazione, in particolare a livello morfologico, sintattico e discorsivo (co-referenza); l’annotazione può essere adattata alle esigenze dell’utente, mediante la definizione di insiemi di etichette definiti dall’utente. L’interfaccia utente è orientata in E-271 Linea 1.1 – Dialoghi Annotati questo senso, e fornisce un output strutturato ad albero. Fornisce il modo per aggiungere annotazione più raffinata ai dati, al di là dell’annotazione morfosintattica e dell’analisi sintattica. Per quanto riguarda gli aspetti negativi, lo strumento non dispone di funzionalità per le analisi statistiche; inoltre, non è liberamente disponibile. • Adattabilità: essendo implementato in Java, la sua portabilità su piattaforme diverse è ottima. Le etichette sono parzialmente adattabili, ma solo per quei livelli per i quali è già prevista l’annotazione: non è invece possibile estendere lo strumento per rappresentare nuovi livelli di annotazione. In particolare, sembra particolarmente difficoltosa l’estendibilità al livello prosodico. • Estendibilità: DiET supporta l’integrazione di moduli autonomi esterni. • Grado di supporto relativamente a standard esistenti: supporta XML. 1.3.5.6 Documentazione T. Kiss & D. Steinbrecher. 1998. “Lexical Replacement in Test Suites for the Evaluation of Natural Language Applications”. In: Proceedings of 1st International Conference on Language Resources and Evaluation, Granada, maggio 1998. K. Netter, S. Armstrong, T. Kiss, J. Klein, S. Lehmann, D. Milward, S. Regnier-Prost, R. Schäer, T. Wegst (1998). “DiET - Diagnostic and Evaluation Tools for Natural Language Applications”. In: Proceedings of 1st International Conference on Language Resources and Evaluation, Granada, maggio 1998. Klein, J., Lehmann, S., Netter, K., e T. Wegst. 1998. “Construction and annotation of Test-items in DiET”. ESSLLI, Saarbrucken, 17-28 agosto 1998. Il sito del progetto: http://dylan.ucd.ie/DiET E-272 Linea 1.1 – Dialoghi Annotati 1.3.6 EMU 1.3.6.1 Introduzione EMU (www.shlrc.mq.edu.au/emu) è uno strumento di analisi e annotazione del parlato liberamente disponibile, che supporta anche l’annotazione di livelli multipli e semplici funzioni di ricerca. 1.3.6.2 Caratteristiche tecniche Il software è scritto in C ed è quindi portabile ad altre piattaforme UNIX. I files di parlato hanno una rappresentazione standard e la rappresentazione del file di annotazione è simile a quella usata da esps/xwaves. EMU è costruito in base di Tcl/Tk. Le piattaforme supportate sono Solaris, Linux, e Windows 95/NT. 1.3.6.3 Funzionalità Sono supportate opzioni di base per l’analisi e la visualizzazione del parlato, come view, “label”, “listen”, e “analyze”. E’ inoltre possibile effettuare delle ricerche per l’informazione multigerarchica. 1.3.6.4 Interfaccia utente L’interfaccia utente è un’interfaccia grafica con sottofinestre per il file di segnale, lo spettrogramma e l’informazione di etichetta. E-273 Linea 1.1 – Dialoghi Annotati 1.3.6.5 Conclusioni • Usabilità: EMU è uno strumento con funzionalità di base per l’annotazione, in particolare del segnale vocale. E’ quindi particolarmente adatto per l’annotazione prosodica. Tuttavia, altri livelli di annotazione linguistica non sono supportati. Commercialmente, è liberamente disponibile. Sono inoltre consentite ricerche di informazione multigerarchica. • Adattabilità: buona. E’ portabile su piattaforme Unix e Windows95/NT. • Estendibilità: la documentazione non permette di valutare lo strumento sotto questo punto di vista. • Grado di supporto relativamente a standard esistenti: la documentazione non permette di valutare lo strumento sotto questo punto di vista. 1.3.6.6 Documentazione Disponibile al sito http://www.shlrc.mq.edu.au/emu E-274 Linea 1.1 – Dialoghi Annotati 1.3.7 Entropic Signal Processing System (esps/xwaves+) 1.3.7.1 Introduzione ESPS/XWAVES è un ambiente per l’analisi e la visualizzazione dei dati vocali. Costituisce uno dei pacchetti software standard usati nelle tecnologie del parlato, anche in virtù della sua connessione ad un toolkit HMM detto htk. Il software è prodotto da Entropic (www.entropic.com). WAVES+ è uno strumento di visualizzazione e manipolazione interattiva dei dati specialmente adatto per il trattamento dei dati vocali, ma utilizzabile per la visualizzazione di qualsiasi tipo di dati allineati temporalmente. Include una serie di programmi per assistere nel calcolo degli spettrogrammi, nell’analisi del segnale vocale, nella conversione dei dati, e nell’applicazione di etichette temporali. Per mezzo di un’interfaccia flessibile e aperta verso ESPS (Entropic Signal Processing System) o altro programmi di analisi del segnale, waves+ può eseguire un’ampia gamma di funzioni predefinite o definite dall’utente. è un insieme di più di 200 programmi UNIX per l’analisi del segnale, la manipolazione dei dati, la visualizzazione dei dati e la costruzione di GUI. ESPS 1.3.7.2 Caratteristiche tecniche ESPS/XWAVES può essere descritto come un insieme di routines di analisi e di manipolazione del segnale vocale che possono essere messi insieme ed eseguiti da scripts di shell UNIX. XWAVES è un’interfaccia utente che usa tutte queste funzioni. Gli strumenti sono scritti in C e girano sulla maggior parte di piattaforme UNIX (Sun SPARC, SGI, HP 9000/700, DEC Alpha, PC (Linux)). I dati audio sono rappresentati in un formato specifico ma possono essere facilmente convertiti in formato ASCII; le informazioni relative alle etichette sono archiviati in formato ASCII. 1.3.7.3 Interfaccia utente L’utente può utilizzare le funzioni fornite da una shell UNIX. Tuttavia, vi è un’interfaccia-utente grafica che ha una finestra per ogni compito. Le finestre possono essere collocate in qualsiasi punto dello schermo e sono manipolate per mezzo del mouse. E’ inoltre possibile invocare delle funzioni diverse da quelle di ESPS/XWAVES dall’interno di XWAVES. E-275 Linea 1.1 – Dialoghi Annotati 1.3.7.4 Funzionalità Lo scopo principale di questo pacchetto software è l’analisi e la manipolazione del segnale vocale. Di conseguenza, tutte le funzioni principali relative a quest’area di applicazione sono presenti: funzionalità di visualizzazione, modifica e ascolto di files di segnale, funzionalità di analisi di spettro, di filtro e di sintesi. L’utente può inoltre etichettare i dati vocali. Il numero di livelli di etichetta a cui è possibile accedere simultaneamente non è ristretto. ESPS/WAVES+ è disponibile per la maggior parte degli ambienti UNIX. La versione 5.1 fornisce un manuale completo e un’esauriente documentazione in linea. Fornisce inoltre accesso interattivo a dati allineati in sequenza temporale in files di qualsiasi lunghezza e numero di canali. Genera e visualizza degli spettrogrammi di qualità con parametri di analisi interamente definibili dall’utente. Le operazioni sul segnale possono essere eseguite mediante interazioni via mouse/bottone/menu o via comandi inviati da altri processi UNIX. Le visualizzazioni dei dati composte sullo schermo possono essere trasformate in files PostScript per essere incluse in documenti o stampate. L’interfaccia-utente grafica di WAVES+ è customizzabile di modo che tutto ciò che è possibile sotto UNIX può essere invocato attraverso la GUI con i risultati immediatamente visibili per mezzo di WAVES+. Questo strumento esegue facilmente la registrazione digitale di segnale, l’editing ed il riascolto di files a canale unico e multiplo. Molti metodi di analisi di spettro sono pre-caricati in WAVES+ ed un’ampia gamma può essere aggiunta. lo strumento ALIGNER interagisce con WAVES+ per generare e visualizzare allineamenti automatici dei segnali vocali e del testo corrispondente. 1.3.7.5 Conclusioni Per gli scopi di SI-TAL xwaves è troppo esclusivamente orientato verso l’analisi del segnale vocale. Sebbene sia sostenuto che lo strumento è altrettanto adatto per il trattamento di altri tipi di dati, al momento non è possibile esprimere un giudizio sotto questo aspetto. E-276 Linea 1.1 – Dialoghi Annotati 1.3.7.6 Documentazione Ulteriore documentazione è disponibile al sito: http://www.entropic.com/products/esps_old/esps.html E-277 Linea 1.1 – Dialoghi Annotati 1.3.8 FRINGE (Università di Edinburgo) 1.3.8.1 Introduzione FRINGE è uno strumento per la visualizzazione dell’annotazione, attualmente in corso di sviluppo presso il Centre for Speech Technology Research dell’Università di Edinburgo. Una volta completato, sarà di pubblico accesso per scopi di ricerca. E’ inteso per essere usato in congiunzione con il sistema di sintesi del parlato FESTIVAL, ma è possibile che il suo uso sia molto più esteso. 1.3.8.2 Caratteristiche tecniche FRINGE è scritto in Java, per scopi di portabilità. Al momento richiede anche il codice nativo dagli Edinburgh Speech Tools per la manipolazione di oggetti di basso livello. Una versione completamente in Java sarà probabilmente disponibile in futuro. Al momento lo strumento può girare soltanto su Solaris e Linux, anche se l’interesse è ovviamente verso una maggiore portabilità del sistema. 1.3.8.3 Funzionalità FRINGE consente all’utente di vedere una struttura ad albero di diversi livelli di annotazione, o di vedere ciascun livello separatamente, insieme ad una forma d’onda. E’ possibile vedere più di una forma d’onda allo stesso tempo. Al momento sono disponibili esclusivamente le funzionalità di visualizzazione dell’annotazione; in futuro, sarà anche possibile intervenire sull’annotazione visualizzata per modificarla. La versione attuale di FRINGE è una versione sperimentale. 1.3.8.4 Interfaccia utente Le figure 1-2 illustrano uno dei modi di visualizzazione di FRINGE. E’ possibile visualizzare gli attributi di tutte le celle, ed in futuro sarà possibile crearle e modificarle. E’ inoltre possibile visualizzare una forma d’onda del parlato. E-278 Linea 1.1 – Dialoghi Annotati Figura 1 Figura 2 Una relazione unisce insieme gli elementi di uno stesso tipo linguistico. Per esempio, potremmo avere una relazione-parola, fono, sillaba o una relazione sintattica. Le relazioni sono generiche strutture a grafo, e il tipo più comune è costituito da una semplice lista con doppio legame: per esempio, la relazione-parola è una lista a doppio legame che unisce tutte le parole in una enunciazione nell’ordine in cui occorrono. Le relazioni possono anche prendere la forma ad albero. Per esempio, si ha una relazione di struttura di sillaba che rende la struttura della sillaba in nucleo e coda, che costituiscono la rima, e la struttura onset-rima. L’aspetto cruciale è rappresentato dal fatto che gli elementi possono entrare in più di una relazione. Per esempio, una relazione sintattica è un albero i cui elementi terminali sono parole, che a loro volta sono connessi nella relazione-parola. 1.3.8.5 Conclusioni I principali aspetti positivi di Fringe riguardano la portabilità del sistema su tipi di piattaforme diverse, e le strategie di visualizzazione adottate. Il suo interesse per gli scopi di SI-TAL è tuttavia E-279 Linea 1.1 – Dialoghi Annotati limitato, dal momento che le funzionalità dello strumento sono circoscritte esclusivamente alla visualizzazione di materiale già annotato. 1.3.8.6 Documentazione Disponibile presso il sito http://www.cstr.ed.ac.uk/projects/fringe.html E-280 Linea 1.1 – Dialoghi Annotati 1.3.9 MATE (Multilevel Annotation, Tools Engineering) 1.3.9.1 Introduzione MATE è uno strumento, sviluppato nell’ambito dell’omonimo progetto europeo, specificamente orientato per assistere l’utente nella costruzione di corpora annotati di materiale dialogico, ma il suo uso può essere esteso per qualsiasi insieme arbitrario di files connessi mediante legami di hyperlinking in XML. In particolare, l’uso di MATE è previsto in congiunzione con corpora annotati a più livelli di annotazione linguistica. Il progetto ne prevede cinque: prosodico, morfosintattico, sintattico, di co-referenza, e pragmatico. Particolare attenzione viene anche dedicata agli aspetti di intercorrelazione dell’informazione annotata su più livelli diversi. Lo strumento è offerto con in dotazione un insieme di dati pre-annotati e con gli schemi di annotazione corrispondenti ai livelli descritti sopra. Tuttavia, la caratteristica principale di MATE è quella di permettere la definizione di un numero arbitrario di schemi di annotazione per un numero arbitrario di livelli di annotazione. L’utente, oltre a definire il tipo di informazione che vuole codificare relativamente ad un certo corpus, può anche scegliere la modalità di visualizzazione del corpus annotato. Anche in questo caso, vengono fornite delle modalità di visualizzazione pre-definite. Infine, lo strumento offre delle funzionalità per l’estrazione di informazione. 1.3.9.2 Caratteristiche tecniche MATE è interamente implementato in Java, ed il formato supportato è XML. 1.3.9.3 Funzionalità e Interfaccia utente MATE si configura come uno strumento per l’annotazione di corpora dialogici, la visualizzazione dell’informazione annotata, e la ricerca di informazione per un numero arbitrario di parametri. MATE prende in input dati trascritti in formato ASCII o XML, e restituisce dei dati annotati su uno o più livelli di informazione. Il formato di output è XML. Funzionalità per la trascrizione: assenti Funzionalità per l’annotazione: permette l’annotazione di files importati in XML ad un numero arbitrario di livelli e con schemi definiti dall’utente; i livelli e gli schemi di annotazione preinstallati concernono il livello di annotazione prosodica, quello morfosintattico e sintattico, il livello di co-referenza, il livello pragmatico ed il livello di problemi della comunicazione. Funzionalità per la visualizzazione e l’esplorazione: MATE permette di visualizzare i dati annotati ai diversi livelli, secondo modalità e stili sia predefiniti che definiti dall’utente. L’utente può anche scegliere di visualizzare combinazioni di informazione annotata a livelli distinti (per esempio, informazione pragmatica associata ad informazione prosodica), estratta mediante le funzionalità di estrazione di informazione. La stessa funzionalità può essere utilizzata per paragonare le annotazioni eseguite da annotatori diversi. Funzionalità per la ricerca: MATE offre la possibilità di eseguire ricerche sul materiale annotato e su qualsiasi documento codificato in XML secondo combinazioni arbitrarie di parametri mediante un linguaggio ed un processore di ricerca potenti, implementati come moduli indipendenti del software. E-281 Linea 1.1 – Dialoghi Annotati Funzionalità di import/export: sono disponibili funzioni di importazione dal formato BAS Partitur e dal formato Xwaves Xlabel di Entropic a XML mediante due convertitori interni. 1.3.9.4 Conclusioni • Usabilità: MATE è uno strumento, a breve liberamente disponibile, che supporta l’annotazione multi-livello; l’annotazione può essere customizzata mediante la definizione di tagsets definiti dall’utente. L’interfaccia utente è semplice ed intuitiva. Possiede utili funzionalità di visualizzazione e di ricerca del materiale annotato. • Adattabilità: ottima. Gli utenti possono definire i propri schemi di annotazione e le modalità di visualizzazione dell’annotazione. Essendo scritto in Java, è portabile su tipi di piattaforma diverse. E’ portabile su piattaforme Unix e Windows95/NT. • Estendibilità: è prevista l’integrabilità di moduli autonomi esterni come quelli già esistenti per l’esecuzione di ricerche e per la visualizzazione e l’annotazione del segnale vocale. • Grado di supporto relativamente a standard esistenti: MATE fa uso di XML come formato di rappresentazione dell’annotazione e come formato di rappresentazione interno. 1.3.9.5 Documentazione Disponibile presso il sito del progetto MATE: http://mate.nis.sdu.dk Per una panoramica delle specifiche di MATE, vedi anche: http://www.cogsci.ed.ac.uk/~amyi/mate/report.html E-282 Linea 1.1 – Dialoghi Annotati 1.3.10 Nb – Nota Bene 1.3.10.1 Introduzione Nb è uno strumento software per l’annotazione della struttura discorsiva di dati dialogici, monologici e testuali, dotato di un’interfaccia-utente grafica. Istruzioni di annotazione e teorie diverse relative all’interpretazione e alla generazione del discorso possono essere facilmente incorporate nel processo di annotazione senza che sia necessario cambiare l’interfaccia-utente grafica. Le istruzioni ed il testo annotato sono visualizzate in modo chiaro, e la digitazione manuale è ridotta al minimo. 1.3.10.2 Caratteristiche tecniche Nb è scritto in Tcl/Tk (Tcl Versione 7.4 e Tk Versione 4.0 o superiore). Sono disponibili sia una versione per Windows 95/NT che una versione per Unix. 1.3.10.3 Funzionalità Funzionalità per la trascrizione: assenti Funzionalità per l’annotazione: Nb è uno strumento che offre funzioni per l’annotazione e la visualizzazione di dati testuali, siano essi dialogici che monologici. Nb offre la possibilità di annotare testi al livello pragmatico, in termini di segmenti relativi ad un determinato argomento, atti dialogici ecc. Tuttavia, è possibile importare delle etichette definite dall’utente. Le principali caratteristiche funzionali sono le seguenti: 1. Vi sono delle etichette definite per gli atti del discorso (corrispondenti al livello pragmatico in SI-TAL) 2. L’insieme di etichette può essere esteso dall’utente 3. La versione Unix del software dovrebbe avere la possibilità di mostrare immagini, ascoltare files di suono e visualizzare alberi sintattici (cfr. Fig. 1 e 2). La versione per Windows non ha queste caratteristiche. Funzionalità per la visualizzazione: l’annotazione viene visualizzata scegliendo l’opzione “Annotation” dal menù “View”. E’ inoltre possibile confrontare due annotazioni diverse che vengono mostrate in due finestre separate contemporaneamente disponibili. E-283 Linea 1.1 – Dialoghi Annotati Figura 1. La finestra di visualizzazione degli alberi sintattici. Un albero mostra l’incassamento delle etichette. Figura 2. Un’altra finestra di visualizzazione dell’analisi sintattica. Funzionalità per la ricerca: assenti. Il menù di Nb (tratto dalla versione per Windows): E-284 Linea 1.1 – Dialoghi Annotati File • Open (l’utente seleziona un file da aprire) • Save • Exit Tag (customizzabile dall’utente) • Segment (questo comando delimita delle porzioni di testo arbitrariamente definite dall’utente) List_Movies_Playing_At_The_Theater Where_Is_This_Movie_Playing ... (ulteriori segmenti disponibili in base al tagset in uso) • Topic Movie Location ... (ulteriori argomenti disponibili in base al tagset in uso) View • Annotation (apre una finestra in cui l’annotazione della segmentazione è visualizzata mediante colori diversi e visualizza la barra colorata, cf. figura 3) • Colors (apre una finestra che contiene una lista delle etichette e dei colori usati) • Find Text (apre una finestra in cui si può scrivere una stringa di testo da trovare nel documento. Tutte le occorrenze di quel testo vengono poi marcate nel documento) • Parse (non ancora implementata nella versione per Windows 95/NT. Manca nella versione Unix) Edit • Undo Last • List Tags (apre una finestra contenente una lista delle etichette usate nel documento. In questa finestra i nomi delle etichette possono essere modificati) • Add Choice (una nuova etichetta può essere definita e inserita nel menù Tag) Mode (definisce il modo di annotazione) • Tag Words • Tag Lines • Edit Text (permette all’utente di modificare il testo nel documento) Help • ... (La versione per Windows ha una lista di otto argomenti d’aiuto. La versione per Unix fornisce un documento d’aiuto più dettagliato contenente hyperlinks ad altre pagine, esempi ed esercizi) • About Nb 1.3.10.4 Interfaccia utente 1. la maggior parte delle attività sono eseguite nella finestra principale, dove è visualizzato il documento da annotare 2. le parole annotate sono evidenziate mediante colori diversi 3. in una finestra di visualizzazione dell’annotazione, una barra colorata sulla sinistra della finestra principale mostra i livelli di incassamento della segmentazione, vedi fig. 3. 4. i menù possono essere staccati e posizionati in una posizione qualsiasi sullo schermo E-285 Linea 1.1 – Dialoghi Annotati 5. Una finestra separata e una barra di informazione situata nella parte inferiore della finestra principale mostra informazioni relative all’etichetta indicata dal mouse Figura 3. Alcune schermate di Nb. Da sinistra: la trascrizione del testo, il testo segmentato e la visualizzazione dell’annotazione E-286 Linea 1.1 – Dialoghi Annotati Figura 4. La finestra di visualizzazione dell’annotazione. 1.3.10.5 • Conclusioni Usabilità: Nel complesso, Nb è uno strumento di uso facile ed intuitivo, anche per utenti non esperti. L’installazione è molto facile. La visualizzazione contiene molte caratteristiche utili che facilitano il compito di annotazione: ad esempio, la barra di informazione che contiene informazione sulle etichette è molto utile; è disponibile la funzione Undo, che permette di annullare qualsiasi cambiamento indesiderato. Una finestra di messaggi separata mostra dei messaggi informativi sulle operazioni svolte. Le pagine di aiuto sono di grande ausilio per l’utente, con ricchezza di esempi ed esercizi. Per quanto riguarda gli aspetti negativi, la visualizzazione dell’annotazione mediante colori diversi può risultare poco efficace, specie se si usano molte etichette diverse nello stesso documento. Le etichette sovrapposte non sono permesse. La versione per Windows non permette la visualizzazione degli alberi sintattici, né di ascoltare files di suono o di visualizzare immagini grafiche. La versione per Unix dovrebbe supportare queste caratteristiche, ma non sono state trovate. Le versioni per Windows e per Unix differiscono in alcune funzionalità. Per esempio, la versione Unix non possiede le opzioni “Tag Words” e “Edit Text” nel menù Mode. L’utente non può aggiungere nuovi segmenti/argomenti alla lista dei segmenti/argomenti esistente. Nel complesso, le funzionalità sono purtroppo ancora limitate rispetto alle esigenze in Si-TAL. E-287 Linea 1.1 – Dialoghi Annotati • Adattabilità: l’adattabilità dello strumento è discreta, in considerazione della sua disponibilità per almeno due tipi di piattaforme diverse. La possibilità di definire le etichette e i tagsets permette un’ampia gamma di usi e la portabilità a schemi di annotazione diversi. • Estendibilità: la documentazione non permette di valutare lo strumento sotto questo punto di vista. • Grado di supporto relativamente a standard esistenti: lo strumento supporta il formato SGML. 1.3.10.6 Documentazione Ulteriori informazioni sono disponibili al sito: http://www.sls.lcs.mit.edu/~flammia/Nb.html E-288 Linea 1.1 – Dialoghi Annotati 1.3.11 TATOE 1.3.11.1 Introduzione TATOE (Text Analysis Tool with Object Encoding) è uno strumento di supporto per l’analisi testuale, sviluppato da Melina Alexa (ZUMA, Mannheim, Germania), e da Lothar Rostek (GMD, Darmstad, Germania). Offre funzionalità per l’esplorazione di corpora annotati e per l’annotazione automatica e semi-automatica di dati testuali, e supporta un’ampia gamma di funzioni connesse all’analisi testuale multi-livello assisitita da computer. 1.3.11.2 Caratteristiche tecniche TATOE è implementato in VisualWorks© Smalltalk di ObjectShare (http://www.objectshare.com). Ha un modello di dati orientato a oggetti object-oriented, che è basato su Terminology Framework, che consente l’integrazione di risorse terminologiche orientate al concetto e alla parola e su Smalltalk Frame Kit (SFK), uno strumento di modellizzazione objectoriented, che offre un’ampia gamma di caratteristiche per rendere operative le descrizioni di modello. I corpora e le annotazioni ad esse associate sono archiviati come una rete di unità di informazione connesse sotto forma di oggetti (per un approccio simile, vedi MATE, sez. 1.3.9). 1.3.11.3 Funzionalità TATOE supporta l’analisi semi-automatica dei testi in un’ampia gamma di domini. L’analisi opera su livelli multipli quando è usato più di uno schema di annotazione. Alcune delle principali funzioni di TATOE sono descritte brevemente di seguito. Funzionalità per la trascrizione: assenti Funzionalità per l’annotazione: creazione e mantenimento di schemi di annotazione piatti o strutturati; codifica semi-automatica o manuale del testo sulla base di schemi di annotazione diversi. Funzionalità per la visualizzazione: interazione, in molti modi diversi, con testi già annotati e presentazione del testo e dell’annotazione in varie modalità di visualizzazione; definizione dello stile di visualizzazione dell’annotazione esistente. Funzionalità per la ricerca: esecuzione di ricerche su testo e su testo annotato; elaborazione di grafi distribuzionali di co-occorrenza; definizione di schemi di ricerca complessi, consentendo la combinazione di categorie di schemi e di stringhe diverse. Funzionalità di import/export: i dati testuali possono essere importati in formato ASCII, HTML e XML. E’ inoltre possibile l’importazione di dati testuali contenenti marcatori strutturali (come ad esempio testi dialogici con indicazione dei limiti di turno), e l’importazione di dati testuali analizzati morfologicamente (questa funzione è disponibile soltanto per il tedesco); l’annotazione viene archiviata in uno schema separato, riutilizzabile per analisi successive. L’esportazione dell’annotazione può avvenire verso in un file con sintassi SPSS©; i dati completi possono essere esportati in XML e HTML. Il menù di TATOE: E-289 Linea 1.1 – Dialoghi Annotati File • • • • Open TextBase: apre un file che contiene dati testuali Print… Import… Export… • current screen content: salva uno o più testi selezionati come files ASCII • selected texts to HTML: salva uno o più testi selezionati come HTML • selected texts for tagging: salva uno o più testi selezionati nel formato di input per il tagger morfosintattico connesso a TATOE (Morphy tagger; per il tedesco) • open export screen: apre la pagina export del Notebook • Exit Sort Word/Code Index: contiene opzioni per l’ordinamento degli elementi che si trovano nella lista contenuta nel pannello Word/Category Index • Sort • by name: ordina la lista alfabeticamente • by frequency: ordina per frequenza i lemmi delle parole che occorrono più di una volta nel • • • corpus by nr of paragraphs: elenca per frequenza gli elementi che occorrono nella maggior parte dei paragrafi del corpus by nr of texts: elenca per frequenza gli elementi che occorrono nella maggior parte dei testi del corpus hapax legomena: elenca i lemmi che occorrono una sola volta nel corpus Count: contiene opzioni per la costruzione di tavole di distribuzione della frequenza di occorrenza dei segmenti codificati e per l’ottenimento di calcoli statistici • concept types: tutte le occorrenze dei segmenti annotati per lo schema di annotazione visualizzato • concept types (cumulative): il totale di tutti i tipi di segmenti annotati con il totale cumulativo dei segmenti annotati con le categorie più generali di uno schema (organizzato gerarchicamente) • concept tokens: tutte le occorrenze identiche di segmenti annotati per ogni categoria dello schema di annotazione selezionato • concept token (cumulative): il totale di tutte le occorrenze dei segmenti annotati con il totale cumulativo dei segmenti annotati con le categorie più generali di uno schema (organizzato gerarchicamente) • text stats: apre una finestra con informazioni varie su tutti i tipi principali di oggetti (lemmi, parole, testi, paragrafi, schemi, ecc.) Concordance: permette di visualizzare i testi in modi diversi, a seconda delle opzioni scelte • Full text: riporta la visualizzazione da una visualizzazione di concordanze a una di testo intero • selection concordance: visualizza le concordanze per una parola selezionata • category concordance: visualizza le concordanze per una determinata categoria di schema • term concordance: visualizza le concordanze per un segmento selezionato • pattern: apre la pagina “pattern” del Notebook • lists: apre la pagina “lists” del Notebook • KWIC (Key Words In Context) • right sorted: visualizza le occorrenze di una parola o una sequenza di parole, e ordina • alfabeticamente i segmenti che occorrono alla destra del segmento selezionato left sorted: visualizza le occorrenze di una parola o una sequenza di parole, e ordina alfabeticamente i segmenti che occorrono alla sinistra del segmento selezionato E-290 Linea 1.1 – Dialoghi Annotati Cooccurences: genera una lista di frequenza di parole o “sintagmi” che co-occorrono con una parola o una sequenza di parole selezionata • • • • • left and right context words left content words left context phrases right context words right context phrases Coding • open Coding Screen: apre la finestra di codifica per annotare un testo o per modificare • l’annotazione esistente Categorisation Scheme: apre la pagina “Categorisation Scheme” del Notebook Tatoe_Notebook: apre una nuova finestra che contiene le varie possibilità di operazione in TATOE organizzate come segnalibri di un taccuino. Misc: fornisce una lista delle finestre aperte Help • • Contents: indice tematico con parole-chiave per cercare aspetti particolari di TATOE About Tatoe: descrizione generica dello strumento 1.3.11.4 Interfaccia utente TATOE fornisce un’interfaccia intuitiva per l’esplorazione e la codifica dei testi. La figura seguente illustra una schermata della finestra principale. E-291 Linea 1.1 – Dialoghi Annotati 1.3.11.5 Conclusioni TATOE presenta un insieme di caratteristiche molto interessanti per un suo possibile uso in SITAL. In particolare: • Usabilità: Lo strumento è distribuito gratuitamente. Sono comprese tutte le funzioni principali di annotazione, visualizzazione e ricerca. Per quanto riguarda gli aspetti negativi, l’uso dello strumento risulta poco intuitivo per utenti non esperti. • Adattabilità: ottima. La possibilità di definire le etichette e gli insiemi di etichette permette un’ampia gamma di usi e la portabilità a schemi di annotazione diversi. Non è tuttavia possibile adattare lo strumento alle esigenze dell’annotazione prosodica. • Estendibilità: la documentazione non permette di valutare lo strumento sotto questo punto di vista. • Grado di supporto relativamente a standard esistenti: lo strumento supporta il formato XML. E-292 Linea 1.1 – Dialoghi Annotati 1.3.11.6 Documentazione Ulteriori informazioni sono disponibili presso il sito di TATOE: http://www.darmstadt.gmd.de/~rostek/tatoe.htm Alexa, M. & L. Rostek. 1996. Computer-assisted corpus-based text analysis with TATOE. E-293 Linea 1.1 – Dialoghi Annotati 1.3.12 TRANSCRIBER 1.3.12.1 Introduzione TRANSCRIBER è uno strumento, sviluppato presso il Linguistic Data Consortium, che serve per la segmentazione, l’etichettatura e la trascrizione manuali di corpora di parlato. In particolare, è specificamente progettato per la trascrizione di registrazioni di tipo televisivo (notiziari) di lunga durata, con etichettatura dei turni e dei cambiamenti di argomento. 1.3.12.2 Caratteristiche tecniche Il linguaggio di programmazione è Tcl/Tk con estensioni in C. TRANSCRIBER si avvale dell’estensione di suono Snack, che consente di supportare la maggior parte dei formati audio, ed il generatore lexer tcLex. E’ stato testato su vari sistemi Unix (Linux, Sun Solaris, Silicon Graphics) e Windows NT. Distribuito liberamente come freeware sotto la GNU General Public License. 1.3.12.3 Funzionalità TRANSCRIBER è uno strumento software che serve per velocizzare la fase di trascrizione del segnale vocale. Pertanto le sue funzionalità sono limitate esclusivamente a questo aspetto. Le caratteristiche principali sono le seguenti: • trattamento di diversi livelli di segmentazione: segmentazione di base per la trascrizione ortografica, segmentazione in turni (ogni nuovo parlante), e segmentazione in sezioni (nuovo argomento); questi tre livelli sono gerarchicamente incassati. E’ inoltre disponibile una quarta segmentazione per segnalare le condizioni acustiche di sottofondo. • visualizzazione delle segmentazioni sotto il segnale e nell’editor di testo; visualizzazione di ogni segmentazione sotto il segnale può essere disattivata con un menù contestuale. • editing della trascrizione ortografica della segmentazione di base in un editor di testo • i cursori nella finestra dell’editor di testo e nella finestra di segnale sono sempre sincronizzati: non appena il cursore si muove in una finestra si muove anche quello nell’altra ed appare all’interno dello stesso segmento • facile creazione della segmentazione di base per mezzo di inserimenti successivi di delimitazioni nella posizione corrente del cursore, senza interrompere l’ascolto • i segnali di delimitazione dei segmenti possono essere spostati mediante il mouse • modifica (eliminazione inclusa) di turni, sezioni o condizioni di background con un clic del mouse sul bottone corrispondente nell’editor • mantenimento di una lista dei parlanti con una precisa descrizione di ognuno (nome, tipo, accento, …), e modifica delle caratteristiche della lista • ricerca di turni che riguardano un parlante particolare, importazione di parlanti da un’altra trascrizione E-294 Linea 1.1 – Dialoghi Annotati • mantenimento di una lista di argomenti; ritrovamento di sezioni relative ad un argomento; importazione di argomenti da altri files • trattamento specifico del parlato in sovrapposizione con marcatori per ogni parlante nell’editor di testo • inserimento di eventi predefiniti (rumori, segnali di pronuncia, marcatori lessicali, cambi di lingua); visualizzazione degli eventi definita dall’utente (carattere, colore, formato); modifica o rimozione mediante clic sull’evento nel testo • caratteristiche standard degli editori di testo: funzioni di cut/copy/paste, find/replace, undo • glossario di espressioni o parole predefinite • trascrizioni in formato XML; validazione sintattica dei files sulla base della loro DTD • quando un file viene aperto viene effettuata una ricerca automatica del file audio corrispondente; se nessun file viene trovato, viene richiesto all’utente di specificarne uno. • importazione di trascrizioni .typ in formato .typ e vari modi di annotazione (xwaves, OGI, …); esportazione verso .typ e .stm • le versioni precedenti sono mantenute in un file di backup Gli aspetti relativi al trattamento del segnale vocale sono i seguenti: TRANSCRIBER supporta la maggior parte dei formati audio standard (.wav, .au, .snd, .aiff, .smp, e Sphere); è in grado di trattare files audio di lunga durata (fino a diverse ore). E’ consentito l’accesso diretto a qualsiasi posizione nel segnale, ed è possibile selezionare parte del segnale. Durante l’ascolto, il cursore viene sincronizzato. Sono disponibili diversi modi di ascolto per mezzo di combinazioni di comandi da tastiera: play/pause, play the current segment, the selection, around the cursor. E’ possibile cambiare interattivamente la risoluzione senza interrompere l’ascolto, e due diverse visualizzazioni del segnale, a due risoluzioni diverse, sono visualizzabili contemporaneamente. Altre caratteristiche generali riguardano operazioni standard di adattamento delle finestre, definizione di colori e caratteri, funzionalità di informazione relative alle sessioni di lavoro, ecc. 1.3.12.4 Interfaccia utente La finestra principale di TRANSCRIBER è mostrata nella figura seguente. La metà superiore della finestra contiene la barra di menù e la sottofinestra di editor di testo nella quale è possibile digitare la trascrizione. Ogni nuova sezione, corrispondente ad un nuovo argomento, è segnalata da un bottone arancione in mezzo alla linea. Ogni nuovo parlante è segnalato da un bottone blu sulla sinistra della linea in cui è contenuta la trascrizione. Al centro della finestra si trova una barra di bottoni che serve per l’ascolto del segnale o per la visualizzazione di informazioni. Nella parte inferiore della finestra compaiono il segnale ed i vari tipi di segmentazione, che è sincronizzata con il segnale. E-295 Linea 1.1 – Dialoghi Annotati 1.3.12.5 Conclusioni TRANSCRIBER è uno strumento specificamente progettato per la creazione di trascrizioni da files audio; un’ampia gamma di funzionalità è presente, che complessivamente rendono lo strumento una scelta raccomandabile per la costruzione di trascrizioni in un corpus. L’uso è molto semplice, e l’interfaccia-utente configurabile. Il suo uso in SI-TAL potrebbe dunque essere di complemento e supporto alla fase di costruzione del corpus. 1.3.12.6 Documentazione Ulteriori informazioni sono disponibili presso il sito: http://morph.ldc.upenn.edu/mirror/Transcriber/ E-296 Linea 1.1 – Dialoghi Annotati 1.4 Tavole comparative ALEMBIC ANNOTAG CLAN funzionalità per la no trascrizione no funzionalità per sì l’annotazione sì, limitata a sì livello pragmatico sì, limitata a livello pragmatico permette l’annotazione multilivello no no no funzionalità per sì visualizzazione e ricerca ??? ricerca visualizzazione funzionalità import/export sì ?? no di ??? no DAT no usabilità buona buona buona non eccellente adattabilità buona buona buona scarsa estendibilità ??? difficoltosa ??? ??? standard supportati SGML possibile estensione SGML e XML nessuno scarsa DIET a EMU ESPS/XWAVES+ funzionalità per la no trascrizione no funzionalità per sì l’annotazione etichettatura del sì segnale vocale no permette l’annotazione multilivello sì no sì funzionalità per sì visualizzazione e ricerca ricerca sì sì funzionalità import/export ??? ?? ??? sì, a tre livelli di ??? no FRINGE no usabilità buona limitata al livello limitata al livello buona prosodico prosodico adattabilità buona buona limitata - standard XML ??? - - E-297 Linea 1.1 – Dialoghi Annotati supportati MATE NB TATOE TRANSCRIBER funzionalità per la no trascrizione no no sì funzionalità per sì l’annotazione sì sì no permette annotazione multilivello no sì - display sì - sì sì sì funzionalità per sì visualizzazione e ricerca funzionalità import/export di sì usabilità ottima discreta discreta ottima adattabilità ottima - ottima - standard supportati XML quasi-SGML XML, HTML XML; tutti i principali standard di formato audio E-298 Linea 1.1 – Dialoghi Annotati 2 Specifiche software E-299 Linea 1.1 – Dialoghi Annotati In questa sezione illustriamo le specifiche relative agli strumenti software di ausilio all’annotazione, all’estrazione e alla visualizzazione dell’informazione annotata ai diversi livelli previsti per la componente Dialoghi Annotati in SI-TAL. La sezione si struttura nel modo seguente: 2.1 Introduzione Nel capitolo relativo alla descrizione dello stato dell’arte degli strumenti software (vedi parte III, cap. I) sono stati presentati numerosi strumenti che, del tutto o in parte, rispondono alle esigenze specifiche del tema. Alcuni di essi si prestano ad essere considerati come potenziali candidati per essere acquisiti in TAL. A tal fine, tuttavia, è necessario che uno strumento soddisfi alcuni requisiti di base: a) funzionalità richieste: gli strumenti devono possedere le funzionalità rilevanti per il loro utilizzo in SI-TAL. In particolare, essi devono offrire funzionalità di ausilio all’annotazione, funzionalità per la visualizzazione dell’informazione annotata, funzionalità di esplorazione del corpus annotato ed infine funzionalità di estrazione dell’informazione. Dette funzionalità devono essere disponibili per ognuno dei livelli per i quali è prevista l’annotazione ed inoltre deve essere possibile condurre ricerche avanzate relativamente alle relazioni inter-livello fra le annotazioni. b) adattabilità: gli strumenti devono poter essere facilmente adattabili agli schemi di annotazione sviluppati in SI-TAL; c) estendibilità: gli strumenti devono poter essere facilmente estendibili, ovvero è necessario che nuove funzioni possano essere aggiunte o modificate a seconda delle necessità; d) formato dei dati di input/output: in considerazione dell’orientamento generale del progetto SI-TAL verso l’adozione del formato XML, lo strumento per la componente Dialoghi Annotati deve supportare questo formato; e) piattaforma: per aumentarne le potenzialità di utilizzo futuro, lo strumento dovrebbe essere utilizzabile su tipi diversi di piattaforme. f) disponibilità commerciale: gli strumenti devono essere liberamente utilizzabili; La maggior parte degli strumenti esaminati nella fase di rassegna soddisfa solo in parte questi requisiti. I motivi principali sono i seguenti: • i programmi esistenti sono spesso strettamente dipendenti da uno o più schemi di annotazione particolari, contravvenendo così ai requisiti di adattabilità ed estendibilità. In tal caso, uno strumento può essere usato esclusivamente in congiunzione con lo schema che è fornito insieme al software, o per il quale il software è stato sviluppato, mentre è necessario che schemi diversi da quello/i originariamente previsti possano essere importati E’ questo il caso, ad esempio di DAT e NB; • i programmi esistenti spesso limitano il numero di livelli di annotazione possibili, mentre è necessario che il numero ed il tipo di annotazioni linguistiche supportabili sia arbitrario, sia per gli scopi immediati in SI-TAL, che per l’utilizzo futuro dello strumento; E-300 Linea 1.1 – Dialoghi Annotati • le interfacce-utente sono cablate, per cui è difficoltoso cambiare la visualizzazione dell’annotazione per fornire la rappresentazione più adeguata ed intuitiva delle annotazioni. Idealmente, dovrebbe essere possibile adattare le modalità di visualizzazione a seconda del tipo di annotazione. Inoltre, alcune modalità di visualizzazione non si prestano per le loro caratteristiche alla rappresentazione di annotazioni complesse con molti tipi diversi di elementi. Ad esempio, l’uso di colori distinti come in NB per contrassegnare i diversi elementi di un testo annotato è improponibile per un’annotazione a più livelli e con più elementi come quella sviluppata in SI-TAL. • la maggior parte degli strumenti esistenti non supporta gerarchie multiple di elementi. Questo significa che non è possibile per questi strumenti implementare annotazioni inter-livello né gestire annotazioni complesse su più livelli di descrizione linguistica • non forniscono la possibilità di permettere tipi diversi di azioni di editing in modo controllato ma flessibile • non forniscono un linguaggio di ricerca; in altre parole, permettono soltanto di mostrare all’annotatore un sottoinsieme dei dati, senza la possibilità di condurre ricerche che coinvolgano più di un parametro. • sono spesso piattaforma-dipendenti Di contro a questa situazione generale, lo strumento software sviluppato nell’ambito del progetto MATE (vedi MATE, 1998) e descritto nel capitolo precedente, par. 1.3.9 sembra possedere tutte le funzionalità necessarie per l’uso e l’applicazione in SI-TAL. In considerazione della adeguatezza dello strumento ai requisiti e alle necessità imposte dal tema Dialoghi in SI-TAL, pare estremamente opportuno e conveniente adottare MATE come strumento software a supporto del corpus di dialoghi annotati. La sua disponibilità commerciale e la flessibilità d’uso costituiscono un bonus aggiuntivo. Le specifiche software che seguono consistono dunque in una descrizione dell’architettura e delle funzionalità dello strumento MATE. Eventuali modifiche e integrazioni costituiranno parte della fase di sviluppo e adattamento del software e saranno oggetto della Linea 1.3 del progetto. 2.2 Il Software di MATE 2.2.1 Introduzione Il software sviluppato nell’ambito del progetto MATE, d’ora in poi denominato semplicemente MATE, possiede caratteristiche estremamente interessanti per gli scopi del tema Dialoghi Annotati in SI-TAL. MATE si presenta come uno strumento specificamente orientato al trattamento del parlato, per il quale fornisce supporto per la trascrizione e l’annotazione. Si tratta quindi di uno strumento dedicato e non sviluppato in primo grado per lo scritto e successivamente adattato all’utilizzo su corpora di parlato. Le funzionalità di base di MATE includono la visualizzazione, la creazione e la modifica di corpora, l’annotazione di corpora, l’aggiunta di nuovi livelli di annotazione e la modifica di quelli E-301 Linea 1.1 – Dialoghi Annotati esistenti, l’esecuzione di ricerche su tutto il corpus o su parte di esso, e la visualizzazione o l’output dei risultati. Sono incluse delle funzionalità per la visualizzazione flessibile dell’annotazione e per la sua modifica, e un sistema complesso per la ricerca sul corpus. MATE offre un approccio più flessibile della maggior parte degli strumenti di annotazione esistenti, che sono in genere progettati per servire uno specifico schema di annotazione. Al contrario, qualsiasi schema di annotazione può essere utilizzato con MATE. MATE usa XML come linguaggio di markup delle annotazioni e come linguaggio di rappresentazione interna del corpus annotato (vedi par. 3.3). Viene inoltre utilizzato un particolare linguaggio di trasformazione mediante il quale è possibile definire degli editori specializzati e ottimizzati per particolari compiti di annotazione, con annessi formati di visualizzazione adatti e operazioni di editing customizzate. La caratteristica principale di MATE è il suo alto grado di flessibilità e adattabilità: l’utente può infatti non solo scegliere lo schema di annotazione che desidera implementare, ma anche il modo in cui desidera che sia visualizzato il corpus annotato e le azioni di modifica e esplorazione che vuole rendere disponibili. Non solo, quindi, è possibile implementare nuovi schemi di annotazione, ma le stesse funzioni di visualizzazione e modifica possono essere definite dall’utente, in base e allo schema di annotazione implementato e ai suoi bisogni particolari. Questo costituisce un grosso vantaggio rispetto alla pratica corrente di riutilizzare degli strumenti sviluppati per un determinato tipo di annotazione; infatti, anche se è possibile importare schemi di annotazione diversi da quello originario, gli strumenti non sono mai abbastanza flessibili da permettere la riconfigurazione delle funzioni di visualizzazione e di editing in modo tale che tutta e solamente l’informazione rilevante per quel determinato compito di annotazione viene mostrata. MATE offre questa flessibilità permettendo all’utente di scrivere i cosiddetti stylesheets, ovvero delle regole (basate sul linguaggio di trasformazione XSLT, vedi sez. 3.5) che descrivono il modo in cui il corpus deve essere presentato agli annotatori e quali azioni di editing devono essere permesse. Lo strumento offre comunque un certo numero di stylesheets predefiniti, da usare con gli schemi di annotazione di cui lo strumento è fornito. MATE è scritto interamente in Java, con conseguenze positive sulla portabilità del sistema; sfortunatamente, questo tipo di linguaggio di programmazione limita la velocità del sistema. La modularità dello strumento e la chiara definizione delle strutture di dati e delle interfacce (API) facilitano l’inclusione di componenti aggiuntive da parte degli utenti, la modifica e il miglioramento degli strumenti ed il loro adattamento. NOTA IMPORTANTE: la descrizione delle funzionalità di MATE si basa sulle specifiche software del progetto e sull’uso della versione 0.03 dello strumento (17 Nov 99). Poiché lo strumento è ancora in corso di sviluppo e affinamento, è possibile che alcune delle caratteristiche e funzionalità finali dello strumento differiscano da quelle descritte in questa sede. 2.2.2 Approccio Lo strumento software di MATE è specificamente orientato alla soluzione degli inconvenienti menzionati nell’Introduzione, per mezzo di un approccio basato su XML (Extensible Markup Language) e XSL (Extensible Stylesheet Language), permettendo così l’uso di un insieme qualsiasi E-302 Linea 1.1 – Dialoghi Annotati di files codificati in XML. A causa di questa genericità, lo strumento deve supportare un potente linguaggio di ricerca per selezionare dei sottoinsiemi dell’annotazione. Un ulteriore elemento necessario è un modo altrettanto generale per descrivere la proiezione dell’annotazione XML su oggetti di visualizzazione (display objects), ovvero ciò che gli utenti vedono sullo schermo e come possono interagire con questa rappresentazione. La scelta di utilizzare un insieme di files XML connessi fra loro invece di un unico file XML è di aiuto nella rappresentazione di gerarchie multiple in sovrapposizione, necessarie per annotazioni multi-livello (vedi Carletta, in pubbl.). Il collegamento dalle annotazioni, in formato XML, a files non XML come file audio o video avvengono mediante i nomi dei files audio e i marcatori temporali contenuti in questi files. L’architettura generale di MATE consiste in un database interno, un linguaggio ed un processore di ricerca, un linguaggio ed un processore di stylesheet, un processore di visualizzazione, ed una interfaccia utente. La rappresentazione interna (RI) rappresenta la struttura di un insieme di files XML connessi mediante il meccanismo di hyperlinking. Sono disponibili delle funzioni per caricare e rendere dei files XML dentro e fuori dal database. Il linguaggio ed il processore di ricerca sono usati per selezionare parti della struttura del corpus. Il linguaggio di stylesheet descrive le trasformazioni strutturali ed il processore di stylesheet implementa questo linguaggio. L’output di una trasformazione applicata ad un documento può essere o un altro documento o un insieme di display objects. Il processore di visualizzazione prende in input il display object che è output della trasformazione di stylesheet e lo mostra all’utente. Questa visualizzazione strutturata è inserita in una interfaccia utente che fornisce le funzionalità standard. 2.2.3 La rappresentazione interna dei corpora codificati in XML La rappresentazione interna scelta è piuttosto semplice e standard. Ogni elemento XML ed ogni stringa associata sono rappresentati come un oggetto Java. Ogni oggetto consiste di coppie di proprietà con associato un valore. L’intera rappresentazione interna consiste quindi di triple <nodo, proprietà, valore>. Le proprietà generalizzano gli attributi di un elemento XML e la maggior parte di esse sono attributi con valori di tipo stringa, ma alcune hanno dei valori che sono liste di altri nodi nella rappresentazione interna, per esempio le proprietà *figlio e *padre. Come estensione allo standard Document Object Model (DOM; vedi W3C 1998), anche le DTD sono rappresentate come oggetti. I tipi di nodi e le loro relazioni sono rappresentati in Figura 1. In questa architettura, i files interi sono caricati in memoria ed elaborati come un gruppo unico. L’alternativa possibile sarebbe quella di fornire un’interfaccia in cui i files più grandi sono letti ed elaborati una sezione alla volta (dove il concetto di sezione sarebbe definito da una ricerca sulla struttura XML del file). 2.2.3.1 Nodi “padre” multipli Per permettere documenti multipli e gerarchie in sovrapposizione, necessarie per descrivere parlanti multipli e livelli multipli di annotazione in corpora di dialoghi, è stata apportata un’importante estensione al modello DOM della struttura XML, ovverosia che i nodi nella RI possono avere padri multipli. Ogni nodo ha un padre privilegiato che è l’elemento-padre nello stesso file del nodo. Tuttavia, un nodo può essere un figlio di altri elementi in files diversi. Per esempio, un elemento <word> può essere figlio di un lemento <wordlist>, ma anche figlio di un elemento <phrase>. Il collegamento aggiuntivo fra elementi è fatto per mezzo di uno speciale attributo “href” degli elementi che utilizza un sottoinsieme della proposta XPOINTER (vedi W3C, E-303 Linea 1.1 – Dialoghi Annotati 1999) per puntare ad elementi arbitrari nello stesso file o in files diversi (vedi Isard, McKelvie e Thompson, 1998). Il modello dei dati consiste dunque in un grafo orientato di nodi che hanno attributi con valori di stringa ed un nodo-padre privilegiato. Il modello di dati di MATE è simile a quello proposto dal progetto LORE (vedi Goldman, McHugh e Widom, 1999), con la differenza che MATE usa attributi XPOINTER invece di ID, poiché questo permette di fare connessioni attraverso files senza assumere un unico spazio-nome id attraverso tutti i files. Inoltre, MATE amalgama nella stessa relazione elementi connessi da “href” e figli testuali. 2.2.3.2 Struttura riflessiva Un aspetto importante del design di MATE è il suo carattere riflessivo, vale a dire il fatto che tutta l’informazione relativa al sistema è mantenuta nella RI in un formato omogeneo. Per esempio, tanto gli stylesheets (che descrivono l’aspetto dell’interfaccia utente) che i risultati delle ricerche sono conservati nello stesso formato nella RI. Questo ha il vantaggio che, per esempio, sarebbe possibile usare MATE per fornire un editore di stylesheet, oppure usare il linguaggio di ricerca per trovare tutti i templates di stylesheet che corrispondono ad un elemento da visualizzare. Cosa ancora più importante, poiché la struttura interna della RI è isomorfa con la struttura di un file XML, i risultati di una ricerca possono essere restituiti come files XML, ed essere visualizzati all’utente in un numero variabile di formati diversi a seconda dello stylesheet usato. In particolare, poiché i risultati delle ricerche contengono dei puntatori agli elementi che soddisfano la ricerca, l’utente può scegliere se visualizzare i risultati separatamente dal corpus oppure se evidenziare gli elementi nel contesto del corpus. 2.2.4 Il linguaggio ed il processore di ricerca L’annotazione linguistica dei dati non rappresenta uno scopo in sé, ma un investimento per usi successivi dei dati. Lo scopo di una ricerca su un corpus annotato può essere non soltanto l’identificazione di informazione esistente, ovvero codificata esplicitamente, ma anche di informazione che può solo essere derivata per manipolazione. Di conseguenza, è utile offrire dei concetti di ricerca che trascendono la struttura del corpus. MATE dispone di un linguaggio ed un processore di ricerca che consentono di estrarre delle ennuple di elementi che soddisfano un qualche requisito. Il linguaggio di ricerca, in XML, può essere usato dall’utente o per estrarre parti di un corpus utilizzando la finestra apposita nell’interfaccia-utente oppure per eseguire ricerche negli stylesheets, ad esempio per vedere come gli elementi sono visualizzati. Il linguaggio ed il processore di ricerca implementati in MATE costituiscono un’applicazione che serve per interpretare delle espressioni di ricerca, per applicarle a corpora annotati e per restituire delle informazioni su quegli elementi che soddisfano la ricerca. Questa funzionalità può essere usata per scopi di ricerca, ma anche per l’annotazione automatica di corpora, purché codificati in XML. L’applicazione, infatti, pur essendo concepita per essere usata all’interno di MATE costituisce in principio un modulo autonomo. Il linguaggio di programmazione è Java. 2.2.4.1 Il linguaggio di ricerca Nell’architettura XML supportata da MATE, un corpus annotato è costituito da un insieme di documenti che a loro volta rappresentano un’annotazione a gerarchie multiple. Ogni documento E-304 Linea 1.1 – Dialoghi Annotati contiene degli elementi (per esempio parole, frasi, ecc.), ed è esso stesso un elemento. Ogni elemento ha delle proprietà (attributi e valori) e può includere delle unità di ordine gerarchico inferiore (per esempio, le frasi possono contenere dei sintagmi, i sintagmi delle parole, le parole dei morfemi, ed i morfemi dei foni). Un corpus dunque consiste di molteplici gerarchie di questo tipo. Per ogni elemento che contiene delle sotto-unità può essere definita una struttura interna. E’ chiaro che il risultato di una ricerca non dipende soltanto dall’espressività di un linguaggio di ricerca, ma anche dalla codifica e dalla rappresentazione del corpus. A questo riguardo, ci sono almeno due ordini di problemi. Il primo riguarda le strategie di rappresentazione in XML. La scelta di cosa, in uno schema di annotazione, rappresentare come elemento e cosa come attributo di quell’elemento è in gran parte oggetto di una scelta arbitraria: per esempio, è possibile rappresentare la categoria morfosintattica di una parola o di un sintagma come un attributo di elementi <parola> o <sintagma> oppure come un elemento indipendente a livello di frase (ad esempio un elemento <sn>, <sv>, <sp> e così via). Se gli utenti non sono consapevoli della struttura profonda del corpus annotato o delle strategie di rappresentazione di chi ha implementato lo schema, la formulazione di ricerche può essere difficoltosa o inefficace. In secondo luogo, descrivere i dialoghi o i testi in modo gerarchicamente strutturato può indurre ad effettuare delle ricerche relative ad elementi “figlio”, “padre” e “nonno” di altri elementi. Di nuovo, il successo di una ricerca di questo tipo dipende dalla teoria del livello linguistico che è stata usata ed applicata al corpus e la sua rappresentazione nella macchina che esegue la ricerca. Dunque, un linguaggio ed un processore di ricerca per dei corpora codificati in XML dipendono dal modo in cui sono codificati i dati e dai meccanismi di inferenza posseduti dalla macchina che legge quei dati. Il linguaggio di ricerca Q4M è usato per identificare delle costellazioni di elementi. Le costellazioni sono combinazioni di elementi con proprietà specifiche, coppie di elementi con proprietà paragonabili, elementi in relazione gerarchica, e così via. Il termine è usato qui per fare riferimento ad un concetto molto generale di output. In molti sistemi di ricerca è possibile cercare parole o sequenze di parole che corrispondono a determinati criteri, e dunque l’output è una sequenza di segmenti definiti di corpora. Nel caso di corpora con struttura ed annotazione multilivello, la situazione è diversa. Si esegue una ricerca sui dati annotati per trovare dei fenomeni particolari che possono essere trovati sfruttando l’informazione registrata in un corpus. Un esempio di ricerca di questo tipo è la seguente: (1) Trova tutti gli avverbi detti dal parlante P che includono l’accento H* e seguono immediatamente una risposta prodotta dal parlante M Di contro ad una ricerca di questo tipo, non ha senso fornire come risultato una sequenza di elementi. Sembra invece più utile fornire informazione relativamente alla posizione in cui gli elementi di queste costellazioni possono essere trovati, dal momento che non può essere determinato che cosa l’utente vuole che sia visualizzato. Dipende dunque dall’utente selezionare le visualizzazioni più appropriate delle posizioni che sono state trovate. La figura 2.1 illustra la formulazione in Q4M della ricerca espressa in (1). E-305 Linea 1.1 – Dialoghi Annotati (1): ($P PROS) $P si riferisce ad elementi <pros> (2): ($s sent) $s si riferisce ad elementi <sent> (3): ($w word) $w si riferisce ad elementi <word> (4): ($s.type ~ “ans”) && il valore dell’attributo type di <sent> è “ans” AND (5): ($s ] [ $w) && <sent> precede <word> AND (6): ($w.pos ~ “adv”) && il valore dell’attributo pos di <word> è “adv” AND (7): ($w.who ~ “P”) && il valore dell’attributo who di <word> è “P” AND (8): ($w @ $p) && l’elemento <pros> occorre durante l’elemento <word> AND (9): ($p.type ~ “H*”) il valore dell’attributo type di <pros> è “H*” Figura 2.1: un esempio di ricerca in Q4M Un’espressione di ricerca ha una parte di definizione della variabile (1-3) ed una parte di restrizione della ricerca (4-9). Espressioni singole possono essere combinate mediante operatori logici: AND (&&), OR (||) e la negazione (!). A loro volta, delle combinazioni di espressioni semplici possono essere raggruppate insieme mediante gerarchie di parentesi complesse. E’ possibile valutare e confrontare i valori degli elementi, considerare le relazioni gerarchiche o sequenziali degli elementi, e disporre di un operazioni fisse per gli elementi ed i valori (vedi Mengel e Heid, 1999). Questa ricerca dimostra anche l’uso delle relazioni di tempo disponibili in Q4M, per esempio “@” (relazione di inclusione). Per una trattazione più approfondita del linguaggio di ricerca si rimanda alla sezione 3.8 di Dybkjaer et al. 1998, http://www.ims.uni-stuttgart.de/projekte/mate/WB3/Q4M/001/docu/quer.html 2.2.4.2 Il processore di ricerca Il processore di ricerca (Query Processor) riceve in input un insieme di documenti ed un espressione di ricerca. Quando l’utente esegue una ricerca il processore di ricerca esegue una serie di processi: • analizza la struttura dell’espressione di ricerca e produce una gerarchia di rappresentazioni e risultati connessi al processo • valuta i risultati delle espressioni semplici accedendo alla rappresentazione interna di MATE • valuta i risultati delle negazioni e delle espressioni logiche • produce una rappresentazione dei risultati della ricerca nella rappresentazione interna; i risultati possono essere resi come XML. Il risultato di una ricerca è una lista di ennuple. Queste ennuple sono elementi XML con un puntatore agli elementi che soddisfano l’espressione di ricerca. Di conseguenza, ogni risultato di E-306 Linea 1.1 – Dialoghi Annotati ricerca punta a tanti tipi di elementi quanti sono quelli invocato nell’espressione di ricerca. Nel caso in cui la ricerca specifichi la prima parola di una frase, i risultati della lista di output hanno due elementi ciascuno: uno con puntatore ad un elemento-parola, ed uno con puntatore ad un elementofrase. L’output di una ricerca non è una copia di elementi o di documenti trovati ma un nuovo documento XML che fornisce riferimento agli elementi trovati. Questo ha due vantaggi: a) l’utente può ispezionare a piacere il contesto degli elementi che costituiscono il risultato, senza essere costretto da un output predefinito b) il nuovo documento XML può servire come nuova annotazione. Un linguaggio di ricerca idealmente consentirà la derivazione di nuova struttura dall’annotazione esistente. Dal momento che un’espressione di ricerca è una definizione di istanze di fenomeni specifici, l’output delle ricerche in MATE fornisce l’annotazione delle occorrenze di questo fenomeno. All’interno della ricerca di base, l’uso di Q4M ed il suo ambiente può migliorare la verifica di ipotesi: le ipotesi possono essere definite come ricerche, testate contro l’output e confermate oppure riformulate. 2.2.5 Il linguaggio e il processore di stylesheet Il modo in cui i files XML sono visualizzati è controllato in MATE da un insieme di files definiti stylesheets, che sono files XML scritti utilizzando una DTD particolare, che descrivono la corrispondenza fra i files XML in un corpus ed il modo in cui questi saranno visualizzati dall’interfaccia-utente di MATE. La DTD per gli stylesheet è sotto molti aspetti simile a XSLT ed è usata per scopi in gran parte simili. L’uso degli stylesheets consente ad un utente di scegliere il modo in cui desidera che un corpus annotato venga visualizzato, insieme alle azioni che si vogliono consentire per intervenire su quel corpus. Questa flessibilità è di ausilio nell’esplorazione del corpus e consente ad utenti esperti di scrivere degli editori di annotazione specifici per scopi di annotazione particolari. MATE fornisce un insieme di stylesheet di base per alcuni livelli di annotazione (prosodia, morfosintassi, coreferenza, atti pragmatici e problemi di comunicazione), di modo che lo strumento è immediatamente utilizzabile in congiunzione con i files annotati forniti dal progetto13 . La scrittura ex-novo di stylesheets è necessaria soltanto nei casi seguenti: quando si introducono nuovi livelli di annotazione, diversi da quelli forniti con MATE; quando si modifichi la rappresentazione degli schemi di annotazione implementati; quando si voglia modificare la visualizzazione dell’annotazione. La generale flessibilità è assicurata assumendo (secondo un modo standard nel design di interfacce utente) che l’aspetto visivo di un documento visualizzato possa essere decomposto in oggetti di visualizzazione (display objects, vedi sez. 3.7), che formano una struttura gerarchica. Questa struttura di visualizzazione può essere descritta come un documento quasi-XML; una DTD è disponibile per un insieme di display objects. 13 Per ulteriori riferimenti e per un tutorial sugli stylesheets vedi la pagina web relativa al software <http://www.cogsci.ed.ac.uk/~dmck/MateCode/>, <http://www.cogsci.ed.ac.uk/~dmck/MateCode/style/stylesheet-tutorial.html> E-307 Linea 1.1 – Dialoghi Annotati 2.2.5.1 Il processore di stylesheet Quando il processore di stylesheet è eseguito, un documento o una serie di documenti sono elaborati insieme ad uno stylesheet scritto nel Mate Stylesheet Language (MSL), descritto sommariamente nella sezione seguente. Il processore di stylesheet è normalmente eseguito dall’interno di MATE, e restituisce una struttura di visualizzazione come quella descritta sopra, che è a sua volta elaborata dal processore di visualizzazione (Display Processor) per mostrare qualcosa all’utente. Il processore può anche essere eseguito in modalità stand-alone, nel qual caso il documento in input può essere trasformato in una arbitraria struttura di documento in output (per esempio HTML). 2.2.5.2 Il linguaggio di stylesheet Per proiettare la struttura logica di un documento su una diversa struttura, è stato definito un linguaggio dichiarativo di trasformazione funzionale. Lo standard emergente in quest’area è XSLT (vedi Clark, 1999), ma poiché si tratta di un linguaggio ancora in definizione e non possiede ancora le funzionalità necessarie, è stato deciso di implementare un linguaggio di trasformazione, MSL, leggermente diverso e più semplice per gli scopi immediati. MSL usa il linguaggio di ricerca definito sopra (vedi sez. 2.2.4.1), ma per tutti gli altri aspetti è simile a XSLT. Ogni stylesheet consiste di uno o più templates; ogni template contiene una ricerca (query) rispetto alla quale vengono confrontati gli elementi nel documento in input, ed un insieme di istruzioni da seguire nel caso venga trovata una corrispondenza. La figura 2.2 mostra un esempio di stylesheet che produce i display objects di MATE. In questo caso, vengono usati tre templates per creare dei display objects che faranno sì che i nomi siano visualizzati in rosso, mentre altri tipi di parole in nero. Ogni elemento nel file XML sarà confrontato a sua volta con le queries nei templates fino a che non venga trovata una corrispondenza, e quindi il corpo del template sarà elaborato. L’istruzione <apply-templates/> fa sì che i children dell’elemento vengano elaborati a loro volta. <msl:stylesheet> <msl:template match=”($a sentence)”> <VerticalList> <msl:apply-templates/> </VerticalList> </msl:template> <msl:template match=”($a noun)”> <TextBox colour=”Red”> <msl:apply-templates/> </TextBox> </msl:template> <msl:template match=”($a *)”> <TextBox colour=”Black”> <msl:apply-templates/> </TextBox> </msl:templates> </msl:stylesheet> Fig. 2.2: Un esempio di stylesheet E-308 Linea 1.1 – Dialoghi Annotati 2.2.5.3 Azioni Per fare sì che un utente interagisca con le visualizzazioni create mediante i display objects di MATE, ad ogni oggetto sono state aggiunte alcune proprietà di azione. Queste definiscono, per esempio, cosa succede se un utente fa doppio clic su un oggetto nella visualizzazione. Queste azioni di visualizzazione sono definite in uno stylesheet con uso di funzioni, che assomigliano ai templates. Quando un elemento corrisponde ad un template, una delle istruzioni di esecuzione in un template chiama una funzione, che definisce le azioni per quell’elemento. In tal modo, le funzioni che sono usate per molti elementi diversi devono essere definiti una volta soltanto. Per esempio, nel file XML, si potrebbe voler visualizzare soltanto il testo, ma volere che la categoria morfosintattica delle parole appaia quando l’utente fa doppio clic su una parola. 2.2.5.3.1 Estensioni di XSLT Per definire delle interfacce di editing è necessario avere la capacità di dare all’utente delle liste di nomi di elementi consentiti, nomi di attributi e valori possibili degli attributi. Questa informazione è definita (almeno parzialmente) nella DTD di uno schema di annotazione. E’ dunque necessario poter fare riferimento a questa informazione negli stylesheets, per esempio per creare un menu degli attributi possibili. In MATE questo è stato fatto aggiungendo dei nuovi comandi al linguaggio di stylesheet che consentono l’iterazione sulle definizioni di elementi e attributi nella DTD. Dal momento che l’accesso alla DTD non è una caratteristica supportata da XSLT, questo è un problema che deve essere considerato dal gruppo di lavoro XSL. 2.2.5.4 Connettere elementi IR agli oggetti di visualizzazione Poiché si vuole che le azioni sullo schermo dell’utente abbiano effetto sul corpus sottostante, ovvero, poiché uno degli scopi di MATE è quello di essere di supporto all’annotazione, è necessario mantenere dei puntatori all’indietro dai display objects alle parti del corpus a cui questi fanno riferimento. Poiché ogni display object è stato creato mediante l’istanziazione di un qualche template nello stylesheet, che corrisponde ad un elemento nel documento in input, questo concetto di puntatore all’indietro può essere definito in modo consistente. 2.2.6 L’interfaccia utente L’accesso alle funzionalità di MATE avviene mediante l’interfaccia-utente, che consiste di finestre, menu e alberi di cartelle standard usati per mantenere traccia, per esempio, dei files e delle cartelle del corpus. L’interfaccia utente è basata su classi Swing in Java. La maggior parte delle finestre dell’interfaccia hanno menù, bottoni e barre a scorrimento che sono oggetti Swing standard. Questi oggetti sono controllati nei modi tipici familiari ad utenti normalmente esperti. Le varie finestre e le funzioni ad esse associate sono descritte nel resto di questa sezione. All’avvio di MATE appaiono due finestre: la finestra di controllo (Main Window) e la finestra che mostra il contenuto del corpus (Projects Window). La finestra di controllo (Main window) è la finestra principale nella quale tutte le finestre dei diversi strumenti possono essere aperte. Dal menù “File” è possibile aprire una o più finestre di cartelle del corpus. Le finestre di cartelle del corpus servono per l’esplorazione, l’aggiunta o la E-309 Linea 1.1 – Dialoghi Annotati modifica dei files del corpus. La struttura dei files è visualizzata in un albero utilizzando la classe Java Jtree. 2.2.6.1 La finestra di controllo Questa finestra consente il funzionamento complessivo di MATE. Dei messaggi di stato compaiono nell’area bianca sotto il menù (Information area). Dalla barra di menù la finestra di controllo fornisce accesso a tutte le funzionalità di base dello strumento: File • • • • • • • • • Open corpus folder Open workspace Save workspace List of open projects List of open windows Minimize all windows Clear information area Preferences Exit Tools • • • • • • • • Coding modules Import/Export Conversion Visualization Query window Audio player Picture viewer Video viewer Help • • Manual About the MATE workbench File Open Corpus Folder: la finestra “Corpus Folder” si apre automaticamente all’avvio ma può ovviamente essere chiusa in ogni momento. L’utente può riaprirla utilizzando questo comando. Open workspace, save workspace: Un “workspace” è ciò che l’utente ha sullo schermo ad un dato momento in termini di finestre aperte. Un workspace salvato può essere riaperto in un secondo momento. List of open projects, List of open windows: mantiene una lista dei progetti e delle finestre aperte. Minimize all windows: questo comando serve a ridurre tutte le finestre contemporaneamente. Clear information area: cancella le informazioni visualizzate nell’area di informazione. E-310 Linea 1.1 – Dialoghi Annotati Preferences: consente all’utente di attivare o disattivare determinati strumenti. Se i tool tips sono attivati, ogni volta che il mouse si sovrappone ad un’icona viene visualizzata una breve descrizione. Dalle preferenze l’utente può aggiungere i propri strumenti agli strumenti già forniti da MATE. Exit: spenge lo strumento. Lo stesso effetto è raggiunto chiudendo la finestra di controllo. Tools Il menù Tools consente l’accesso agli strumenti centrali di MATE. Quando uno strumento viene selezionato, appare una nuova finestra di accesso alle funzionalità dello strumento selezionato. Il menù Tools nella finestra di controllo è estendibile ed è costruito automaticamente dall’insieme di strumenti disponibili. Questa caratteristica è implementata facendo di ogni strumento un “Java Bean”. Coding modules: Quando un utente accede a MATE per compiere l’annotazione, per prima cosa seleziona un “coding module”. Il coding module contiene una descrizione dello schema di codifica, e informazione sul modo in cui la codifica deve essere eseguita. MATE fornisce un insieme di moduli predefiniti, che sono organizzati in una cartella che contiene una cartella per ognuno dei livelli di annotazione, inclusa la trascrizione. Ognuna di queste cartelle contiene uno o più moduli. I moduli di codifica sono centrali all’annotazione supportata dallo strumento. Un modulo definisce il markup formale, la cui struttura è specificata dall’utente mediante un semplice dialogo di scelta ed è implementata in una DTD. Inoltre, un modulo definisce la semantica di markup, i riferimenti ad altri moduli ed una o più procedure di codifica, il contenuto dell’intestazione (header) di una codifica, l’insieme delle etichette e gli attributi delle etichette. I moduli di codifica sono rappresentati in una DTD in formato XML. i moduli di codifica esistenti possono essere selezionati semplicemente selezionando la procedura di codifica da applicare (vedi la sezione relativa alla Corpus Folder Window). Gli utenti possono tuttavia voler aggiungere delle procedure di codifica ai moduli esistenti, definire nuovi moduli o semplicemente prendere visione dei moduli esistenti. i moduli di codifica esistenti non possono essere cancellati e l’unico cambiamento consentito consiste nell’aggiunta di nuove procedure di codifica. Per aggiungere una nuova procedura di codifica è sufficiente selezionare “New Coding Procedure” dal menù File; all’utente viene quindi richiesto di specificare a quale modulo di codifica la nuova procedura va ad aggiungersi e quale nome viene scelto. Dopo di ciò l’utente può iniziare a scrivere la nuova procedura. Definizione di un nuovo modulo di codifica: questa azione è possibile selezionando il comando “New Coding Module” dal menù File della finestra dei Coding Modules; all’utente viene quindi richiesto di specificare in quale cartella collocare il nuovo modulo ed il nome voluto. Dopo di ciò si richiede all’utente di riempire le diverse parti di un modulo di codifica: nome, descrizione, elementi ed attributi formali di markup, esempi, una semantica informale, ed un insieme di procedure di codifica. In particolare, compare una finestra di dialogo nella quale vengono richiesti all’utente gli elementi formali di markup e gli attributi in un modo che permette all’utente di concentrarsi sui contenuti, ignorando le specificità tecniche e di sintassi, che restano nascoste all’utente. Visualizzazione di un modulo di codifica: un modulo di codifica può essere aperto in modalità di sola lettura mediante il comando “Open Coding Module” dal menù File della finestra dei Coding Modules. L’utente può scegliere di vedere la DTD oppure una sorta di pre-view di stampa del modulo di codifica. La versione “pretty-print” esclude tutta la TEI, ed i contenuti corrispondono ai campi che l’utente deve riempire durante il dialogo eseguito per definire il nuovo modulo di codifica. E-311 Linea 1.1 – Dialoghi Annotati Import/Export: Importare un file significa sostanzialmente che il file può essere aperto da MATE. Tuttavia, se il file da aprire non è annotato secondo lo standard di MATE, può essere necessario convertirlo dal suo formato originario nello standard di MATE. La conversione consente all’utente di sfruttare le funzionalità offerte da MATE. Questa procedura è possibile mediante selezione dell’opzione “Conversion to Mate Standard”. L’esportazione è in sostanza un’operazione di “Save as”. Saranno inclusi uno o due formati di esportazione. Una maggiore flessibilità può essere ottenuta accoppiando la funzionalità di export con quella di estrazione dell’informazione (vedi sotto), di modo che un utente può esportare in un file, ovvero salvare, qualsiasi informazione estratta. Visualization: Visualizzazioni diverse possono essere necessarie per scopi diversi. MATE consente all’utente di visualizzare un’annotazione verticalmente o orizzontalmente. Tuttavia, per ognuna di queste due scelte esistono molti modi diversi di presentare dei contenuti ad un utente. L’idea di base è di permettere all’utente di scegliere tra un insieme di elementi diversi, come tempo, parlanti ed enunciazioni, tra i quali è possibile scegliere cosa vedere. La visualizzazione può inoltre essere strettamente connessa all’Information Extraction, perché la possibilità di di estrarre certe informazioni da una codifica permette all’utente di definire cosa visualizzare. Query window: La finestra di ricerca permette all’utente di estrarre motli tipi di informazione dai corpora annotati. Questa funzionalità si basa sul linguaggio di ricerca descritto in par. 2.2.6.5, dove le funzionalità di questo componente sono descritte in maggior dettaglio. Audio player: questa opzione attiva lo strumento per l’ascolto di file audio. MATE incorpora lo strumento AUDIOTOOL. Per maggiori dettagli si veda la sez. 2.2.6.3. Picture Viewer, Video Viewer: queste due funzionalità non sono attualmente implementate nella versione corrente di MATE. Esse sono state previste nell’ottica di integrare degli strumenti per la visualizzazione di immagini e video. Help Manual: il menù Help fornisce accesso ad un manuale in linea, i cui contenuti sono visualizzati in una finestra che si apre automaticamente quando l’utente sceglie questa funzione. I contenuti permettono l’accesso al resto del manuale mediante connessioni ipertestuali. About the Mate workbench: fornisce una breve descrizione del sistema. 2.2.6.2 La finestra “Projects” Questa finestra è la finestra centrale perché contiene i corpora disponibili a MATE, incluse le annotazioni. Il menù accessibile da questa finestra è descritto qui sotto: File • • • • • New Project Run project New folder Remove empty folder Close window New project: l’utente può creare una nuova annotazione selezionando questa opzione dal menù File. Un progetto è un insieme di files relativi ad uno stesso livello di annotazione, e corredati di E-312 Linea 1.1 – Dialoghi Annotati uno stylesheet che ne determina la visualizzazione. La selezione apre una finestra di dialogo in cui viene richiesto all’utente di inserire un nome per la nuova codifica, di selezionare una cartella di corpus in cui collocarla e di selezionare una procedura di codifica. Quando l’utente preme OK, la nuova codifica riceve automaticamente un suffisso corrispondente al livello per il quale è stata scelta una procedura di codifica. Per esempio, le annotazioni di coreferenza riceveranno il suffisso .coref. La nuova annotazione appare in una finestra separata. Run project: quando l’utente preme il bottone “run” dopo aver selezionato un progetto oppure seleziona “run project” dal menù, la codifica selezionata appare in una finestra separata. New folder: per creare e nominare una nuova cartella di corpus. Remove empty folder: per cancellare cartelle vuote Close window: chiude la finestra e ritorna al menù principale. 2.2.6.3 La finestra di codifica Mediante la finestra di codifica (Coding window) si accede alle funzionalità di annotazione e di visualizzazione di MATE. L’utente può accedere alla finestra di codifica selezionando un file di progetto (ovvero un file con estensione .mp) dalla finestra di esplorazione del corpus e premendo il bottone “run” nella barra che si trova sulla parte superiore della finestra. Mediante questa azione i files di annotazione presenti nel progetto vengono caricati e visualizzati nella finestra di codifica secondo lo stile (stylesheet) definito nel progetto. Mate fornisce quattro progetti predefiniti, che si trovano nella directory Projects rispettivamente nelle directories “ComProbs”, “MorphoSyntax”, “VerbMobil” e “MapTask”. Il menù accessibile da questa finestra è descritto qui sotto: File • • • • Edit • • • • • • • • Insert file in coding Save coding Save coding as Close coding Undo Redo Cut Copy Paste Find Replace Bookmarks Tools • Audio player • Query window E-313 Linea 1.1 – Dialoghi Annotati Help • • Description of this display Show stylesheet File Insert file in coding: in alcuni casi l’utente può avere un qualche tipo di trascrizione preliminare che vuole usare come punto di partenza per l’annotazione. Questo comando consente all’utente di selezionare un file ed inserirlo nel corpo di una codifica senza dover eseguire una nuova trascrizione dall’inizio. Save coding: salva l’annotazione eseguita Save coding as: salva un file con un nuovo nome. Close coding: chiude l’attività di annotazione di un file. Prima della chiusura compare un messaggio nel quale si chiede all’utente se desidera salvare l’annotazione. Edit Bookmarks: un bookmark è un segnalibro che può essere aggiunto dall’utente alla codifica, ad esempio per indicare il punto in cui l’annotatore è arrivato l’ultima volta in cui ha aperto un certo file per compiere l’annotazione. Più segnalibri possono essere inseriti in una stessa codifica. Quando il comando “Bookmarks” viene selezionato, all’utente viene presentata una lista di segnalibri esistenti nell’annotazione in questione più la possibilità di inserirne di nuovi o di cancellarne di già esistenti. Un segnalibro viene inserito nella posizione del cursore nel corpo della finestra di codifica. La cancellazione di un segnalibro avviene selezionando un segnalibro esistente dalla lista e selezionando poi “Delete”. Le altre funzionalità sono funzionalità standard di editing. Tools Audio player: permette di ascoltare il file audio connesso al file sul quale si sta effettuando l’annotazione Query window: apre la finestra di ricerca (vedi sez. 2.2.6.6). Help Description of this display: fornisce informazioni sulla visualizzazione in uso. Show stylesheet: mostra in una finestra separata lo stylesheet definito per il progetto. 2.2.6.4 Audio Tool AUDIOTOOL è un programma per ascoltare dei files audio, per visualizzare la forma d’onda corrispondente e per aggiungere segmentazione etichettata. La forma d’onda di un file può essere visualizzata a risoluzione variabile e la curva di frequenza fondamentale (f0) può essere visualizzata, ma soltanto se è stata precedentemente calcolata e fornita al sistema. E’ possibile selezionare parti di un file che possono poi essere ascoltate separatamente ed è possibile segmentare il file in unità. La trascrizione e l’annotazione prosodica possono essere eseguite usando questa E-314 Linea 1.1 – Dialoghi Annotati finestra. E’ anche possibile ascoltare un segmento di parlato quando uno o più elementi sono selezionati nel testo (questo è specificato nello stylesheet). 2.2.6.4.1 Caricamento di files audio Un file audio deve essere posizionato in uno dei files “.mp” nella directory “Corpora”, che è una subdirectory della directory di avvio dello strumento. Il contenuto di un file “.mp” ha l’aspetto seguente: MATE Project file Corpora/vm/vm1-stylesheet.msl,MATE style sheet Corpora/vm/e032ach_DLG.xml,MATE file Corpora/vm/e032ach_DNC_DAS.xml,MATE file Corpora/vm/e032ach_DNC_KAN.xml,MATE file Corpora/vm/e032ach_DNC_ORT.xml,MATE file Corpora/vm/e032ach_DNC_TR2.xml,MATE file Corpora/vm/e032ach_RGM_DAS.xml,MATE file Corpora/vm/e032ach_RGM_KAN.xml,MATE file Corpora/vm/e032ach_RGM_ORT.xml,MATE file Corpora/vm/e032ach_RGM_TR2.xml,MATE file ../at/m221d005.a16.au,Audio file 2.2.6.4.2 Apertura di Audio Tool da MATE Una volta selezionato un file “.mp” mediante doppio clic si apre una finestra di codifica. Dal menù TOOLS si seleziona Audio player: questo comando lancia l’applicazione AUDIOTOOL. 2.2.6.4.3 La finestra Audio Tool Una volta lanciato il programma, si apre una finestra, illustrata nella figura qui sotto: E-315 Linea 1.1 – Dialoghi Annotati I componenti della finestra sono i seguenti: 1) righello che viene posizionato alla posizione di inizio di un segmento di file audio e che si muove verso la posizione “end” quando viene premuto il bottone play 2) delimitatore di inizio di un segmento di file audio 3) delimitatore di fine di un segmento di file audio 4) visualizzazione della forma d’onda 5) barra di scorrimento orizzontale della visualizzazione della forma d’onda 6) barra di scorrimento verticale della visualizzazione della forma d’onda 7) area di visualizzazione della posizione corrente del cursore nella visualizzazione della forma d’onda misurata in secondi 8) area di visualizzazione del valore del delimitatore di inizio, misurato in secondi 9) area di visualizzazione del valore del delimitatore di fine, misurato in secondi 10) lista di selezione dei fattori di scala per lo zooming orizzontale della forma d’onda 11) lista di selezione dei fattori di scala per lo zooming verticale della forma d’onda 12) bottone per etichettare un segmento selezionato nella visualizzazione della forma d’onda 13) bottone per deselezionare un segmento nella visualizzazione della forma d’onda 14) bottone per ascoltare un file audio E-316 Linea 1.1 – Dialoghi Annotati 15) bottone per l’ascolto continuo di un file audio 16) bottone per interrompere l’ascolto di un file audio 17) bottone per salvare la segmentazione di un file audio 18) bottone per chiudere la finestra di AUDIOTOOL Gli altri strumenti a cui è possibile accedere dall’interfaccia-utente sono descritti nelle sezioni seguenti. 2.2.6.5 L’editore di moduli di codifica L’idea alla base dell’editore di moduli di codifica è di fornire agli utenti senza conoscenze di XML uno strumento per creare e modificare delle descrizioni strutturare dei loro schemi di annotazione. L’editore ha una interfaccia utente grafica, che assomiglia alle interfacce-utente comunemente diffuse. Contiene delle funzioni come “copy and paste” e “drag and drop” che consentono di riutilizzare facilmente parti di un coding module in un altro. La sezione del coding module relativa alla dichiarazione di markup è rappresentata in forma d’albero, e l’utente aggiunge entità, elementi, attributi e commenti all’albero per costruire la dichiarazione di markup. Per ogni nodo è specificato il nome, tipo, ecc. L’albero può essere analizzato per creare un documento di testo relativo al coding module. Il nodo di dichiarazioe di markup e i suoi sotto-nodi contengono informazione che può essere usata per creare una DTD in XML che viene usata internamente da MATE. 2.2.6.6 L’editore della formulazione di ricerche Allo scopo di fornire un modo semplice per formulare le espressioni di ricerca (descritte nella sez. 2.3.4.1), MATE dispone di un’interfaccia di ricerca interattiva. L’utente deve per prima cosa selezionare i documenti su cui effettuare la ricerca. In un secondo momento l’utente può scegliere i tipi di elementi da includere nell’espressione di ricerca tra quelli disponibili ei documenti selezionati. Infine può essere costruita l’espressione di ricerca. I bottoni dell’interfaccia diventano attivi al momento appropriato, e vengono visualizzati gli attributi che appartengono ai tipi di elementi selezionati. E’ anche possibile definire combinazioni logiche e parentesizzazioni di semplici espressioni di ricerca. Per effettuare una ricerca mediante l’editor, per prima cosa si apre un documento nella finestra del corpus: E-317 Linea 1.1 – Dialoghi Annotati Un messaggio di conferma compare nella finestra di controllo per confermare che il documento è stato caricato: A questo punto di seleziona la scelta “Information extraction” dal menù TOOL della finestra principale: E-318 Linea 1.1 – Dialoghi Annotati In questo modo si ottiene la finestra di ricerca: In questo ambiente è possibile specificare la stringa di ricerca, sia interattivamente che inserendola a mano. Come spiegato prima, una stringa di ricerca consiste in una parte di dichiarazione delle variabili e in una parte di affermazione. Per prima cosa, dunque, devono essere definite le variabili. Come si può vedere nell’immagine precedente, nella prima riga del pannello si trova un campo di testo dove viene assegnato il nome della variabile, ed una barra di selezione, che contiene tutti i nomi degli elementi XML che sono stati precedentemente letti nella RI. Dopo la selezione, l’utente deve premere il bottone Add assignment per aggiungere questa parte dell’espressione alla stringa nella finestra di ricerca. Tutti gli altri bottoni sono disattivati. A questo punto l’utente ha una serie di opzioni: può specificare un’altra variabile (nel modo descritto prima) oppure selezionare uno dei tipi di espressione. Nell’illustrazione precedente, sono stati già assegnati due nomi di variabili (mov e ims). Per la specificazione dell’espressione questo significa che questi nomi di variabile saranno visualizzati sulle barre di selezione degli elementi. In questo modo, ogni volta che viene assegnato un nuovo nome di variabile, le barre di selezione degli elementi vengono aggiornate. La stessa procedura è valida per gli attributi: se un certo nome di variabile è selezionato (mov nell’esempio illustrato in figura), gli attributi che appartengono a questo elemento (id nel caso in esame) sono inseriti nella barra di selezione, e vengono aggiornati a seconda della selezione del nome della variabile. E’ possibile attivare anche i simboli di negazione (!). Dopo che un’espressione è stata aggiunta, premendo il bottone Add expression, appare la finestra seguente: E-319 Linea 1.1 – Dialoghi Annotati Di nuovo, la stringa di ricerca viene aggiornata ma le scelte diminuiscono dopo aver aggiunto un’espressione per cui a questo punto è possibile o eseguire la ricerca (Execute query), o annullarla (Reset), assegnare una nuova variabile o aggiungere un operatore logico (Add logical operator). Una volta che la stringa di ricerca è stata completamente specificata, è possibile eseguire la ricerca; la finestra visualizzerà la cartella dei risultati. Per il momento è visualizzato soltanto l’output XML. L’output potrà essere analizzato per mezzo di un processore di stylesheet e gli elementi saranno visualizzati nel loro contesto. In questo foglio è anche possibile vedere i (sotto)risultati di sotto-espressioni della ricerca facendo doppio clic su uno dei bottoni in basso dove per ogni sotto-espressione della ricerca è disponibile un bottone. Premendo uno di questi verrà visualizzato il risultato corrispondente a quella particolare espressione. E-320 Linea 1.1 – Dialoghi Annotati In questa schermata è mostrato il risultato corrispondente alla sotto-espressione ($mov.label ~ "check"). Nel foglio STATISTICS è possibile visualizzare il numero di risultati per ricerca eseguita Se in una sessione di lavoro è stata fatta più di una ricerca, selezionando il foglio HISTORY è possibile tornare a ricerche precedenti facendo doppio clic su una delle linee. E-321 Linea 1.1 – Dialoghi Annotati In questo modo si ritorna alla schermata di QUERY, dove è possibile modificare la ricerca selezionata o provare nuove espressioni di ricerca. 2.2.6.7 Strumenti di conversione Un ulteriore esempio di strumento integrato in MATE è lo strumento di conversione usato per convertire uno o più files da un formato ad un altro. MATE ha due strumenti di conversione preinstallati: PAR2XML e XLABEL2XML. BAS PARTITUR 2 XML è uno strumento di conversione che converte i files dal formato BAS Partitur (versione 1.2.4) ad XML (versione 1.0) 14 . Xlabel2xml prende in input uno o più files nel formato Entropic Xwaves Xlabel e rende in output un file XML per ogni file in input. Per default, viene anche resa una DTD a cui si conformano i files, e crea degli elementi “word”. Questo strumento è studiato per essere usato da utenti che possiedono dei files di trascrizione in formato Xlabel e vogliono convertirli in XML per usarli con MATE 15 . Altri convertitori possono essere aggiunti dall’utente facendo un programma Java che estende la classe “ConversionTool” di MATE, e mettendo il file della classe compilata nella directory di conversione. Quando MATE viene riavviato, controlla i files nella directory e li aggiunge al menu nella finestra degli strumenti di conversione. 14 Maggiori informazioni su Par2XML http://www.dfki.de/mate/implementation/par2xmldoc.html sono disponibili all’indirizzo Maggiori informazioni su Xlabel2xml sono http://www.cogsci.ed.ac.uk/~dmck/MateCode/conversion/xlabel_user_doc.html disponibili all’indirizzo 15 E-322 Linea 1.1 – Dialoghi Annotati 2.2.7 Gli oggetti di visualizzazione Gli oggetti di visualizzazione o display objects di MATE sono usati per creare delle visualizzazioni per la codifica dei corpora o per mostrare i risultati delle ricerche. Ogni display object ha un insieme di proprietà, che può essere fissato o direttamente in un programma Java, o eseguendo il Processore di Stylesheet (vedi sez. 2.3.5.1), con uno stylesheet di MATE e uno o più files XML come input. Tre sono i tipi di display objects: il TextBox, il VerticalList, e HorizontalList. 2.2.7.1 TextBox L’oggetto TextBox è usato per visualizzare il testo in modi diversi; controlla le proprietà relative al colore, lo stile (grassetto, corsivo, normale), la dimensione del testo, il colore di sfondo, il tipo di carattere, ecc. E’ inoltre possibile scegliere se il testo in un TextBox possa essere modificabile e/o selezionabile. 2.2.7.2 Vertical List e Horizontal List I display objects VerticalList e HorizontalList sono dei controllori di display objects, ovvero sono usati per controllare altri controllori oppure oggetti semplici, come il TextBox. VerticalList e HorizontalList controllano, rispettivamente, una colonna e una fila di oggetti. Per costruire una visualizzazione complessa (per esempio, una finestra di codifica), è necessaria una struttura gerarchica che contenga dei controllori di display objects all’interno di altri display objects. I controllori di display objects hanno delle proprietà relative al colore, alla spaziatura orizzontale/verticale fra gli oggetti, alle strategie di scrolling (orizzontale, verticale, entrambi o nessuno), e alle strategie di posizionamento dei children (se la posizione di un child di un oggetto è fissa, allineata ad una linea temporale oppure cambiata automaticamente a seconda delle necessità). L’informazione mostrata nei campi può essere presa da vari files XML sotto il controllo di uno stylesheet. Visualizzazioni più avanzate richiedono più livelli di display objects. E’ anche possibile mostrare la stessa informazione in due finestre diverse costruite con stylesheets diversi. 2.2.8 Conclusioni Riassumiamo brevemente ed evidenziamo alcuni concetti portanti di MATE: • a causa della somiglianza fra annotazioni del parlato con altri tipi di annotazione, lo sviluppo degli strumenti di annotazione del parlato dovrebbe collocarsi all’interno del più ampio contesto degli editori e dei visualizzatori di XML. • un linguaggio di trasformazione di alto livello, che consenta un legame flessibile fra strutture logiche e strutture di visualizzazione è necessario per avere flessibilità di visualizzazione e facile definizione di editori specializzati ad un compito di annotazione particolare • il design del sistema dovrebbe essere riflessivo: le definizioni dell’interfaccia-utente, i risultati delle ricerche, e le descrizioni del corpus dovrebbero essere omogenei ai corpora di annotazione stessi E-323 Linea 1.1 – Dialoghi Annotati • per trattare la complessità dell’annotazione linguistica e un design di sistema riflessivo è necessario estendere il modello dei dati da un modello ad albero verso grafi generici. I linguaggi di ricerca e di trasformazione dovrebbero riflettere questo modello di dati. • il processore di visualizzazione dovrebbe essere estendibile, di modo che sia facile aggiungere nuove opzioni di visualizzazione, per esempio aggiungere modi per visualizzare alberi/grafi. 2.2.9 Appendice MATE è uno strumento sviluppato nell’ambito del progetto europeo LE-MATE (Telematics Project LE4 – 8370); al momento è stata rilasciata una versione alpha, non ancora pubblicamente accessibile. La versione definitiva sarà rilasciata a Febbraio 2000, e sarà pubblicamente disponibile per scopi di ricerca. E-324 Linea 1.1 – Dialoghi Annotati Riferimenti bibliografici Abney, S. 1991, “Parsing by Chunks”, in D. Bouchard & K. Lefel (a cura di), Views on Phrase Structure, Berlin: Kluwer Academic Publishers. Abney. S. 1996, Chunk Stylebook, Manoscritto, Università <http://www.sfs.nphil.uni-tuebingen.de/~abney/96i.ps.gz>. di Tübingen, Ahrenberg, L., Dahlbäck, N. & A. Jönsson 1995, “Coding Schemes for Natural Language Dialogue”, in Working Notes from AAAI Spring Symposium, Stanford. Aleksandersson, J., Buschbeck-Wolf, B., Fujinami, T., Maier, E., Reithinger, N., Schmitz, B. & M. Siegel 1997, Dialogue Acts in VERBMOBIL-2, REPORT 204, Mai 1997. DFKI GbmH Saarbrücken, Universität Stuttgart, Technischen Universität Berlin, Universität des Saarlandes, <http://www.dfki.de/cgi-bin/verbmobil/htbin/doc-access.cgi>. Allen, J. & M. Core 1997, Draft of DAMSL: Dialog Act Markup in Several Layers, <http://www.cs.rochester.edu:80/research/trains/annotation>. Allwood, J., Ahlsén, E., Nivre, J. & S. Larsson 1997, Own Communication Management: Kodningsmanualt, Göteborg University, Department of Linguistics. Alshawi, H. (a cura di) 1992, The Core Language Engine, Cambridge MA, The MIT Press. Austin, J. L. 1962, How to do things with words, Cambridge, MA, Harvard University Press. Beckman, M. E. & G. M. Ayers 1994, Guidelines for ToBI Labelling. Version 2.0, February 1994. Linguistics Department, Ohio State University. Beckman, M. E. & J. Hirschberg 1994, The ToBI Annotation Conventions. In Beckman, M. E. & G. M. Ayers (a cura di), Guidelines for ToBI Labelling. Version 2.0, February 1994. Linguistics Department, Ohio State University. Bray, T., Paoli, J., & C. M. Sperber-McQueen (a cura di) 1998, “Extensible Markup Language (XML) 1.0”, W3C Recommendation 10 February 1998, <http://www.w3.org/TR/REC-xml> Calzolari, N., Baker, M., & J.G. Kruyt (a cura di) 1995, “Towards a network of European Reference Corpora”, Report of the NERC Consortium Feasibility Study, Pisa, Giardini. Carletta, J. 1999, “A generic approach to software support for lingistic annotation using XML”; proposto per la pubblicazione. Carletta, J. C., Isard, A., Kowtko, J., Doherty-Sneddon, G. & A. Anderson 1997, “The Reliability of Dialogue Structure Coding Scheme”, in Computational Linguistics, 23: 13-31. Carletta, J. C., Isard, A., Kowtko, J., Doherty-Sneddon, G. & A. Anderson 1996, HCRC Dialogue Structure Coding Manual, HCRC TR-82, Edinburgh, Scotland, Human Communication Research Centre, <http://www.hcrc.ed.ac.uk/~jeanc/>. Carroll J., Briscoe, T., Calzolari, N., Federici, S., Montemagni, S., Pirrelli, V., Grefenstette, G., Sanfilippo, A., Carroll, G. & M. Rooth 1996, Specification of Phrasal Parsing, Deliverable 1, E-325 Linea 1.1 – Dialoghi Annotati Work Package 1, EC project SPARKLE “Shallow Parsing and Knowledge Extraction for Language Engineering” (LE-2111), <http://www.ilc.pi.cnr.it/sparkle>. Clark, J. (a cura di) 1999, “XSL Transformations (XSLT), Version 1.0”, W3C Working Draft, <http://www.w3.org/TR/WD-xslt> Condon, S. & C. Cech 1995, Manual for Coding Decision-Making Interactions. Discourse Intervention Project, Universite’ des Acadiens, University of Southwestern Louisiana, <ftp://sls-ftp.lcs.mit.edu/pub/multiparty/coding_schemes/condon> Corazzari, O., Monachini, M. & A. Roventini 1996, “Italian Morphosyntactic Tagset: Guidelines for the Interpretation and the Manual Checking” PAROLE deliverable, ILC-CNR. Core, M., Ishizaki, M., Moore, J., Nakatani, C., Reithinger, N., Traum, D. & S. Tutiya 1999, The Report of The Third Workshop of the Discourse Resource Initiative. Chiba Corpus Project, Technical Report No.3 (CC-TR-99-1), Chiba University and Kazusa Academia Hall, May 1998. Crystal, D. 1969, Prosodic Systems and Intonation in English. Cambridge: Cambridge University Press. Dahlbäck, N. & A. Jönsson 1998, A coding manual for the Linköping dialogue model, manoscritto, <ftp://www.cs.umd.edu/users/traum/DSD/arne2.ps> Danieli, M. & L. Carletti 1998, “Information about the coding of the Italian human-machine dialogues”, Cselt Technical Document. Di Eugenio, B., Jordan, P. W. & L. Pylkkänen 1998, The COCONUT project: dialogue annotation manual (draft), ISP Technical Report 98-1, <http://www.isp.pitt.edu/~intgen/research-papers.html> Dybkjaer, L., Isard, A., McKelvie, D., Klein, M., Mengel, A., Møller, M.B., Evert, S., Fitschen, A., Heid, U., Kipp, M., Reithinger, N., & B. Cappelli 1998, “MATE Deliverable D3.1: Specification of Coding Workbench. Version 1”, <http://www.cogsci.ed.ac.uk/~amyi/mate/report.html> Eeg-Olofsson, J. 1991, Word-class tagging: Some computational tools, PhD Thesis, Department of Linguistics and Phonetics, Lund, Sweden. Endriß, U. 1998, "Semantik zeitlicher Ausdrücke in Terminvereinbarungsdialogen", Verbmobil Report 227, Technische Universität Berlin. Eyes, E. 1996, The BNC Treebank: Syntactic Annotation of a Corpus of Modern British English, M.A. Dissertation, Lancaster University, Department of Linguistics and Modern English Language. Federici, S., Montemagni, S. & V. Pirrelli 1996, “Shallow Parsing and Text Chunking: a View on Underspecification in Syntax”, in J. Carroll (a cura di), Proceedings of the Workshop On Robust Parsing, ESSLI, Praga, Repubblica Ceca, 12-16 Agosto 1996. Federici, S., Montemagni, S. & V. Pirrelli 1998, “An Analogy-based System for Lexicon Acquisition”, SPARKLE Working Paper. E-326 Linea 1.1 – Dialoghi Annotati Flammia, G. 1996, Instructions for Annotating Segments in Dialogues, <ftp://slsftp.lcs.mit.edu/pub/multiparty/coding_schemes/flammia>. Francis, W.N., & H. Kucera, 1979, Brown Corpus Manual: Manual of Information to accompany a Standard Corpus of Present-Day Edited American English, for use with Digital Computers. Brown University, Department of Linguistics, Providence, Rhode Island. http://khnt.hit.uib.no/icame/manuals/brown/INDEX.HTM Frazier L. & J. Fodor 1978, “The sausage machine: A new two-stage parsing model”, Cognition, 6: 291-325. Fujisaki, H. & H. Sudo 1971, “Synthesis by rule of prosodic features of connected Japanese”, in Proceedings of the VII International Congress on Acoustics, Budapest 1971. Garside, R., Leech, G. & T. McEnery (a cura di) 1997, Corpus Annotation: Linguistic Information from Computer Text Corpora, London, Longman. Gibbon, D. (a cura di) 1999, Handbook of Standards and Resources for Spoken Language Systems. First supplement, EAGLES LE3-4244, Spoken Language Working Group. Goldman, R., McHugh, J. & J. Widom 1999, “From Semistructured Data to XML: Migrating the Lore Data Model and Query Language”, in Proceedings of the 2nd International Workshop on the Web and Databases (WebDB ’99), Philadelphia, Pennsylvania. Greenbaum, S. & Y. Ni 1996, “About the ICE tagset”, in S. Greenbaum (a cura di), English Worldwide: The International Corpus of English, Oxford, Clarendon Press: 92-109. Greenbaum, S. (a cura di) 1996, English Worldwide: The International Corpus of English, Oxford, Clarendon Press. Grice M. & M. Savino 1995b, “Low tone versus ësagí”, in Bari Italian intonation; a perceptual experiment. Proc. XIII International Congress of Phonetic Sciences, Stockholm 1995. Grice, M. & R. Benzmüller 1995a, “Transcription of German intonation using ToBI tones. The Saarbrücken system”, in Phonus 1, University of the Saarland: 33-51. Grice, M., Reyelt, M., Benzmuller, R., Mayer, J. & A. Batliner 1996, “Consistency in Transcription and Labelling of German Intonation with GtoBI”, in Proc. Fourth International Conference on Spoken Language Processing, Philadelphia: 1716-1719. Heid, U. & A. Mengel 1999, “A Query Language for Research in Phonetics”, in Proceedings of the International Congress of Phonetic Sciences, San Francisco, August 1999. Hirst, D.J. 1991, “Intonation models: Towards a third generation”, in Actes du XIIème Congrès International des Sciences Phonétiques, 19-24 Aout 1991, Aix-en-Provence, France. Hirst, D.J. 1994, “The symbolic coding of fundamental frequency curves: from acoustics to phonology”, in H. Fujisaki (a cura di), Proceedings of International Symposium on Prosody, Satellite Workshop of ICSLP 94, Yokohama, Settembre 1994. Hirst, D.J. & A. di Cristo (a cura di) 1998, Intonation Systems: A Survey of Twenty Languages, Cambridge, Cambridge University Press. E-327 Linea 1.1 – Dialoghi Annotati Ichikawa, A. et al. 1998, “Standardising Annotation Schemes for Japanese Discourse”. Ichikawa, A., Araki M., Horiuchi Y. et al. 1999, “Evaluation of Annotation Schemes for Japanese Discourse”. Isard, A., McKelvie, D. & H.S. Thompson 1998, “Towards a Minimal Standard for Dialogue Transcripts: A New Sgml Architecture for the HCRC Map Task Corpus”, in Proceedings of the 5th International Conference on Spoken Language Processing (ICSLP98), Sydney, Dicembre 1998, <http://www.cogsci.ed.ac.uk/~dmck/icslp98.ps>. Jensen, K. 1993, “PEG: the PLNLP English Grammar”, in Jensen, K., Heidorn, G.E. & S.D. Richardson (a cura di), Natural Language Processing: The PLNLP Approach, Boston, Kluwer Academic Publishers: 29-45. Johansson, S. 1995a, “The approach of the Text Encoding Initiative to the encoding of spoken discourse”, in Leech, G., Myers, G. & J. Thomas (a cura di), Spoken English on Computer: Transcription, Markup and Applications, Harlow, Longman: 82-98.2. Johansson, S. 1995b, “The Encoding of Spoken Texts”, in Ide, N. & J. Véronis (a cura di), The Text Encoding Initiative. Background and Context, Dordrecht, Kluwer: 149-158. Johansson, S., Leech, G. & H. Goodluck 1978, Manual of Information to Accompany the Lancaster-Oslo/Bergen Corpus of British English, for Use with Digital Computers. University of Oslo, Department of English. http://khnt.hit.uib.no/icame/manuals/lob/INDEX.HTM Jönsson, A. 1993, “A Method for Development of Dialogue Managers for Natural Language Interfaces”, in Proceedings of AAAI-93, Washington DC: 190-195. Jönsson, A. 1995a, “A Dialogue Manager for Natural Language Interfaces”, in Proceedings of IJCAI-95, Montreal, Canada. Jönsson, A. 1995b, “A Dialogue Manager for Natural Language Interfaces”, in Proceedings of the Pacific Association for Computational Linguistics, Second Conference, Brisbane, Australia, The University of Queensland. Jurafsky, D., Shriberg, L. & D. Biasca 1997, Switchboard SWBD-DAMSL, Shallow-DiscourseFunction Annotation: Coders Manual, Draft 13, <http://stripe.Colorado.EDU/~jurafsky/manual.august1.html>. Karlsson, F., Voutilainen, A., Heikkila, J. & A. Anttila (a cura di) 1995, Constraint Grammar, a language-independent system for parsing unconstrained text, Berlin e New York, Mouton de Gruyter. Kimball, J. 1972, “Seven principles of surface structure parsing in natural language”, Cognition, 2: 15-47. Klein, M., Bernsen, N. O., Davies, S., Dybkjær, L., Garrido, J., Kasch, H., Mengel, A., Pirrelli, V., Poesio, M., Quazza, S. & C. Soria 1999, MATE, Multilevel Annotation, Tools Engineering. Supported Coding Schemes, Deliverable D1.1. LE Telematics Project LE4 – 8370. Krippendorf, K. 1980, Content Analysis. An Introduction to Its Methodology, Beverly Hills, Sage Publications. E-328 Linea 1.1 – Dialoghi Annotati Küssner, U. & M. Stede 1995, "Zeitliche Ausdrücke: Repräsentation und Inferenz", Verbmobil Memo 100, Technische Universität Berlin. Larsson, S. 1998, Coding Schemas for Dialogue Moves, Göteborg University. Leech, G. & A. Wilson 1996, Recommendations for the morphosyntactic annotation of corpora. EAGLES Document EAG-TCWG-MAC/R. Leech, G. & R. Garside 1991, “Running a grammar factory: The production of syntactically analysed corpora or ‘treebanks’”, in S. Johansson & A.B. Stenstrom (a cura di), English Computer Corpora: Selected Readings and Research Guide, Berlin e New York, Mouton de Gruyter: 15-32. Leech, G., Barnett, R., & P. Kahrel 1996, “Guidelines for the standardization of syntactic annotation of corpora”, EAGLES Document EAG-TCWG-SPT/P. Lehiste, I. 1970, Suprasegmentals, Cambridge, MA, The MIT Press. Llisterri, J. 1996, Preliminary Recommendations on Spoken Texts. EAGLES Document EAGTCWG-SPT/P, Maggio 1996. MacWhinney, B. 1995, The CHILDES project: Tools for analyzing talk, Hillsdale, NJ, Erlbaum. Marcos-Marín, F., Ballester, A. & C. Santamaría 1993, “Transcription conventions used for the Corpus of Spoken Contemporary Spanish”, Literary and Linguistic Computing 8(4): 283-292. Marcus, M., M.A. Marcinkiewicz & B. Santorini 1993, “Building a Large Annotated Corpus of English: The Penn Treebank”, Computational Linguistics 19(2): 313-330. MATE (Multilevel Annotation, Tools Engineering), http://mate.nis.sdu.dk Mayer, J. 1995, Transcription of German intonation – the Stuttgart System, Manoscritto, University of Stuttgart. Mayo, C., Aylett, M. & R. Ladd 1997, “Prosodic transcription of Glasgow English: an evaluation study of GlaToBI”, in Proceedings of ESCA Workshop on Intonation, Atene 1997. McKelvie, D., Isard, A., Mengel, A., Moller, M., Grosse, M. & M. Klein 1999, “The Mate Workbench – an annotation tool for XML coded speech corpora”. Proposto per la pubblicazione. Meeter, M. et al. 1995, “Dysfluency Annotation Stylebook for the Switchboard Corpus”. Manoscritto. Mengel, A. & U. Heid 1999, “Enhancing Reusability of Speech Corpora by Hyperlinked Query Output”, in Proceedings of Eurospeech 99, Budapest, Settembre 1999. Monachini, M., & A. Östling 1992a, “Morphosyntactic Corpus Annotation – A Comparison of Different Schemes”, Technical Report NERC-60, ILC, Pisa. Monachini, M., & A. Östling 1992b, “Towards a Minimal Standard for Morphosyntactic Corpus Annotation”, Technical Report NERC-61, ILC, Pisa. E-329 Linea 1.1 – Dialoghi Annotati Montemagni, S. 1992, “Syntactically annotated corpora: comparing the underlying annotation schemes”, Technical Report NERC-67, ILC Pisa. Moreno Sandoval, A., Lopez Ruesga, S., & F. Sanchez León 1999, “Spanish Tree Bank: Specifications”. Version 4. Manoscritto. Nakatani, C. H., Grosz, B. J., Ahn, D. D. & J. Hirschberg 1995, Instructions for Annotating Discourse, Technical Report Number TR-21-95, Center for Research in Computing Technology, Harvard University, Cambridge, MA, <ftp://slsftp.lcs.mit.edu/pub/multiparty/coding_schemes/nakatani> Nelson, G. 1996, “Markup systems”, in S. Greenbaum (a cura di), English Worldwide: The International Corpus of English, Oxford, Clarendon Press: 36-53. Nespor, M. & I. Vogel 1986, “Prosodic Phonology”, in Studies in Generative Grammar, 28, Dordrecht, Foris Publications. Nivre, J., Allwood, J. & E. Ahlsén 1998, Interactive Communication Management: Coding Manual, Göteborg University, Department of Linguistics. Nolan, F. & E. Grabe 1997, “Can ToBI transcribe intonational variation in British English?”, in Proceedings of ESCA Workshop on Intonation, Atene 1997. Norskog, L. “SoX sound file format converter”, <http://www.spies.com/Sox>. O’Connor, J. D. & G. F. Arnold 1973, Intonation of Colloquial English, London, Longman. Palmer, H. E. 1922, English Intonation, with systematic exercises, Cambridge, Heffer. Payne, J. 1992, “Report on the compatibility of J P Frenchís spoken corpus transcription conventions with the TEI guidelines for transcription of spoken texts”, NERC WP8/WP4 – 122, COBUILD Birmingham e IDS Mannheim, Dicembre 1992,. Pierrehumbert, J. B. 1980, The Phonology and Phonetics of English Intonation, Bloomington, Ind., Indiana University Linguistics Club. Pitrelli, J., Beckman, M. & J. Hirschberg 1994, “Evaluation of prosodic transcription labelling reliability in the ToBI framework”. In Proceedings of the 3rd International Conference on Spoken Language Processing, Yokohama, ICSLP, Vol. 2: 123-126. Pollard C. & I. Sag 1994, Head-Driven Phrase Structure Grammar, Stanford, CA, CSLI. Price, P. 1992, “Summary of the Second Prosodic Transcription Workshop: the TOBI (TOnes and Break Indices) Labeling System”. Nynex Science and Technology, Inc, 5-6 April 1992. In Linguist List vol. 3-761, 9 October 1992. Reithinger, N. 1999, “Robust Information Extraction in a Speech Translation System”, in Proceedings of Eurospeech '99, Budapest, Ungheria, vol. 6: 2427-2430. Reyelt, M. & A. Batliner 1994, “Ein Inventar prosodischer Etiketten für VERBMOBIL”, in Verbmobil Memo 33. E-330 Linea 1.1 – Dialoghi Annotati Roach, P. 1983, English Phonetics and Phonology. A practical course, Cambridge, Cambridge University Press. Sampson, G. 1995, English for the Computer, Oxford, Clarendon Press. Sampson, G. 1999, “CHRISTINE Corpus, Stage I: Documentation”. http://www.cogs.susx.ac.uk/users/geoffs/ChrisDoc.html Searle, J. 1969, Speech Acts, Cambridge, England, Cambridge University Press. Silverman, K., Beckman, M., Pitrelli, J., Ostendorf, M., Wightman, C., Price, P., Pierrehumbert, J. & J. Hirschberg 1992, “TOBI: A standard for labeling English prosody”, in Ohala, J.J. et al. (a cura di), Proceedings of the Second International Conference on Spoken Language Processing 92: 867-870. Sokolov, J. L. & C. E. Snow (a cura di) 1994, Handbook of research in language development using CHILDES, Hillsdale, NJ, Erlbaum. Souter, C. 1989, PoW Corpus Manual. A short handbook to the Polytechnic of Wales Corpus. Centre for Computer Analysis of Language and Speech (CCALAS), School of Computer Studies, University of Leeds. http://khnt.hit.uib.no/icame/manuals/pow.htm Sperberg-McQueen, C. M. & L. Burnard 1994, Guidelines for Electronic Text Encoding and Interchange. TEI P3. Chapter 11: Transcriptions of Speech, Association for Computational Linguistics / Association for Computers and the Humanities / Association for Literary and Linguistics Computing, Chicago and Oxford. Svartvik, J. & M. Eeg-Olofsson 1982, “Tagging the London-Lund Corpus of Spoken English”, in S. Johansson (a cura di), Computer Corpora in Spoken Language Research, Bergen, Norwegian Computer Centre for the Humanities: 85-109. Svartvik, J. & M. Eeg-Olofsson 1982, “Tagging the London-Lund Corpus of Spoken English”, in S. Johansson (a cura di), Computer Corpora in English Language Research, Bergen, Norwegian Computer Centre for the Humanities: 85-109. Svartvik, J. (a cura di) 1990, The London Corpus of Spoken English: Description and Research. Lund Studies in English 82. Lund University Press. http://khnt.hit.uib.no/icame/manuals/LONDLUND/INDEX.HTM Taylor, L. J. & G. Knowles 1988, “Manual of Information to Accompany the SEC Corpus, the Machine-Readable Corpus of Spoken English Unit for Computer Research on the English Language”, Bowland College, University of Lancaster, Bailrigg, Lancaster, UK. http://khnt.hit.uib.no/icame/manuals/sec/INDEX.HTM ‘t Hart, J., Collier, R. & A. Cohen 1990, A Perceptual Study of Intonation. An Experimentalphonetic Approach to Speech Melody, Cambridge, Cambridge University Press. Tomita, M 1987, “An Efficient Augmented-Context-Free Parsing Algorithm”, Computational Linguistics, 13: 31-46. Traum, D. 1996, Coding Schemes for Spoken Dialogue ftp.lcs.mit.edu/pub/multiparty/coding_schemes/traum> E-331 Structure, <ftp://sls- Linea 1.1 – Dialoghi Annotati van Vark, R. J., de Vreught, J. P. M. & L. J. M. Rothkrantz 1996, Analysing OVR dialogue coding scheme 1.0, Report 96-137, <ftp://ftp.twi.tudelft.nl/TWI/publications/techreports/1996/DUT-TWI-96-137.ps.gz>. Vatton, I. et al., “Amaya – W3C’s Editor/Browser”, <http://www.w3.org/Amaya>. Voghera, M. 1992, Sintassi e intonazione nell’italiano parlato, Bologna, Il Mulino. W3C 1998, “Document Object Model (DOM)”, December 1998, <http://www.w3.org/DOM/>. W3C 1999, “XML Pointer Language (Xpointer)”, W3C Working Draft, 9 July 1999, <http://www.w3.org/TR/WD-xptr>. Walker, M. A., Litman, D. J., Kamm, C. A. & A. Abella 1997, “PARADISE: A Framework for Evaluating Spoken Dialogue Agents”, in Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics, Madrid, Spain, Universidad Nacional de Educación a Distancia (UNED), 7-12 July 1997: 271-280. Wells, J., Barry, W., Grice, M., Fourcin, A. & D. Gibbon 1992, “Standard Computer-Compatible Transcription”, SAM Stage Report Sen.3 SAM UCL-037, 28 February 1992, London, University College London. E-332 Linea 1.1 – Dialoghi Annotati Appendice - Specifica XML delle trascrizioni ortografiche Le DTD (Document Type Description) per le trascrizioni ortografiche che presentiamo sono basate sulle DTD per la trascrizione ortografica realizzate in MATE e sono state adattate secondo i requisiti del progetto SI-TAL. Il formalismo adottato per le DTD è XML, in particolare ci si riferisce alla rappresentazione interna adottata nel progetto MATE. Una DTD XML è così definita: *nodeType *element *entity *comment *order "DTD" Vector(Node(ELEMENTDEF)) Vector(Node(ENTITYDEF)) Vector(Node(COMMENT)) Vector(Node) Elemento definito nella DTD Entità definita nella DTD Commenti nella DTD. Lista ordinata comprendente COMMENT, ELEMENTDEF, ENTITYDEF definiti nella DTD Per una definizione completa del formalismo si rimanda al documento consultabile nel sito web dell'Università di Edimburgo al seguente indirizzo: http://www.cogsci.ed.ac.uk/~dmck/MateCode/ir/ir.html. <!-----------------------------------------------------------------> <!-- DTD per le trascrizioni ortografiche, "trans.dtd" --> <!---> <!---> <!---> <!---> <!-----------------------------------------------------------------> <!ELEMENT transcription (turn+)> <!-- La radice per le trascrizioni di ogni dialogo. --> <!ATTLIST transcription id ID data CDATA ora CDATA luogo CDATA #REQUIRED #REQUIRED #REQUIRED #REQUIRED> <!ELEMENT turn (utt)+> <!-- Il turno del dialogo. --> <!ATTLIST turn id who start end dur file ID CDATA CDATA CDATA CDATA CDATA #REQUIRED #REQUIRED #IMPLIED #IMPLIED #IMPLIED #REQUIRED> E-333 Linea 1.1 – Dialoghi Annotati <!ELEMENT utt (word|fil|spk|sta|int)+> <!-- La stringa di elementi corrispondenti ad un atto del dialogo. L’elemento utt può coincidere con un intero turno: in questo caso gli attributi “start” e “end” avranno gli stessi valori --> <!ATTLIST utt id who start end dur ID CDATA CDATA CDATA CDATA #REQUIRED #IMPLIED #IMPLIED #IMPLIED #IMPLIED> <!ELEMENT word (#PCDATA)> <!-- Le parole. --> <!ATTLIST word id who start end dur ID CDATA CDATA CDATA CDATA #REQUIRED #IMPLIED #IMPLIED #IMPLIED #IMPLIED> <!ELEMENT fil EMPTY> <!-- Tutti i tipi di esitazione vocalizzata --> <!ATTLIST fil id who desc start end dur ID CDATA CDATA CDATA CDATA CDATA #REQUIRED #IMPLIED #REQUIRED #IMPLIED #IMPLIED #IMPLIED> <!ELEMENT pause EMPTY> <!-- Una pausa non vocalizzata tra gli enunciati o al loro interno. --> <!ATTLIST pause who type start end dur CDATA CDATA CDATA CDATA CDATA #IMPLIED #IMPLIED #IMPLIED #IMPLIED #IMPLIED> <!ELEMENT spk EMPTY> <!-- rumori prodotti dal parlante --> <!ATTLIST spk id who desc start end dur ID CDATA CDATA CDATA CDATA CDATA #REQUIRED #IMPLIED #REQUIRED #IMPLIED #IMPLIED #IMPLIED> E-334 Linea 1.1 – Dialoghi Annotati <!ELEMENT sta EMPTY> <!-- Rumori piu` o meno continui --> <!ATTLIST sta id who desc start end dur ID CDATA CDATA CDATA CDATA CDATA #REQUIRED #IMPLIED #REQUIRED #IMPLIED #IMPLIED #IMPLIED> <!ELEMENT int EMPTY> <!-- Rumori non continui --> <!ATTLIST int id who desc start end dur ID CDATA CDATA CDATA CDATA CDATA #REQUIRED #IMPLIED #REQUIRED #IMPLIED #IMPLIED #IMPLIED> E-335