Métodos cuantitativos para la diversidad lingüística
Transcription
Métodos cuantitativos para la diversidad lingüística
Métodos cuantitativos para la diversidad lingüística Harald Hammarstrom March 2015, Mexico Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 1 / 55 Métodos cuantitativos para la diversidad lingüística Para la diversidad lingüística = Métodos que no están baseados en los hechos de una(s) lengua(s) especíca(s) Se considerarán métodos Estos métodos humanos computacionales no reemplacen a los humanos, sino ayudan a los Ejemplos de lo que se puede hacer a partir de Clase #1 datos textuales: Morfología automática Clase #2 datos textuales anotados: Morfología, clases de palabras, sintaxis Clase #3 un base de datos de características: Unas técnicas para visualización Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 2 / 55 Estructura de clases Se van a presentar técnicas I Lo importante es obtener una familiaridad con las ideas I No hay que entender todas detalles No habrán prácticas No hace falta tener una computadora en clase Si quieres probar algo con tus propios datos I Si sabes programación: Puedes implementar las técnicas tu mismo I Si tu amigo sabe programación: Tu y tu amigo podéis implementar las técnias I En otro caso: Yo te puedo ayudar Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 3 / 55 De datos textuales Jimbokaksïni nósesi járhati jurhiatekuecha janocheaka, engaksïni chéti ikiatspiricha ópandaaka, ka uirhipkurhaatiksïni ka iápuru ísïksïni k'uaniraati, ka xerentskantaatiksïni. Iámendu jimini anapuechanksïni uándikucheati, ka nóksï ma tsakapu tsïntsikata jurajkuati, jimbokari no kurhanguska imani jurhiatekuani engari juka p'urhembenhani. Que se puede hacer con solo datos textuales? Sin otra información de la lengua, solo se puede utilizar ... frecuencias Por ejemplo, frecuentemente las palabras terminan en -i, se repite mucho la palabra ka etc Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 4 / 55 Ejemplo de diferencias signicativas de frecuencias (Inglés) # different words in corpus having suffix 4000 3500 3000 2500 2000 1500 1000 500 0 playing laying Hammarstrom aying ying Métodos Diversidad Lingüística ing ng March 2015, Mexico g 5 / 55 Ejemplo de diferencias signicativas de frecuencias (Español) Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 6 / 55 Aprendizaje Morfológico sin Supervisión Aprendizaje Morfológico sin Supervisión = Unsupervised Learning of Morphology (ULM) Input: Datos textuales crudos (sin anotación) de una lengua natural Output: Una descripción de la estructura de las palabras en los material textuales dados Con: Lo menos supervisión, i.e. parámetros, datos auxiliares anotados, selección de modeles durante el desarrollo etc, posible Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 7 / 55 Porqué estudiar el problema ULM? Teoría Lingüística I Harris (1955), testeado con ingl'es (Harris, 1967) I Andreev (1959, 1963, 1965b, 1967) testeado con Albanés, Armenio, Bulgaro, Checo, Inglés, Estonés, Francés, Alemán, Hausa, Hungaro, Latviano, Ruso, Serbo-Croato, Swahili y Vietnamés Eliminación del léxico I En los 1980s tener un lexicón entero sobrepasaba la capacidad de la memoria de una computadora (Klenk, 1985a,b, Wothke, 1985) I Ahora esta motivación ya no existe Aprendizaje de lengua por niños I P.e., Brent et al. 1995, Batchelder 1997, Brent 1999, Clark 2001, Goldwater 2007 Arrancar una procesadora morfológica computacional I P.e., Goldsmith 2001 y muchos más (véanse mas tarde) Ayudar a la descripción y documentación lingüística I P.e., Hammarström et al. 2008, Monson et al. 2008c Kirschenbaum et al. 2012, Palmer et al. 2010 Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 8 / 55 ULM: Pasamos revista Morfología: Para esta revista lo denimos como incluyendo lo siguimente Derivacional y ineccional En número de ajos que se puede añadir es nito El orden de ajos es jo (no se puede permutar) Algunos enfoques: También clíticos, composición, morfología no-concatenativa, incorporación y ajos lexicales Palabras ortográcas: Solo se consideran palabras ortográcas (i.e. no se trata el problema de buscar la separación de palabras de lenguas cuya ortgrafía no marca limites de palabras) Dependencia de lengua: Angunos enfoques si tienen un sesgo explicito o implicito a ciertas lenguas Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 9 / 55 ULM: Variedades de Output Lista de ajos ↑ Misma-raiz decisión ↑ Analisis ↑ Lista de paradigmas ↑ Lexicon+Paradigmas Hammarstrom Una lista de ajos. Dos palabras dadas, decidir si son inecciones de la misma raiz. Dada una palabra, analizarla en raiz y ajo(s). Una lista de paradigmas. Una lista de los paradigmas y una lista de las raíces con indicaciones a qué paradigma pertenece. Métodos Diversidad Lingüística March 2015, Mexico 10 / 55 Trabajos hasta hoy #1 Harris 1955, 1968, 1970 Andreev 1965a, Andreev 1967, Chapter 2, Andreev 1965a, Eliseeva 1965, Fedulova 1965, Fihman 1965a,b, Fitialova 1965, Hol'm 1965, Jakubajtis 1965, Jaku²eva 1965, Kordi 1965, Malahovskij 1965, Melkumjan 1965, Oºigova 1965, Panina 1965, Per²ikov 1965 Gammon 1969 Lehmann 1973, 7193 de Kock and Bossaert 1969, 1974, 1978 Faulk and Gustavson 1990 Hafer and Weiss 1974 Klenk and Langer 1989 Langer 1991 Redlich 1993 Klenk 1991, 1992 Flenner 1992, 1994, 1995 Janÿen 1992 Juola et al. 1994 Brent 1993, 1999, Brent et al. 1995, Snover 2002, Snover and Brent 2001, 2003, Snover et al. 2002 Deligne 1996, Deligne and Bimbot 1997 Yvon 1996 Kazakov 1997, Kazakov and Manandhar 1998, 2001 Jacquemin 1997 Cromm 1997 Gaussier 1999 Hammarstrom Model Superv. Experimentación Qué aprende? C C T T English Vietnamese Hungarian (I) Segmentation Segmentation C C C T T T English French (I) French/Spanish C C C C C C C C C C T T T+SP T+SP T T+SP T+SP T+SP T T C C C T T T English (I) English (IR) German German English (I) Spanish Spanish French English English/ChildEnglish/Polish/ French English/French (I) French (I) French/English C C C T T T English German French/ English (I) Métodos Diversidad Lingüística to Segmentation Segmentation Lexicon+ Paradigms Segmentation Segmentation Segmentation Segmentation Segmentation Segmentation Segmentation Segmentation Segmentation Segmentation Segmentation Segmentation Segmentation Segmentation Segmentation Lexicon+ Paradigms March 2015, Mexico 11 / 55 Trabajos hasta hoy #2 Model Superv. Experimentación Qué aprende? Déjean 1998a,b C T Ax Lists Medina Urrea 2000, 2003, 2006 Schone 2001, Schone and Jurafsky 2000, 2001 Belkin and Goldsmith 2002, Goldsmith 2000, 2001, Goldsmith et al. 2001, Goldsmith 2006, Hu et al. 2005b, Xanthos et al. 2006 Baroni 2000, 2003 C C T T Turkish/English/ Korean/French/ Swahili/ Vietnamese (I) Spanish English C T English (I) Lexicon+ Paradigms C T C C T T Child-English/ English Korean Assamese Ax List Cho and Han 2002 Sharma and Das 2002, Sharma et al. 2002, 2003 Baroni et al. 2002 Bati 2002 C/NC C/NC T T English/German (I) Amharic Creutz 2003, 2006, Creutz and Lagus 2002, 2004, 2005a,b,c, 2007, Creutz et al. 2005a,b, Hirsimäki et al. 2003 Kontorovich et al. 2003 Medina-Urrea 2006, 2008, Medina Urrea and Díaz 2003 Mayeld and McNamee 2003, McNamee and Mayeld 2007 Hadouche 2002, Zweigenbaum et al. 2003 Calderone 2008, Pirrelli et al. 2004, Pirrelli and Herreros 2007 Johnson and Martin 2003 Katrenko 2004 C T Finnish/Turkish/ English C C T T English Segmentation Chuj/Rarámuri/Czech Ax List - - C C T T 8 West European Same-stem languages (IR) Medical French Segmentation Italian/English/Arabic Unclear C C T T Inuktitut Ukrainian Ax List Segmentation Segmentation Lexicon+ Paradigms Related word pairs Lexicon+ Paradigms Segmentation Unclear Lexicon+ Paradigms avar et al. 2004a,b, avar et al. 2006a,b C T Child-English Unclear Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 12 / 55 Trabajos hasta hoy #3 Model Superv. Experimentación Qué aprende? C T Segmentation C/NC T C C C/NC C T T T English/Spanish/ Mapudungun (I) 30-ish mostly European type languages English English Unclear Italian/English Segmentation Rewrite Rules Segmentation Segmentation Unclear Segmentation C C C T T - Catalan English/German Maori to Warlpiri Paradigms Segmentation Same-stem C T Finnish/Turkish/English Keshava and Pitler 2005 Johnsen 2005 Atwell and Roberts 2005 Dang and Choudri 2005 ur Rehman and Hussain 2005 Jordan et al. 2005, 2006 Goldwater 2007, Goldwater et al. 2005, Naradowsky and Goldwater 2009 Freitag 2005 Golcher 2006 C C C C C C C T T T T T T T Finnish/Turkish/English Finnish/Turkish/English Finnish/Turkish/English Finnish/Turkish/English Finnish/Turkish/English Finnish/Turkish/English English/Child-English Segmentation+ Related sets words Segmentation Segmentation Segmentation Segmentation Segmentation Segmentation Segmentation C C T - English English/German Arabsorkhi and Shamsfard 2006 Chan 2006, Chan 2008, 101-139 Demberg 2007 C C C/NC T T T Dasgupta 2007, Dasgupta and Ng 2006, 2007, Dasgupta and Ng. 2007 C T Monson 2004, 2009, Monson et al. 2007a,b, 2008a, 2004, 2008b,c Wicentowski 2002, 2004, Yarowsky and Wicentowski 2000 Gelbukh et al. 2004 Argamon et al. 2004 Goldsmith et al. 2005, Hu et al. 2005a Bacchin et al. 2002a,b, 2005, Nunzio et al. 2004 Oliver 2004, Chapter 45 Bordag 2005a,b, 2007a,b,c Hammarström 2005, 2006a,b, 2007, 2009a,b Bernhard 2005a,b, 2006, 2007a,b Hammarstrom + of Segmentation Lexicon+ Paradigms Persian Segmentation English Paradigms English/German/Finnish/ Segmentation Turkish Bengali Segmentation Métodos Diversidad Lingüística March 2015, Mexico 13 / 55 Trabajos hasta hoy #4 Model Superv. Experimentación Qué aprende? De Pauw and Wagacha 2007 Tepper 2007, Tepper and Xia 2008 Xanthos 2007 C/NC C/NC NC T T+RR T Gikuyu English/Turkish Arabic Majumder et al. 2008, 2007 C T Zeman 2007, 2008a,b C - Kohonen et al. 2008 Goodman 2008 Golénia 2008 Pandey and Siddiqui 2008 C C C C T T T T French/Bengali/French/ Bulgarian/Hungarian Czech/English/German/ Finnish Finnish/Turkish/English Finnish/Turkish/English Turkish/Russian Hindi Segmentation Analysis Lexicon+ Paradigms Analysis Johnson 2008 Snyder and Barzilay 2008 C C/NC T T Spiegler et al. 2008 Moon et al. 2009 Poon et al. 2009 C C C T T T Hammarstrom Segmentation+ Paradigms Segmentation Segmentation Segmentation Segmentation+ Paradigms Sesotho Segmentation Hebrew/Arabic/Aramaic/ Segmentation English Zulu Segmentation English/Uspanteko Segmentation Arabic/Hebrew Segmentation Métodos Diversidad Lingüística March 2015, Mexico 14 / 55 Estado del Arte? Una comparación justa de precisión no es posible ya que I Gran variedad en ambiciones y presuposiciones I Specicaciones no completas I Ad-hoc umbrales de valores (thresholds) Hubo una competición MorphoChallenge http: // www. cis. hut. fi/ morphochallenge2009/ I Segmentación de Finés, Inglés, Alemán, Arabe y Turco I La mayoría de sistemas no tomaron parte, incluso varios que se consideran informalmente los mejores Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 15 / 55 Análisis morfológico sin-supervisión (ULM) vs sistemas basados en reglas Citación del Preface de State of the Art ed. Mahlow and Piotrowski 2009 p vi: in Computational Morphology En la tarea de análisis de morfemas de MorphoChallenge, los análises hechos por los algoritmos de los participantes fueron comparados con un gold standard lingüístico. En Morpho Challenge 2008 [3], el mejor sistema por Alemán logró un F-measure de 54.06%. La mejor cifra de recall fue 59.51% (este sistema logró 49.53% precision), el mejor Estas cifras son demasiadamente bajas para considerarse útiles en la mayoría de las aplicaciones, y en particular en aplicaciones resultado de precision ... interactivas. Si comparamos los resultados de Morpho Challenge con las cifras presentadas en el primer la decisión de concentrarse en sistemas basados en reglas se hace evidente. Morpholympics [4], Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 16 / 55 Técnicas en ULM Buscar segmentos frecuentes/sobrerepresentados Buscar el confín de la segmentación Buscar paradigmas (ajos que ocurren sistematicamente en la(s) misma(s) raíc(es) Vamos a presentar unas de las más simples + una combinación de las tres Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 17 / 55 Notaciones Formuláicos Letras minúsculas w , s, b, x, y , . . . : signican una cadena de letras Por ejemplo, x = hotel, x = cama, o sea cualquier palabra Letras mayúsculas W , X , S, . . . : signican un conjunto de palabras Por ejemplo, W = {hotel, cama, . . . } |x| signica la longitud de x si x es una palabra Por ejemplo, |cama| = 4 |W | signica el número de miembros de W si W es un conjunto Por ejemplo, {hotel, cama, mono} = 3 w = xs signica la segmentacion de w en x seguido de s Por ejemplo, cama = xs son las posibilidades x = c , s = ama o x = ca, s = ma o x = cam, s = a o x = cama, s =00 Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 18 / 55 Buscar Segmentos Sobrerepresentados Sobrerepresentación como más-frecuente-que-su-longitud: Un segmento x de longitud |x| letras está sobrerepresentado cuando es más frecuente que lo esperado por su longitud f (x) |Σ||x| Sobrerepresentación como más-frecuente-que-sus-partes: x = c1 c2 . . . cn de n letras está sobrerepresentado cuando es más frecuente de lo esperado de la combinación de las frecuencias de sus partes f (c1 c2 . . . cn ) f (c1 )f (c2 ) . . . (cn ) Sobrerepresentación como más-frecuente-cuando-sujo: La probabilidad de ocurrencia como sujo divisada por la probabilidad en otras posiciones (no nales) Pf (x) Pnf (x) Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 19 / 55 Sobrerepresentación como más-frecuente-que-su-longitud: Ejemplo En la Biblia española hay 25 169 palabras diferentes Entre ellas 556 terminan en -ar: f (−ar ) = 556 Hay 37 letras distintas en la Biblia española Entonces la frencuencia esperada de -ar que es un segmento con longitud 2 sería 1 25168 · ( )2 = 18.38 37 Entonces la sobrerepresentación de -ar será 556 ≈ 30.25 18.38 Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 20 / 55 Sobrerepresentación como más-frecuente-que-sus-partes: Ejemplo En la Biblia española hay 25 169 palabras diferentes Hay 556 palabras que terminan en -ar: f (−ar ) = 556 Hay 37 letras distintas en la Biblia española a ocurre con la probabilidad 13.2% a ocurre con la probabilidad 9.1% Entonces la frencuencia esperada de -ar que está compuesto de a y r 25169 · 0.091 · 0.132 ≈ 301.5 Entonces la sobrerepresentación de -ar será 556 ≈ 1.84 301.5 Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 21 / 55 Sobrerepresentación como más-frecuente-cuando-sujo: Ejemplo En la Biblia española hay 25 169 palabras diferentes Hay 556 palabras que terminan en -ar: f (−ar ) = 556 Entonces la probabilidad nal de -ar es 556 = 0.022 25169 Hay 462 palabras donde -ar- ocurre no-nal (dentro de la palabras) En las 25 169 palabras hay 162 036 posiciones no nales Entonces la probabilidad no-nal de -ar es 462 = 0.00285 162036 Entonces la sobrerepresentación de -ar será 0.022 ≈ 7.72 0.00285 Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 22 / 55 Buscar el confín de la segmentación Considera la distribución de letras en la posición inmediatamente antes de un un sujo posiblemente segmentable, p.e., Inglés ing 3258 t 640 l 329 r 317 d 258 n 249 k 216 s 170 h 149 y 131 p 130 g 117 ... ... Hammarstrom i o a u e h l n Métodos Diversidad Lingüística ng 3352 3258 35 26 26 4 1 1 1 March 2015, Mexico 23 / 55 Buscar el confín de la segmentación Considera la distribución de letras en la posición inmediatamente antes de un un sujo posiblemente segmentable, p.e., Español er 5956 t 1068 d 677 n 662 s 486 l 374 k 337 r 332 g 305 i 298 m 242 p 184 ... ... Hammarstrom r 12258 e 5956 a 4059 o 1249 i 1101 u 237 r 46 h 1 g 1 Métodos Diversidad Lingüística March 2015, Mexico 24 / 55 Heuristicas sobre el confín de la segmentación Número de letras distintas (Harris 1951 original) LPH: LPH = |{c|xcs ∈ W }| Entropía de ocurrencias de letras LPE: LPE = − X fW (cs) fW (s) log2 fW (cs) fW (s) El sesgo de la letra más frecuentemente ocurriente LPM: LPM = 1 − maxc (fW (cs)/fW (s)) 1 1− |Σ| LPM(ing ) ≈ 0.833, LPM(ng ) ≈ 0.029 LPM(t) ≈ 0.712. pero también Las tres medidas son altamente correlacionadas! LPH&LPE LPE&LPM LPM&LPH r r -rank Hammarstrom 0.872 0.957 0.729 0.999 0.998 0.996 Métodos Diversidad Lingüística March 2015, Mexico 25 / 55 Extracción de ajos Combinamos sobrerepresentación y heuristicas del confín de la segmentación: I Sobrerepresentación como más-frecuente-cuando-sujo: (RA) I Heuristica del confín: LPM Da un tanteo para cada sujo s : Z (s) = RA(s) · LPM(s) El tanteo da una lista arriba y basura abajo ordenada con sujos verdaderos probablemente No queda claro la mejor manera de delimitar los sujos verdaderos desde la basura Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 26 / 55 Resultados Experimentales 1: Biblia en Inglés -ed -eth -ted -iah -ly -ings -ing -ity -edst 15448.4 12797.1 11899.4 11587.5 10571.2 8038.9 7292.8 6917.6 6844.7 Hammarstrom -ites -seth -ned -s' -nded -ts -ah -ness -s 5370.2 5081.6 4826.7 4305.2 3833.8 3783.1 3766.9 3679.3 3407.3 -ions -est -sed -y -leth -nts -ied -ened -ers 2684.5 2452.6 2313.7 2239.2 2166.3 2122.6 1941.7 1834.9 1819.5 Métodos Diversidad Lingüística -ered -ded -neth ... -ig -io -ti 1796.7 1582.2 1540.0 ... 0.0 0.0 0.0 March 2015, Mexico 27 / 55 Resultados Experimentales 2: Biblia en Español s n as a en aren eras e nas na 39908.25 28210.99 16352.31 12545.77 9180.55 8796.45 8445.28 6401.39 6391.66 4342.84 Hammarstrom an ares ernas nen os es r are ar et 3902.40 3546.75 3263.43 2980.62 2903.22 2849.25 2741.61 2671.10 2534.42 2203.46 ren sen das is aron te les ras er idas 2117.22 1996.00 1949.44 1649.77 1639.59 1630.10 1559.92 1475.85 1474.87 1450.58 Métodos Diversidad Lingüística gen t tas rna aros den adas da onen la 1438.76 1420.67 1415.96 1334.99 1311.10 1242.33 1211.48 1012.60 1008.23 952.42 March 2015, Mexico 28 / 55 Resultados Experimentales 3: Biblia en Turco -larna -larndan -lerinin -lerden -inden -iyorlard -arak -iyorsunuz -inin -dlar -lere Hammarstrom 71645.4 47941.9 43917.3 36294.0 35258.2 28716.2 27774.1 25403.1 25045.5 20718.7 20718.2 -ip -dan -siniz -ndan -ndan -yorlard -acaksnz -adlar -lerinden -nden -sinin 20431.2 19468.4 10391.1 18556.3 18226.3 18097.1 16751.1 16587.9 15201.1 14082.2 13493.9 Métodos Diversidad Lingüística -nin -yorsunuz -larla -en -ten -siniz -madlar -lardan -. . . -iy -yo 12340.9 12135.0 12069.7 11513.5 11424.0 11043.0 10958.9 10428.1 ... 0.0 0.0 March 2015, Mexico 29 / 55 Resultados Experimentales 4: Biblia en Tarasco pka apka ni empka ani antani skia ejka ka apiringa 245707.20 169135.60 98790.17 67553.61 64718.98 60578.56 52050.93 49687.70 43963.20 43006.52 Hammarstrom ntani i piringa aani ini akia ti aaka sïni ajka 38342.84 37914.21 35125.87 33818.15 33591.51 32199.03 24665.53 24647.32 22963.65 22615.23 ksï jka aka tajka ntajka pti rini aspti tani jti Métodos Diversidad Lingüística 18514.77 17184.20 17164.30 17093.86 16941.85 16618.10 15787.82 15764.78 15364.25 14944.13 tia chani hani stia axapka spka nhani nhajka kia eni March 2015, Mexico 14 14 14 14 14 14 14 14 13 13 30 / 55 Segmentación: Prejos vs. Sujos Sueco 0.097 -en 0.086 -na 0.036 -ade 0.035 -a 0.034 -ar 0.033 -er 0.033 -as 0.032 -s 0.031 -de 0.031 ... ... för- Hammarstrom Inglés 0.132 -eth 0.109 -iah 0.099 -ly 0.090 -ings 0.068 -ing 0.062 -ity 0.059 -edst 0.058 -ites 0.046 -s' 0.036 ... ... -ed Swahili 0.100 wa0.095 ali0.065 nita0.059 aka0.049 ni0.046 ku0.044 ata0.042 ha0.032 a0.031 ... ... -a Métodos Diversidad Lingüística March 2015, Mexico 31 / 55 Buscar Paradigmas Paradigma = Un conjunto de ajos que sistematicamente en la(s) misma(s) raic(es): Buscar paradigmas es un problema dicilísimo: I El número de paradigmas posibles en teoría es exponencial (en el número de sujos) I Paradigmas no necesitan ser sin silapamiento (tipicamente en lenguas naturales sí silapan) => Paradigmas tipicamente tienen miembros muy frecuentes y tambíen miembros poco frecuentes Casi cada palabra ocurre solamente en un par de todas las formas de su paradigma I Los datos desde los que trabajamos es material crudo textual F F Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 32 / 55 Sesgo de Paradigmas: Ejemplo Los tres paradigmas suecos más frecuentes Adjective 1st decl P.e. gul -a 2022 - 1821 -t 1572 -e 221 -are 208 -s 114 -aste 90 -ast 46 -as 39 -es 13 -ts 4 -ares 1 Hammarstrom Noun 3rd decl P.e. tid - 1619 -en 1141 -er 1072 -erna 583 -s 310 -ens 259 -ernas 136 -ers 40 Métodos Diversidad Lingüística Verb 1st decl P.e. lag-a 1001 -ade 948 -ar 883 -at 579 -as 482 -ande 423 -ad 387 -ades 273 -ats 207 -andes 5 -ads 3 March 2015, Mexico 33 / 55 Número de formas a la palabra: Ejemplo Por los tres paradigmas más frecuentes, cuántas palabraas ocurren en cuántas formas de su paradigma? # forms 1 2 3 4 5 6 7 8 9 10 11 Adjective 1st decl # lemmas 1107 703 714 210 54 29 12 4 2 - Hammarstrom Noun 3rd decl # lemmas 1142 538 341 200 105 41 15 5 4 - Métodos Diversidad Lingüística Verb 1st decl # lemmas 606 397 289 227 160 106 76 53 46 13 March 2015, Mexico 34 / 55 Lista de Quotientes Primeramente, denir listas de quotientes Hx (y ) : S W → [0, 1] as: Hx (y ) = y ed 00 s e es er ers ion y ings ions in ation 0 s ingly or able ive ors ations er 0 s ment ly ... Hammarstrom |s|sx ∈ W ∧ sy ∈ w | |s|sx ∈ w | Hing (y ) y ing 0.59 00 0.41 0.25 0.24 0.19 0.12 0.10 0.07 0.05 0.05 0.03 0.03 0.03 e s es er ion ers y ions ation able ings 0 s or in ly ive ingly al ment ors ations 0.03 0.03 0.02 0.02 0.02 0.02 0.01 0.01 0.01 0.01 ... ... Métodos Diversidad Lingüística Hed (y ) 0.42 0.33 0.21 0.20 0.17 0.08 0.07 0.05 0.04 0.03 0.03 0.02 0.02 0.02 0.02 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 ... March 2015, Mexico 35 / 55 Calidad de Paradigmas {ing,ed,, ed ing s e es ers er y 0 s ion er 0 s d ly ings in ered ation ions ... s,er} {ing,ation,'s,xt} 00 1.51 0.94 0.78 0.73 0.61 0.48 0.47 0.24 0.18 ed st e s nd sted sts nder nding nds nded xts ar ll aring nt sting nts 0.17 0.15 0.13 0.12 0.12 0.12 0.10 0.10 0.09 0.08 ... ... [2, 1, 0, 3, 7] 0.60 0.60 0.60 0.60 0.42 0.40 0.40 0.40 0.40 0.40 ... [32, 662, 661, 87352] Medida de calidad de paradigmas VI (P): Suma de rangos de los miembros de relativa a la suma optimal (que depende de VI (P) = Hammarstrom 1.83 1.10 0.80 0.64 0.64 0.60 0.60 0.60 0.60 2 |P| y es 0 P, + . . . + |P| − 1): |P|(|P| − 1) P x∈P rankP (x) Métodos Diversidad Lingüística March 2015, Mexico 36 / 55 Crecer Paradigmas G (P) = argmaxp∈{P∪{s}|s∈S W } VI (p) P if G (P) = P ∗ G (P) = G ∗ (G (P)) if G (P) 6= P Otra alternativa más osada es permitir también expulsiones: G (P) = argmaxp∈{P}∪{P Hammarstrom xor s|s∈S W } VI (p) Métodos Diversidad Lingüística March 2015, Mexico 37 / 55 Crecer Paradigmas: Ejemplos P {-ation} {-ated, -ation} {-ate, -ated, -ation} {-ate, -ated, -ating, -ation} {-ate, -ated, -ating, -ation, -ations} P {-xt} {-xt, -n} {-xt, -n, -ns} {-n, -ns} ... VI(P) 0.00 0.14 0.40 0.75 1.00 VI(P) 0.00 0.04 0.12 0.55 ... Nota: el estrechez de un paradigma es independiente de la calidad de segmentación: E.g. VI ({0 xcellent 0 ,0 xcellently 0 }) = 1.0. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 38 / 55 Ejemplo de Resultados: Poláco -a - -a¢ -a -acie -ach -aj¡ -ami -aª -e -ali -em -aªa -om -aªo -owe -asz -owej -am -owi -ane -owych -anie -u -aniem -y -aniu -ania -ano -asz Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 39 / 55 Una segmentadora sin supervisión para lenguas de morfología con un espacio Podemos combinar los tres componentes I Segmentación I Sobrerepresantación I Paradigmas Se hace una segmentadora completamente sin supervisión Para una lengua concatenativa con una morfología de un espacio, p.e., Indonesio Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 40 / 55 Segmentación para el hombre pobre Input: Un conjunto de palabtas W de un corpus de texto Un conjunto S de ajos salientes 1 2 de Extracción de ajos de W Purga Por cada s ∈ S , its paradigm P(s) 3 from Alternación en W Dado w = xy ∈ W , es que x selecciona P(y ) o no? 4 Decisión de segmentación Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 41 / 55 Cuándo debe una palabra w segmentarse? w = xy debe segmentarse si (y solo si): -y es un ajo saliente Y x- selecciona P(y ) (tiende a ocurrir con los sujos que pertenecen al paradigma de -y) Intuición: w = xy -y saliente? x- selecciona P(y )? Segmentación? play-ing yes yes yes s-ing yes no no P(ing ) = {-ing, Hammarstrom drea-m no yes no -ed, -s, -, . . . } Métodos Diversidad Lingüística March 2015, Mexico 42 / 55 Extracción: Sujos en Indonesio -anmu -nya -anku -lah -kanlah -hnya -inya -atnya -kan -tnya 87195.4 73694.0 51923.8 39535.9 27933.2 20915.8 19677.7 18361.2 18318.4 14237.1 -iel -snya -rlah -annya -ilah -anya -nmu -mu -kannya -an 10000.7 9635.2 9351.8 7802.0 7534.3 7005.4 6531.7 6350.9 5981.8 5931.3 -arlah -atlah -anlah -nglah -anglah -akanlah -hlah -ah -nku -ya ... -aadil -aadai -aaan Hammarstrom Métodos Diversidad Lingüística 5702.8 5148.6 4522.9 4121.3 3990.4 3882.9 3658.6 3596.1 3359.6 3203.6 0.0 0.0 0.0 0.0 March 2015, Mexico 43 / 55 Purga de ajos Quedarse solo con los sujos que son la mejor disección de por lo menos una palabra 0 UW = {s|s = argmaxs 0 /w ZW (s 0 ) for some w ∈ W } 0 = {anmu, UW nya, anku, lah, kan, nmu, mu, nku, i, ezer, zabad, inadab, ihud, nadab, arif, obab, ezib, ilene, laf, ilo, ore, e} Siguen existir algunos sujos espurio, como muy escasos -ilene, da igual ya que son Un error grave es la falta de -an (purgado ya que -mu y -ku frecuentemente aparacen junto a el Indonesio no es puremente una lengua de un espacio!) Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 44 / 55 Listas de quotientes: Indonesio y nya 00 mu ku kan lah an i kanlah kah ilah annya kannya t k anmu n m h s ng l inya ya ... Hammarstrom Hnya (y ) 1.000 0.913 0.261 0.153 0.071 0.057 0.043 0.039 0.034 0.016 0.015 0.014 0.011 0.008 0.008 0.008 0.007 0.007 0.007 0.005 0.005 0.005 0.004 0.004 ... y mu 00 nya ku kan lah an kanlah i kah annya ilah anmu n m k ng mulah t anku wan ya ta s ... Métodos Diversidad Lingüística Hmu (y ) 1.000 0.943 0.749 0.393 0.063 0.059 0.056 0.045 0.040 0.022 0.022 0.019 0.015 0.014 0.014 0.012 0.011 0.011 0.009 0.009 0.008 0.007 0.007 0.007 ... March 2015, Mexico 45 / 55 Calidad de Paradigmas: Indonesio {nya, mu, , ku} 2.789 nya 1.652 mu 1.004 ku 0.572 lah 0.243 kan 0.231 an 0.197 i 0.157 kanlah 0.137 annya 0.075 ilah 0.068 kah 0.065 n 0.049 anmu 0.047 m 0.043 t 0.037 k 0.036 anku 0.033 ng 0.032 h 0.031 mulah 0.031 ya 0.031 ta 0.029 s 0.027 ... ... [0, 1, 2, 3] Hammarstrom {nya, s, a, ya} mu ku snya i kan lah an n anya slah skan k ng san t kanlah m si r h l amu nya ... [24, 32, 50, 79] 1.025 0.273 0.166 0.098 0.092 0.089 0.076 0.069 0.064 0.058 0.057 0.053 0.053 0.052 0.048 0.045 0.044 0.043 0.042 0.042 0.042 0.030 0.030 0.027 ... Métodos Diversidad Lingüística March 2015, Mexico 46 / 55 Crecer Paradigmas: Indonesio P VI (P) ('nya',) 0.000 (, 'nya') 0.333 (, 'mu', 'nya') 0.750 (, 'ku', 'mu', 'nya') 1.000 P VI (P) ('s',) 0.0 ('s', 'snya') 0.077 ('s', 'smu', 'snya') 0.273 ('s', 'sku', 'smu', 'snya') 0.667 ('s', 'san', 'sku', 'smu', 'snya') 0.833 ('s', 'san', 'skan', 'sku', 'smu', 'snya') 0.882 Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 47 / 55 Decisión de segmentación: Intuición Considera: 'gadisnya' el -nya es una ocurrencia verdadera del sujo 'hanya' termina con la secuencia de letras -nya -nya por azar No tenemos lexicon de raíces para decirnos que hay una raiz gadis- pero no hay una raiz ha-! Hay 247 palabras en W que empiezan con ha-: Ninguna de las otras 246 continuaciones son - , -mu o -ku, i.e., los ajos del paradigma G ∗ (nya) sistematicamente alternatando con -nya! Hay 3 palabras en W que empiezan con gadis- Las otras dos son 'gadis' y 'gadismu', i.e., con - y -mu! Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 48 / 55 Decisión de segmentación: Formalmente 0 Dada una palabra w = xs donde s ∈ UW Denir CW (x) = {y |xy ∈ W } como el cunjunto de continuationes de una raiz x Cuánto del contenido de CW (x) aparece dentro versus fuera del paradigma de s ? El conjunto de continuaciones dentro I = CW (x) ∩ G ∗ (s) El conjunto de continuaciones fuera O = CW (x) \ G ∗ (s) αW (G ∗ (s)) es la proporción de palabras en W que terminan en (algún miembro de) G ∗ (s) w = xs debe segmentarse si esta proporción sobrepasa ≥ 1: (1 − α)|O| α|I |−1 Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 49 / 55 Decisión de segmentación: Ejemplo w x s G ∗ (s) αW G ∗ (s) CW (x) I O |O| · log(1 − α) (|I | − 1) · log α Segmentatación justicada? Hammarstrom 'gadisnya' 'hanya' gadis- ha- -nya -nya {00 , ku, mu, nya} {00 , ku, mu, nya} {00 , nya, mu} {00 , nya, mu} {} {nya, sratmu, ncurkanlah, rta, rod, . . . } {nya} {sratmu, ncurkanlah, rta, rod, . . . } 0.205 0.0 -3.2 0.0 > −3.2 yes 0.205 Métodos Diversidad Lingüística -56.9 0.0 −56.9 < 0.0 no March 2015, Mexico 50 / 55 Evaluación Datos gold standard para evaluación: 100 palabras seleccionadas por azar de W Segmentadas a mano con respecto a prejos y sujos P.e., di-rencana-kan-nya y meng-erut-kan Un número total de 64 segmentaciones se fueron encontradas en las 100 palabras Procedimiento: El algoritmo fue aplicado a las 100 palabras, una vez para sujos y una vez para prejos. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 51 / 55 Resultados 58 de las segmentationes fueron encontradas correctamente No se encontraron segmentaciones spurias 6 segmentaciones faltan Precision: 58/58=100% y Recall: 58/64=90.6% Todos los 6 de las segmentaciones faltantes fueron palabras con sujos apilados como -kan-lah, o con -an nal. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 52 / 55 Segmentadora de un espacio sin supervisión: Discussión Un conjunto bastante largo de heurísticas No hay prueba matemática con rigor, pero por lo menos todas heurísticas tienen una intuición clara No hay umbrales de valores Pero: La morfología del Indonesio es muy fácil El procedimiento no puede aplicarse facilmente a lenguas con más que un espacio en su morfología I La extracción de ajos encuentra varios ajos apilados, pero no todos I El crecimiento de paradigmas encuentra paradigmas demasiadamente pequeños cuando se aplica a lenguas con más que un espacio Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 53 / 55 Conclusiones No hay una teoría madura por ULM La técnicas posiblemente pueden I Solucionar el problema con lenguas de morfología de un espacio I Acercar el problema con lenguas de morfología de más que un espacio Precisión de aplicaciones con más ambición es questionable El uso de ULM para facilitar o ayudar transcripción no está explorado Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 54 / 55 Thank you Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Andreev, N. D. (1959). Modelirovanije jazyka na base ego statisti£eskoj i teoretiko-mnoºestvennoj struktury. In Tezisy sove²£anija po matemati£eskoj lingvistike, 14-21 Aprelja 1959 goda, pages 1522. Ministerstvo vys²ego obrazovanija SSSR, Leningrad. Andreev, N. D. (1963). Algoritmy statistiko-kombinatornogo modelirovanija morfologii, sintaksisa, slovoobrazovanija i semantiki. In Materialy po matemati£eskoj lingvistike i ma²inomu perevodu: Sbornik II, pages 344. Izdatel'stvo Leningradskogo universiteta, Leningrad. Andreev, N. D. (1965a). Opyt statistiko-kombinatornogo vydelenija pervogo morfologi£eskogo tipa v vengerskom jazyke. In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 205211. Nauka, Leningrad. Andreev, N. D., editor (1965b). jazykov. Nauka, Leningrad. Andreev, N. D. (1967). Statistiko-kombinatornoe modelirovanie Statistiko-kombinatornye metody v teoreti£eskom i prikladnom jazykovedenii. Nauka, Leningrad. Arabsorkhi, M. and Shamsfard, M. (2006). Unsupervised discovery of persian morphemes. In Proceedings of the 11th Conference of the Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 European Chapter of the Association for Computational Linguistics, EACL 2006, April 3-7, 2006, Trento, Italy: Demonstrations Session, pages 175178. The Association for Computer Linguistics. Argamon, S., Akiva, N., Amir, A., and Kapah, O. (2004). Ecient unsupervised recursive word segmentation using minimum description length. In Proceedings of COLING 2004, pages 10581064, Geneva, Switzerland. COLING. Atwell, E. and Roberts, A. (2005). Combinatory hybrid elementary analysis of text. In Kurimo, M., Creutz, M., and Lagus, K., editors, Proceedings of MorphoChallenge 2005, pages 3741. Bacchin, M., Ferro, N., and Melucci, M. (2002a). The eectiveness of a graph-based algorithm for stemming. In Lim, E. P., Foo, S., Khoo, C. S. G., Chen, H., Fox, E. A., Urs, S. R., and Thanos, C., editors, ICADL '02: Proceedings of the 5th International Conference on Asian Digital Libraries, volume 2555 of Lecture 117128. Springer-Verlag, Berlin. Notes in Computer Science, pages Bacchin, M., Ferro, N., and Melucci, M. (2002b). University of Padua at CLEF 2002: Experiments to evaluate a statistical stemming algorithm. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 In Working Notes for CLEF 2002: Cross-Language Evaluation Forum Workshop, pages 161168. Rome. Bacchin, M., Ferro, N., and Melucci, M. (2005). A probabilistic model for stemmer generation. Information Processing and Management, 41(1):121137. Baroni, M. (2000). Distributional Cues in Morpheme Discovery: A Computational Model and Empirical Evidence. California, Los Angeles. PhD thesis, University of Baroni, M. (2003). Distribution-driven morpheme discovery: A computational/experimental study. Yearbook of Morphology, pages 213248. Baroni, M., Matiasek, J., and Trost, H. (2002). Unsupervised discovery of morphologically related words based on orthographic and semantic similarity. In Proceedings of the Workshop on Morphological and Phonological Learning of ACL/SIGPHON-2002, pages 4857. Batchelder, E. O. (1997). Computational evidence for the use of frequency information in discovery of the infant's rst lexicon. University of New York. Hammarstrom Métodos Diversidad Lingüística PhD thesis, City March 2015, Mexico 55 / 55 Bati, T. B. (2002). Automatic morphological analyser: An experiment using unsupervised and autosegmental approach. Master's thesis, Addis Ababa University, Ethiopia. Belkin, M. and Goldsmith, J. (2002). Using eigenvectors of the bigram graph to infer morpheme identity. In Morphological and Phonological Learning: Proceedings of the 6th Workshop of the ACL Special Interest Group in Computational Phonology (SIGPHON), pages 4147, Philadelphia. Association for Computational Linguistics. Bernhard, D. (2005a). Segmentation morphologique à partir de corpus. In Actes de TALN & RÉCITAL 2005, volume 1, pages 555564. ATALA, Dourdan, France. Bernhard, D. (2005b). Unsupervised morphological segmentation based on segment predictability and word segments alignment. In Kurimo, M., Creutz, M., and Lagus, K., editors, Unsupervised segmentation of words into morphemes Challenge 2005, pages 1822. Bernhard, D. (2006). Apprentissage de connaissances morphologiques pour l'acquisition automatique de ressources lexicales. Joseph Fourier Grenoble I. Hammarstrom Métodos Diversidad Lingüística PhD thesis, Université March 2015, Mexico 55 / 55 Bernhard, D. (2007a). Apprentissage non supervisé de familles morphologiques par classication ascendante hiérarchique. In Actes de la 14e conférence sur le Traitement Automatique des Langues Naturelles, TALN 2007, volume 1, pages 367376. Toulouse, France. Bernhard, D. (2007b). Simple morpheme labelling in unsupervised morpheme analysis. In Nardi, A. and Peters, C., editors, Working Notes for the CLEF 2007 Workshop, 19-21 September, Budapest, Hungary. Bordag, S. (2005a). Two-step approach to unsupervised morpheme segmentation. In Kurimo, M., Creutz, M., and Lagus, K., editors, Unsupervised segmentation of words into morphemes Challenge 2005, pages 2327. Bordag, S. (2005b). Unsupervised knowledge-free morpheme boundary detection. In Proceedings of Recent Advances in Natural Language Processing 2005 (RANLP '05). Borovets, Bulgaria. Bordag, S. (2007a). Elements of Knowledge-free and Unsupervised acquisition. PhD thesis, University of Leipzig, Leipzig. lexical Bordag, S. (2007b). Unsupervised and knowledge-free morpheme segmentation and analysis. In Kurimo, M., Creutz, M., and Lagus, K., Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 editors, Unsupervised segmentation of words into morphemes Challenge 2007. Bordag, S. (2007c). Unsupervised and knowledge-free morpheme segmentation and analysis. In Nardi, A. and Peters, C., editors, Working Notes for the CLEF 2007 Workshop, 19-21 September, Budapest, Hungary. Brent, M. (1993). Minimal generative explanations: A middle ground between neurons and triggers. In Proceedings of the fteenth annual conference of the Cognitive Science Society: June 18 to 21, 1993, Institute of Cognitive Science, University of Colorado, Boulder, 2836. Lawrence Erlbaum Associates. pages Brent, M. R. (1999). An ecient, probabilistically sound algorithm for segmentation and word discovery. Machine Learning, 34:71105. Brent, M. R., Murthy, S., and Lundberg, A. (1995). Discovering morphemic suxes: A case study in minimum description length induction. In Fifth International Workshop on Articial Intelligence and Statistics, pages 482490. Fort Lauderdale, Florida: Society for Articial Intelligence and Statistics. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Calderone, B. (2008). Unsupervised Learning of Linguistic Structures. PhD thesis, Pisa: Scuola Normale Superiore. avar, D., Herring, J., Ikuta, T., Rodrigues, P., and Schrementi, G. (2004a). On induction of morphology grammars and its role in bootstrapping. In Jäger, G., Monachesi, P., Penn, G., and Wintner, S., editors, Proceedings of Formal Grammar 2004, pages 4762. avar, D., Herring, J., Ikuta, T., Rodrigues, P., and Schrementi, G. (2004b). On statistical parameter setting. In Proceedings of the First Workshop on Psycho-computational Models of Human Language Acquisition, 28-29 August 2004, Geneva, Switzerland (Held in cooperation with COLING-2004), pages 916. avar, D., Herring, J., Ikuta, T., Rodrigues, P., and Schrementi, G. (2006a). On unsupervised grammar induction from untagged corpora. In Kaszubski, P., editor, PSiCL: Poznan' Studies in Contemporary Linguistics, volume 41, pages 5771. Poznan', Poland: Adam Mickiewicz University. avar, D., Rodrigues, P., and Schrementi, G. (2006b). Unsupervised morphology induction for part-of-speech tagging. In Eilam, A., Scheer, T., and Tauberer, J., editors, Proceedings of the 29th Annual Penn Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Linguistics Colloquium, volume 12(1) of U. Penn Working Papers in Linguistics, pages 2941. Penn Linguistics Club, University of Pennsylvania. Chan, E. (2006). Learning probabilistic paradigms for morphology in a latent class model. In Proceedings of the Eighth Meeting of the ACL Special Interest Group on Computational Phonology and Morphology at HLT-NAACL 2006, pages 6978. Association for Computational Linguistics, New York City, USA. Chan, E. (2008). Structures and distributions in morphology learning. PhD thesis, University of Pennsylvania, Philadelphia, PA, USA. Cho, S. and Han, S.-S. (2002). Automatic stemming for indexing of an agglutinative language. In Yakhno, T., editor, Advances in Information Systems, volume 2457 of Lecture Notes in Computer Science, pages 154165. Springer-Verlag, Berlin. Clark, A. (2001). Unsupervised language acquisition. PhD thesis, University of Sussex. Creutz, M. (2003). Unsupervised segmentation of words using prior distributions of morph length and frequency. In Proceedings of the ACL 2003, pages 280287. Sapporo, Japan. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Creutz, M. (2006). Induction of the Morphology of Natural Language: Unsupervised Morpheme Segmentation with Application to Automatic Speech Recognition. Espoo, Finland. PhD thesis, Helsinki University of Technology, Creutz, M. and Lagus, K. (2002). Unsupervised discovery of morphemes. In Proceedings of the 6th Workshop of the ACL Special Interest Group in Computational Phonology (SIGPHON), Philadelphia, July 2002, pages 2130. Association for Computational Linguistics. Creutz, M. and Lagus, K. (2004). Induction of a simple morphology for highly-inecting languages. In Proceedings of the 7th Meeting of the ACL Special Interest Group in Computational Phonology (SIGPHON), pages 4351. Barcelona. Creutz, M. and Lagus, K. (2005a). Inducing the morphological lexicon of a natural language from unannotated text. In Proceedings of the International and Interdisciplinary Conference on Adaptive Knowledge Representation and Reasoning (AKRR '05), 15-17 June, Espoo, Finland, pages 106113. Espoo. Creutz, M. and Lagus, K. (2005b). Morfessor in the Morpho Challenge. In Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Kurimo, M., Creutz, M., and Lagus, K., editors, Unsupervised segmentation of words into morphemes Challenge 2005, pages 1217. Creutz, M. and Lagus, K. (2005c). Unsupervised morpheme segmentation and morphology induction from text corpora using morfessor 1.0. Technical report, Publications in Computer and Information Science, Report A81, Helsinki University of Technology. Creutz, M. and Lagus, K. (2007). Unsupervised models for morpheme segmentation and morphology learning. ACM Transactions on Speech and Language Processing, 4(1,3):133. Creutz, M., Lagus, K., Lindén, K., and Virpioja, S. (2005a). Morfessor and hutmegs: Unsupervised morpheme segmentation for highly-inecting and compounding languages. In Proceedings of the Second Baltic Conference on Human Language Technologies, Tallinn, 4 - 5 April, pages 107112. Tallinn, Estonia. Creutz, M., Lagus, K., and Virpioja, S. (2005b). Unsupervised morphology induction using morfessor. In Yli-Jyrä, A., Karttunen, L., and Karhumäki, J., editors, Finite State Methods in Natural Language Processing: 5th International Workshop, FSMNLP 2005, Helsinki, Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Finland, September 1-2, 2005. Revised Papers, volume 4002 of Lecture Notes in Computer Science, pages 300301. Springer-Verlag, Berlin. Cromm, O. (1997). Axerkennung in deutschen wortformen: Ein nicht-lexikalisches segmentierungsverfahren nach N. D. Andreev. LDV-Forum, 14(2):413. Dang, M. T. and Choudri, S. (2005). Simple unsupervised morphology analysis algorithm (SUMAA). In Kurimo, M., Creutz, M., and Lagus, K., editors, Proceedings of MorphoChallenge 2005, pages 4751. Dasgupta, S. (2007). Toward language-independent morphological segmentation and part-of-speech induction. Master's thesis, The University of Texas at Dallas. Dasgupta, S. and Ng, V. (2006). Unsupervised morphological parsing of bengali. Language Resources and Evaluation, 3-4:311330. Dasgupta, S. and Ng, V. (2007). High-performance, language-independent morphological segmentation. In Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference, 155163, Rochester, New York. Association for Computational Linguistics. Hammarstrom Métodos Diversidad Lingüística pages March 2015, Mexico 55 / 55 Dasgupta, S. and Ng., V. (2007). Unsupervised word segmentation for bangla. In Proceedings of the 5th International Conference on Natural Language Processing (ICON 2007). Hyderabad, India. de Kock, J. and Bossaert, W. (1969). Towards an automatic morphological segmentation. In International conference on computational linguistics, COLING, 1-4 September 1969, Sånga-Säby, Sweden, volume 60, pages 1011. Stockholm: Forskningsgruppen för kvantitativ lingvistik. de Kock, J. and Bossaert, W. (1974). Introducción a la lingüística automática en las lenguas Románicas, románica hispánica 2: Estudios y volume 202 of Biblioteca ensayos. Gredos, Madrid. de Kock, J. and Bossaert, W. (1978). The Morpheme: An Experiment in Quantitative and Computational Linguistics. Van Gorcum, Amsterdam. De Pauw, G. and Wagacha, P. W. (2007). Bootstrapping morphological analysis of Gk uy u using maximum entropy learning. In Proceedings of the 8th Annual Conference of the International Speech Communication Association (INTERSPEECH 2007), Antwerp, Belgium, August 27-31, 2007, pages 15171520. ISCA. Déjean, H. (1998a). Hammarstrom Concepts et algorithmes pour la découverte des Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 structures formelles des langues. Normandie. PhD thesis, Université de Caen Basse Déjean, H. (1998b). Morphemes as a necessary concept for structures discovery from untagged corpora. In NeMLaP3/CoNLL98 Workshop Paradigms and Grounding in Language Learning, pages 295298. Association for Computational Linguistics, Philadephia. Deligne, S. (1996). on Modèles de séquences de longueurs variables: application au traitement du langage écrit et de la parole. PhD thesis, École Nationale Supérieure des Télécommunications, Paris. Deligne, S. and Bimbot, F. (1997). Inference of variable-length linguistic and acoustic units by multigrams. Speech Communication, 23(3):223241. Demberg, V. (2007). A language-independent unsupervised model for morphological segmentation. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pages 920927, Prague, Czech Republic. Association for Computational Linguistics. Eliseeva, K. A. (1965). Statistiko-kombinatornoe modelirovanie pervogo tipa v ukrainskoj morfologii. In Andreev, N. D., editor, Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Statistiko-kombinatornoe modelirovanie jazykov, Leningrad. pages 8588. Nauka, Faulk, R. D. and Gustavson, F. G. (1990). Segmenting discrete data representing continuous speech input. IBM Systems Journal, 29(2):287296. Fedulova, N. I. (1965). Vydelenie pervogo morfologi£eskogo tipa v bolgarskom jazyke. In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 110115. Nauka, Leningrad. Fihman, B. S. (1965a). Vydelenie pervogo morfologi£eskogo tipa v jazyke hausa po algoritmu statistiko-kombinatornogo modelirovanija. In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 189195. Nauka, Leningrad. Fihman, B. S. (1965b). Vydelenie pervogo morfologi£eskogo tipa v jazyke suahili po algoritmu statistiko-kombinatornogo modelirovanija. In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 196204. Nauka, Leningrad. Fitialova, I. B. (1965). Statistiko-kombinatornoe vydelenie pervogo morfologi£eskogo tipa v nemeckom jazyke. In Andreev, N. D., editor, Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Statistiko-kombinatornoe modelirovanie jazykov, Leningrad. Flenner, G. (1992). pages 158171. Nauka, Ein quantitatives Morphsegmentierungsverfahren für spanische Wortformen. PhD thesis, Georg-August-Universität Göttingen. Flenner, G. (1994). Ein quantitatives Morphsegmentierungssystem für spanische Wortformen. In Klenk, U., editor, Computatio Linguae II: Aufsätze zur algorithmischen und quantitativen Analyse der Sprache, volume 83 of Zeitschrift für Dialektologie und Linguistik: Beihefte, pages 3162. Franz Steiner, Stuttgart. Flenner, G. (1995). Quantitative Morphsegmentierung im Spanischen auf phonologischer Basis. Sprache und Datenverarbeitung, 19(2):6378. Freitag, D. (2005). Morphology induction from term clusters. In Proceedings of the Ninth Conference on Computational Natural Language Learning (CoNLL-2005), pages 128135, Ann Arbor, Michigan. Association for Computational Linguistics. Gammon, E. (1969). Quantitative approximations to the word. In International conference on computational linguistics, COLING, 1-4 September 1969, Sånga-Säby, Sweden, volume 10, pages 128. Stockholm: Forskningsgruppen för kvantitativ lingvistik. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Gaussier, É. (1999). Unsupervised learning of derivational morphology from inectional lexicons. In Kehler, A. and Stolcke, A., editors, Proceedings of the workshop on Unsupervised Learning in Natural Language Processing at the 37th Annual Meeting of the Association for Computational Linguistics (ACL-1999), Computational Linguistics, Philadephia. pages 2430. Association for Gelbukh, A. F., Alexandrov, M., and Han, S.-Y. (2004). Detecting inection patterns in natural language by minimization of morphological model. In Sanfeliu, A., Trinidad, J. F. M., and Carrasco-Ochoa, J. A., editors, Proceedings of Progress in Pattern Recognition, Image Analysis and Applications, 9th Iberoamerican Congress on Pattern Recognition, CIARP '04, volume 3287 of Lecture 432438. Springer-Verlag, Berlin. Notes in Computer Science, pages Golcher, F. (2006). Statistical text segmentation with partial structure analysis. In Proceedings of KONVENS 2006, pages 4451. Universität Konstanz. Goldsmith, J. (2000). Linguistica: An automatic morphological analyzer. In Okrent, A. and Boyle, J., editors, Proceedings from the Main Session of Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 the Chicago Linguistic Society's thirty-sixth Meeting, Chicago Linguistics Society, Chicago. pages 125139. Goldsmith, J. (2001). Unsupervised learning of the morphology of natural language. Computational Linguistics, 27(2):153198. Goldsmith, J., Higgins, D., and Soglasnova, S. (2001). Automatic language-specic stemming in information retrieval. In Peters, C., editor, Cross-Language Information Retrieval and Evaluation: Proceedings of the CLEF 2000 Workshop, Lecture Notes in Computer Science, pages 273283. Springer-Verlag, Berlin. Goldsmith, J., Hu, Y., Matveeva, I., and Sprague, C. (2005). A heuristic for morpheme discovery based on string edit distance. Technical Report TR-2005-4 of Computer Science Department, University of Chicago. Goldsmith, J. A. (2006). An algorithm for the unsupervised learning of morphology. Natural Language Engineering, 12(4):353371. Goldwater, S. (2007). Nonparametric Bayesian Acquisition. PhD thesis, Brown University. Models of Lexical Goldwater, S., Griths, T., and Johnson, M. (2005). Interpolating between types and tokens by estimating power-law generators. In Advances in Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Neural Information Processing Systems 18 [Neural Information Processing Systems, NIPS 2005, December 5-8, 2005, Vancouver, British Columbia, Canada]. Golénia, B. (2008). Learning rules in morphology of complex synthetic languages. Master's thesis, Université de Paris V. Goodman, S. A. (2008). Morphological induction through linguistic productivity. In Working Notes for the CLEF 2008 Workshop, 17-19 September, Aarhus, Denmark. Hadouche, F. (2002). Détection de relations morphologiques en corpus basée sur les cooccurrences. Master's thesis, DESS, Centre de Recherche en Ingénierie Multilingue, CRIM, France. Hafer, M. A. and Weiss, S. F. (1974). Word segmentation by letter successor varieties. Information Storage and Retrieval, 10:371385. Hammarström, H. (2005). A new algorithm for unsupervised induction of concatenative morphology. In Yli-Jyrä, A., Karttunen, L., and Karhumäki, J., editors, Finite State Methods in Natural Language Processing: 5th International Workshop, FSMNLP 2005, Helsinki, Finland, September 1-2, 2005. Revised Papers, Notes in Computer Science, Hammarstrom volume 4002 of Lecture pages 288289. Springer-Verlag, Berlin. Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Hammarström, H. (2006a). A naive theory of morphology and an algorithm for extraction. In Wicentowski, R. and Kondrak, G., editors, SIGPHON 2006: Eighth Meeting of the Proceedings of the ACL Special Interest Group on Computational Phonology, 8 June 2006, New York City, USA, pages 7988. Association for Computational Linguistics. Hammarström, H. (2006b). Poor man's stemming: Unsupervised recognition of same-stem words. In Ng, H. T., Leong, M.-K., Kan, M.-Y., and Ji, D., editors, Information Retrieval Technology: Proceedings of the Third Asia Information retrieval Symposium, AIRS 2006, Singapore, October 2006, volume 4182 of Lecture Notes in Computer Science, pages 323337. Springer-Verlag, Berlin. Hammarström, H. (2007). Unsupervised learning of morphology: Survey, model, algorithm and experiments. Thesis for the Degree of Licentiate of Engineering, Department of Computer Science and Engineering, Chalmers University, 91 pp. Hammarström, H. (2009a). Poor man's word-segmentation: Unsupervised morphological analysis for Indonesian. In Proceedings of the Third International Workshop on Malay and Indonesian Language Engineering (MALINDO). Hammarstrom Singapore: ACL. Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Hammarström, H. (2009b). Unsupervised Learning of Morphology and the Languages of the World. PhD thesis, Chalmers University of Technology and University of Gothenburg. Hammarström, H., Thornell, C., Petzell, M., and Westerlund, T. (2008). Bootstrapping language description: The case of mpiemo (bantu a, central african republic). In Proceedings of LREC-2008, pages 33503554. European Language Resources Association (ELRA). Harris, Z. (1967). Morpheme boundaries within words: Report on a computer test. In Transformations and Discourse Analysis Papers 73. Department of Linguistics, University of Pennsylvania. Reprinted in Harris 1970. Harris, Z. S. (1955). From phoneme to morpheme. Language, 31(2):190222. Harris, Z. S. (1968). Recurrent dependence process: Morphemes by phoneme neighbours. In Mathematical structures of language, volume 21 of Interscience tracts in pure and applied mathematics, pages 2428. Interscience, New York. Harris, Z. S. (1970). Morpheme boundaries within words: Report on a computer test. In Harris, Z. S., editor, Papers in Structural and Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Transformational Linguistics, volume 1 of Formal Linguistics Series, pages 6877. D. Reidel, Dordrecht. Original Zellig Harris 1967 Morpheme boundaries within words: Report on a computer test. In Transformations and Discourse Analysis Papers 73. Department of Linguistics, University of Pennsylvania. Hirsimäki, T., Creutz, M., Siivola, V., and Kurimo, M. (2003). Unlimited vocabulary speech recognition based on morphs discovered in an unsupervised manner. In Proceedings of Eurospeech 2003, Geneva, pages 22932996. Geneva, Switzerland. Hol'm, H. A. (1965). Vydelenie pervogo morfologi£eskogo tipa v e stonskom jazyke na osnove statistiko-kombinatornogo modelirovanija. In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 212224. Nauka, Leningrad. Hu, Y., Matveeva, I., Goldsmith, J., and Sprague, C. (2005a). Rening the SED heuristic for morpheme discovery: Another look at Swahili. In Proceedings of the Workshop on Psychocomputational Models of Human Language Acquisition, pages 2835, Ann Arbor, Michigan. Association for Computational Linguistics. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Hu, Y., Matveeva, I., Goldsmith, J., and Sprague, C. (2005b). Using morphology and syntax together in unsupervised learning. In Proceedings of the Workshop on Psychocomputational Models of Human Language Acquisition, pages 2027, Ann Arbor, Michigan. Association for Computational Linguistics. Jacquemin, C. (1997). Guessing morphology from terms and corpora. In Proceedings, 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '97), Philadelphia, PA, pages 155165. Jakubajtis, T. A. (1965). Statistiko-kombinatornoe vydelenie pervogo morfologi£eskogo tipa v laty²skom jazyke. In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 116122. Nauka, Leningrad. Jaku²eva, D. A. (1965). Opyt primenenija algoritma statistiko-kombinatornogo modelirovanija k v'etnamskomu jazyku. In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 225228. Nauka, Leningrad. Janÿen, A. (1992). Segmentierung französischer Wortformen ohne Lexikon. In Klenk, U., editor, Computatio Linguae: Aufsätze zur algorithmischen Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 und quantitativen Analyse der Sprache, Dialektologie und Linguistik: volume 73 of Zeitschrift für Beihefte, pages 7495. Franz Steiner, Stuttgart. Johnsen, L. G. (2005). Morphological learning as principled argument. In Kurimo, M., Creutz, M., and Lagus, K., editors, Proceedings of MorphoChallenge 2005, pages 3336. Johnson, H. and Martin, J. (2003). Unsupervised learning of morphology for English and Inuktitut. In HLT-NAACL 2003, Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, May 27 - June 1, Edmonton, Canada, volume Companion Volume - Short papers, pages 4345. Johnson, M. (2008). Unsupervised word segmentation for Sesotho using adaptor grammars. In Proceedings of the Tenth Meeting of ACL Special Interest Group on Computational Morphology and Phonology, pages 2027, Columbus, Ohio. Association for Computational Linguistics. Jordan, C., Healy, J., and Keselj, V. (2005). Swordsh: Using ngrams in an unsupervised approach to morphological analysis. In Kurimo, M., Creutz, M., and Lagus, K., editors, Proceedings of MorphoChallenge 2005, pages 4246. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Jordan, C., Healy, J., and Keselj, V. (2006). Swordsh: an unsupervised ngram based approach to morphological analysis. In SIGIR '06: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, York, NY, USA. ACM. pages 657658, New Juola, P., Hall, C., and Boggs, A. (1994). Corpus-based morphological segmentation by entropy changes. In Monaghan, A., editor, Third Conference on the Cognitive Science of Natural Language Processing. Dublin City University. Katrenko, S. (2004). Towards unsupervised learning of morphology applied to Ukrainian. In i Alemany, L. A. and Egré, P., editors, Student Session: 16th European Summer School in Logic, Language and Information, Nancy, France, 9-20 August, 2004, pages 138148. FoLLI. Kazakov, D. (1997). Unsupervised learning of naïve morphology with genetic algorithms. In Daelemans, W., Weijters, T., and van der Bosch, A., editors, ECML'97 Workshop Notes on Empirical Learning of Natural Language Tasks, pages 105112, Prague. University of Economics. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Kazakov, D. and Manandhar, S. (1998). A hybrid approach to word segmentation. In Page, C. D., editor, Proceedings of the 8th International Workshop on Inductive Logic Programming (ILP-98) in Madison, Wisconsin, USA, volume 1446 of Lecture Notes Intelligence, pages 125134. Springer-Verlag, Berlin. in Articial Kazakov, D. and Manandhar, S. (2001). Unsupervised learning of word segmentation rules with genetic algorithms and inductive logic programming. Machine Learning, 43:121162. Keshava, S. and Pitler, E. (2005). A simpler, intuitive approach to morpheme induction. In Kurimo, M., Creutz, M., and Lagus, K., editors, Proceedings of MorphoChallenge 2005, pages 2832. Kirschenbaum, A., Wittenburg, P., and Heyer, G. (2012). Unsupervised morphological analysis of small corpora: First experiments with kilivila. In Seifart, F., Haig, G., Himmelmann, N. P., Jung, D., Margetts, A., and Trilsbeek, P., editors, Potentials of Language Documentation: Methods, Analyses, and Utilization, volume 3 of Language Documentation & Conservation Special Publication, pages 2532. University of Hawaii Press. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Klenk, U. (1985a). Ein nicht-lexikalisches Verfahren zur Erkennung spanischer Wortstämme. In Klenk, U., editor, Strukturen und Verfahren in der maschinellen Sprachverarbeitung, pages 4765. AQ-Verlag, Dudweiler. Klenk, U. (1985b). Recognition of Spanish inectional endings based on the distribution of characters. In Hamesse, J. and Zampolli, A., editors, Computers in literary and linguistic computing: proceedings of the eleventh International Conference / L'ordinateur et les recherches littéraires et linguistiques: actes de la XIe Conférence internationale, Université catholique de Louvain (Louvain-la-Neuve) 2-6 avril 1984, volume 30 of Travaux de linguistique quantitative, pages 246253. Klenk, U. (1991). Verfahren der Segmentierung von Wörtern in Morphe: Mit einer Untersuchung zum Spanischen. In und Dieter Seelbach, J. R., editor, Romanistische Computerlinguistik: Theorien und Implementationen, volume 266 of Linguistische Arbeiten, pages 197206. Niemeyer, Tübingen. Klenk, U. (1992). Verfahren morphologischer Segmentierung und die Wortstruktur des Spanischen. In Klenk, U., editor, Computatio Linguae: Aufsätze zur algorithmischen und quantitativen Analyse der Sprache, Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 volume 73 of Zeitschrift für Dialektologie und Linguistik: Beihefte, pages 110124. Franz Steiner, Stuttgart. Klenk, U. and Langer, H. (1989). Morphological segmentation without a lexicon. Literary and Linguistic Computing, 4(4):247253. Kohonen, O., Virpioja, S., and Klami, M. (2008). Allomorfessor: Towards unsupervised morpheme analysis. In Working Notes for the CLEF 2008 Workshop, 17-19 September, Aarhus, Denmark. Kontorovich, L., Don, D., and Singer, Y. (2003). A markov model for the acquisition of morphological structure. Technical report, CMU-CS-03-147, School of Computer Science, Carnegie Mellon University. Kordi, E. E. (1965). Ishodnye dannye dlja statistiko-kombinatornogo modelirovanija morfologii sovremennogo francuzckogo jazyka i vydelenie pervogo morfologi£eskogo tipa. In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 172180. Nauka, Leningrad. Langer, H. (1991). Ein automatisches Morphsegmentierungsverfahren für deutsche Wortformen. PhD thesis, Georg-August-Universität zu Göttingen. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Lehmann, H. (1973). Linguistische Niemeyer Verlag, Tübingen. Modellbildung und Methodologie. Max Majumder, P., Mitra, M., and Pal, D. (2008). Bulgarian, Hungarian and Czech stemming using YASS. In Peters, C., Jijkoun, V., Mandl, T., Müller, H., Oard, D. W., and Penas, A., editors, Advances in Multilingual and Multimodal Information Retrieval: 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007, Budapest, Hungary, September 19-21, 2007, Revised Selected Papers, Springer-Verlag, Berlin. pages 4956. Majumder, P., Mitra, M., Parui, S. K., Kole, G., Mitra, P., and Datta, K. (2007). YASS: Yet another sux stripper. ACM Transactions on Information Systems, 25(4):18:120. Malahovskij, L. V. (1965). Na£al'nyj e tap statistiko-kombinatornogo modelirovanija morfologii anglijskogo jazyka. In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 137149. Nauka, Leningrad. Mayeld, J. and McNamee, P. (2003). Single n-gram stemming. In SIGIR '03: Proceedings of the 26th annual international ACM SIGIR conference Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 on Research and development in informaion retrieval, New York, NY, USA. ACM. pages 415416, McNamee, P. and Mayeld, J. (2007). N-gram morphemes for retrieval. In Nardi, A. and Peters, C., editors, Working Notes for the CLEF 2007 Workshop, 19-21 September, Budapest, Hungary. Medina Urrea, A. (2000). Automatic discovery of axes by means of a corpus: A catalog of Spanish axes. Journal of Quantitative Linguistics, 7(2):97114. Medina Urrea, A. (2003). Investigación cuantitativa de ajos y clíticos del español de México: Glutinometría en el Corpus del Español Mexicano Contemporáneo. PhD thesis, El Colegio de México, México, D.F. Medina-Urrea, A. (2006). Ax discovery by means of corpora: Experiments for Spanish, Czech, Ralámuli and Chuj. In Mehler, A. and Köhler, R., editors, Aspects of Automatic Text Analysis, volume 209 of Studies in Fuzziness and Soft Computing, pages 277299. Springer, Berlin. Medina Urrea, A. (2006). Towards the automatic lemmatization of 16th century Mexican Spanish: A stemming scheme for the CHEM. In Gelbukh, A. F., editor, Computational Linguistics and Intelligent Text Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Processing, 7th International Conference, CICLing 2006, Mexico City, Mexico, February 19-25, 2006, Proceedings, volume 3878 of Lecture pages 101104. Springer-Verlag, Berlin. Medina-Urrea, A. (2008). Ax discovery based on entropy and economy measurements. In Gaylord, N., Palmer, A., and Ponvert, E., editors, Computational Linguistics for Less-Studied Languages, volume X of Texas Linguistics Society, pages 99112. Stanford: CSLI. Medina Urrea, A. and Díaz, E. C. B. (2003). Características cuantitativas de la exión verbal del Chuj. Estudios de Lingüística Aplicada, 38:1531. Melkumjan, M. R. (1965). Ishodnye dannye i statistiko-kombinatornoe vydelenie paradigmy pervogo morfologi£eskogo tipa v armjanskom jazyke. In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 123136. Nauka, Leningrad. Monson, C. (2004). A framework for unsupervised natural language morphology induction. In van der Beek, L. and andDaniel Midgley, D. G., editors, ACL 2004: Student Research Workshop, pages 6772, Barcelona, Spain. Association for Computational Linguistics. Monson, C. (2009). ParaMor: From paradigm structure to natural language morphology induction. PhD thesis, Carnegie Mellon University. Notes in Computer Science, Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Monson, C., Carbonell, J., Lavie, A., and Levin, L. (2007a). ParaMor: Finding paradigms across morphology. In Nardi, A. and Peters, C., editors, Working Notes for the CLEF 2007 Workshop, 19-21 September, Budapest, Hungary. Monson, C., Carbonell, J., Lavie, A., and Levin, L. (2007b). ParaMor: Minimally supervised induction of paradigm structure and morphological analysis. In Proceedings of Ninth Meeting of the ACL Special Interest Group in Computational Morphology and Phonology, pages 117125, Prague, Czech Republic. Association for Computational Linguistics. Monson, C., Carbonell, J., Lavie, A., and Levin, L. (2008a). ParaMor and Morpho Challenge 2008. In Working Notes for the CLEF 2008 Workshop, 17-19 September, Aarhus, Denmark. Monson, C., Lavie, A., Carbonell, J., and Levin, L. (2004). Unsupervised induction of natural language morphology inection classes. In SIGPHON 2004: Proceedings of the Seventh Meeting of the ACL Special Interest Group in Computational Phonology, pages 5261, Barcelona, Spain. Association for Computational Linguistics. Monson, C., Lavie, A., Carbonell, J., and Levin, L. (2008b). Evaluating an agglutinative segmentation model for ParaMor. In Proceedings of the Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Tenth Meeting of ACL Special Interest Group on Computational Morphology and Phonology, pages 4958, Columbus, Ohio. Association for Computational Linguistics. Monson, C., Llitjós, A. F., Ambati, V., Levin, L., Lavie, A., Alvarez, A., Aranovich, R., Carbonell, J., Frederking, R., Peterson, E., and Probst, K. (2008c). Linguistic structure and bilingual informants help induce machine translation of lesser-resourced languages. In Proceedings of the Sixth International Language Resources and Evaluation (LREC'08), pages 28542859. Marrakech, Morocco. Moon, T., Erk, K., and Baldridge, J. (2009). Unsupervised morphological segmentation and clustering with document boundaries. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pages 668677, Singapore. Association for Computational Linguistics. Naradowsky, J. and Goldwater, S. (2009). Improving morphology induction by learning spelling rules. In International Joint Conference on Articial Intelligence. Nunzio, G. D., Ferro, N., Melucci, M., and Orio, N. (2004). Experiments to evaluate probabilistic models for automatic stemmer generation and Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 query word translation. In Peters, C., Braschler, M., Gonzalo, J., and Kluck, M., editors, Proceedings of the Cross-Language Evaluation Forum (CLEF): Methodology and Metrics (CLEF 2003), volume 3237 of Lecture Notes in Computer Science, pages 220235. Springer-Verlag, Berlin. Oliver, A. (2004). Adquisició d'informació lèxica i morfosintàctica a partir de corpus sense anotar: aplicació al rus i al croat. PhD thesis, Universitat de Barcelona. Oºigova, G. I. (1965). Statistiko-kombinatornoe modelirovanie paradigmy pervogo morfologi£eskogo tipa v £e²skom jazyke. In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 89103. Nauka, Leningrad. Palmer, A., Moon, T., Baldridge, J., Erk, K., Campbell, E., and Can, T. (2010). Computational strategies for reducing annotation eort in language documentation: A case study in creating interlinear texts for uspanteko. Linguistic Issues in Language Technology LiLT, 3(4):144. Pandey, A. K. and Siddiqui, T. J. (2008). An unsupervised Hindi stemmer with heuristic improvements. In AND '08: Proceedings of the second workshop on Analytics for noisy unstructured text data, pages 99105, New York, NY, USA. ACM. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Panina, N. A. (1965). Opyt statistiko-kombinatornogo vydelenija paradigmy pervogo morfologi£eskogo tipa v serbohorvatskom jazyke. In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 104109. Nauka, Leningrad. Per²ikov, V. F. (1965). Iz opyta statistiko-kombinatornogo modelirovanija albanskoj morfologii. In Andreev, N. D., editor, Statistiko-kombinatornoe modelirovanie jazykov, pages 181188. Nauka, Leningrad. Pirrelli, V., Calderone, B., Herreros, I., and Virgilio, M. (2004). Non-locality all the way through: Emergent global constraints in the italian morphological lexicon. In SIGPHON 2004: Proceedings of the Seventh Meeting of the ACL Special Interest Group in Computational Phonology, pages 5261, Barcelona, Spain. Association for Computational Linguistics. Pirrelli, V. and Herreros, I. (2007). Learning morphology by itself. In Booij, G., Ducceschi, L., Fradin, B., Guevara, E., Ralli, A., and Scalise, S., editors, Proceedings of the Fifth Mediterranean Morphology Meeting (MMM5) Fréjus 15-18 September 2005, pages 269290. Università degli Studi di Bologna. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Poon, H., Cherry, C., and Toutanova, K. (2009). Unsupervised morphological segmentation with log-linear models. In Proceedings of NAACL '09: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pages 209217, Morristown, NJ, USA. Association for Computational Linguistics. Redlich, A. N. (1993). Redundancy reduction as a strategy for unsupervised learning. Neural Computation, 5(2):289304. Rodrigues, P. and avar, D. (2005). Learning arabic morphology using information theory. In Edwards, R. L., Midtlyng, P. J., Sprague, C. L., and Stensrud, K. G., editors, The Panels 2005: Proceedings from the Annual Meeting of the Chicago Linguistic Society, volume 41-2, pages 4958. Chicago Linguistic Society. Rodrigues, P. and avar, D. (2007). Learning arabic morphology using statistical constraint-satisfaction models. In Benmamoun, E., editor, Perspectives on Arabic Linguistics: Papers from the annual symposium on Arabic Linguistics Volume XIX: Urbana, Illinois, April 2005, 289 of Current Issues John Benjamins. Hammarstrom in Linguistic Theory, volume pages 6375. Amsterdam: Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Schone, P. (2001). Toward Knowledge-Free Induction of Machine-Readable Dictionaries. PhD thesis, University of Colorado. Schone, P. and Jurafsky, D. (2000). Knowledge-free induction of inectional morphologies using latent semantic analysis. In Conference on Natural Language Learning 2000 (CoNLL-2000), Lisbon, Portugal. Schone, P. and Jurafsky, D. (2001). Knowledge-free induction of inectional morphologies. In Proceedings of the North American Chapter of the Association for Computational Linguistics, Pittsburgh, PA, 2001, pages 183191. Sharma, U. and Das, R. (2002). Classication of words based on ax evidence. In Sangal, R. and Bendre, S. M., editors, International Conference on Natural Language Processing, ICON-2002, Mumbai, December 18-21, 2002, pages 3139. Vikas Publishing House Pvt Ltd., New Delhi. Sharma, U., Kalita, J., and Das, R. (2002). Unsupervised learning of morphology for building lexicon for a highly inectional language. In Proceedings of the 6th Workshop of the ACL Special Interest Group in Computational Phonology (SIGPHON), Philadelphia, July 2002, 110. Association for Computational Linguistics. Hammarstrom Métodos Diversidad Lingüística pages March 2015, Mexico 55 / 55 Sharma, U., Kalita, J., and Das, R. (2003). Root word stemming by multiple evidence from corpus. In Proceedings of the 6th International Conference on Computational Intelligence and Natural Computation (CINC), Cary, North Carolina, September 2003, pages 15931596. Snover, M. G. (2002). An unsupervised knowledge free algorithm for the learning of morphology in natural languages. Master's thesis, Department of Computer Science, Washington University. Snover, M. G. and Brent, M. R. (2001). A bayesian model for morpheme and paradigm identication. In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (ACL-2001), pages 482490. Morgan Kaufmann Publishers. Snover, M. G. and Brent, M. R. (2003). A probabilistic model for learning concatenative morphology. In Becker, S., Thrun, S., and Obermayer, K., editors, Advances in Neural Information Processing Systems 15, pages 15131520. MIT Press, Cambridge, MA. Snover, M. G., Jarosz, G. E., and Brent, M. R. (2002). Unsupervised learning of morphology using a novel directed search algorithm: Taking the rst step. In Proceedings of the ACL-02 Workshop on Morphological Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 and Phonological Learning, Linguistics. pages 1120. Association for Computational Snyder, B. and Barzilay, R. (2008). Unsupervised multilingual learning for morphological segmentation. In Proceedings of ACL-08: HLT, pages 737745, Columbus, Ohio. Association for Computational Linguistics. Spiegler, S., Golénia, B., Shalonova, K., Flach, P., and Tucker, R. (2008). Learning the morphology of Zulu with dierent degrees of supervision. In Spoken Language Technology Workshop, 2008 (SLT 2008), pages 912. IEEE. Tepper, M. (2007). Knowledge-lite induction of underlying morphology: A hybrid approach to learning morphemes using context-sensitive rewrite rules. Master's thesis, University of Washington. Tepper, M. and Xia, F. (2008). A hybrid approach to the induction of underlying morphology. In Proceedings of the Third International Joint Conference on Natural Language Processing (IJCNLP 2008), pages 1724, Hyderabad, India. Asian Federation of Natural Language Processing. ur Rehman, K. and Hussain, I. (2005). Unsupervised morphemes Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 segmentation. In Kurimo, M., Creutz, M., and Lagus, K., editors, Proceedings of MorphoChallenge 2005, pages 5256. Wicentowski, R. (2002). Modeling and Learning Multilingual Inectional Morphology in a Minimally Supervised Framework. PhD thesis, Johns Hopkins University, Baltimore, MD. Wicentowski, R. (2004). Multilingual noise-robust supervised morphological analysis using the wordframe model. In Proceedings of the ACL Special Interest Group on Computational Phonology (SIGPHON), pages 7077. Wothke, K. C. (1985). Maschinelle Erlernung und Simulation morphologischer Ableitungsregeln. PhD thesis, Rheinische Friedrich-Wilhelms-Universität zu Bonn. Xanthos, A. (2007). Apprentissage automatique de la morphologie: Le cas des structures racine-schème. PhD thesis, Université de Lausanne. Published 2008 by Peter Lang AG (Sciences pour la Communication 88). Xanthos, A., Hu, Y., and Goldsmith, J. (2006). Exploring variant denitions of pointer length in mdl. In Proceedings of the Eighth Meeting of the ACL Special Interest Group on Computational Phonology and Morphology at HLT-NAACL 2006, pages 3240. Association for Computational Linguistics, New York City, USA. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Yarowsky, D. and Wicentowski, R. (2000). Minimally supervised morphological analysis by multimodal alignment. In Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics (ACL-2000), pages 207216. Yvon, F. (1996). Prononcer par analogie: motivation, formalisation et evaluation. PhD thesis, École Nationale Supérieure des Télécommunications, Paris. Zeman, D. (2007). Unsupervised acquiring of morphological paradigms from tokenized text. In Nardi, A. and Peters, C., editors, Working Notes for the CLEF 2007 Workshop, 19-21 September, Budapest, Hungary. Zeman, D. (2008a). Unsupervised acquiring of morphological paradigms from tokenized text. In Peters, C., Jijkoun, V., Mandl, T., Müller, H., Oard, D. W., and Penas, A., editors, Advances in Multilingual and Multimodal Information Retrieval: 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007, Budapest, Hungary, September 19-21, 2007, Revised Selected Papers, pages 892899. Springer-Verlag, Berlin. Zeman, D. (2008b). Using unsupervised paradigm acquisition for prexes. In Working Notes for the CLEF 2008 Workshop, 17-19 September, Aarhus, Denmark. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55 Zweigenbaum, P., Hadouche, F., and Grabar, N. (2003). Apprentissage de relations morphologiques en corpus. In Daille, B., editor, Actes de TALN 2003, pages 285294. Batz-sur-mer, France. Hammarstrom Métodos Diversidad Lingüística March 2015, Mexico 55 / 55