Genetic Algorithm Parameter Settings - Unscented sampling techniques for evolutionary computati

6.1.1. El CEDEL2140

El Corpus Escrito del Español como L2 (CEDEL2) (Lozano, 2009; Lozano y Mendikoetxea, 2013) es un corpus escrito informatizado de aprendientes de L1 inglés-L2 español que contiene muestras de lenguas de todos los niveles de dominio (inicial, intermedio y avanzado); los aprendientes son clasificados de acuerdo con el test de diagnóstico de la Universidad de Wisconsin (1998), que es independiente y estandarizado, y se puede realizar en línea. El CEDEL2 dispone de un corpus nativo diseñado de igual manera con el objetivo de que sirva para establecer comparaciones entre la lengua de los HNN y la de los HN.

Como se avanzaba en el apartado 2.2.2, este corpus nace en 2006 en el grupo de investigación WOSLAC (Word Order in Second Language Aquisition Corpora), en la Universidad Autónoma de Madrid y la Universidad de Granada, con el objetivo de determinar el papel que desempeñan las interfaces en el desarrollo de la interlengua. El proyecto tiene entre sus objetivos la compilación de dos corpus de aprendientes: el CEDEL2 y el WriCLE (Written Corpus of Learner English), este último constituido por muestras de lengua de hablantes de L2 inglés con español como L1. Un análisis contrastivo del español de los anglófonos y del inglés de los hispanohablantes permitirá determinar si las carencias o déficits de un grupo son resultado de la interferencia de la L1 o consecuencia de patrones de desarrollo universales (Lozano, 2013: 6)141.

140_{La información incluida en este apartado sobre el CEDEL2 proviene de las diversas}

presentaciones sobre el corpus que su director (Lozano) y la directora del proyecto en el que este se origina (Mendikoetxea) han llevado a cabo (en Lozano, 2009; y en Lozano y Mendikoetxea, 2013).

141 _{Esta investigación se centra en el estudio de una sola interlengua, por lo que queda}

pendiente para un futuro trabajo una comparación con la interlengua del corpus WriCLE que permita contrastar y completar los resultados de este análisis.

Hemos recurrido al CEDEL2 –y no al otro gran corpus informatizado de aprendientes del español, el corpus oral SPLLOC (Spanish Learner Language Oral Corpora) (Mitchel et al., 2008), de la Universidad de Southampton– porque constituye una fuente de datos más reales o naturales al haber sido creado de acuerdo con los diez principios del diseño de corpus propuestos por Sinclair (véase al respecto Sinclair, 2005), garantía, por lo tanto, de la calidad metodológica en la conformación del corpus. Estos criterios, que posibilitan comprobar los requisitos de calidad en el diseño y la elaboración de los corpus, son los siguientes (Lozano y Mendikoetxea, 2013: 7): 1) selección del contenido de acuerdo con criterios externos, como es la función comunicativa de los textos, y no la lengua utilizada; 2) representatividad del corpus del estado de lengua seleccionado; 3) contraste con un corpus de control diseñado a tal efecto; 4) criterio estructural basado en la sencillez; 5) almacenamiento por separado de las etiquetas y del texto en bruto; 6) los textos deben comprender actos de habla completos, independientemente de su tamaño; 7) el diseño y la composición del corpus deben estar documentados; 8) equilibro entre las muestras de lengua oral y escrita si el corpus pretende incluir ambas variedades; 9) el control del tema en un corpus solo debe imponerse por el uso de criterios externos; y, finalmente, 10) los textos deben ser homogéneos, por lo que se deben descartar los que no son representativos de la variedad seleccionada.

Así, el CEDEL2, se trata de un corpus que, en resumidas cuentas, pretende ser representativo de la lengua escrita únicamente (a la representatividad nos referimos más adelante, en este mismo apartado), por lo que los resultados solo se extrapolarán a la interlengua escrita –no obstante, está demostrado que el conocimiento lingüístico en la interlengua es sistemático, independientemente de que sea representado por el canal oral o escrito (Lozano y Mendikoetxea, 2013: 13)–; por otro lado, el contenido del corpus es seleccionado por criterios externos, es decir, está diseñado para poder contestar a cualquier pregunta de investigación en L2 referida a cualquier estructura lingüística, dado que no se observa ningún desequilibrio de unas estructuras lingüísticas sobre otras.

En el último recuento del que tenemos constancia, realizado en marzo de 2011, el CEDEL2 contaba con 750000 palabras en formato electrónico, ya que los datos se están obteniendo por medio de una aplicación en línea. Se siguen recopilando datos –el objetivo es llegar al millón de palabras–, por lo que todavía no se encuentra disponible para toda la comunidad investigadora ni para el resto de usuarios interesados; aun así, ya se han utilizado los datos existentes en algunos trabajos (presentados en el capítulo 2), a los que esta investigación se suma. Es un corpus considerado suficientemente amplio como para aportar un

panorama fiable de cualquier uso lingüístico: “the learner subcorpus will eventually contain c. 750000 words, a reasonable sample size for a learner corpus” (Lozano y Mendikoetxea, 2013: 16), por lo que produce datos más fiables y naturales que los obtenidos tradicionalmente de corpus más pequeños y diseñados siguiendo una metodología ad hoc142_.

En la siguiente figura (tomada de Lozano y Mendikoetxea, 2013: 10) se muestran los criterios estructurales del corpus y el objetivo perseguido en el tamaño de la muestra en lo referente al número de palabras y al porcentaje.

Figura 2. Diseño del corpus CEDEL2

La estructura presentada en el esquema refleja la sencillez del diseño del corpus –principio fundamental de todo corpus diseñado adecuadamente (Sinclair, 2005)–, pues está basado en criterios muy reducidos en número y claramente separables, como son la subdivisión en tres subcorpus de aprendientes en función del nivel de dominio lingüístico y la existencia de un corpus de control nativo.

Los corpus de control permiten un contraste fiable entre los datos de la interlengua y la lengua nativa, que se erige como norma descriptiva en muchos de los estudios de corpus (véase al respecto de la norma el capítulo 5); precisamente, los dos subcorpus son diseñados en condiciones comparables para que el corpus

142_{No obstante, es cierto que el ICLE (Granger et al., 2009), uno de los corpus de}

aprendientes más grandes que existe en la actualidad, cuenta con casi 3,3 millones de palabras; lógicamente, “the art of sampling has a bearing on the extrapolability of the results: the larger the sample, the more reliable the findings” (Lozano y Mendikoetxea, 2013: 16), si bien conviene que matizar que estas cifras del ICLE se corresponden con los datos de aprendientes de inglés de 16 L1 diferentes, por lo que la diferencia entre el tamaño de los subcorpus de aprendientes de inglés del ICLE y del subcorpus del español del CEDEL2 no es tal (como se especifica a continuación).

nativo sea tratado como norma o modelo lingüístico; a este objetivo se refiere Leech (2001: 333) cuando afirma que “Optimally we also need targeted corpora –corpora targeted to represent as closely as possible the learner´s future communicative needs, (…)”. En nuestra investigación hacemos uso del corpus de control únicamente para detectar rasgos de la interlengua relacionados específicamente con la L1 o con patrones de sobreutilización o infrautilización, como defiende Tono (2003: 803); para analizar estas cuestiones en el corpus de aprendientes, sin lugar a dudas el corpus de control es una herramienta de gran valor. No obstante, una lengua debe analizarse también sobre la base de algún tipo de norma prescriptiva que permita determinar la adecuación de las muestras lingüísticas al sistema lingüístico del español y al contexto situacional en el que aparecen, es decir, a la variedad del español seleccionada como modelo (recuérdense nuestras consideraciones en torno a la norma expuestas en el capítulo 5).

En otoño de 2010, en el momento en el que iniciamos este estudio, los textos sumaban unas 730000 palabras (de acuerdo con la gráfica presentada en Lozano y Mendikoetxea [2013: 16] sobre la evolución del CEDEL2 con respecto al número de palabras) no etiquetadas –por lo que trabajamos con el material puro, sin procesar– a las que hubo que restar las palabras pertenecientes a participantes de nivel inicial e intermedio, dado que este es un estudio de un nivel avanzado de interlengua. En el análisis hemos contado con prácticamente 370000 palabras, de las cuales unas 172000 palabras pertenecen al corpus de aprendientes de nivel avanzado –de acuerdo con el test de diagnóstico de la Universidad de Wisconsin– y aproximadamente 198000, al corpus nativo. Esta cantidad coincide, como señalábamos en la n. 3, con el tamaño de cada uno de los 16 subcorpus del ICLE, esto es, 200000 palabras de inglés escrito producido por hablantes de 16 L1 diferentes, que es considerada como una cantidad suficiente para realizar análisis válidos (Nesselhauf, 2005: 45-46). Como se observa en el gráfico 1, hay un equilibrio en el porcentaje de cada corpus referido al número de palabras: aproximadamente ¼ del número total de palabras pertenece al subcorpus nativo, y prácticamente otro cuarto pertenece al subcorpus de aprendientes de nivel avanzado.

Nativos 198000; 27 % Avanzado 172000; 24 % Principiante e Intermedio 360000; 49 %

Número total de palabras por grupo y

In document Unscented sampling techniques for evolutionary computation with applications to astrodynamic optimization (Page 121-127)