General Information about the Line of Duty Act Program Plan Description

Después de repasar cuáles son los corpus más relevantes en la historia de la Lingüística de Corpus, de definir los conceptos de corpus y corpus informatizado y describir los aspectos más destacados, nos proponemos reflexionar sobre la idoneidad de usar una fuente de información actualizada y en continua evolución de que disponemos en la actualidad, la

World Wide Web12_.

Con el nacimiento de internet y la expansión de la World Wide Web, se ha originado una polémica acerca de si la web constituye un corpus en sí mismo o puede ser considerado un recurso para recopilar textos con rapidez y de forma gratuita. Gries y Newman (2013:263), reflexionan acerca de si cualquier muestra de lenguaje puede considerarse un corpus y definen corpus como “a category organized around a prototype”. Dicha colección de textos deberá ser representativa de un lenguaje, variedad o registro. Sinclair (2005:4) excluye de la definición de corpus algunas categorías como un único texto, un archivo o la

World Wide Web:

The World Wide Web is not a corpus, because its dimensions are unknown and constantly changing, and because it has not been designed from a linguistic perspective. At present, it is quite mysterious, because the search engines, through which the retrieval programs operate, are all different, none of them are comprehensive, and it is not at all clear what population is being sampled.

Sin embargo, el acceso gratuito y actualizado a la información que nos proporciona internet representa una herramienta muy útil para los lingüistas especializados en análisis de corpus por diversas razones:

1. La World Wide Web es un corpus a gran escala que contiene textos, imágenes, sonido y videos (corpus multimodales)

2. Permite preguntar directamente en la red acerca de cuestiones lingüísticas

3. Los corpus pueden ser accesibles online haciendo uso de las herramientas de búsqueda

4. La red como una fuente de creación de corpus (géneros emergentes)

5. Las aplicaciones y las herramientas informáticas pueden estar disponibles de forma gratuita en la red en lugar de tener que diseñarlas para nuestro propio corpus

La postura de Sinclair ha sido rebatida por diversos autores; Kilgariff y Grefenstette (2003:334) exponen que la web puede ser considerada un corpus por diversas razones. Critican que algunos lingüistas se centren en definir qué es un corpus en lugar de preguntarse si el corpus x es apropiado para realizar la tarea y. Siguiendo este razonamiento, deducen que la red en sí misma constituye un corpus siempre que un este sea considerado

12_{Podemos aprovechar este fuente de información online como corpus utilizando software como}

WinHTTrack (un spider/web crawler) y Detagger (para quitar las etiquetas de las páginas web; lo que los anglosajones denominan boiler-plate removal).

como un conjunto de textos que se tome como objeto de estudio lingüístico o literario. Sobre la ausencia de representatividad en los datos online, principal crítica en contra de la web como un corpus, afirman que este criterio tampoco está definido con claridad en la recopilación de corpus a gran escala.

En general, los datos procedentes de la web presentan numerosas ventajas a la hora de seleccionar y recopilar la información para configurar el corpus. En primer lugar, los textos que formarán parte del corpus ya están en formato electrónico. Además, si estos datos se han recopilado mediante métodos automatizados, los corpus se pueden construir en un período breve de tiempo; es posible extraer gran cantidad de información de la red de una forma rápida y relativamente sencilla. A la hora de configurar el corpus, el principio “cuantos más datos, mejor” podría ser otra ventaja que ofrece internet como fuente de información lingüística. También hay que tener en cuenta que estos datos están siendo continuamente actualizados; es el caso de los corpus online, BNC, COCA, CREA, etc., cuya información es sincrónica. Estos corpus accesibles en la red y los géneros textuales emergentes como los blogs, wikis, discussion forums, contienen textos extensos relacionados con una gran variedad de temas que son interesantes desde el punto de vista de un lingüista de corpus y que además son producidos por usuarios de perfiles distintos (edad, profesión, gustos…). Acceder a la información de la red no solo permite construir corpus a gran escala, sino también corpus especializados. Y por último, otra de las ventajas sería que en internet se pueden construir corpus paralelos; se pueden encontrar multitud de bitexts de un mismo documento.

Por otro lado, hay que tener en cuenta las posibles desventajas de la red como fuente de información para la creación de un corpus. Nos cuestionamos si la World Wide Web puede ser representativa del lenguaje humano. El inglés de internet de ninguna forma es representativo del registro oral o escrito de esta lengua puesto que es la lengua de comunicación internacional, que puede llegar a limitar el uso de otras lenguas en este medio puesto que la utilizan no solo los hablantes nativos de inglés, sino también hablantes no nativos que suelen producir textos de escasa calidad lingüística, algunos incluso traducidos de su propia lengua materna. Es frecuente encontrar textos online con errores de transcripción u ortográficos y también páginas web que contienen demasiada información de relleno, que habría que desechar para la creación de un corpus. Los autores de contenidos en internet responden normalmente al perfil de gente joven con conocimientos de informática a nivel de usuario; son escritores no profesionales que representan claramente el inglés en su variedad coloquial.

A pesar de las desventajas que pueda presentar la información disponible en internet como fuente de creación de un corpus, la cantidad de textos y su fácil accesibilidad la hacen atractiva para cualquier investigador interesado en Lingüística de Corpus.

In document VIRGINIA LOTTERY ANNUAL FINANCIAL REPORT. for year ended June 30, 2020 (Page 61-65)