3. HARRY POTTER AND THE FAIRY-TALE
3.2. Why is it so Appealing?
3.2.3. To Experience Intense Emotions
Distribución de los datos de mariposas y unidades geográficas empleadas
A pesar de la importante cantidad de información recogida (Capítulo 2), los datos son incompletos, lo que impone ciertas limitaciones a los objetivos de este estudio. Primero, aunque la base de datos estaba originalmente referenciada a cuadrículas UTM de 10 km de lado, las estimas preliminares demostraron que la cobertura geográfica a esta escala era escasa (como máximo el 17% del área total), mientras que un tamaño de malla de cuadrícula de 50 km de lado ofrecía una proporción razonablemente representativa de los territorios ibéricos y Baleares (García-Barros et al., 1999; Garcia-Pereira et al., 1999; Garcia-Pereira, 2003; Capítulo 2). Esto determinó el tamaño de las unidades geográficas seleccionado para este
Capítulo 3: Sesgos geográficos en bases de datos de mariposas ibero-baleares
eliminaron del análisis, lo que resultó en un total de 257 unidades geográficas. Segundo, aunque la cobertura de los datos abarcaba un amplio período de más de dos siglos (de 1784 a 2003), la cantidad de información ha crecido de manera casi exponencial durante este período. Como consecuencia, una gran mayoría de registros era de origen relativamente reciente (media de la fecha ± SD = 1978 ± 23,6; Figuras 1 y 2). Este hecho impide determinar de forma precisa sesgos históricos, por lo que se determinó de forma global.
Figura 1. Distribución histórica de los registros de la base de datos (número de registros por década). La línea de puntos vertical indica el año promedio (1978 ± 23,6). Nótese que el eje Y se encuentra en escala logarítmica.
Valorando la calidad de los inventarios locales
Utilizando el número de registros de la base de datos como unidad de esfuerzo de muestreo, se aplicó la ecuación de Clench (p. ej. Soberón & Llorente, 1993) para estimar la tasa media de especies añadidas por registro. El número de registros de la base de datos se encontró más fuertemente correlacionado con la tasa de acumulación de especies que con otras variables (número de individuos, sitios, publicaciones o fuentes bibliográficas, fechas de captura, etc.: Capítulo 2).
Helena Romo, 2007 Diversidad geográfica de las mariposas ibero-baleares
Figura 2. Distribución geográfica de la proporción de datos recientes. El porcentaje de registros de la base de datos posteriores a 1978 se encuentra representado por tonos que varían de azul a rojo según se incrementa el porcentaje de registros.
A pesar de ser un método que requiere tiempo en su ejecución, se prefirió utilizar la ecuación de Clench (aleatorizando los datos 100 veces: Colwell, 2000) en lugar de otros estimadores paramétricos o no paramétricos (p. ej. Soberón & Llorente, 1993; Colwell & Coddington, 1994; Peterson & Slade, 1998; Colwell, 2000; Petersen & Meier, 2003) por las ventajas comentadas en el Capítulo 2. Se realizó una comparación entre la riqueza de especies estimada obtenida con este método y la obtenida con tres estimadores no paramétricos (Jackknife 1 y 2, y Chao 2: Burnham & Overton, 1979; Heltshe & Forrester, 1983; Chao, 1984; Smith & van Belle, 1984; Chao, 1987; Colwell, 2000), que se presenta al principio de la sección de resultados.
Se usó la proporción especies registradas/predichas como medida de la completitud del inventario (Soberón et al., 2000; Capítulo 2). Una cuadrícula se consideró bien estudiada cuando su riqueza de especies observada era igual o mayor que el 90% del valor predicho.
Regiones eco-fisiográficas
Para estimar el grado en el que la selección de cuadrículas cubre la mayoría de los gradientes ambientales existentes en el área de estudio, se valoró la proporción de
Capítulo 3: Sesgos geográficos en bases de datos de mariposas ibero-baleares
Ésta se basa en cuadrículas de 50 x 50 km y se realizó a partir de métodos de clasificación jerárquica de la distribución de las variables fisiográficas más relevantes en el área de estudio. Se calculó la proporción de cuadrículas bien estudiadas en cada subregión, así como la riqueza de especies asociada y el número de registros de la base de datos que presentaban cada una de estas subregiones.
Variables espaciales, ambientales y de uso del suelo
Se realizaron regresiones múltiples de 22 variables continuas (ambientales, de uso del suelo inducido por el hombre y variables espaciales) con los valores de completitud obtenidos y con el número de registros de la base de datos como variables dependientes. Las variables ambientales incluían cuatro topográficas (altitud mínima, altitud máxima, altitud media y diferencia de altitud), cuatro litológicas (porcentaje de área con suelos calizos, arcillosos, silíceos, y diversidad litológica) y ocho variables climáticas (temperatura media de las mínimas, temperatura media de las máximas, temperatura media anual, amplitud térmica, precipitación media anual, precipitación estival, amplitud de precipitaciones y porcentaje medio anual de horas de sol). Las variables de uso de suelo, seleccionadas para representar el grado de alteración provocada por el hombre, miden la cobertura de cuatro paisajes abundantes en el área de estudio: 1) áreas urbanas e industriales, 2) cultivos de regadío, 3) cultivos de secano, y 4) pastos antrópicos. La longitud y latitud del centroide de cada cuadrícula UTM, medidas como las coordenadas X e Y en metros en esta proyección, se utilizaron como variable espacial.
Los datos climáticos (con una resolución original de 1 km) provienen del Instituto Nacional de Meteorología de España (INM, http://www.inm.es/) y del Instituto Meteorológico portugués (IM, http://www.meteo.pt/). Las variables topográficas proceden de un Modelo Digital del Terreno (MDT) y fueron obtenidas por superposición con los polígonos de las cuadrículas UTM de 50 km de lado en el sistema de información geográfica IDRISI (Clark Labs, 2000). Los datos de uso de suelo (de resolución original 282 m2) provienen del programa CORINE Land Cover
1985-1990 (Coordination of Information on the Environment) (European Environment Agency, 2000), procediéndose de idéntica forma a su superposición con IDRISI (Clark Labs, 2003). La composición dominante del sustrato se obtuvo de mapas geológicos (escala 1:200.000, Instituto Geográfico Nacional, 1995); éstos fueron primero digitalizados y después superpuestos a los polígonos de 50 km mediante IDRISI (Clark Labs, 2003). La diversidad litológica de cada cuadrícula se estimó
Helena Romo, 2007 Diversidad geográfica de las mariposas ibero-baleares
y desviación estándar uno, para eliminar el efecto de las diferentes escalas de medida en cada una de las variables.
Valoración de los efectos de las variables ambientales y espaciales en el esfuerzo de muestreo
La relación entre la completitud de las cuadrículas y las variables ambientales seleccionadas se valoró mediante Modelos Lineales Generales (MLG: McCullagh & Nelder, 1989; Crawley, 1993), los cuales tienen en cuenta la no linearidad de los datos, y permiten asumir un amplio rango de modelos de distribución diferentes a la distribución normal. Se asumió una distribución de Poisson, ya que la relación entre la variable dependiente y las variables explicativas (link function) tiende a ser logarítmica en el caso del número de registros de la base de datos, y lineal para el porcentaje de especies observadas.
Para evaluar las posibles relaciones curvilíneas en las cuadrículas bien muestreadas, la variable dependiente se relacionó previamente con una función lineal, cuadrática o cúbica de cada una de las variables ambientales, de forma separada (Austin, 1980). Posteriormente, se realizó una regresión paso a paso hacia delante (forward stepwise), para introducir las variables en el modelo (ver Nicholls, 1989; Austin et al., 1996). En primer lugar, se introdujo en el modelo la función lineal, cuadrática o cúbica de la variable que representaba el mayor cambio en la desvianza (medida de dispersión que señala la variabilidad de la variable dependiente). Se comprobó la significación de las restantes variables y se añadieron al modelo de manera secuencial de acuerdo con su peso estimado. El proceso se repitió de forma iterativa hasta que no quedaron más variables explicativas estadísticamente significativas (p<0.05). En cada paso, se probó la significación de los términos seleccionados, sometiendo el nuevo modelo a un proceso de regresión por pasos hacia atrás (backward stepwise). Se eliminaron los términos que en este paso resultaron no significativos. El modelo final se construyó de manera separada para cada uno de los tres tipos de variables explicativas (ambientales, uso del suelo o espaciales). Se estudió el porcentaje de variabilidad explicada por las diferentes posibles combinaciones de estos tipos de factores explicativos. En el caso de las variables espaciales, se incluyeron en el modelo los términos de la ecuación polinomial de tercer grado de la latitud y longitud central (Trend Surface Analysis, TSA: Legendre, 1993): x + x2 + x3 + y + y2 + y3 + xy + x2y + xy2. Este procedimiento soluciona los
Capítulo 3: Sesgos geográficos en bases de datos de mariposas ibero-baleares
efectos de otras variables históricas, bióticas o ambientales que no se han tenido en cuenta (Legendre & Legendre, 1998). Se realizó una regresión por pasos hacia atrás con los nueve términos de la ecuación como variables predictivas, para eliminar los términos espaciales no significativos.
Todos los análisis se llevaron a cabo con el paquete estadístico STATISTICA 6.1 (StatSoft, 2004).
RESULTADOS
Riqueza de especies estimada
Aunque los diferentes estimadores de la riqueza de especies se correlacionaban entre sí (Tabla 1), los obtenidos con la ecuación de Clench eran los menos directamente relacionados con el número de registros por cuadrícula de la base de datos. Más aún, este efecto era más marcado con un bajo número de registros, y más conservador cuando el número de registros era alto (Figura 3). Aunque esto no demuestra que esta función sea más eficiente que otros métodos para determinar el número real de especies, sugiere que es más sensible a la estructura de los datos que al número de observaciones independientes (es decir, el número de registros).
Selección de las cuadrículas bien estudiadas
Como promedio, el número de registros de la base de datos alcanzó el valor asintótico de la relación entre especies y registros alrededor de los 2.000 registros (Figura 4). De 257 cuadrículas, 158 presentaron valores de completitud superiores a 75%, y 95 de ellas alcanzaron valores de 90% o superior (Figuras 4 y 5). Se detectó una discontinuidad en la relación entre los valores observados y los estimados, usando una regresión lineal por partes (piecewise), a un porcentaje de completitud de alrededor del 88% (Figura 6). Tomando este porcentaje como punto de corte, 101 cuadrículas de 50 km de lado fueron clasificadas como bien muestreadas (Tabla 2), por lo que en la práctica se seleccionó el porcentaje de 90% como punto de corte (cercano al obtenido y ligeramente conservador). De ahora en adelante en este capítulo, las cuadrículas con ratios de completitud iguales o superiores a 90% se denominarán “bien estudiadas o muestreadas”.