Using homomorphic encryption for secure converters

4.3 Compressing Ciphertexts

4.3.2 Using homomorphic encryption for secure converters

A continuación describimos varios estimadores distintos para su uso con los datos de presencia-ausencia. Se desarrollaron para unos propósitos particulares, y por lo tanto tienen aplicaciones ligeramente distintas en este campo. Todos tienen un enfoque en común, el de

utilizar múltiples muestreos de los mismos lugares a fin de poder proporcionar estimas de la probabilidad de detección. Creemos que la mayoría de las aplicaciones que puedan necesitar los biólogos de campo pueden funcionar bien con estos métodos. A pesar de sus continuos

desarrollos, el programa gratuito PRESENCE parece ser una herramienta valiosa y fácil de usar para los biólogos de campo. Nuevamente, los modelos más avanzados, tales como los que se ocupan de una sola especie durante múltiples estaciones o años, o los que tratan de las interacciones de múltiples especies, se describen mejor en la revisión ya mencionada (MacKenzie et al. 2006).

Estimación de la ocupación de una sola especie utilizando el programa PRESENCE El programa PRESENCE fue desarrollado por un grupo de biólogos cuando se

enfrentaron con la tarea de determinar la ocupación en los humedales de varias especies de ranas (MacKenzie et al. 2002, 2003). Este programa es de aplicación a varios tipos de datos que a menudo nos encontramos, donde los hábitats son unidades fragmentadas a lo largo del espacio. Este método mantiene la supuesto de que la población está cerrada. Ello significa que durante un periodo de muestreo particular no existe cambio alguno en la ocupación entre los lugares.

Además, también debemos admitir los supuestos de la independencia entre los lugares y que realmente estamos identificando correctamente a nuestra especie objetivo.

Se trata de un programa bastante simple que permite al usuario estimar la probabilidad

de detección (d) y la ocupación del lugar (ψ). Además, pueden implementarse covariables para

examinar los impactos de diversos factores ambientales de otros tipos sobre la probabilidad de ocupación. En algunas circunstancias el usuario puede permitir que la probabilidad de detección varíe entre losdistintos muestreos.

Los autores nos proporcionan una lista de supuestos de sus métodos. Obviamente, el número mínimo de períodos de estudio es de dos. No obstante, sugieren que cuando los lugares se visiten sólo dos veces, la ocupación real debería ser >0.7, y las probabilidades de detección por muestra (p) deberían ser >0.30. Éstas pueden reducirse cuando se incrementa el número de muestreos repetidos. La probabilidad general de detección (d) es una función de la detección por muestra (p) y el esfuerzo de muestro total (k). Si p es constante a lo largo de k muestras,

entonces:

p d 1(1 ) .

Por ejemplo, si p=0.3, entonces d=0.832 para 5 muestras, pero aumenta hasta 0.972 para 10 muestras. En el último caso, podríamos estar casi seguros de que si cualquier animal ocupa el lugar, al menos 1 será detectado durante el transcurso del estudio. Del mismo modo podríamos decir, con un alto grado de confianza, que si no se detecta ningún animal, en realidad no había ninguno presente. Nótese que si p es baja (p. ej., p=0.10), se realizan solo unas pocos

muestreos(el esfuerzo es bajo), o ambos, el resultado podría ser mucho más equívoco. Por ejemplo, si p=0.10, entonces d=0.65 para 10 muestras, sólo d=0.41 para 5 muestras, y un valor aún peor de d=0.19 para 2 muestras. Los datos en este supuesto nos proporcionarían una certeza bastante baja de detectar a los animales si éstos estuvieran realmente presentes, y a la inversa, no nos darían una gran confianza en que los animales estuvieran ausentes, sólo porque no hubieran sido detectados.

Puede existir heterogeneidad en la probabilidad de detección entre los lugares, que en algunos casos puede ser modelada por el uso del hábitat u otras covariables. La detección también puede estar relacionada con la abundancia relativa de los animales en los lugares, y Royle y Nichols (2003) exploran dicha relación tanto para modelar la heterogeneidad de la

detección como para estimar la abundancia bajo ciertos supuestos. Los casos sin valor (“missing values”) son comunes en este tipo de muestreo, y estos autores sugieren que la presencia de estos casos hasta un 20% de la muestra total generalmente tienen sólo un pequeño impacto en la precisión de la estima. MacKenzie y Royle (2005) y MacKenzie et al. (2006) depuraron la estimación del número de visitas repetidas necesarias basándose en la tasa de ocupación y la probabilidad de detección. Hemos creado una versión de sus resultados en la tabla 7.3, que muestra algunos de los factores implicados en la toma de la decisión sobre cuántos muestreos necesitamos realizar, en relación al grado de esfuerzo necesario, para mejorar la probabilidad de detección por muestreo. MacKenzie et al. (2006) tratan de cuestiones relativas al esfuerzo y los enfoques de muestreo alternativos, con mucho más detalle de lo que podemos ofrecer aquí, y Bailey et al. (2007) proporcionan software para explorar los diseños alternativos.

PRESENCE está disponible como programa individual, que se puede obtener de varias fuentes de software que se hallan incluidas en el Apéndice C. Utilizando los datos de una especie de paseriforme, el azulejo maicero o azulejón (Guiraca caerulea), encontrado en pinares de repoblación reciente de Pinus palustris, podemos ver la aplicación de este tipo de datos y su análisis con PRESENCE 2.0 (recuadros 7.1 a 7.4). En este ejemplo prospectamos una especie de ave bastante común en 41 campos en los que se habían plantado árboles. Incluso en el caso de esta especie fácilmente detectable, es obvio que un solo muestreo habría infra-detectado a esta especie. Además, la recolección de otros tipos de datos, tales como el tamaño de cada campo, nos ha permitido examinar el efecto potencial de otros parámetros sobre la ocupación. Durante los últimos años MacKenzie y colegas han desarrollado componentes particulares de estos modelos para una sola especie, tales como el manejo de los casos sin valor, modelado de covariables, violación de los supuestos, y la valoración del ajuste del modelo, que si bien son

importantes, están fuera del alcance de este volumen. Existen en la actualidad extensiones de este programa que permiten estimar realmente la abundancia basándose en esta misma aproximación –que se describen más adelante. De nuevo todo esto nos permite un uso más eficaz de los datos que recogemos en el campo. Y nuevamente, animamos a los lectores que se encuentran a gusto con estos conceptos a que exploren con mucho mayor detalle en MacKenzie et al. (2006).

Ocupación multiestacional

Hasta ahora, hemos descrito la estimación de la ocupación para un solo punto en el tiempo, asumiendo que todos los lugares que actualmente están ocupados permanecen ocupados durante el intervalo de tiempo que dura el estudio, y que ningún lugar no ocupado se convierte en ocupado. Ello es análogo a los modelos de la estimación de poblaciones cerradas (capítulos 8- 10), que asumen que no se dan nacimientos, muertes, inmigración o emigración durante el periodo de estudio. En los estudios a más largo plazo, esto no será realista, y de hecho sería interesante modelar la dinámica de la ocupación del lugar. De forma análoga a los modelos dinámicos de poblaciones (capítulo 3), el modelado de la ocupación se puede ampliar bastante fácilmente a múltiples períodos, donde la ocupación en el momento t depende de factores que determinan las tasas de extinción local (ε) y colonización (γ). La idea básica consiste en que los lugares inicialmente está ocupados o no, con unas probabilidades de ₀ y 1₀,

respectivamente. Los lugares que están ocupados pueden pasar a estar desocupados, con una probabilidad ε, o permanecen ocupados con una probabilidad de 1- ε .Del mismo modo, los lugares que actualmente están desocupados pueden convertirse en ocupados (γ) o permanecer desocupados (1- γ). Desde luego, la estimación de estos parámetros se ve complicada por el hecho de que en realidad nosotros no observamos la ocupación, sino más bien si los animales son detectados. Así, si observamos “1” en el momento 1 y “0” en el momento 2, sabemos que el

lugar estaba ocupado en el momento 1, pero en el momento 2 puede haberse convertido en desocupado, o siguió ocupado, pero no tuvieron lugar detecciones. Estas posibilidades pueden ser modeladas como

) 1 )( 1 (  d   

de forma similar a la idea introducida antes para modelar un “0” para una ocupación durante una sola estación. El modelado de la ocupación multiestacional puede ser muy complicado.

Proporcionamos un ejemplo de ello en el recuadro 7.6, que es una extensión de 2 años de nuestro ejemplo del azulejo maicero. Todos aquellos que estén llevando a cabo estudios de ocupación a largo plazo deberían consultar MacKenzie et al. (2006).

Otros análisis de datos de presencia-ausencia

Existen diversas variaciones de la misma premisa básica que encontramos en el programa PRESENCE. Existe un programa de fácil uso desarrollado en Excel (Wintle et al. 2004) que proporciona resultados similares a los del programa PRESENCE (véase recuadro 7.1).

Otra variación es una extensión del modelado logístico llamado “binomial hinchada en el cero” (Zero Inflated Binomial, ZIB) descrita por Tyre et al. (2003). Las aplicaciones de este programa a los datos de campo son similares al programa PRESENCE. Los supuestos de este programa incluyen un número mínimo de tres visitas a cada lugar. En el momento de decidir entre prospectar más localidades y incrementar el número de muestreos repetidos, Tyre et al. (2003) encontraron que cuando las tasas de falsos negativos son bajas (<50%, es decir, cuando

p>0.50), es mejor aumentar el número de localidades que el número de visitas. A la inversa,

cuando p<0.5, es mejor aumentar el número de visitas. También llevaron a cabo varias simulaciones, y hallaron que tres visitas por lugar eliminaban el sesgo, pero que para obtener

más precisión de la estima, deberían hacerse 6 visitas. Existe un programa basado en R disponible para llevar a cabo los análisis ZIB (Apéndice C).

Existen a demás diversas variaciones de los análisis de Cadena de Markov Monte

Carlo; Sargeant et al. (2005) utilizaron un estimador de restauración de imagen de Cadena de Markov Monte Carlo para usarlo con ciertos tipos de datos de ocupación de presencia-ausencia.

Estos autores describen situaciones con las que a menudo se enfrentan los biólogos, cuando los datos disponibles representan una recolección durante tiempos variables y con un esfuerzo variable. Este es un caso especial, aplicable cuando las áreas de estudio pueden dividirse en cuadrículas regulares de unidades de mapeo y la distribución de las especies dentro del área es espacialmente contagiosa. Este método tiene la ventaja de su uso con datos que dependen del espacio. Con sus simulaciones, estos autores encontraron que obtenían una buena precisión y un sesgo mínimo cuando las tasas de detección para >1 visita eran >0.65. Augustin et al. (1996) utilizaron un modelo auto logístico para intentar el mismo tipo de análisis.

En Peterson et al. (2004) se describe otra aproximación MCMC. En este ejemplo, los autores estaban interesados en modelar la distribución de la trucha buey (Salvelinus confluentis) en relación con varias clases jerárquicas de variables ambientales utilizando datos de ocupación. Los autores relacionaban explícitamente la distribución de esta rara especie con un rango de variables ambientales. Obviamente, este es el tipo de trabajos que más interesan a los biólogos de la conservación, no sólo por el interés implícito de los resultados obtenidos sino también por la elegancia y sofisticación que puede alcanzarse mediante un buen diseño experimental dentro del contexto de los datos de presencia-ausencia.

La estructura binomial de los datos de ocupación permite fácilmente su implementación con el programa MARK (v. 5.0) (White 2008). Esta versión de MARK incluye los mismos

modelos cubiertos en PRESENCE y incluye además el modelo de ocupación del Diseño

Robusto, los modelos mixtos de Pledger, el modelo de Royle & Nichols (2003), y los modelos

de Royle (2004) Poisson y binomial negativa. Además, MARK incorpora el modelo de

multiestado descrito por Nichols et al. (2007). Para los lectores que usualmente utilizan MARK, éste proporciona la posibilidad de analizar los datos de ocupación con la ya familiar estructura de éste programa. Finalmente, Mordecai (2007) utilizan las aproximaciones Bayesianas para

modelar relaciones jerárquicas, incluidas las de ocupación y uso.

RESUMEN

En este capítulo hemos tratado algunos de los temas más importantes sobre la estimación de la presencia-ausencia o la ocupación. Entender los conceptos sobre las probabilidades de detección y ocupación, y también sobre cómo unos pequeños ajustes en la recolección de los datos pueden mejorar substancialmente el valor de dichos datos, son clave para poder emprender una mejor trabajo de campo que sirva como base para buenas acciones de conservación. En este capítulo, principalmente hemos revisado los simples modelos de una sola especie; la

extrapolación de estos métodos para múltiples especies se estudiará en el Capítulo 14. Creemos que los análisis de presencia-ausencia han sido significativamente

infrautilizados en el ámbito de la investigación de la conservación. Este es particularmente el caso con el que nos encontramos ahora, que estamos viendo muchas evaluaciones a corto plazo o “rápidas” de las comunidades salvajes, donde se podría obtener unos datos substancialmente de mejor calidad, con la simple implementación de pequeñas modificaciones en el diseño. Esto también se podría aplicar a muchos estudios de captación con la cámara, en los que estos

métodos podrían proporcionar estimas de la detección (d) con bastante facilidad; sin embargo, a menudo esto no se hace. Creemos que, mediante los recientes avances en las técnicas analíticas

dedicadas a este tipo de datos, los investigadores que están estudiando la fauna salvaje en muchos lugares del mundo se beneficiarán de su aplicación. Adicionalmente creemos que, debido al gran valor y al incremento de este tipo de estudios, durante los próximos años veremos grandes avances en el desarrollo de nuevos aspectos teóricos y analíticos. No obstante, queremos de nuevo enfatizar que ningún método cuantitativo, por innovador o maravilloso que sea, puede salvar unos malos datos recogidos sin orden ni concierto. Si hoy recogemos datos siguiendo los principios de un buen diseño experimental, siempre podrán ser analizados, sea con los métodos analíticos de hoy o con los que se desarrollen mañana.

Figura 7.1. a) Ejemplo de distribución de la codorniz de cresta dorada (Callipepla douglasii) de Méjico, a partir de ejemplares de museo. Esta especie, relativamente poco estudiada,

inicialmente parece estar restringida a una franja cercana a la costa occidental de Méjico hacia la frontera con los EUA. b) Posteriormente se utilizan algunos datos del hábitat, para inferir un modelo espacial del hábitat adecuado y luego superponerlo a los datos. Es evidente de que una parte del “empobrecimiento”de las observaciones en las partes septentrionales de la distribución representa o bien una falta de esfuerzo o bien podría deberse a sutiles diferencias en cuanto al hábitat. Vale la pena investigar ambas cuestiones cuando se emprenden estudios del estado de conservación de una especie (a partir de Navarro et al. 2003).

Tabla 7.1. Los muestreos de una especie hipotética en varias reservas demuestran que la probabilidad de detección en cada muestreo es de <1,0. Esta estructura de datos es típica de los estudios de presencia-ausencia, donde la ausencia generalmente se codifica como “0” y la presencia como “1”. El valor estimado ingenuo de presencia para cada una de los muestreos es menos de la mitad que el valor estimado ingenuo de presencia de los tres muestreoscombinadas, pero aún y así, este estimado combinado va a subestimar la verdadera presencia de la especie en las distintas reservas. Simplemente escudriñando visualmente los datos podemos ver que aunque la especie este presente, a menudo no la detectamos en ninguna de los 3 muestreoss. Aunque 7 de los 9 lugares estén ocupados basándonos en nuestros datos brutos, podemos ver que cada una de losmuestreos no llega a más de 5 detecciones. Estos dos factores utilizados conjuntamente proporciona la base para los análisis de ocupación por presencia-ausencia y para la estimación de las probabilidades de detección.

Reserva Muestreo1 Muestreo 2 Muestreo3 Combinado 1 S S S S 2 S N N S 3 N N N N 4 N N S S 5 N N N N 6 N S S S 7 S S S S 8 N S S S 9 S N N S Número de reservas en las que se detecta 4 4 5 7

Tabla 7.2. Detección del azulejo maicero (Giuraca caerulea) durante 3 muestreos de 41 campos agrícolas abandonados in el sur de Georgia durante 2001. Los muestreos se realizaron durante la época reproductora mediante un único transecto de 250 m. Estos datos se exploran en mayor profundidad en los recuadros de ejemplo.

Campo prospectado Muestreo 1 Muestreo 2 Muestreo 3 Combinado

A 1 1 1 1 B 1 1 0 1 C 0 0 0 0 D 0 1 0 1 E 1 0 1 1 F 0 0 1 1 G 0 0 1 1 H 1 1 1 1 I 1 1 0 1 J 1 1 1 1 K 1 1 0 1 L 0 0 0 0 M 0 0 0 0 N 0 0 1 1 O 1 1 1 1 P 0 0 1 1

Q 0 0 1 1 R 0 0 0 0 S 0 1 1 1 T 0 0 0 0 U 1 0 0 1 V 0 1 0 1 W 1 0 0 1 X 1 1 1 1 Y 1 1 1 1 Z 0 1 1 1 AA 0 0 1 1 AB 0 1 0 1 AC 1 1 0 1 AD 0 1 1 1 AE 0 0 0 0 AF 1 1 1 1 AG 1 0 0 1 AH 1 1 0 1 AI 0 0 0 0 AJ 0 0 0 0 AK 0 1 0 1 AL 0 1 1 1 AM 1 1 1 1

AN 1 0 1 1

AO 0 1 0 1

Número de campos

Tabla 7.3. Versión simplificada de la tabla de Mackenzie y Royle (2005) en la que se representa el número de muestras necesarias para maximizar la eficiencia del diseño de muestreo, según la probabilidad de detección (p) y la ocupación (ψ). Existen varios puntos interesantes e

importantes a destacar. Primero, que la mejora en la probabilidad de detección es muy

importante para un más eficiente análisis de la ocupación. Esto se aplica tanto para bajas como para altas tasas de ocupación, aunque el diferencial en el número de prospecciones es mayor para altas tasas de ocupación. Lo importante aquí es el desarrollo de los mejores métodos para

detectar la especie cuando está presente. Un factor muy importante es buscar un buen equilibrio entre los costes y beneficios implicados en las distintas técnicas de muestreo. Por ejemplo, si un método de muestreo barato y de fácil implementación produce una p de 0,5, y otro método más caro solo consigue una ligera mejora en p de 0,7, seguramente será más aconsejable que

adoptemos el primer método, especialmente si los recursos económicos son limitados. Sin embago, si esos valores se incrementan de 0,1 a 0,3, para una especie que es muy difícil de detectar, entonces al planear el estudio deberíamos considerar de forma cuidadosa los costes y beneficios de dedicar más esfuerzo en cada uno de las prospecciones o en vez de ello, dedicarnos a realizar un mayor número de muestreos.

p 0.1 0.3 0.5 0.7 0.9

0.1 14 16 18 23 34

0.3 5 5 6 7 10

0.7 2 2 2 2 3

0.9 2 2 2 2 2

Recuadro 7.1 Analisis de ocupación de sola una temporada con probabilidad de detección

In document Improving the Efficiency of Homomorphic Encryption Schemes (Page 76-85)