All relationship terms discussed here are reference terms, unless otherwise stated Although I am aware that the analysis o f reference terminology is by no means a straightforward business, address terminology is so

Part Three

23 All relationship terms discussed here are reference terms, unless otherwise stated Although I am aware that the analysis o f reference terminology is by no means a straightforward business, address terminology is so

2.2. Metodolog´ıa

La presente investigación es de tipo exploratoria y se propone caracterizar el comportamiento de las curvas de concentración diarias del material particulado suspendido en el aire con diámetro aerodinámico menor a 2.5 micrómetros (P M2,5). Para alcanzar este objetivo se

trabaj´o con los datos suministrados por el Departamento Administrativo de Gesti´on del Medio Ambiente (DAGMA), provenientes del sistema de vigilancia de calidad del aire de Santiago de Cali (SVCASC). Este sistema cuenta, a la fecha del presente estudio, con 4 estaciones que registran las concentraciones de P M2,5, estas estaciones son: Transitoria,

Base Aérea y Compartir, ubicadas en el oriente; y la estación Univalle, ubicada en el sur de la ciudad. La ubicación geográfica de las estaciones se muestra en la Figura (2-2). De las estaciones disponibles se trabajó con los datos provenientes de la estación Compartir, ya que esta estación tiene una cantidad menor de datos faltantes que las otras y además, es la ´

unica que mide tambi´en las concentraciones de P M10, hecho interesante para investigaciones futuras .

24 2 Materiales y m´etodos

2.2.1. Verificaci´on y calidad de los datos

Los datos suministrados por el DAGMA y que fueron el insumo para el desarrollo del presente trabajo de investigaci´on, corresponden a registros promedios horarios de la concentraci´on de

P M2,5 en micro-gramos por metro c´ubico (µg/m3), recolectados durante las 24 horas del d´ıa,

es decir, se contar´ıa en óptimas condiciones con 24 observaciones por d´ıa para los 365 d´ıas correspondientes al periodo comprendido entre el primero diciembre del 2014 y el treinta de noviembre del 2015. Sin embargo, como ya se mencionó en la sección 2.1.5, la calidad de las bases de datos en cuanto a datos faltantes puede verse afectada debido a múltiples eventos como aver´ıas, mantenimiento, fallas eléctricas y demás anomal´ıas que afectan principalmente a los instrumentos de medición. Todos estos eventos generan ausencias de datos en la base, ausencias que pueden ir desde la falta de un dato de una hora espec´ıfica, hasta la falta de los datos de todo un mes, esto generó la necesidad de realizar como primer paso, un control de calidad de la base de datos con el fin de aprovechar en el mayor grado posible la información disponible. Cabe aclarar que la inclusión del mes de diciembre del año 2014 en el periodo de estudio se debe a que los registros de P M2,5 para el mes de diciembre del 2015 no estaban

disponibles.

El primer paso en este proyecto consistió en identificar y descartar de la base de datos los d´ıas que registren más del 25 % de las observaciones horarias faltantes y con la base de datos resultante, dar solución al problema de datos faltantes persistente. En este punto se utilizó una técnica de imputación de datos basada en el ADF, desarrollada en la Escuela de Estad´ıstica de la Universidad del Valle como fruto del proyecto de grado de Caicedo & Jiménez (2016). De esta manera, no solo se pudo estimar los datos funcionales de los d´ıas con información completa, sino que también se pudo estimar los datos funcionales de aquellos d´ıas que contaban con 75 % o más registros, todo esto con el fin de recuperar una gran cantidad de información de la base de datos que de otra manera ser´ıa descartada, y obtener as´ı una mayor muestra de curvas de concentración diaria deP M2,5 de la ciudad de Santiago

de Cali para el periodo de estudio establecido.

2.2.2. Construcci´on de las curvas diarias de los niveles de

concentraci´on de

PM

2,5

Después de realizado el proceso de imputación de datos faltantes se contó con una nueva base de datos a la que como en todo análisis estad´ıstico se le debió aplicar como primer paso un análisis descriptivo clásico, con este se esperaba resaltar los principales rasgos de los datos en términos de medidas de tendencia central y medidas de dispersión. El paso siguiente consistió en la construcción de las curvas o datos funcionales diarios de los niveles de concentración deP M2,5, de tal manera que estos reflejarán sin perder información

2.2 Metodolog´ıa 25

La técnica de suavización que se utilizó, fue la reconstrucción de las curvas por medio de combinaciones lineales de funciones de la base B-spline, se escogió esta base debido a que se recomienda para comportamientos aperiódicos como los que presenta la concentración de P M2,5, su gran flexibilidad y otras propiedades que debido al tamaño de la muestra de

funciones que se va a manejar en este caso cobran menos importancia, como la propiedad de soporte compacto, la cual aporta una significativa eficiencia computacional. Otra razón que argumenta la elección de la base B-spline, es que en la revisión bibliográfica realizada ésta fue la familia de funciones usada con mayor frecuencia en los estudios que utilizaban ADF, para modelar el comportamiento de variables climatológicas y de contaminación, como por ejemplo un estudio realizado por Shaadan et al. (2014b) donde construyen las curvas de concentración de P M10 en Malasia, entre otros. La elección del número de funciones base

y el parámetro de suavización óptimos, se realizó usando la técnica de validación cruzada generalizada descrita en la sección 2.1.4.

Luego de construir las curvas diarias de los niveles de concentraci´on de P M2,5 de la ciudad

de Santiago de Cali, se procedió a realizar un análisis descriptivo funcional de la muestra, calculando medidas de tendencia central funcionales como función media, mediana, también medidas de dispersión como la función desviación estándar, y correlación funcional. Además se usaron herramientas gráficas como el boxplot funcional para estudiar la variabilidad de la muestra de funciones e identificar posibles curvas átipicas.

2.2.3. Cl´uster Funcional

Por último se utilizó la técnica de Clúster, que es una herramienta multivariada computacional que permite representar agrupaciones naturales de datos. Este análisis da como resultado grupos homogéneos en su interior pero heterogéneos entre s´ı, que se forman de manera espontánea dada la similitud presente entre las unidades de estudio. El objetivo de acudir a esta técnica fue el de observar posibles agrupaciones e identificar que d´ıas, meses y si alguna de las variables climatológicas como la humedad relativa, la radiación solar o la temperatura caracterizaban el comportamiento de estás. Para ello se utilizaron dos métodos diferentes de agrupación el jerárquico y el k-means, ambos adaptados en estudios anteriores al contexto funcional.

Los cálculos, procedimientos y gráficos fueron realizados en el software libre R Core Team (2012) versión 3.3.1, con ayuda de las librer´ıas fda (Ramsay et al. 2015) y fda.usc

In document Kinship and gender as political processes among the Miskitu of eastern Nicaragua (Page 167-170)