Part Three
23 All relationship terms discussed here are reference terms, unless otherwise stated Although I am aware that the analysis o f reference terminology is by no means a straightforward business, address terminology is so
2.2.
Metodolog´ıa
La presente investigaci´on es de tipo exploratoria y se propone caracterizar el comportamiento de las curvas de concentraci´on diarias del material particulado suspendido en el aire con di´ametro aerodin´amico menor a 2.5 micr´ometros (P M2,5). Para alcanzar este objetivo se
trabaj´o con los datos suministrados por el Departamento Administrativo de Gesti´on del Medio Ambiente (DAGMA), provenientes del sistema de vigilancia de calidad del aire de Santiago de Cali (SVCASC). Este sistema cuenta, a la fecha del presente estudio, con 4 estaciones que registran las concentraciones de P M2,5, estas estaciones son: Transitoria,
Base A´erea y Compartir, ubicadas en el oriente; y la estaci´on Univalle, ubicada en el sur de la ciudad. La ubicaci´on geogr´afica de las estaciones se muestra en la Figura (2-2). De las estaciones disponibles se trabaj´o con los datos provenientes de la estaci´on Compartir, ya que esta estaci´on tiene una cantidad menor de datos faltantes que las otras y adem´as, es la ´
unica que mide tambi´en las concentraciones de P M10, hecho interesante para investigaciones futuras .
24 2 Materiales y m´etodos
2.2.1.
Verificaci´on y calidad de los datos
Los datos suministrados por el DAGMA y que fueron el insumo para el desarrollo del presente trabajo de investigaci´on, corresponden a registros promedios horarios de la concentraci´on de
P M2,5 en micro-gramos por metro c´ubico (µg/m3), recolectados durante las 24 horas del d´ıa,
es decir, se contar´ıa en ´optimas condiciones con 24 observaciones por d´ıa para los 365 d´ıas correspondientes al periodo comprendido entre el primero diciembre del 2014 y el treinta de noviembre del 2015. Sin embargo, como ya se mencion´o en la secci´on 2.1.5, la calidad de las bases de datos en cuanto a datos faltantes puede verse afectada debido a m´ultiples eventos como aver´ıas, mantenimiento, fallas el´ectricas y dem´as anomal´ıas que afectan principalmente a los instrumentos de medici´on. Todos estos eventos generan ausencias de datos en la base, ausencias que pueden ir desde la falta de un dato de una hora espec´ıfica, hasta la falta de los datos de todo un mes, esto gener´o la necesidad de realizar como primer paso, un control de calidad de la base de datos con el fin de aprovechar en el mayor grado posible la informaci´on disponible. Cabe aclarar que la inclusi´on del mes de diciembre del a˜no 2014 en el periodo de estudio se debe a que los registros de P M2,5 para el mes de diciembre del 2015 no estaban
disponibles.
El primer paso en este proyecto consisti´o en identificar y descartar de la base de datos los d´ıas que registren m´as del 25 % de las observaciones horarias faltantes y con la base de datos resultante, dar soluci´on al problema de datos faltantes persistente. En este punto se utiliz´o una t´ecnica de imputaci´on de datos basada en el ADF, desarrollada en la Escuela de Estad´ıstica de la Universidad del Valle como fruto del proyecto de grado de Caicedo & Jim´enez (2016). De esta manera, no solo se pudo estimar los datos funcionales de los d´ıas con informaci´on completa, sino que tambi´en se pudo estimar los datos funcionales de aquellos d´ıas que contaban con 75 % o m´as registros, todo esto con el fin de recuperar una gran cantidad de informaci´on de la base de datos que de otra manera ser´ıa descartada, y obtener as´ı una mayor muestra de curvas de concentraci´on diaria deP M2,5 de la ciudad de Santiago
de Cali para el periodo de estudio establecido.
2.2.2.
Construcci´on de las curvas diarias de los niveles de
concentraci´on de
PM
2,5Despu´es de realizado el proceso de imputaci´on de datos faltantes se cont´o con una nueva base de datos a la que como en todo an´alisis estad´ıstico se le debi´o aplicar como primer paso un an´alisis descriptivo cl´asico, con este se esperaba resaltar los principales rasgos de los datos en t´erminos de medidas de tendencia central y medidas de dispersi´on. El paso siguiente consisti´o en la construcci´on de las curvas o datos funcionales diarios de los niveles de concentraci´on deP M2,5, de tal manera que estos reflejar´an sin perder informaci´on
2.2 Metodolog´ıa 25
La t´ecnica de suavizaci´on que se utiliz´o, fue la reconstrucci´on de las curvas por medio de combinaciones lineales de funciones de la base B-spline, se escogi´o esta base debido a que se recomienda para comportamientos aperi´odicos como los que presenta la concentraci´on de P M2,5, su gran flexibilidad y otras propiedades que debido al tama˜no de la muestra de
funciones que se va a manejar en este caso cobran menos importancia, como la propiedad de soporte compacto, la cual aporta una significativa eficiencia computacional. Otra raz´on que argumenta la elecci´on de la base B-spline, es que en la revisi´on bibliogr´afica realizada ´esta fue la familia de funciones usada con mayor frecuencia en los estudios que utilizaban ADF, para modelar el comportamiento de variables climatol´ogicas y de contaminaci´on, como por ejemplo un estudio realizado por Shaadan et al. (2014b) donde construyen las curvas de concentraci´on de P M10 en Malasia, entre otros. La elecci´on del n´umero de funciones base
y el par´ametro de suavizaci´on ´optimos, se realiz´o usando la t´ecnica de validaci´on cruzada generalizada descrita en la secci´on 2.1.4.
Luego de construir las curvas diarias de los niveles de concentraci´on de P M2,5 de la ciudad
de Santiago de Cali, se procedi´o a realizar un an´alisis descriptivo funcional de la muestra, calculando medidas de tendencia central funcionales como funci´on media, mediana, tambi´en medidas de dispersi´on como la funci´on desviaci´on est´andar, y correlaci´on funcional. Adem´as se usaron herramientas gr´aficas como el boxplot funcional para estudiar la variabilidad de la muestra de funciones e identificar posibles curvas ´atipicas.
2.2.3.
Cl´uster Funcional
Por ´ultimo se utiliz´o la t´ecnica de Cl´uster, que es una herramienta multivariada computacional que permite representar agrupaciones naturales de datos. Este an´alisis da como resultado grupos homog´eneos en su interior pero heterog´eneos entre s´ı, que se forman de manera espont´anea dada la similitud presente entre las unidades de estudio. El objetivo de acudir a esta t´ecnica fue el de observar posibles agrupaciones e identificar que d´ıas, meses y si alguna de las variables climatol´ogicas como la humedad relativa, la radiaci´on solar o la temperatura caracterizaban el comportamiento de est´as. Para ello se utilizaron dos m´etodos diferentes de agrupaci´on el jer´arquico y el k-means, ambos adaptados en estudios anteriores al contexto funcional.
Los c´alculos, procedimientos y gr´aficos fueron realizados en el software libre R Core Team (2012) versi´on 3.3.1, con ayuda de las librer´ıas fda (Ramsay et al. 2015) y fda.usc