2.4 Preliminary exploratory fieldwork
2.4.4 Selecting a field site
Se realizó una evaluación de los valores perdidos en las bases de datos para cada una de las características en las estaciones de muestreo. De esta manera, se pudo evaluar la calidad de la información suministrada. Se encontró que los parámetros físicos (Turbiedad, color, conductividad y pH) presentaron porcentajes de valores perdidos inferiores a 1%, lo que representó una mayor
precisión para el análisis de los modelos. Por otra parte, los parámetros microbiológicos (Coliformes Totales y E.Coli) presentaron mayores porcentajes de valores perdidos, mayor a 10% en todas las estaciones (ver Tabla 12). Sin embargo, ninguna de las variables con frecuencia diaria presentó porcentaje de datos perdidos mayor a 25%, lo cual permitió inferir que este factor no es determinante al momento de seleccionar las variables representativas para el desarrollo de los modelos.
Tabla 12.
Datos perdidos en las estaciones de muestreo de la PTAP Francisco Wiesner.
Característica de calidad del agua
Estación
Río Teusacá - Salitre Embalse San Rafael Suministrada CDC Número de datos perdidos Porcentaje (%) valores perdidos Número de datos perdidos Porcentaje (%) valores perdidos Número de datos perdidos Porcentaje (%) valores perdidos Turbiedad 4 0,14 5 0,17 5 0,17 Color 16 0,55 5 0,17 6 0,21 Conductividad 6 0,21 7 0,24 3 0,10 pH 6 0,21 7 0,24 7 0,24 Alcalinidad Total 7 0,24 9 0,31 5 0,17 Cloruros 121 4,14 92 3,15 86 2,94 Dureza Total NPFD NPFD NPFD NPFD 64 2,19 Dureza cálcica NPFD NPFD NPFD NPFD 63 2,16 Hierro Total 348 11,91 360 12,32 279 9,55 Aluminio Residual - - - - 390 13,35 Cloro libre - - - - 4 0,14 Cloro Combinado - - - - 8 0,27 Cloro Total - - - - 8 0,27 Oxígeno Disuelto NPFD NPFD NPFD NPFD - - Nitritos 20 0,68 73 2,5 119 4,07 Nitratos NPFD NPFD NPFD NPFD NPFD NPFD Sulfatos NPFD NPFD NPFD NPFD 376 12,87 Coliformes totales 389 13,31 392 13,42 320 10,95 E.Coli 401 13,72 417 14,27 319 10,92
Total datos por variable: 2922
Nota. NPFD = No presenta frecuencia diaria.
6.3.3.1. Selección de las variables
Se seleccionaron los parámetros de las estaciones de interés (Río Teusacá – Salitre, Embalse San Rafael y Suministrada CDC) que tuvieron más relevancia con los objetivos del trabajo. Al respecto de los criterios estadísticos de selección, para conocer la distribución de la serie se aplicó la prueba de Kolmogorov-Smirnov, esta determinó que la serie presentó una distribución no normal; por ende, se tuvo en cuenta el coeficiente de correlación de Spearman (Rho de Spearman) aplicado a series no paramétricas para evaluar la correlación entre los parámetros de calidad del agua de las tres estaciones seleccionadas (Tabla 13). Por ejemplo, en el caso del parámetro turbiedad para la estación Río Teusacá – Salitre en las matrices de correlación de Spearman se evidenció que esta variable tuvo un r > 0,5 con cinco parámetros, de esta manera turbiedad se identifica como una posible característica indicadora.
Tabla 13.
Coeficientes de correlación de Spearman significativos para las estaciones de muestreo seleccionadas.
r > 0,5a Río Teusacá - Salitre Embalse San Rafael Suministrada CDC
5 Turbiedad 5 Color 5 Conductividad 5 Alcalinidad Total 5 Cloruros 5 Hierro Total 2 Color 2 Turbiedad 2 Hierro Total
1 Coliformes Totales Cloro Total
1 E.Coli Cloro Libre
1 Conductividad
1 Cloruros
Nota. a.En esta columna se indica las veces que la característica del agua en cuestión presenta una correlación (Rho de Spearman) mayor a 0,5 con respecto a las otras características en cada una de las estaciones.
Fuente: Autores.
Para cada una de las tres estaciones de muestreo se seleccionaron las variables que tuvieron mayor correlación entre si según las matrices de correlaciones de Spearman (ver Anexo 3). Se determinó que las características: Turbiedad, Color, Conductividad, Alcalinidad Total, Cloruros y Hierro Total fueron las más propicias en las tres estaciones de estudio, dados sus altos valores de
correlación, la alta significancia de las variables en las tres estaciones de muestreo escogidas y su representatividad en el análisis de calidad del agua.
Adicionalmente, para realizar el análisis de las variables biológicas se seleccionaron Coliformes Totales y E.Coli de la estación Río Teusacá – Salitre debido a su correlación significativa y a los valores elevados de estas en dicha estación; igualmente se tuvo en cuenta Cloro Total y Cloro Libre para la estación Suministrada CDC por su importancia en los valores de salida del sistema (ver Tabla 14).
Tabla 14.
Parámetros indicadores de las estaciones de muestreo seleccionadas.
Río Teusacá - Salitre Embalse San Rafael Suministrada CDC
Turbiedad Turbiedad Turbiedad
Color Color Color
Conductividad Conductividad Conductividad Alcalinidad Total Alcalinidad Total Alcalinidad Total
Cloruros Cloruros Cloruros Hierro Total Hierro Total Hierro Total Coliformes Totales Cloro Total
E.Coli Cloro Libre
Fuente: Autores.
6.3.3.2. Análisis de valores perdidos en las series de tiempos
Para reemplazar los valores perdidos de las series de tiempo se compararon los datos obtenidos con un modelo ARIMA base y con el método de la razón normal; según Montealegre (1990), dicho método aplica cuando se desconoce el valor de la precipitación de un determinado mes o año en una estación, pero se conoce el valor registrado de este mismo mes o año en otras estaciones que por sus características fisiográficas y climatológicas se consideran como representativas de la primera, pueden estimarse dichas cantidades en función de los valores medios mensuales o anuales mediante la relación mostrada en la ecuación 4.
𝑥(𝑡) =1 𝑛[ 𝑥̅ 𝑥̅1𝑥1(𝑡) + 𝑥̅ 𝑥̅2𝑥2(𝑡) + 𝑥̅ 𝑥̅3𝑥3(𝑡) + ⋯ + 𝑥̅ 𝑥̅𝑛𝑥𝑛(𝑡)] Ecuación 4. Método de la razón normal.
Donde:
𝑥̅, 𝑥̅1, 𝑥̅2, 𝑥̅3, …, 𝑥̅𝑛 son las medias de la variable en cuestión de la serie incompleta (𝑥̅) y de las series vecinas respectivamente.
𝑥(𝑡), 𝑥1(𝑡), 𝑥2(𝑡), 𝑥3(𝑡), …, 𝑥𝑛(𝑡) son los datos correspondientes al dato faltante (𝑥(𝑡)) y las series vecinas respectivamente.
Posteriormente, se evaluaron los estadísticos: Coeficiente de determinación (R2), Error Absoluto Porcentual Promedio (MAPE), Criterio de Información Bayesiano (BIC) normalizado y p-valor (Q), que serán explicados con más detalle en el numeral 6.3.3.3. De esta manera, se identificó que el R2 en el ARIMA base es mayor que el dato que surge de la razón normal, el BIC fue menor y el p-valor (Q) se acercó más a 0,05, como lo determinó Zafra et al. (2017), esto representó una mejor adaptación en la serie de datos reemplazada con el modelo ARIMA base ejecutado (ver Tabla 15).
Tabla 15.
Comparación entre los datos completados con ARIMA Base y con el método de razón normal según los estadísticos.
Parámetro Modelo o
método R
2 MAPE BIC p-valor (Q)
Turbiedad ARIMA base 0,064 38,449 3,729 0,291
Razón Normal 0,063 38,603 3,730 0,327
Color ARIMA base 0,099 17,190 5,538 0,377
Razón Normal 0,097 17,262 5,541 0,279
Nota. R2= Coeficiente de determinación, MAPE = Error Absoluto Porcentual Promedio, BIC = Criterio de Información Bayesiano Normalizado.
Fuente: Autores.
6.3.3.3. Desarrollo de modelos ARIMA
Los datos sistematizados de las características de calidad del agua seleccionadas se ingresaron al software IBM-SPSS Statistics V.24 para generar modelos con base en series diarias, media móvil semanal y media móvil mensual; permitiendo identificar los órdenes (p,d,q) que se ajustaron mejor a su comportamiento temporal, es decir, el modelo cuyas predicciones fueron más satisfactorias. Para la construcción de los modelos ARIMA se utilizó el modelizador experto del software IBM- SPSS. Este software realizó el proceso iterativo de Box-Jenkins (ver Figura 11) para generar el
modelo que mejor se ajustó a cada una de las series temporales, los estadísticos que se tuvieron en cuenta para validar los modelos concebidos por el software fueron los considerados por Zafra et al. (2017); ya que son los más representativos y relevantes en la selección de los modelos, dichos estadísticos se presentan a continuación:
Coeficiente de determinación (R2), el cual es una medida descriptiva que sirve para evaluar
la bondad de ajuste del modelo a los datos, ya que mide la capacidad predictiva del modelo ajustado (Universidad Nacional de Colombia, 2005).
Error Absoluto Porcentual Promedio (MAPE), mide el tamaño del error en términos porcentuales, se calcula como el promedio de las diferencias absolutas entre los valores pronosticados y los reales y se expresa como porcentaje de los valores reales (Asesoría en Sistemas de Información, 2014), por ende, expresa la exactitud como un porcentaje del error siendo así de fácil interpretación (Minitab, 2017).
Criterio de Información Bayesiano (BIC) normalizado, es una medida de bondad de ajuste y criterio de selección de un modelo estadístico entre un conjunto finito de modelos, se basa en la función de probabilidad logarítmica (LLF). Dados dos modelos estimados, el modelo con el menor valor de BIC es preferido, un BIC bajo implica un número menor de variables explicativas, mejor ajuste, o ambos (Spider Financial, 2014).
Estadístico Q de Ljung-Box, prueba la hipótesis nula de que las autocorrelaciones de hasta un desfase k son iguales a cero (es decir, los valores de los datos son aleatorios e independientes hasta un cierto número de desfases). Si el estadístico es mayor que un valor crítico especificado, las autocorrelaciones para uno o más desfases podrían ser significativamente diferentes de cero, lo que indicaría que los valores no son aleatorios ni independientes en el tiempo (Minitab, 2017). En la mayoría de los casos es suficiente con representar la Función de Autocorrelación (FAC) y la Función de Autocorrelación Parcial (FACP), ya que, si no presentan valores significativos, el valor del estadístico Q será pequeño, y por tanto se puede considerar que existe independencia entre los residuos (Quesada, 2011).
p-valor (Q), corresponde al nivel de significación más pequeño posible que puede escogerse, para el cual todavía se aceptaría la hipótesis alternativa con las observaciones
actuales, cualquier nivel de significación inferior al p-valor conlleva a aceptar la hipótesis nula (Universitat de Barcelona, 2018). Para efectos de esta investigación se eligió un valor de 0,05 como lo sugirió Zafra et al. (2017).
Figura 11. Metodología de Box-Jenkins para el desarrollo de modelos ARIMA.
Fuente: Adaptada de De la Fuente (2008).
Serie temporal (datos) ¿Es estacionaria la serie? Selección de d, D y λ Transformación de la serie Determinación de p, q, P y Q Estimación de los parámetros del modelo
¿Es el modelo adecuado??
Obtención de las predicciones
Evaluación de la predicción: ¿Predice el modelo de forma satisfactoria?
No Si Si No No Identificación Estimación Chequeo Predicción
6.3.3.4. Validación de los modelos ARIMA
Al revisar los modelos generados por el modelizador experto, a través de los estadísticos antes mencionados, se seleccionaron los que se ajustaron de manera óptima a las series de tiempo. Para aquellas características de calidad del agua que no se ajustaron, se desarrollaron nuevos posibles modelos con base en la metodología propuesta por Pérez (2005) fundamentándose en el análisis de las FAC y FACP, para de esta manera encontrar los términos p, d, q más apropiados.
Función de Autocorrelación Simple (FAC): La FAC de una serie temporal proporciona la estructura de tendencia lineal de la misma; la idea de la FAC es proporcionar el coeficiente de correlación entre las observaciones separadas un número determinado de periodos. Así la FAC va a ser una sucesión de números que representan como influye una observación sobre la siguiente, sobre la segunda posterior o sobre la k periodos posterior (Villagarcía, 2018).
Función de Autocorrelación Parcial (FACP): Mide la correlación entre dos variables separadas por k periodos cuando no se considera la dependencia creada por los retardos intermedios existentes entre ambas (Villavicencio, 2018).
En el Anexo 4 se evidenciaron algunos ejemplos del proceso metodológico en el software IBM- SPSS para obtener los modelos alternativos generados, según Pérez (2005).
Ya que hubo series de tiempo que tampoco se pudieron ajustar con los modelos alternativos propuestos, se decidió considerar los valores atípicos especialmente en la escala temporal diaria. El tratamiento de los valores atípicos se pudo realizar directamente con el modelizador experto debido a que este permite la detección automática de los valores atípicos dependiendo su tipo. Los valores atípicos están clasificados en: aditivo, cambio de nivel, de innovación, transitorio, aditivo estacional, tendencia local y parche aditivo. Para el caso de las variables en cuestión se trataron solamente los valores atípicos aditivos (AO) dada la naturaleza de estos, dichos valores son aquellos sorprendentemente grandes o pequeños que ocurren para una sola observación (IBM, 2018).
6.3.4. Fase 4: Evaluación de los modelos ARIMA respecto al proceso de