Esta especificación semiparamétrica es un ejemplo de una modelación de riesgo de tiempo continuo.
Lo que hace esta metodología es particionar en un número de intervalos usando puntos de cortes elegidos por el investigador. Se asume que la
hazard rate es constante dentro de cada intervalo, pero puede diferir entre
estos. Una ventaja de este modelo comparado con los otros que se han descrito es que la forma general de la función de riesgo no es impuesta por adelantado. Por ejemplo, con este modelo, uno puede explorar si la hazard
en realidad parece variar monotónicamente con el tiempo de sobrevivencia, y por lo tanto escoger uno de los modelos paramétricos que se han mencionado.
El modelo PCE es una forma de PH model para el cual se tiene, en general, 𝜃𝜃(𝑡𝑡,𝑋𝑋𝑡𝑡) =𝜃𝜃0exp (𝛽𝛽′𝑋𝑋𝑡𝑡). O más en detalle: 𝜃𝜃(𝑡𝑡,𝑋𝑋𝑡𝑡) = ⎩ ⎨ ⎧ 𝜃𝜃1̅ exp(𝛽𝛽´𝑋𝑋1) 𝑡𝑡𝜖𝜖 (0,𝜏𝜏1] 𝜃𝜃̅2exp(𝛽𝛽´𝑋𝑋2) 𝑡𝑡𝜖𝜖 (𝜏𝜏1,𝜏𝜏2] ⁞ 𝜃𝜃̅𝐾𝐾exp(𝛽𝛽´𝑋𝑋𝐾𝐾) 𝑡𝑡𝜖𝜖 (𝜏𝜏𝐾𝐾−1,𝜏𝜏𝐾𝐾]
La función de riesgo base (𝜃𝜃̅) es constante dentro de cada uno de los
𝐾𝐾intervalos, pero difiere dentro de éstos. Covariables pueden ser fijas o, si el tiempo varía, son contantes dentro de cada intervalo. La expresión anterior puede ser descrita como:
𝜃𝜃(𝑡𝑡,𝑋𝑋𝑡𝑡) = ⎩ ⎨ ⎧ exp[log(𝜃𝜃̅1) +𝛽𝛽´𝑋𝑋1 ] 𝑡𝑡𝜖𝜖 (0,𝜏𝜏1] exp[log(𝜃𝜃̅2) +𝛽𝛽´𝑋𝑋2 ] 𝑡𝑡𝜖𝜖 (𝜏𝜏1,𝜏𝜏2] ⁞ exp[log(𝜃𝜃̅𝐾𝐾) +𝛽𝛽´𝑋𝑋𝐾𝐾 ] 𝑡𝑡𝜖𝜖 (𝜏𝜏𝐾𝐾−1,𝜏𝜏𝐾𝐾]
entonces la función de riesgo para cada intervalo es equivalente a tener intervalos específicos en el conjunto de la hazard. Uno puede estimar estos por la vía de definir variables binarias que se refieran a cada intervalo, y las estimaciones requeridas son los coeficientes en estas variables. Sin embargo, se observa que en orden a identificar los parámetros de los modelos, uno no puede incluir todas las dummies de los intervalos específicos e incluir el intercepto de la regresión. O uno deja fuera el intercepto y añade todas las variables binarias, o se omite una dummy.
Datos
Los datos a nivel retail fueron proporcionados por la Comisión Nacional de Energía (CNE), estos vienen desagregados por ID de estación de servicio, el tipo de bandera (compañía), su localización en cuanto a la ciudad y región donde se encuentran, además de su coordenada geográfica en latitud y longitud, el tipo de combustible vendido, la fecha y hora del cambio y por último si presenta o no ciertos servicios adicionales como farmacia, baño público, entre otros. El número de datos finales son aproximadamente 200.000 y la muestra fue acotada al período Junio-Noviembre del 2012.
Vale recordar que los anuncios semanales por parte de ENAP son los días martes a los mayoristas, miércoles a los minoristas y al público en general, haciéndose efectivo los días jueves a partir de las 0 horas. Por lo tanto, el período del evento comenzará a las 0 horas del día miércoles, lo que es un momento medio entre el anuncio privado a grandes mayoristas y público.
Los precios de productos refinados por ENAP son entregados por la misma empresa y corresponden al valor puesto en la planta de almacenamiento de la ex-EMALCO ubicada en Maipú. Ese es el precio al cual se le vende combustible a cualquier camión de una distribuidora. Este precio de almacenamiento incluye el costo del oleoducto desde Concón a Maipú y otros costos adicionales (FEPP, IVA y otros) más el refinamiento del crudo.
Se han estimado tres clases de modelos: Modelos Semi Paramétricos y Paramétricos (PH models), AFT Models y el Piecewise Exponential Model (PCE). Se estimaron 19 modelos cuyo detalle se describe a continuación:
Tabla 4. Detalle de especificaciones de los modelos
Modelo Tipo Distribución
1 PH Ninguna (Semiparamétrico de Cox) 2 PH Ninguna (Semiparamétrico de Cox) 3 PH Exponencial 4 PH Exponencial 5 PH Weibull 6 PH Weibull 7 PH Gompertz 8 PH Gompertz 9 AFT Exponencial 10 AFT Exponencial 11 AFT Weibull 12 AFT Weibull 13 AFT Lognormal 14 AFT Lognormal 15 AFT Loglogistic 16 AFT Loglogistic 17 AFT Gamma 18 AFT Gamma 19 PCE Exponencial
Fuente: Elaboración Propia.
Los controles usados para todos los modelos han sido los siguientes:
- Amenities, si tiene o no servicios conexos como: farmacia, autoservicio,
servicio mantención, baño público, tienda conveniencia. Se utilizaron variables binarias (dummies), la categoría de comparación será no presentar el conexo.
- Bandera, si la estación de servicio correspondiente pertenece a: COPEC, SHELL, PETROBRAS, TERPEL u otras bencineras. La variable de comparación será COPEC.
- Zonas, se han agrupado en seis categorías: 1 “Regiones I, II, III, XV”; 2 “Regiones IV, V”; 3 “RM”; 4 “Regiones VI, VII”; 5 “Regiones VIII, IX”; 6 “Regiones X, XI, XII, XIV”. La categoría base es la zona 1.
- Tipo combustible, si corresponde a gasolina 93, 95 y 97 octanos o a diesel. La categoría de comparación será gasolina 93.
- Competidores, corresponde al número de competidores cercanos a una estación de servicio en un radio de 2,5 kilómetros.
- Competidores2, variable competidores al cuadrado.
-Densidad, número de habitantes por kilómetro cuadrado de la comuna correspondiente a la estación de servicio.
Para los modelos impares se adiciona la siguiente variable:
- Tramos ENAP, se categorizó los informes semanales de cambios de precios por parte de ENAP en alzas y bajas respecto a la semana anterior en tramos de 0-3, 3-6, 6-10 y cambios mayores a $10.
Para los modelos pares se añadieron estos controles:
-Alza de Precios, variable continua que señala cuanto se incrementaron los precios anunciados por ENAP respecto a la semana anterior.
-Baja de Precios, variable continua que señala cuanto cayeron los precios anunciados por ENAP respecto a la semana anterior.
-Baja de Precios2, variable Baja de Precios al cuadrado.
-Alza con Negocios, variable Alza de Precios interactuada con Negocios, la cual corresponde a si una determinada estación de servicio presenta servicio de mantención y/o farmacia y/o tienda de conveniencia.
-Baja con Negocios, corresponde a Baja de Precios interactuada con Negocios.
-Alza con Negocios2, variable Alza con Negocios al cuadrado.
-Baja con Negocios2, variable Baja con Negocios al cuadrado.
En el modelo 19 de Piecewise Exponential, se dividieron los tramos de tiempo en intervalos de 12 horas, generándose 14 variables adicionales.