4.4.1. Objetivo del experimento
En el tercer experimento, el objetivo se centra en conocer el rendimiento del modelo de predicci ´on al evaluarse durante un periodo prolongado de tiempo. Al analizar los modelos
de predicci ´on de los trabajos relacionados se identific ´o que ninguno de ellos considera este aspecto. Esto es, los trabajos relacionados no eval ´uan el rendimiento de sus modelos de predicci ´on en variadas ocasiones (i.e. semanas, meses).
Predecir la movilidad del usuario durante un periodo prolongado resulta relevante de- bido a la dinamicidad de la movilidad del usuario; los usuarios cuentan con diferentes POIs a lo largo del tiempo, o bien cambian los tiempos de estad´ıa en dichos POIs. En t ´erminos de la precisi ´on no es adecuado contar con un ´unico modelo de predicci ´on para estimar la movilidad del usuario a lo largo del tiempo. A fin de considerar los cambios en la movilidad del usuario, el entrenamiento del modelo de predicci ´on se realiza con los datos m ´as recientes; se utiliza una ventana deslizante. En este experimento la definici ´on de las observaciones difiere de los dos experimentos anteriores.
A continuaci ´on se presenta la descripci ´on de este experimento.
4.4.1.1. Usuarios considerados en el experimento
Al igual que en el experimento anterior, en ´este se utilizaron los datos del proyecto Geolife de Microsoft Research. Aunque el conjunto de datos contiene registros de 178 usuarios, s ´olo se consideraron los registros de 18 usuarios. El objetivo de este experi- mento es conocer la efectividad del modelo de predicci ´on durante un periodo prolongado de tiempo; por lo que se requiere contar con usuarios que cuenten con registros de lo- calizaci ´on durante varios meses. En la Tabla 5 se presenta la informaci ´on relacionada a los registros de los 18 usuarios seleccionados; cantidad m´ınima, m ´axima y el promedio de semanas durante las cuales se tienen registros de localizaci ´on para cada d´ıa de la semana.
4.4.1.2. Puntos de inter ´es
A fin de identificar los lugares significativos del usuario a diferentes niveles de granu- laridad, se utilizaron tres valores para el radio del cl ´uster. A diferencia del experimento anterior, en ´este, los algoritmos para identificar POIs tanto en exteriores como en inte- riores consideran radios de cl ´uster de 100, 250 y 500 metros. La raz ´on de utilizar radios de cl ´uster m ´as grandes en este experimento, se debe a que conforme se considera un
Tabla 5: Datos de localizaci ´on de acuerdo al d´ıa de la semana. Lu Ma Mi Ju Vi Sa Do Promedio # se- manas 15 16.29 16.35 17.47 16.64 16.58 18 Max # semanas 82 94 84 87 89 87 74 Min # semanas 9 12 11 13 13 11 9
periodo de tiempo mayor, se encuentra una mayor dispersi ´on de los registros GPS (origi- nada por el error de las lecturas GPS). Por lo tanto, para un mismo lugar significativo, los centroides del punto de inter ´es var´ıan. Por consiguiente, a fin de evitar la identificaci ´on de un lugar como varios puntos de inter ´es, se contemplan radios de cl ´uster m ´as grandes, de esta manera, los cl ´uster incluyen el lugar significativo.
4.4.1.3. Ventana deslizante
Como se mencion ´o en el cap´ıtulo anterior, en este experimento se emplea de la ven- tana deslizante para considerar ´unicamente los datos de la movilidad m ´as reciente del usuario durante un periodo de tiempo dado.
Con el objetivo de conocer el rendimiento de los modelos de predicci ´on al utilizar los datos de movilidad asociados a diferentes periodos de tiempo, se utilizaron dos valores para la ventana deslizante: 4 y 8 semanas. De esta manera, se pretende conocer la variaci ´on en el n ´umero de POIs, y la precisi ´on de la predicci ´on.
4.4.2. Modelo de predicci ´on
Con respecto a la definici ´on del modelo de predicci ´on en este experimento, los com- ponentes del HMM se definen de la siguiente manera:
4.4.2.1. Estados ocultos
Los estados ocultos se definen por el conjunto de POIs. Adem ´as, se agreg ´o un estado adicional para definir que el usuario se encuentra en un lugar que no se considera POI (o bien que el usuario se encuentra en movimiento).
4.4.2.2. Observaciones
A diferencia de los experimentos anteriores, en los cuales las observaciones repre- sentan un tiempo espec´ıfico del d´ıa, en este experimento las observaciones representan un periodo de tiempo.
Al utilizar la ventana deslizante, se da el caso de que ´esta considera los datos aso- ciados a diferentes patrones de movilidad. Por lo tanto, existe una variaci ´on y traslape en cuanto a los tiempos de arribo y/o partida a los diferentes puntos de inter ´es. Por consi- guiente, se opt ´o por considerar las observaciones como un periodo de tiempo. Para definir las observaciones se utilizaron 3 valores diferentes para el periodo: 2, 3, y 4 horas. De esta manera, al utilizar un periodo de 2 horas, la primera observaci ´on (o1) contempla el
lapso de 00:00 - 1:59, la segunda observaci ´on abarca el lapso 2:00 - 3:59, y as´ı sucesi- vamente. Al utilizar diferentes valores para el periodo de tiempo, se pretende identificar si existe un valor que maximice la precisi ´on de la predicci ´on.
4.4.2.3. Matriz de transici ´on
Esta matriz define la probabilidad de que un usuario se traslade de un POI (qi) al resto
de los POIs (incluyendo el estado correspondiente a no conexi ´on), o bien que permanezca en el mismo POIqi.
4.4.2.4. Matriz de confusi ´on
Esta matriz define la probabilidad de que un usuario se encuentre en un POI dadoqi
en el periodo de tiempo que abarca cada observaci ´onoj.
4.4.2.5. Vector
Este vector define la probabilidad de que el usuario inicie su d´ıa en un POIqi.
4.4.3. Entrenamiento del modelo de predicci ´on
En este experimento cada modelo de predicci ´on se entrena considerando los datos correspondientes al periodo de tiempo que abarca la ventana deslizante, ya sea 4 u 8
semanas. As´ı, para realizar la predicci ´on para un d´ıa lunesi, el modelo se entrena con los datos correspondientes a los lunesi−1,i−2,i−3, y finalmentei−4, esto cuando el tama ˜no de la ventana deslizante es de 4 semanas. En el caso de la ventana de 8 semanas el entrenamiento se extiende hasta el lunesi−8.
Para realizar el entrenamiento y evaluar el rendimiento de cada modelo de predicci ´on se utiliza la totalidad de los datos disponibles para cada usuario y d´ıa de la semana con- siderado. La cantidad de datos que se utilizaron para cada d´ıa de la semana se presenta en la Tabla 5; a lo m ´aximo se cuenta con hasta dos a ˜nos de datos de localizaci ´on, lo cual permite evaluar el modelo de predicci ´on en variadas ocasiones.
4.4.4. Predicciones
En cada semana de pruebas y para cada modelo de predicci ´on se realizaron 4 pre- dicciones considerando diferentes valores para ∆T: 1, 2, 4 y 8 horas; 28 predicciones por cada usuario y semana considerada. Al igual que en los experimentos anteriores, los modelos de predicci ´on se definieron utilizando un HMM de primer orden.
4.4.5. Efectividad de la predicci ´on
Al igual que en el enfoque anterior, para determinar la efectividad de la predicci ´on (Ecuaci ´on 23), si se desea conocer d ´onde estar ´a el usuario en el periodo [T, T + ∆T], la predicci ´on es correcta si el usuario se encuentra en el lugar qi en el intervalo [Tpred−
, Tpred +], donde representa un margen de error. Esto es, la predicci ´on es correcta
cuando el usuario est ´a en el POI definido porqi, en el periodo de tiempo que comprende
la observaci ´onoi con cierto margen de error. Tambi ´en es correcta si la predicci ´on indica
que el usuario no estar ´a en un POI (en el caso que qi corresponde a un no POI). El
margen de errorse defini ´o a 15 minutos.
En este enfoque los resultados que se obtuvieron no se comparan con el m ´etodo
N P∗. El objetivo de este experimento no reside en maximizar la precisi ´on, sino conocer el rendimiento del modelo de predicci ´on al considerar la dinamicidad de la movilidad del usuario a lo largo del tiempo.
Tpred =T +oi 1≤i≤n ´umero de observaciones en el periodo de predicci ´on. (23)