1 [THE KARNATAKA PRE-UNIVERSITY COURSE STATE LEVEL PUBLIC EXAMINATION RULES, 1997.]
26. Marks Lists and valued answer Scripts (1) As soon as may be after the close of evaluation of answerscripts each day, marks lists shall be prepared by each examiner which he
Fundamento y justificación
El fundamento del algoritmo de recomendación de vídeos basado en contenido es análogo al descrito previamente para las imágenes. Del mismo modo, la idea clave es representar los ítems (vídeos, en este caso) en función de las características que resultan más influyentes para cada usuario, de tal forma que cada recomendación siga unos criterios distintos, adaptados a la percepción y gusto del usuario. Por lo tanto, en este apartado se describen únicamente las diferencias con el algoritmo de recomendación de imágenes.
La distinta naturaleza del corpus empleado condiciona el diseño del algoritmo. Sin embargo, este condicionamiento no está sujeto al tipo de media que se recomienda, sino a otras circunstancias que se detallarán a continuación. Por esta razón, el algoritmo que se ha empleado para la recomendación de vídeos podría emplearse, en un contexto diferente, para la recomendación de imágenes, y viceversa.
En el caso de la recomendación de imágenes, los ratings de los usuarios sobre el corpus se recogieron ex profeso para ejecutar y probar el algoritmo, por lo que la situación era la de un número reducido de usuarios en el que, sin embargo, cada uno de ellos había valorado los 200 ítems del corpus. Es el caso de un escenario controlado. Por otra parte, para la recomendación de imágenes se recurrió a bases de datos externas con valoraciones recogidas de forma abierta de un gran número de usuarios sobre los ítems del corpus. En este caso, por lo tanto, existe un gran número de usuarios, pero cada uno de ellos ha votado un número limitado y desconocido de los ítems del corpus (en este caso, películas). Dado que en el corpus de imágenes se cuenta con un mayor número de información de cada usuario, resulta más fácil y más fiable discriminar qué ítems gustan y qué ítems no gustan al usuario. Además, el usuario se ha visto obligado a valorar
todos los ítems del corpus, por lo que no existe la posibilidad de que
aquello que considera de su gusto o aquello que no lo gusta. En el caso de las valoraciones abiertas empleadas en el recomendador de vídeos, sin embargo, este caso puede producirse, por lo que no resulta fiable realizar una discriminació
Por lo tanto, se utilizan las propias valoraciones como “puntos de gusto”, y las diferencias entre están son las que marcan las diferencias de preferencia de unos ítems a otros.
Otro ejemplo que obligara a utilizar uno u otro método sería q
valoración de los ítems recogida de cada usuario no fuera cuantitativa sino cualitativa. En ese caso, habría que recurrir al algoritmo de recomendación de imágenes (aplicado al tipo de media correspondiente), ya que opera sobre unos cr
disgusto del usuario por un ítem.
ambas opciones de recogida de información explícita de usuario. valoraciones implícitas recogidas a partir del consumo audiovisu
algoritmo propuesto en esta tesis, el caso sería análogo al de valoración cuantitativa.
Esquema general y diferencias con el algoritmo de recomendación de imágenes
El esquema general de recomendación de vídeos basado en contenido sigue e de la Fig. 47.
Fig. 47. Proceso de recomendación de vídeos basado en contenido
Como se puede apreciar, la principal diferencia con
imágenes es que desaparece la rama del espacio antiafín y de los ítems que no gustan al usuario. Esto se debe a que todas las preferencias, tanto positivas como negativas, se incorporan a un único subespacio personalizado, su
de influencia en el usuario están
positivo (representa un estilo que gusta al usuario) o negativo (representa un estilo que no gusta al usuario) se cuantifica según su pe
necesario introducir algunas variaciones en las fases definidas en la descripción del recomendador de imágenes.
En primer lugar, no se realiza una separación entre elementos afines y antiafines, en el caso del recomendador de imágenes
igualmente, como ya se ha explicado en el apartado 6.4
ponderación diferente a cada elemento según el gusto del usuario. Para ello, se cuenta con una matriz que contiene
elementos conocidos (películas valoradas)
se establece la preferencia de cada uno de esos valoraciones determinada,
160
todos los ítems del corpus, por lo que no existe la posibilidad de que haya valorado solo aquello que considera de su gusto o aquello que no lo gusta. En el caso de las valoraciones abiertas empleadas en el recomendador de vídeos, sin embargo, este caso puede producirse, por lo que no resulta fiable realizar una discriminació
Por lo tanto, se utilizan las propias valoraciones como “puntos de gusto”, y las diferencias entre están son las que marcan las diferencias de preferencia de unos ítems a
Otro ejemplo que obligara a utilizar uno u otro método sería que la información de valoración de los ítems recogida de cada usuario no fuera cuantitativa sino cualitativa. En ese caso, habría que recurrir al algoritmo de recomendación de imágenes (aplicado al tipo de media correspondiente), ya que opera sobre unos criterios iniciales de gusto o disgusto del usuario por un ítem. De esta forma, los dos algoritmos descritos cubren ambas opciones de recogida de información explícita de usuario.
valoraciones implícitas recogidas a partir del consumo audiovisual, siguiendo el algoritmo propuesto en esta tesis, el caso sería análogo al de valoración cuantitativa.
Esquema general y diferencias con el algoritmo de recomendación de imágenes
El esquema general de recomendación de vídeos basado en contenido sigue e
. Proceso de recomendación de vídeos basado en contenido
Como se puede apreciar, la principal diferencia con el esquema de recomendación de imágenes es que desaparece la rama del espacio antiafín y de los ítems que no gustan al usuario. Esto se debe a que todas las preferencias, tanto positivas como negativas, se incorporan a un único subespacio personalizado, subespacio afín, en el que los núcleos de influencia en el usuario están clusterizados, y cuya clasificación como
positivo (representa un estilo que gusta al usuario) o negativo (representa un estilo que no gusta al usuario) se cuantifica según su peso dentro del subespacio.
necesario introducir algunas variaciones en las fases definidas en la descripción del recomendador de imágenes.
En primer lugar, no se realiza una separación entre elementos afines y antiafines, recomendador de imágenes, aunque esta técnica se podría aplicar igualmente, como ya se ha explicado en el apartado 6.4. En su lugar, se aplica una ponderación diferente a cada elemento según el gusto del usuario. Para ello, se cuenta
tiene los 26 descriptores (definidos en el capítulo 4) de los (películas valoradas) por el usuario, MNx26, y otra matriz en la que se establece la preferencia de cada uno de esos N elementos en una escala de valoraciones determinada, RNx1. Esta matriz de valoraciones sirve para realizar la haya valorado solo aquello que considera de su gusto o aquello que no lo gusta. En el caso de las valoraciones abiertas empleadas en el recomendador de vídeos, sin embargo, este caso puede producirse, por lo que no resulta fiable realizar una discriminación cualitativa. Por lo tanto, se utilizan las propias valoraciones como “puntos de gusto”, y las diferencias entre están son las que marcan las diferencias de preferencia de unos ítems a
ue la información de valoración de los ítems recogida de cada usuario no fuera cuantitativa sino cualitativa. En ese caso, habría que recurrir al algoritmo de recomendación de imágenes (aplicado al iterios iniciales de gusto o De esta forma, los dos algoritmos descritos cubren En el caso de al, siguiendo el algoritmo propuesto en esta tesis, el caso sería análogo al de valoración cuantitativa.
Esquema general y diferencias con el algoritmo de recomendación de imágenes
El esquema general de recomendación de vídeos basado en contenido sigue el esquema
el esquema de recomendación de imágenes es que desaparece la rama del espacio antiafín y de los ítems que no gustan al usuario. Esto se debe a que todas las preferencias, tanto positivas como negativas, se bespacio afín, en el que los núcleos , y cuya clasificación como cluster positivo (representa un estilo que gusta al usuario) o negativo (representa un estilo que so dentro del subespacio. Para ello es necesario introducir algunas variaciones en las fases definidas en la descripción del
En primer lugar, no se realiza una separación entre elementos afines y antiafines, como , aunque esta técnica se podría aplicar . En su lugar, se aplica una ponderación diferente a cada elemento según el gusto del usuario. Para ello, se cuenta 26 descriptores (definidos en el capítulo 4) de los N , y otra matriz en la que elementos en una escala de Esta matriz de valoraciones sirve para realizar la
161
ponderación de preferencias a partir de la matriz de descriptores, de tal modo que cada fila, correspondiente a cada uno de los ítems, se replica según el valor de su puntuación correspondiente de la matriz R, de tal manera que se obtiene una matriz APx26, donde
T ∑ A , siendo ri1 los valores de la matriz R.
A partir de este punto, el proceso es análogo al explicado en el recomendador de imágenes, empleando siempre la matriz de descriptores ponderada en cada una de las etapas. Tal y como se detalla en el capítulo 5, sobre esta matriz se realiza el análisis de la variación de la distribución, para lo cual se realiza el contraste de hipótesis Kolmogorov-Smirnov, en el que se obtiene como resultado la lista de los atributos que influyen en el usuario sobre el cual se está trabajando. En el caso de las imágenes bastaba con un análisis de la varianza debido a la normalidad de las distribuciones de probabilidad de los atributos; en este caso se aplica el análisis Kolmogorov-Smirnov ya explicado, siendo su estadístico asociado el que se utiliza para ponderar la influencia de cada atributo sobre el usuario en cuestión.
Después, se continúa creando el espacio afín y se genera una matriz de transformación a partir de las matrices de covarianzas (114) para, a continuación, aplicar el algoritmo de clustering borroso Fuzzy C-Means sobre la proyección de los ítems conocidos sobre la matriz de transformación. Para fijar el número de clusters del proceso, igual que en el caso de las imágenes, se realiza una minimización del índice Xie-Beni (115).
Como resultado de esto se obtiene un grado de pertenencia de cada elemento a cada uno de los clusters. Conviene señalar que, en este caso, los elementos preferidos del usuario están replicados, por lo que incrementan notablemente la densidad de los clusters a los que pertenecen en mayor grado. Por esta razón, para obtener la importancia de cada cluster, que se utiliza posteriormente en el proceso de decisión, se suman los pesos parciales de pertenencia de los elementos replicados. Los clusters con mayor peso representan los estilos preferidos del usuario, mientras que los de menor peso son aquellos que le resultan menos afines.
En la fase de predicción y recomendación, los pasos de proyección de los ítems desconocidos y de cálculo de las distancias es análogo al de las imágenes, siguiendo las fórmulas (116) y (117). La diferencia en este último proceso radica en la toma de la decisión de recomendación, ya que no es necesario combinar las medidas de distancias de dos subespacios independientes. La recomendación se produce a partir de los valores de la matriz DCdxNc, de distancias de cada uno de los ítems desconocidos (d) a cada uno de los clusters del usuario (Nc). Para ello, se genera un rating sobre una escala fija de valores (entre un mínimo m y un máximo M) a partir del valor de la distancia al cluster de mayor pertenencia. La estimación del rating R para el ítem i se realiza empleando la siguiente fórmula:
$§•L§ & h( %
§•U§ i h ¡L6
L •i hG %
U •i ¡U6 (119)
Donde wM y wm son, respectivamente, los valores máximo y mínimo de los pesos de los clusters del subespacio del usuario, wc es el peso del cluster al que pertenece el ítem i, M y m son, respectivamente, el máximo y el mínimo de la escala en la que desean establecerse los ratings (por ejemplo, para una escala entre 1 y 5, m=1 y M=5), dM y dm son las distancias máxima y mínima de cualquier ítem a cualquier cluster del usuario, y
162
d es la distancia del ítem i al cluster más cercano. De esta forma, el rating final resulta una estimación de la preferencia del usuario por el ítem i en una escala comprendida entre m y M.
Finalmente, el algoritmo de inicialización del recomendador de vídeos es análogo al del recomendador de imágenes descrito en el capítulo 5.