7 Value Types
10.2 Object Loading Views
Además de la categorización de los contenidos en la jerarquía de género, se describen sus características semánticas en dos tipos de propiedades: Datatype (CRID, el título, su sinopsis y un conjunto de palabras clave); y Object (alertas de contenido, créditos, temática, información geográfica y temporal asociada al programa, etc.).
Para algunas de las características semánticas la norma define jerarquías con varios niveles de especialización. En el proceso de formalización semántica de AVATAR se extraen las clases e instancias de la base de conocimiento OWL con arreglo al siguiente criterio: los valores definidos en el nivel más específico de la norma se incluyen en la base de conocimiento OWL como instancias, mientras que los valores establecidos en los niveles más genéricos son los que identifican las clases a las que pertenecen dichas instancias. Por otra parte, dichas clases respetan la estructura jerárquica definida en la propia especificación TV-Anytime.
A continuación describiremos cada una de las características semánticas que se formalizan en la ontología de la televisión. Profundizaremos especialmente en una de ellas, la relativa a la Audiencia Objetivo de un contenido para ilustrar la formalización. Para las demás sólo haremos un comentario sobre el ámbito que describen.
99 Audiencia Objetivo
La norma TV-Anytime establece una clasificación del tipo de audiencia objetivo al que va dirigido un programa. Dicha clasificación se muestra en la Tabla 3-3.
Código Audiencia Objetivo
4.1 GENERAL AUDIENCE 4.2 AGE GROUPS 4.2.1 Children
4.2.1.0 specific single age 4.2.1.1 age 4-7 4.2.1.2 age 8-13 4.2.1.3 age 14-15 4.2.1.4 age 0-3 4.2.2 Adults 4.2.2.1 age 16-17 4.2.2.2 age 18-24 4.2.2.3 age 25-34 4.2.2.4 age 35-44 4.2.2.5 age 45-54 4.2.2.6 age 55-64 4.2.2.7 age 65+ … …
4.11 LANGUAGE OF TARGET AUDIENCE
Tabla 3-3. Esquema de clasificación IntendedAudience En la Figura 3-3 se aprecia que las categorías más específicas, las del tercer nivel, correspondientes por ejemplo a 4.2.1.1 o 4.2.2.3, identifican instancias específicas en la base de conocimiento, mientras que las de niveles superiores representan clases organizadas jerárquicamente. Es decir, que las hojas de la estructura son instancias, y no clases. En nuestro caso, esto no es así, sino que representa la mejora de que todas son clases. En efecto, como veremos en el capítulo 5, la clasificación IntendedAudience se incorpora a la ontología como una jerarquía más, igual a la de Content.
Las instancias referidas al tipo de audiencia de un determinado contenido están relacionadas con éste mediante una propiedad Object denominada hasIntendedAudience.
100
Figura 3-3. Extracto de las clases e instancias referidas al tipo de audiencia de los contenidos en la ontología.
Para las siguientes características semánticas solamente incluimos una breve descripción. Vale aclarar que toman sus valores a partir de los esquemas de clasificación presentes en la norma TV-Anytime, y se pueden consultar en ella. El método de generación de la jerarquía correspondiente, en cada caso, es análogo al que venimos de exponer. Ellas son: Alertas de contenido (Define una clasificación de categorías para alertar a los usuarios sobre la presencia de determinados tipos de contenidos en los programas difundidos), Idioma de los contenidos (idiomas en que puede ser emitido el programa), Créditos que participan en los contenidos, Origen técnico del contenido, Relación existente entre diferentes contenidos (relaciones entre programas concretos, que forman parte de una misma serie, o un programa y su tráiler), Intención del contenido, Formato estructural del contenido, Características psicológicas y emocionales asociadas a los contenidos, Tipo de productos ofertados en contenidos con fines comerciales. Todas ellas son estructuras que se derivan de la metainformación definida en la norma TV-Anytime.
101 Para el modelado del conocimiento relativo a la fecha y localización de producción, creación y estreno de los contenidos, se utilizan dos ontologías en las que se formaliza información geográfica y temporal. Ellas son la ontología OWL-Time [58], y una pequeña ontología sobre la información geográfica implementada especialmente.
3.6 Los perfiles ontológicos
AVATAR emplea no sólo la jerarquía propuesta sino que también razona sobre el conocimiento de la ontología para obtener sugerencias mejoradas a partir de la inferencia de asociaciones semánticas. Por ello, es necesario tener una representación más compleja del perfil de los usuarios. En concreto, se proponen unas estructuras denominadas perfiles-ontología, en las cuales el perfil del usuario está referido a todas las clases de la ontología, tanto a los atributos descritos en torno a la jerarquía de géneros, como a las demás características semánticas.
Esta representación de perfiles propuesta para que la metodología descubra relaciones semánticas útiles para las recomendaciones, tiene, sin embargo, ciertas limitaciones, relacionadas con la capacidad de almacenamiento en el servidor cuando debe registrar los perfiles-ontología de todos los usuarios del sistema. Se aplican dos medidas para atenuar su impacto:
No se replican en cada perfil las clases, instancias y propiedades que identifican las preferencias del usuario, sino que cada perfil mantiene únicamente referencias a las entidades formalizadas en la ontología y, a la vez, registra los niveles de interés asociados a las mismas. De esta forma se mantiene toda la información requerida en la metodología de razonamiento.
Se incorpora una función de olvido gradual que permite prescindir de las clases e instancias referidas al pasado no reciente.
Para la generación del perfil inicial de un usuario que ingresa al sistema se ha tenido en cuenta que el procedimiento no sea tedioso y que no implique al usuario revelar información de carácter personal. Por ello se basa en un conjunto de entrenamiento. AVATAR presenta una jerarquía de géneros para que el usuario ingrese sus preferencias. Se presenta una exploración rápida y cómoda. Si a un
102
usuario le interesan los deportes en general, no hace falta que marque su interés por cada clase hoja correspondiente en la jerarquía, sino por el contrario, puede indicar su interés por la clase superior SPORTS y su interés se propagará en toda la rama por debajo de esta categoría. También el sistema presenta al usuario algunos programas específicos (instancias) para que indique su interés. Según lo que prefiera el usuario puede inicializar su perfil mediante uno o ambos métodos.
A través de la información semántica incluida en la ontología, el sistema aprende conocimiento sobre las preferencias del usuario y datos de carácter personal sin necesidad de que éste tenga que definirla explícitamente, tal como ocurriría en las técnicas basadas en estereotipos o en el proceso de generación manual.
El perfil está constituido únicamente por las referencias a las instancias correspondientes a los programas en la ontología. Estas referencias son los CRIDs que identifican de manera unívoca cada contenido. A través del CRID correspondiente a un contenido, consultando la base de conocimiento del sistema, es posible acceder a sus características semánticas, así como al género al que pertenece. Esto significa un ahorro en el almacenamiento, ya que solamente es necesario almacenar el CRID correspondiente a un programa, y no todas sus características semánticas y su género.
Junto al CRID de cada programa, el perfil mantiene los niveles de interés de este contenido, de sus características semánticas y de los géneros a los que pertenece.
Estas características semánticas son de especial interés en la recomendación de programas de televisión. Por ejemplo, es frecuente que un televidente disfrute programas protagonizados por un mismo actor. En este enfoque el sistema incorporará un alto interés en la característica semántica que representa el actor.
La Figura 3-4 muestra los perfiles de dos usuarios X e Y, en los cuales se observan almacenados los CRIDs correspondientes a distintos contenidos, junto a los niveles de interés asociados.
103 Figura 3-4. Perfiles de dos usuarios X e Y en AVATAR, de [34].
AVATAR presenta una lista de sugerencias al usuario, y se realimentará al perfil del usuario en correspondencia, ya sean aceptadas o no.
Es necesario cuantificar el interés de un usuario por un contenido presente en su perfil. A tales efectos, se asigna un índice numérico, llamado DOI (Degree Of Interest), tanto a las instancias referenciadas desde el perfil-ontología (programas de televisión y características semánticas), como a aquellas clases que identifican los géneros de la jerarquía ilustrada en la Figura 3-2. Este valor variará entre -1 (interés negativo) y +1 (máximo interés).
El DOI de un usuario para un programa dado es obtenido a partir de las acciones del mismo mientras mira el programa (si lo acepta, si lo ve completo o parcialmente), sin necesidad de solicitar calificaciones explícitas, minimizando así la interferencia del sistema con la experiencia de mirar televisión. También se le
104
ofrece la posibilidad de calificar un programa, ya sea que lo acepte como que no. Se lo computa de la siguiente manera. Se ofrece al usuario calificar al programa en cuatro niveles: muy interesante, interesante, poco interesante, muy poco interesante. Según sea la calificación le asigna respectivamente 1, 0.5, -0.5 o -1. Si el usuario acepta o rechaza el programa sin proporcionar una evaluación, se asigna 0.75 o -0.75, respectivamente. El DOI será igual al número así obtenido si el usuario rechazó el programa, y en caso contrario, será igual a este número multiplicado por el porcentaje de la duración del programa que el usuario efectivamente estuvo mirando.
El DOI del usuario al programa, también se asigna a cada una de las características semánticas de dicho programa. Como otros contenidos comparten estas características, en el perfil del usuario éstas ya tienen un DOI previamente, que se promediará con el del nuevo programa para obtener el DOI final.
Asimismo es posible calcular el interés en una clase hoja de la jerarquía de géneros promediando las clasificaciones de todos los programas definidos en el perfil del usuario que pertenezcan a dicha categoría.
El interés de las clases hoja se propaga a través de la jerarquía para componer el interés del usuario en cada clase de la misma, utilizando un método de propagación originario de Ziegler [59]. El DOI de una clase inferior se propaga hacia la inmediatamente superior dividido por el número de clases hijas de la superior. El nivel de una superclase se calcula promediando los índices que propagan cada una de las categorías que dependen directamente de ella en la jerarquía de géneros.
Adicionalmente, el sistema incorpora funciones de olvido gradual y de eliminación de preferencias obsoletas que se pueden consultar en [34], a efectos de reducir el nivel de almacenamiento requerido por el perfil de usuario y mejorar la recomendación, manteniendo lo más actual por presuponerse más significativo.