4.3 Research method – case study approach
4.3.3 Data collection and generation
La historia del videófono, habilitador de la videoconferencia, empieza ya desde que la patente
del teléfono por Alexander Graham Bell en 1876 permitió la transmisión del del sonido a través de cables. Un año después, en 1877 Thomas Edison inventó el primer fonógrafo práctico, un
dispositivo que permitía, por primera vez, grabar y reproducir sonidos. Luego, en 1901, Marconi transmitió código Morse a través del Atlántico sin cables, estableciendo las bases para la radio.
La imagen siguió un patrón similar de desarrollo. A finales de la década de 1880, George Eastman cambió el panorama con la introducción de la primera cámara fotográfica destinada al
consumidor y, sobre todo, creó el rollo de película Kodak. Edison rápidamente continuó el trabajo utilizando este rollo para crear imágenes en movimiento, el kinetoscopio, introducido
comercialmente 1894.
predecir futuros matrimonios entre ellos y pocos eran más populares y excitaban más la imaginación colectiva que el videófono. Ya en 1924 un artículo en el New York Times
[Times 1924] cita a Alexander Graham Bell anticipando que llegaría el día en que las personas verían a quien fuera que estuviera al otro lado del teléfono.
Sin embargo, no es hasta 1936 [The Evening Independent 1934] cuando el gran público
accede a estas tecnologías en las oficinas postales alemanas (Reichsposts). Se permitía la comunicación entre las oficinas de Berlín y Leipzig mediante un cable coaxial de banda ancha
que cubría la distancia, unos 160 kilómetros. Los usuarios podían comunicarse dentro de unas cabinas utilizando técnicas similares a la televisión. Tuvo cierto éxito y llegó a extenderse a más
ciudades con más de mil kilómetros cableados hasta que el inicio de la Segunda Guerra Mundial frenó su desarrollo en 1939. El servicio fue finalmente descontinuado en 1940 siendo su caro
sistema de cableado reutilizado para comunicación telegráfica y televisión.
El Picturephone
En Estados Unidos, AT&T iba a seguir un camino más largo hasta llevar un dispositivo de este estilo al público en general. En [Noll 1992] y [Fagen 1975] podemos seguir la controvertida
historia del Picturephone de AT&T. Ya con al comercialización del Fax en 1925 se comienza a popularizar el envío de imágenes a través de cables. Sin embargo, el debut del videófono se
produce en 1927 cuando Herbert Hoover, entonces Secretario de Comercio, se comunica desde Washington DC a los Bell Labs en Nueva York a través de una cabina. Este prototipo, que ocupaba media habitación, permitía la comunicación pero estaba aún lejos de poder ser utilizado
por el público en general.
Más de 30 años de investigación y desarrollo, unidos a la invención del transistor en 1948,
permitieron que en 1956, AT&T mostrara un prototipo de tamaño razonable capaz de enviar dos imágenes cada segundo a través de la red telefónica conmutada (RTC). El resultado fue el
Picturephone Mod I, un dispositivo tremendamente avanzado para la época que permitía enviar hasta 30 cuadros por segundo utilizando varias líneas telefónicas simultáneamente. La
presentación en sociedad del Picturephone en la exposición mundial de Nueva York en 1964 fue recibida muy favorablemente por el público.
Sin embargo, tanto el Picturephone Mod I, sus sucesores e incluso alternativas creadas en
2.1. INTRODUCCIÓN A LA VIDEOCONFERENCIA MULTIUSUARIO
cabinas telefónicas como las posteriores centradas en el ámbito empresarial, no pudieron atraer lo suficiente a los consumidores. Debido probablemente, no a razones puramente técnicas si no a la
escasez de gente dispuesta a pagar cerca de diez veces más por ver la cara de la persona por la que hablan por teléfono.
El Picturephone, mas allá de sus innegables virtudes tecnológicas, hace cristalizar la duda
sobre la necesidad real de la videoconferencia como necesidad para el público.
La transmisión digital
En los finales de los 70 y principios de los 80 se estandarizan protocolos como NVP [Cohen 1977] o Network Voice Protocol, pionero a la hora de transmitir voz sobre redes de conmutación de
paquetes. Se considera uno de los antecesores de la voz sobre IP. El protocolo consistía en dos partes diferenciadas: protocolos de control y protocolos de transporte de datos. La capa de control
incluía mecanismo sencillos para indicar a quién se quiere llamar, tonos de teléfono o negociación de la codificación. La capa de transmisión de datos especificaba como encapsular y enviar los
mensajes con la voz codificada. PVP oPacket Video Protocol[Cole 1981] aparece poco después definido como una serie de extensiones sobre NVP para transmitir datos de vídeo. Tanto NVP
como PVP eran transmitidos sobre STInternet Stream Protocoly sus siguientes versiones ST-II [Topolcic 1990] y ST2+ [Delgrossi 1995], diseñadas como una versión complementaria a IPv4
orientada a conexión.
Durante la década de los 80 las redes de transmisión de telefonía digital como la RDSI permitieron asegurar un caudal mínimo de datos que permitía la emisión de vídeo digital.
Además durante esta época se sientan parte de las bases de la compresión de vídeo enfocada a su transmisión de cara a las siguientes décadas. En 1978 Compression Labs patenta un algoritmo de
control de tasa de transmisión en la compresión de vídeo digital [Widergren 1981] y en 1986 la patente "JPEG" [Chen 1987] de compresión de imágenes y vídeo. En esta línea aparece en
noviembre de 1988 el primer estándar de compresión de vídeo digital para comunicaciones: H.261 [ITU-T 1988] enfocado a producir vídeo para ser transmitido por RDSI.
Hasta la fecha, la videoconferencia sigue siendo casi exclusivamente punto a punto. En
[Sabri 1985] se explora el concepto depresencia contínuamediante el uso de múltiples cámaras yvideo switchingo conmutación del vídeo entre los participantes. La comunicación multipunto
será importante para las primeras MCUs.
En el terreno comercial aparecen las primeras compañías exclusivamente dedicadas a la comercialización de la videoconferencia destacando Compression Labs y PictureTel, fundadas
por investigadores en la materia. Aunque aún este punto la videoconferencia sigue siendo inalcanzable para el gran público, el precio decrece desde unos 250.000$ por sistema y líneas de
1.000$ la hora hasta los 80.000$ y 100$.
La videoconferencia en los ordenadores personales
Los noventa suponen un gran avance y desarrollo de la videoconferencia gracias a muchos
factores, destacando el desarrollo y popularidad de las redes IP y la mejora sustancial en las técnicas de compresión de video. Esto llega incluso a habilitar la videoconferencia en los
ordenadores personales. El PictureTel de IBM, introducido en 1991 y permitiendo videoconferencia en blanco y negro a un precio más ajustado (30$ por puerto y hora), es un
ejemplo de ello.
En el terreno de la comunicación multipunto, en 1990 el ITU-T propone el uso de una MCU en la primera definición de H.320 [ITU-T 1990], definiéndola como:"Una pieza de equipamiento
localizada en un nodo de la red o en un terminal que recibe varios canales a través de puertos de acceso y, siguiendo ciertos criterios, procesa señales audiovisuales y las distribuye a los canales conectados".
En 1991 INRIA propone un sistema de videoconferencia para Internet basado en multicast para conseguir comunicación multiusuario. Los resultados pueden verse en [Turletti 1996], utilizaba
H.261 como codificación de vídeo encapsulado en una versión primitiva de RTP. Se utilizaba un codificador software [Turletti 1993] para evitar requerir hardware específico.
La aplicación comercial de mayor impacto de la década es CU-Seeme, inicialmente
programada para el Apple Macintosh, llegó al público en 1992. En 1993, con la versión 0.19 se convierte en la primera implementación de un terminal con soporte para múltiples flujos
simultáneos, habilitada por los denominados Reflectors. Los Reflectors de CU-Seeme [Sattler 1995] son, funcionalmente, MCUs que no permiten transcodificación pero que son
bastante avanzadas permitiendo reenvío de flujos o cascading, hasta el punto que permitió las primeras emisiones de programas del estilo de la televisión por Internet. En su contra tenía
2.1. INTRODUCCIÓN A LA VIDEOCONFERENCIA MULTIUSUARIO
cortafuegos.
El auge de este tipo de soluciones basadas en MCU viene corroborado en la literatura, con publicaciones fundamentales en este ámbito. En 1992 tenemos en [Clark 1992] la descripción de una MCU de conmutación de vídeos con el codec H.261. En 1994 encontramos una de las
primeras referencias a una MCU mezcladora o componedora de flujos (mixing) descrita por los autores en [Lei 1994]. La primera referencia a una MCU con transcodificación la tenemos en
[Willebeek-LeMair 1994], también en 1994, donde se expone una clasificación de las MCUs por la funcionalidad que implementan.
Mientras tanto, en España, el sistema de videoconferencia Isabel ([De Miguel 1994],
[Quemada 1996]) propone un esquema de colaboración multipunto sobre IP híbrido entre punto a punto y centralizado. En este tipo de arquitectura, los clientes pueden hacer de "super pares"
pudiendo reenviar flujos del resto de los participantes hacia otros. De esta manera, se pueden seleccionar clientes con mayor ancho de banda que harán de pseudo-MCUs de cara a otros
clientes. Un esquema parecido usarán, años después, las primeras versiones de Skype.
El auge de la popularidad de la videoconferencia en esta época se ve respaldado por los
organismos de estandarización. Tras una evolución que empieza en 1991 con los primeros experimento, en 1995 se publica la rfc 1889 [Group 1996] definiendo RTP, protocolo más
importante para el transporte de flujos multimedia en tiempo real sobre IP a partir de este momento.
En 1996 el ITU-T publica su estándar H.323 [ITU-T 1996b] enfocado a posibilitar comunicación de vídeo y audio en redes sin calidad de servicio garantizada. Incluye
recomendaciones para señalización, control, transporte de flujos multimedia así como para control de ancho de banda tanto para conferencias punto a punto como multipunto. H.263
[ITU-T 1996a] recomienda una codificación de vídeo para bajo ancho de banda destinada a permitir la comunicación en un mayor número de escenarios.
El Protocolo de Descripción de Sesión o SDP (Session Description Protocol) en 1998
[Handley 1998] define mensajes que permiten negociar diferentes parámetros de una sesión tales como resoluciones o codificaciones soportadas. Ese mismo año el MPEG (Moving Picture
Experts Group, ISO/IEC JTC 1/SC 29/WG 11) desarrolla MPEG-4 como un estándar ISO [ISO 1999] para contenido multimedia, aunque no está directamente relacionado con la
un avance en cuanto a la interoperabilidad en la transmisión de datos.
En 1999 apareceSession Initiation Protocol(SIP) [Handley 1999], desarrollado por el grupo MMUSIC (Multiparty multimedia session controldel IETF. SIP es un protocolo de señalización
destinado a las conferencias por Internet, telefonía, presencia, notificación de eventos y mensajería instantánea. SIP consiguió una base de seguidores bastante importante desde el primer momento.
Microsoft en 2001 anunció que su Windows XP messenger sería compatible con SIP.
En 1998, el grupo de expertos de codificación de vídeo (VCEG - ITU-T SG16 Q.6) publicó la llamada a propuestas para un proyecto llamado H.26L con el objetivo de doblar la fidelidad de las
codificaciones, esto es, conseguir la misma calidad con la mitad de tasa de bits. En 2001, VCEG y el MPEG forma el equipo de vídeo unido (Joint Video Group) o JVG con el objetivo de finalizar
el estándar. El resultado de este trabajo fue el estándar publicado en 2003, H.264 [ITU-T 2003], también conocido como H.264/MPEG-4-AVC, H.264/AVC o MPEG-4 Part 10 AVC. Así este
estándar ponía bajo el mismo paraguas tanto al ITU-T como al MPEG siendo la flexibilidad una de las principales características del mismo. H.264 define una serie de perfiles que le permiten rendir
en escenarios tan diferentes como la transmisión con poco ancho de banda o el almacenamiento a altas calidades. Posteriormente, en 2005 aparecerá la RFC 3984 [S. Wenger 2005] que describe
como encapsular H.264 en RTP.
Inconvenientes históricos
Hasta este punto, principios de los 2000, a pesar del auge de tecnologías y estándares que acercan la videoconferencia al público, existe un gran escepticismo respecto a la necesidad real de la
misma y, sobre todo, su viabilidad como producto.
Ya en [Noll 1992] el autor analiza el fracaso del Picturephone y concluye: "Parece claro que el servicio Picturephone de AT&T falló no por (...) ningún (...) factor tecnológico, tampoco por mal enfoque de marketing o precio, si no por la simple razón de que la mayoría de los clientes no tenían aplicación para el mismo".
Los autores en [Kraut 1995] refutan las conclusiones de Noll. Según sus conclusiones, la
vídeo-telefonía sería utilizada como versión mejorada de la telefonía tradicional en los hogares y, principalmente para ventas y negociación en el ambiente empresarial.
Zeile, en [Zeile 1996] apunta que la penetración de la videoconferencia depende de varios
2.1. INTRODUCCIÓN A LA VIDEOCONFERENCIA MULTIUSUARIO
soportar la comunicación de calidad demandada por los usuarios, los costes económicos de los terminales y de las redes que los interconectan, aplicaciones útiles para los usuarios y ubicuidad
basada en estándares para permitir interoperabilidad. Un estudio más reciente, en 2002 [Bastian 2002] apunta, 8 años después, en el mismo sentido pero añade factores culturales como
la aceptación de las reuniones remotas por parte de los trabajadores de las empresas.
Ya en 1988, Egido en [Egido 1988] apunta que enfocar la conferencia como sustituto de las reuniones es un error, se debe usar como un complemento y, para ello, debe estar localizada en la
propia oficina y no en salas especiales.
Parte de este avance sociocultural será facilitado por el trabajo en el trabajo colaborativo
habilitado por ordenadores (CSCW), disciplina cuyo objetivo es facilitar los requerimientos del trabajo cooperativo [Schmidt 1992]. Ya en los ochenta Johansen [Johansen 1988] establece la
Matriz de CSCW revisada por Baecker [Baecker 1995], se muestra la videoconferencia como una herramienta más.
Ya en 2004, los autores de [Burns 2004], relacionados con la creación del Picturephone
exponen las siguientes razones para el fracaso de los videófonos y de la videoconferencia en general:
1. Efecto red: La videoconferencia incrementa de valor según la ley de Metcalfe ((n−n2)/2). Hay quien opina que nadie compraba videófonos porque nadie tenía uno. En cualquier caso, otras tecnologías superaron este problema (televisión, VCRs), el videófono no.
2. El problema del ancho de banda: La relación entre precio y rendimiento siempre ha supuesto una fuerte razón para el fracaso de la videoconferencia. Diversas combinaciones
de coste, compatibilidad, franja de mercado se han probado sin éxito.
3. Falta de necesidad en los usuarios: Una de las críticas más dolientes hacia la
videoconferencia es la que los consumidores en realidad no necesitan el servicio y no pagarán por él. Sin embargo, los consumidores son conocidos por su poca fiabilidad a la
hora de determinar sus propias necesidades en productos revolucionarios.
4. Carencia de modelo de negocio: Como las puntocom de principios de los 2000, las empresas de videoconferencia sufren a la hora de encontrar un modelo de negocio viable. El mercado
aplicaciones, etc. Los autores apuntan a la migración a IP de los clientes y a las posibilidades del 3G como factores que apuntan a la esperanza.
A estas alturas ya existen soluciones de videoconferencias que, basándose en estos estándares ofrecen soluciones a precios competitivos a hogares y empresas, gracias también a mejores
velocidades de acceso.
En cualquier caso, Los autores de [Burns 2004] muestran un punto de vista muy válido en
el momento. Aún no estaba claro hasta que punto todo era una burbuja como las puntocom o un fenómeno como el Picturephone. El fracaso de la videoconferencia móvil con 3G vuelve a
despertar estos fantasmas.
Gran parte de los desarrollos posteriores en el terreno de la videconferencia en el plano técnico
se pueden seguir enfocando en los tres primeros puntos de la lista: eliminar las posibles barreras para que exista el efecto red, mejoras técnicas que abaraten los precios y búsqueda de casos de uso
que realmente realcen el valor de la videoconferencia.
En este sentido, ya en Agosto de 2003 se publica la primera beta de Skype, permitiendo al
principio comunicación de voz sobre IP de manera gratuita empleando protocolos privados y permitiendo también videoconferencia punto a punto. No permitirá la comunicación de vídeo
entre múltiples usuarios hasta 2011. Skype, iChat de Apple y otras ofertas, acercan la videoconferencia al gran público aumentando enormemente la popularidad. Skype supo como
generar este efecto red para crear masa de usuarios, también supo buscar su modelo de negocio y, finalmente, implementó una solución técnica basada en distribución entre pares que abarataba el
coste.
Todo esto nos lleva a la siguiente evolución de la videoconferencia, su paso hacia la Web.
Como se desarrolla en esta Tesis, la transición hacia la Web viene a mitigar algunos de los problemas que hemos descrito que afectan a la videoconferencia.
En primer lugar, al estar basado en un navegador, se evita el problema de la necesidad de un dispositivo o un programa específico para cada sistema de videoconferencia. La interoperabilidad
sigue siendo importante para conectar con dispositivos existentes, pero cualquiera con un PC y un navegador podrá llegar a comunicarse.
Por otro lado, la Web facilita la integración de la videoconferencia en otros modelos. Por ejemplo, integrar comunicación en tiempo real puede ser útil para una Web de un banco, o para
2.1. INTRODUCCIÓN A LA VIDEOCONFERENCIA MULTIUSUARIO
uso empresarial para reuniones abriéndose el abanico.