Es la primera vez que hago una continuidad de una entrada de mi bitácora, pero ayer, 16 de febrero de 2024, OpenAI, una empresa de Inteligencia Artificial ha presentado Sora, una herramienta que genera videos a partir de una instrucción escrita de los usuarios en el Prompt. Gracias al Deep Learning de estos sistemas será posible crear complejas secuencias de video, con una calidad y un detalle extraordinario. Como decía en mi entrada anterior, tenemos el privilegio generacional de estar asistiendo a la creación de un nuevo espacio social y cultural con las imágenes en el que también las intermediaciones ópticas de la cámara cinematográfica o de video, se han difuminado, y es solo el texto propuesto por el usuario y las redes generativas las que intermedian para crear realidades nuevas, que irán perfeccionandose, porque las redes GAN aprenden de sí mismas y de las precisiones que implementan quienes las utilizan. De momento Sora, presentado ayer, no está disponible para el público, solo para los «equipos rojos», grupos de testeadores que pondrán al límite los resultados de la tecnología para descubrir espacios de mejora. Lo mostrado ayer por OpenAI muestra unos resultados extraordinarios, y revelan unos aspectos que, de nuevo, como historiador de la cultura visual, me gustaría poner en relación. Nunca antes hemos tenido la posibilidad de usar una tecnología ni similar ni parecida de generación de imágenes en la extensa historia de nuestra cultura, pero al mismo tiempo, y eso es lo que me gustaría destacar en esta breve entrada, se revelan algunas necesidades de mejora, que llegarán en cuanto las redes generativas aprendan de sí mismas, pero como he insistido en otras entradas anteriores que he escrito sobre ésta temática, existen conexiones culturales con el pasado, seguramente muy desconocidas para la mayoría, que me gustaría explicar a continuación.
Entre los videos generados por Sora, con millones de descargas a un solo día de su presentación, destaca el de una joven paseando por una calle en Tokio con una fidelidad y coherencia sorprendentes. De momento el sistema genera videos de hasta un minuto de duración, el tiempo que duraban las primeras películas Lumière, lo que es una casualidad, porque las tecnologías de elaboración del cine Lumière y la IA no tienen nada que ver. En este caso la Compañía ha publicado en inglés el Prompt enviado al sistema, que ha entregado este resultado tan impresionante: «Una elegante mujer camina por una calle de Tokio llena de cálidos neones brillantes y animada señalización urbana. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y pintalabios rojo. Camina con seguridad y despreocupación. La calle está húmeda y es reflectante, lo que crea un efecto espejo de las luces de colores. Muchos peatones pasean”.
Al entusiasmo unánime por este logro tecnológico que, cuando esté disponible, muchos nos suscribiremos para poder experimentar con él, y que es posible que genere las escenas en Keyframe, típicas de los sistemas de renderización de video digital actual, pero donde lo relevante es la capacidad de las redes generativas de crear realidades visuales con sentido y una gran calidad sin la necesidad de que exista un intermediario óptico como ocurre y es necesario hasta estos momentos. Las nuevas posibilidades que se abren han sido aquilatadas por la compañía cuya información ha sido recogida por la prensa con un entusiasmo unánime. Ayer, por ejemplo, informando sobre la presentación de Sora, el diario español «El País», editado en Madrid, ponía en boca de los directivos de OpenA una cuestión que me interesa mucho explicar porque conecta con lo que es una constante en la aparición de nuevas formas tecnologicas que se convierten en prácticas culturales: «La propia firma de inteligencia artificial reconoce que Sora todavía tiene algunos fallos muy evidentes. -Se leía ayer en la información publicada en «El País»– Puede que le cueste simular con precisión la física de una escena compleja y que no entienda casos concretos de causa y efecto. Pone como ejemplo que una persona puede dar un mordisco a una galleta, pero después la galleta puede no tener la marca del mordisco».
Es cuestión de tiempo que todas estas deficiencias se superen por el propio desarrrollo natural de la tecnología, pero al leerlo ayer y quedarme fascinado por los resultados, me acordé de otro momento de nacimiento de una tecnología visual que fue decisiva para todo el siglo XX. Estamos en 1900, el cine europeo de proyeccion de los hermanos Lumière heredero de la tradición de las linternas mágicas, es ya una realidad desde 1895, mientras que el cine heredero de la cultura de inmersión óptica de los mundonuevos y las cajas ópticas, conocido como Kinetoscopio ha aparecido en los Estados Unidos de la mano de Edison en 1891. Ambos sistemas pugnan por encontrar su nicho de mercado, y en Europa, la proyección arrastra consigo a la tradicional cultura de la oralidad que acompaña desde hace siglos a las imágenes. Resuelto en el cinematógrafo al comienzo, con los explicadores, unos charlatanes que, junto a la pantalla, explican lo que quieren y como se les ocurre, para ayudar a ordenar el sentido visual a los espectadores. Pero falta el logro de sincronizar la imagen con el sonido, y justamente en la Exposición Universal de París de 1900, se hacen algunos experimentos, como el de ésta temprana película de Cyrano de Bergerac, coloreada a mano en la que los personajes hablan mientras se mueven en pantalla por la habilidad de los proyeccionistas que manejan, al mismo tiempo, la manivela del proyector y de un fonógrafo de Edison con las voces grabadas en un cilindro de cera para que todo transcurra a la vez. El resultado (visto con los ojos de un espectador de entonces), es fascinante y espectácular, pero existe un pequeño detalle que recuerda, de un modo similar a lo que ahora puede ocurrir todavía al principio con Sora, algo que en aquellos momentos no es culpa solo de la tecnología sino de la inexistencia todavía de una cultura audiovisual de los efectos sonoros especiales. Los personajes hablan, pero cuando sus espadas chocan en el duelo, no se refleja el sonido de las espadas, porque todo es tan nuevo que esa ausencia, que hoy sería inadmisible y poco realista, pasa totalmente inadvertida.
Como historiador de las imágenes y sus culturas, siempre me han interesado los comienzos, su atracción y su capacidad de fascinar a quienes lo disfrutan por primera vez, pero también las carencias que reflejan, que luego se irán mejorando en una dirección que dará lugar a prácticas culturales que se consolidarán en el tiempo. Hubo que esperar casi tres décadas para que el cine sonoro fuera una verdadera realidad y dejase a las proyecciones «mudas» antiguas y obsoletas. Hoy de lo que estamos convencidos es que los cambios que va a producir la Inteligencia Artificial en la producción de imágenes en movimiento, con desarrollos como Sora, tardarán mucho menos tiempo en consolidarse y abrir nuevas pautas sociales y culturales, cuyas consecuencias no conocemos todavía pero que evidencian que ya ha comenzado una nueva etapa, como las que se vivieron con la Fotografía en 1839 y en el Cinematógrafo en 1891 y 1895. Estaremos atentos a todo lo inesperado que ahora comienza a ser posible.