La generación de imágenes siempre es un caja negra | Leonardo Arriagada en entrevista
El futuro de las IAs creativas: de las redes adversariales a los modelos de difusión
Nos conocimos con Leonardo Arriagada, PhD en Filosofía por la Universidad de Gröningen e investigador en Inteligencia Artificial y del arte generador por computadoras (CG-art), en el año 2021. En ese entonces estaba trabajando en la sección de Cultura para el diario El Mercurio y aún el boom de la conversación tecnológica no ocurría: pocos meses después de habernos conocido comenzó el auge de los NFTs y las criptomonedas y un par de años más tarde el actual boom de la Inteligencia Artificial (IA).
En 2021 llegué a Leonardo Arriagada por un premio que había recibido recientemente por su trabajo académico de crítica al antropocentrismo ante las obras de obra de IAs. La tesis de Arriagada era que las IAs estaban desarrollando un nuevo tipo de cualidades - la autonomía creativa computacional - que podrían entregarle el estatuto de agente creativo a la IA; esto es, tenían que dejar de ser consideradas como herramientas y pasar a convertirse en “seres artísticos” en sí mismos.
La actualización de esa conversación y cómo ha evolucionado el panorama desde entonces fue de lo que conversamos.
La última vez que hablamos fue el 2021. Definitivamente ha cambiado mucho desde entonces. Para empezar quería preguntarte cómo ha cambiado tu opinión y el argumento que planteabas sobre el uso de la IA en las artes desde ese entonces hasta ahora.
LA: Desde el 2021 hasta ahora han pasado hartas cosas. Una de las más importantes, fue que en 2021 hablábamos de IA en la creación de arte no como herramienta, sino como un agente creativo propio. Casi como una especie de colega, un nuevo artista que estaba naciendo. Eso venía potenciado por un tipo de redes neuronales artificiales, las Redes Adversariales Generativas (GAN) que estaban muy de moda desde el 2019 hasta el 2022 más o menos. Eso porque demostraron ser muy eficientes en la creación de imágenes. Cuando tú le mostrabas a una audiencia los resultados tendían a confundirse; incluso si les pedías juzgar cuáles les parecía más novedosa, más creativa, cuál transmitía más sentimientos, tendían a responder que eran las imágenes de las GAN.
Estas IAs antagónicas tenían una etapa de supervisión, una autoevaluación del trabajo antes de enviarlo como output. Y eso venía a ser una respuesta a la crítica que se hacía de las redes convulsionales que eran las antiguas top tier en cuanto a creación de imágenes y que crearon las imágenes lisérgicas de DeepDream donde aparecían unos perros mezclados con gatos, otros caracoles. Ellas no tenían una etapa de autoevaluación. Por eso la gente decía que era una herramienta muy avanzada, interesante; pero que solamente seguía la instrucción que le daba el programador humano, que no hacía todo su trabajo, no podríamos considerar que tenía, según se acuñó un término en informática, "autonomía creativa computacional". Esto es ver que lo que estoy haciendo es una obra de arte y si no lo es, descartar y cambiarlo y tomar una decisión, por ejemplo lo voy a hacer más parecido a una obra de arte abstracto, impresionista, etc. Que todo eso lo haga la IA sin intervención humana.
Lo que está de moda ahora, muy popular desde fines del 2022 fue por un lado ChatGPT y por otro la generación de imágenes con Dalle, Midjourney. Lo que está de estas no son GAN, sino que modelos de difusión. Son más populares que las GAN y entregan resultados más eficaces. A pesar de que no tienen esa autonomía creativa computacional, entonces son más distintas a lo que nosotros de las ciencias cognitivas que opera el pensamiento humano. Es una inteligencia mucho más artificial, se parece más a DeepDream. Se abandonó esta idea de la autoevaluación, de que el artista humano o pensador hace un trabajo reflexivo y se optó por un trabajo irreflexivo, pero de una calidad tan buena que en el fondo no se echa de menos la reflexividad.
La generación de imágenes siempre es una caja negra, tú igual tiendes a entender más qué está pasando dentro de una GAN, a diferencia de un modelo de difusión, pero aún así uno prefiere el de difusión. Es mejor, es más óptimo, es más rápido, es más barato. Es mejor en todo
El otro día hablaba con artistas que usaban modelos de difusión y una de las características en la que ponen mucho énfasis es en el hecho de escapar a la representatividad a la que tienen estos modelos de difusión por su efecto efectista. La distancia entre el input y el output es mucho menor. ¿Cómo cambia eso nos relacionamos con estas máquinas? ¿Qué crees que se está perdiendo o ganando esta facilidad para generar las imágenes?
LA: La primera crítica que se le hacía a los modelos GAN era que no creaban arte, porque lo que hacían era una pura secuencia de comandos programados que se ejecutaban. Pero ellas podían autoevaluarse, cambiar sus metas, su estilo, tomar un nuevo camino para lograr un output, con los modelos de difusión no.
Ahora son mucho más crípticos y regresa la crítica. Nos alejamos de esa idea de considerar a la IA como un artista y se acerca mucho más a la idea de que es sólo una herramienta o una máquina. Sólo que es mucho más efectiva que el artista, entonces surge la pregunta si es que necesitábamos crear un artista artificial o lo que necesitábamos era una máquina que fuera más capaz y que optimizara el trabajo simplemente. Se pierde el compañerismo, considerar como colega a la IA.

También, antiguamente estábamos tratando de crear redes neuronales artificiales basadas, más o menos, en cómo la ciencia cognitiva cree que funciona el cerebro humano normal, estándar, vanilla. El modelo de difusión es lo más parecido a una inteligencia que ni siquiera fuera terrestre.
Hace poco escuchaba una comparación que se hacía entre el nacimiento de la fotografía y la lucha que significó con la pintura. La explosión de la pintura pasó por descubrir cuáles son las características especiales de dicho medio que no tiene la fotografía. En definitiva, liberamos a la pintura porque ya no tenemos ese objetivo.
LA: Tomando los modelos de difusión claramente los estamos relegando a la generación de publicidad, diseño gráfico, todo este tipo de semiótica visual no considerada dentro del mundo del arte. Ahí te estás quedando como tú artista humano con la dimensión artística y no comercial. El estudio de la forma por sí misma o seguir ciertas corrientes, movimientos políticos, etc., eso los modelos de difusión están alejados de poder presentar.
Este momento es diferente. Porque, antes estábamos hablando - con las GAN - no de una nueva herramienta que hace mejor lo que hace un ser humano, sino que estamos frente a una herramienta que muchos artistas, filósofos e informáticos consideran un nuevo partner, con agencia creativa propia. En ese caso es muy distinto, porque la fotografía no tiene una agencia propia. Con las GAN sería un antes y un después, un encuentro con una agencia creativa. Es lo más parecido a encontrarse con un extraterrestre, una nueva cultura. Como Europa con América, donde en América había un arte que no respondía al arte europeo, se conservaron piezas, pero en general pasaron la aplanadora por sobre ese arte y no lo comprendieron. En este caso, tenemos también la decisión en nuestras manos, pasamos la aplanadora sobre las GAN o no.
Cuando hablamos el 2021 conversamos sobre las GAN en ámbitos muchos más artísticas, ligado a lo experimental. No creo que sea arriesgado decir que la popularidad de los modelos de difusión ha estado impulsada por el marketing; no para experimentar o para pensar nuevas fronteras estéticas. Necesito hacer una publicidad y me sale más barato crear una imagen en mi computador que contratar gente, modelos y sacarles una foto. ¿Cómo ves esto, que los mayores promotores de los modelos de difusión sea ese el objetivo, más que un uso artístico? Considerando que son mentes muy alejadas a la humana y podrían abrir otras fronteras, pero estamos perdiendo esas cualidades creativas o experimentales.
LA: Cuando esto era un tema de nicho del arte se ponía énfasis en estudiar la parte estética de estos modelos, ver cómo cambiaban la percepción sobre lo que consideramos una creación artística. Los modelos de difusión en cambio son percibidos sólo como herramientas que pueden hacer lo que les indicamos y sus usos se centran en lo que es la producción de imágenes, para generar artículos clickbait por ejemplo. Eso contribuye a una visión negativa de lo que puede generar la IA en el futuro.

Antes tenías la idea de un encuentro con un nuevo agente creativo no-humano. A pesar de que estos sean los usos de los modelos de difusión, no creo que se sostenga el ritmo o los usos actuales. Si sigue aumentado el número, va a también aumentar la capacidad para filtrar estas fake news. No hay porqué pensar que no se puede ocupar la IA para crear un bloqueador de de este contenido.
Imaginando el tema del correo spam, por ejemplo. Los protocolos se han sofisticado y muchas estafas ya no pasan, porque la inteligencia de esos administradores de correo se han sofisticado.
LA: Exactamente, nadie lo puede asegurar. Pero no hay argumentos para pensar que eso no ocurra. Va a ver una disminución porque el sistema será más efectivo.
Me llama la atención la idea de los modelos de difusión como una mente alien y las posibilidades que se abrirían si dejáramos a esta inteligencia la agencia propia de inventar imágenes y no caer la representación. ¿Cuál sería el rol para el ser humano, imaginando que los modelos de difusión los dejaríamos de ocupar para la generación de publicidad, sino como un medio artístico en sí mismo? ¿Qué rol juega el ser humano?
LA: Nos toca jugar el rol más importante en la estética de completar el proceso. Cuando se genera una obra de arte, uno tiene el artista con su idea y la obra de arte en sí. Esta nueva canción, rima, cuadro, pintura. Pero se completa ese proceso cuando es observado por otra persona o por un grupo. Porque hay una parte de la sociedad considera que es digno de alguna apreciación estética. Tú le puedes dar un uso no funcional, sino estético.
En el caso de que los modelos de difusión estén creando arte, que hayamos salido de esa “etapa oscura” de utilizarlos para usos que solamente se trata de crear más publicidad, nos quedaría a nosotros decidir si estas creaciones son buenas o no. Primero considerar si son dignas de apreciación estética y, después, si es que son apreciables por nosotros de forma negativa, positiva o todo lo que hay entremedio. Un artista que está dedicado a cierto modo específico de crear, en este caso, a través de un proceso mecánico de un modelo de difusión cuyo proceso es una caja negra, distinto al proceso que yo puedo tener como artista humano donde yo voy indicando y puedo inteligibilizar mi proceso; donde puedo mostrar mi proceso, explicarlo y estudiarlo.
Hubo un caso hace unos meses con la IA de Google, Gemini, donde le pidieron crear imágenes históricas que no eran fieles a la realidad y que representaban, más bien, los valores que quiere promover la compañía para defenderse de críticas. Creo que ahí el problema es esperar que esta IA represente el mundo de forma fiel o que diga una verdad sobre el mundo, siendo que no lo conoce. Y entonces, ¿Cuál es el estatuto ontológico de la “verdad” de estas imágenes? ¿Qué muestran estas imágenes si no es la verdad del mundo?
LA: Lo que muestran actualmente es falso, no es la verdad del mundo porque están constreñidas a seguir una instrucción, están obligadas a mostrarte un mundo más inclusivo, todo tipo de filtros para que la compañía no pueda ser criticada. Pero con eso estás entregando una visión completamente artificial (en su sentido más amplio). Básicamente le dices al modelo que si tú ves que el mundo es X, no lo hagas así y haz lo que yo te diga.

Yo creo que este problema pasa porque se trata de arreglar al final del proceso, algo que se debería arreglar al principio. Debemos preguntarnos por qué las máquinas representan las cosas de esa manera, atacar el problema de fondo. Ahí la tecnología es como un espejo negro, que nos está mostrando nuestro verdadero rostro y nosotros somos los que nos asustamos cuando miramos. Yo creo que la única forma es evitar esto es darle acceso a la mayor cantidad de datos posibles para que nos dé una versión lo más fidedigna.
Tú crees que en ese sentido, la IA por su capacidad de engullir toda esa información tiene la capacidad de poder convertirse un espejo.
LA: Sí tiene la capacidad de reflejar cómo somos nosotros, si es que nosotros le damos los datos necesarios. Si nosotros le damos la data errada, va a dar respuestas erróneas. Si le entregas todos los datos y te entrega una versión del mundo, un reflejo que a ti no te gusta, también puedes utilizarla para preguntarle cómo mejorar ciertos aspectos.
Puedes notar que esa idea va totalmente en contra de propuestas de limitar el uso de la IA, regular su uso, poner temas sobre los que la IA no puede inmiscuirse. Toda esa artificialidad está quitándole posibilidades para que la IA nos entregue una visión real del mundo, que tal vez nos va a alarmar, pero nos va a alertar a qué es lo que queremos mantener y qué es lo queremos mejorar.