Estamos en el siglo de la imagen. Para bien o para mal, sufriremos mas que nunca la acción de la imagen.
Gastón Bachelard

La Habana, Cuba. – La inteligencia artificial ha cobrado muchísimo protagonismo en los últimos años. Sin embargo, en 2022 se produjo una especie de Big Bang de este tipo de aplicaciones, con dos grandes protagonistas, ChatGPT y DALL-E 2, esta última será la protagonista de esta entrega.

DALL-E es un programa de inteligencia artificial que crea imágenes a partir de descripciones textuales. Fue creado el 5 de enero de 2021, por OpenAI, el mismo de ChatGP, pero, un año más tarde sorprendía con las capacidades de DALL-E 2, pudiendo generar imágenes mucho más realistas y precisas, además de aumentar en hasta cuatro veces la resolución de la imagen. Esta inteligencia artificial Interpreta entradas del lenguaje natural como la frase “loro rojo con cara seria posado en un librero con un sombrero colombiano” y generar las correspondientes imágenes. Puede crear imágenes de objetos realistas u objetos que no existen en la realidad. DALL-E ha sido entrenada mediante una gigantesca biblioteca de obras de arte y fotografías. Su nombre es un acrónimo de WALL·E y Salvador Dalí. Desde los años 2000, muchas redes neuronales artificiales han generado imágenes realistas. DALL-E, sin embargo, es capaz de generarlas a partir de indicaciones de lenguaje natural, que «comprende […] y rara vez falla de manera importante».

Este sistema de inteligencia artificial es capaz de combinar conceptos, estilos y atributos para una imagen. DALL-E es un modelo que sigue en evolucionando. Su proceso de creación es el mismo que otras inteligencias artificiales similares, y se puede resumir en tres pasos. Primero, codifica y entiende el texto que se le ha escrito. De esa manera intenta saber a qué se refiere, e intenta distinguir los diferentes rasgos, características y estilos que se le han pedido que dibuje. Luego, DALL-E crea información de imagen a partir de esa petición, y finalmente utiliza un decodificador que pinta la imagen partiendo del texto. En definitiva, primero entiende lo que le pides, luego piensa qué elementos va a tener en dependencia de la petición, y finalmente realiza el dibujo. Cada vez que se le pide que dibuje algo el resultado cambia, ya que lo procesa de nuevo desde cero. Por lo tanto, se le puede ir haciendo peticiones hasta que uno este satisfecho con el resultado.

Más allá de simplemente crear imágenes a partir de texto, DALL-E puede hacer otras cosas como, por ejemplo, es capaz de quitar objetos de una foto, o cambiarlos por otro. Un perro por un gato, digamos. Lo hará respetando aspectos como la profundidad, sombras, iluminación, y otros. También se le puede pedir que cambie el estilo artístico de una obra, o que se base en ella para crear otra imagen. Las posibilidades son infinitas, y los resultados tienen un acabado profesional. DALL-E es capaz de expandir cuadros, e inventarse lo que hay alrededor, manteniendo el estilo artístico:

El modelo de DALL-E es una implementación multimodal de GPT-3 con 12 mil millones de parámetros (reducido de los 175 mil millones de GPT-3) que «intercambia texto por píxeles», entrenado en pares texto-imagen de Internet. Esta inteligencia artificial genera una gran cantidad de imágenes en respuesta a las indicaciones que se le den. Otro modelo OpenAI, CLIP (Pre-entrenamiento de Imagen-Lenguaje Contrastante), se desarrolló junto (y se anunció simultáneamente) con DALL-E para «comprender y clasificar» ese resultado. CLIP se entrenó en más de 400 millones de pares de imágenes y texto. CLIP es un sistema de reconocimiento de imágenes; sin embargo, a diferencia de la mayoría de los modelos de clasificadores, CLIP no fue entrenado con conjuntos de datos seleccionados de imágenes etiquetadas, sino con imágenes y descripciones extraídas de Internet. En lugar de aprender de una sola etiqueta, CLIP asocia imágenes con subtítulos completos. CLIP se entrenó para predecir qué subtítulo (de una «selección aleatoria» de 32 768 subtítulos posibles) era el más apropiado para una imagen, lo que le permitía identificar posteriormente objetos en una amplia variedad de imágenes fuera de su conjunto de entrenamiento.

DALL-E es capaz de generar imágenes en una gran variedad de estilos, desde imágenes fotorrealistas hasta pinturas y emoji. También puede «manipular y reorganizar» objetos en sus imágenes. Una habilidad establecida por sus creadores fue la correcta colocación de elementos diseñados en composiciones novedosas sin instrucciones explícitas: «Por ejemplo, cuando se le pide que dibuje un rábano japonés sonándose la nariz, tomando un café con leche o montando un monociclo, DALL E a menudo dibuja el pañuelo, manos y pies en lugares plausibles». También se destacó la capacidad de DALL-E para «completar los espacios en blanco» e introducir detalles apropiados sin indicaciones específicas. ExtremeTech notó que una indicación para dibujar «un pingüino con un suéter navideño» producía imágenes de pingüinos que no solo usando un suéter, sino también sombreros de Santa Claus y Engadget por su parte señaló que aparecieron sombras apropiadamente colocadas en los resultados del mensaje «una pintura de un zorro sentado en un campo durante el invierno » Además, DALL-E exhibe una amplia comprensión de las tendencias visuales y de diseño; ExtremeTech dijo que «puede pedirle a DALL-E una imagen de un teléfono o una aspiradora de un período de tiempo específico, y entiende cómo han cambiado esos objetos».

En cuanto a las limitaciones de esta aplicación, GitHub en su página advierte de todos los riesgos que conlleva el uso de la herramienta, como la creación de contenido potencialmente dañino. Sin embargo, la compañía afirma que tomado todo tipo de medidas para eliminar el contenido explícito de las imágenes que se generan con DALL-E 2. Esta inteligencia artificial cuenta con numerosos filtros para evitar el contenido sexual o violento. No obstante, la compañía advierte que el uso de ‘sinónimos visuales’ para generar contenido dañino es posible. Engañar a una inteligencia artificial para mostrar un resultado explícito no es tan complicado, y es una cuestión en lo que la compañía trabaja para mejorar la experiencia de su herramienta.

Hoy es posible encontrar herramientas de edición que integran DALL-E 2 para ayudar a los artistas con sus proyectos. Eso es posible gracias a pluggins de terceros que permiten el uso de estas inteligencias artificiales. Se puede usar DALL-E 2 en Photoshop, por ejemplo, y se pueden editar partes de la imagen añadiendo o eliminando elementos con tan solo decírselo a la inteligencia artificial. Otras empresas optan por integrar ese tipo de inteligencias artificiales en sus productos. Es el caso de Microsoft, y se puede encontrar DALL-E 2 tanto en Bing como en la herramienta Microsoft Designer.

El gremio de artistas ha mostrado en varias ocasiones su indignación sobre las imágenes que se generan a través de DALL E, ya que están basadas en el trabajo de miles de ellos. Hacer uso de DALL-E puede ahorrar mucho tiempo en las tareas más repetitivas, por lo que puede ser una gran alternativa para agilizar los procesos creativos de muchas empresas. Tristemente, uno de los riesgos del uso de este tipo de inteligencias artificiales es el reemplazo del trabajo de artistas, ya que hacer uso de una inteligencia artificial es mucho menos costoso para una empresa y obtiene con mayor velocidad los resultados.

Ya la caja de Pandora se abrió, solo queda preparar adecuadamente a toda la población para que sea capaz de lidiar de una manera correcta con estos desarrollos tecnológicos, y aspirar a que el Bien siempre prevalezca sobre el Mal. en eso los educadores y comunicadores tienen una enorme responsabilidad. La tarea está orientada.