¿Cómo usar la IA para crear imágenes?

Pablo Herrera

Pablo Herrera
Head of SEO & Content

La IA para crear imágenes se ha convertido en una herramienta indispensable para los creadores de contenido. La posibilidad de crear imágenes a medida, sin tener que depender del stock de los bancos de imágenes (o en ocasiones de los limitados bancos de imágenes gratuitos), ha supuesto toda una revolución.

Por supuesto, no todo es de color de rosa. A la vez que hay cada vez más herramientas de IA para crear imágenes, también abundan sus detractores. Solo en Estados Unidos hay más de un centenar de demandas de artistas a las herramientas de inteligencia artificial.

El argumento es sencillo. Como las IA necesitan imágenes con copyright para entrenarse, las imágenes resultantes serían directamente un plagio.

Seguro que hemos visto en redes sociales tendencias como las de convertir determinadas imágenes en un póster de película de Píxar o de Disney. Para los autores originales de estos carteles, la inteligencia artificial les está plagiando, utilizando su trabajo sin pagar por los derechos de imagen.

Con muchas de estas herramientas de pago y usándose con fines comerciales, los autores argumentan que les está generando un perjuicio económico directo.

Sin embargo, la velocidad del sistema judicial está muy por detrás de la vertiginosa evolución de este tipo de herramientas. Encontramos, por tanto, un escenario a tres velocidades.

Por un lado, las herramientas evolucionan cada vez más rápido, tanto en la generación de imágenes, como en la generación de texto o la programación. Por otro, el marco legislativo aún no se ha desarrollado, aunque ya comienzan a esbozarse los primeros proyectos.

Para acabar, los procesos judiciales van aún más lentos. Mientras, los usuarios siguen aprendido a sacarle el máximo. Y eso vamos a intentar desgranar en este artículo.

Las limitaciones en la generación de imágenes por inteligencia artificial

Fotoshop IA

Lo primero que tenemos que tener en cuenta para usar la IA para crear imágenes, es que todavía es una tecnología en desarrollo. Esto quiere decir que probablemente suene mejor en nuestra cabeza y podamos quedar desencantados con los primeros resultados.

Esta fricción es normal en las primeras interacciones de un usuario con inteligencias artificiales. Pensamos que pueden hacerlo todo y la realidad es que, por un lado, darle las instrucciones precisas no es una tarea tan fácil y, por otro, dependiendo de la herramienta será más o menos capaz.

Dependiendo de la herramienta que utilicemos, iremos descubriendo que cada una tiene sus debilidades. Algunas no hacen bien los ojos, otras fallan en las manos, en los fondos, etc. A día de hoy, aunque existen opciones como Midjourney que dan resultados bastante buenos, todavía están lejos de conseguir, rápido, el resultado que buscamos.

Otras, como la inteligencia artificial de Canva, ni siquiera es capaz de entender un prompt negativo. Es decir, que si le decimos que no queremos que aparezca algo en la imagen, entenderá que sí lo queremos. Y, además, no podremos modificar las imágenes ya generadas, sino que nos creará otras desde cero.

De hecho, ese es uno de los argumentos de los artistas que utilizan herramientas de inteligencia artificial. En algunos casos mediáticos han confirmado que han tenido que introducir más de 500 prompts (instrucciones) para lograr el resultado.

Ese proceso de introducción de prompts se convierte en el nuevo proceso artístico.

Como creadores de contenido, si queremos agilizar la búsqueda de imágenes, probablemente no tengamos tiempo de ir introduciendo 500 variaciones respecto a la imagen original.

El potencial de la IA para crear imágenes

Imagen surrealista

Una vez vistas las limitaciones, no podemos perder de vista su potencial. La inteligencia artificial puede ayudarnos a generar imágenes que cumplan unos criterios muy específicos.

Podemos pedirle que hagan cosas que no encontremos, ya sea porque no tengamos acceso a stocks de imágenes de pago (por cierto, Getty Images ha demandado a Stability AI, una herramienta de inteligencia artificial), o porque directamente solo exista en nuestra imaginación.

Puede que nos cueste varias iteraciones llegar a, más o menos, las imágenes que tenemos en la mente. También hay que tener en cuenta que, de momento, la mayor parte funcionan mejor para ilustraciones o modelos 3D que para fotografías de estilo realista.

Por supuesto, hay que tener en cuenta los límites éticos. Si utilizamos la inteligencia artificial para crear un escenario inexistente, hay que señalarlo. De lo contrario, estaríamos engañando al público.

Pero, usando correctamente los prompts, la potencialidad de estas herramientas es infinita. En un momento en el que es habitual encontrar siempre las mismas imágenes en el contenido para SEO, estas herramientas han supuesto un soplo de aire fresco.

Ya no verás las mismas imágenes una y otra vez, sino que el creador de contenido podrá utilizar su creatividad para hacer algo único y diferente. Y sin el coste económico de un photoshoot.

Mejor para imágenes generales que para lo específico

Tienda de lujo

Si vamos a usar la IA para crear imágenes también tenemos que ser conscientes que hay limitaciones en cuanto a formatos y tamaños. Es decir, si simplemente buscamos una imagen de un administrativo en una oficina bancaria no tendremos ningún problema, pero si queremos crear un banner de 1600×250 píxeles la herramienta no nos lo va a hacer.

Actualmente, hay herramientas que realizan un formato horizontal o un formato cuadrado, también hay opciones que te permiten elegir entre ambas. Sin embargo, el nivel de personalización de tamaños todavía se encuentra en pruebas. No puedes lograr formatos específicos y eso es un problema para la creación de contenidos.

Probablemente, la llegada de nuevas herramientas como Firefly, perteneciente a Adobe y actualmente en pruebas, cambie esta situación. Su integración con Photoshop la conviertan, probablemente, en la herramienta de IA de referencia.

No solo hablamos de crear imágenes desde cero, sino también en hacer modificaciones en imágenes existentes. Es decir, la propia IA hará los cambios de Photoshop que tú acostumbrabas a hacer.

Esto puede ser muy útil si queremos, por ejemplo, cambiar rápidamente un elemento de sitio en la imagen, pero genera, de nuevo, el dilema ético de la veracidad fotográfica (que, por otro lado, ya existía con los retoques estéticos en Photoshop).

Aun así, si queremos tener muchas opciones específicas, vamos a tener que utilizar herramientas de pago. Si nos conformamos con herramientas gratuitas, necesitamos ser conscientes que no habrá tantas opciones como nos gustaría.

Crear imágenes a través de imágenes de referencia

gato para saber cómo usar la IA para crear imágenes

A la hora de usar la IA para crear imágenes hay dos formas de entrenarla para conseguir el resultado. Ambas formas se pueden combinar (dependiendo de la herramienta). Esto es, a través de imágenes de referencia o a través de instrucciones de texto.

Para crear imágenes a través de otras imágenes hay que ofrecerle imágenes similares a las que queremos conseguir. En este caso, si queremos trabajar de forma ética, deben ser imágenes propias o libres de derechos.

A nivel empresarial, por ejemplo, es muy útil si utilizamos el resultado de algún photoshoot de productos y pedimos variaciones en fondos y nuevas maneras. En estos casos, al no estar usando contenido con copyright, estaríamos seguros frente a posibles demandas.

Herramientas como la inteligencia artificial de Canva (gratuita pero con opciones premium), no permite entrenar con imágenes pero sí tiene estilos entre los que elegir. En este caso, cinco opciones para fotografías (foto, vibrante, minimalista, neón o fílmico), nueve para arte digital, incluyendo 3D o anime, y cuatro para Bellas Artes, desde vidrieras a acuarelas o impresión de tinta.

Este tipo de opciones es bastante útil porque ayuda a la inspiración, a la hora de explicar cómo queremos el estilo de la imagen sino tenemos imágenes de referencia (o la herramienta no lo permite).

Crear imágenes a través de comandos de texto

Estilo fotografía

Por otra parte, los comandos de texto son la manera en la que la IA va a saber qué queremos que aparezca en la imagen. Si hemos trabajado con herramientas de generación de texto con IA como Chat GPT, será más fácil, pero de lo contrario, puede ser complicado.

Aquí lo más importante es darle la mayor información posible a la herramienta. Por ejemplo, hemos creado la imagen que ilustra este apartado con la integración de DALL·e 3 en Chat GPT-4. En este caso es una herramienta de pago.

Para lograrla, le hemos dado la siguiente instrucción:

Genérame una imagen de 800×533 píxeles. Que aparezca un chico pálido con el pelo teñido de rubio platino, de unos 34 años, y ojos grises, sentado en una oficina de estilo vanguardista y con plantas, donde predominen los tonos blancos y con luz fría, frente a un laptop en el que esté utilizando ChatGPT. Que el chico, vestido con una camiseta negra de mangas cortas y unos pantalones vaqueros, esté sentado en una silla de escritorio elevada, y detrás aparezca un chico y una chica de una edad similar y de diferente background étnico charlando animadamente. Creáme una opción como una ilustración, otra como una imagen 3D, otra como una fotografía y otra como un anime.

Como WALL·E 3 todavía no puede dar formatos específicos, la primera opción han sido imágenes cuadradas. Así que le he pedido otra modificación:

Necesito una modificación y es que las imágenes sean en formato horizontal y no cuadrado.

En este caso, hemos pedido cuatro estilos diferentes, pero también podemos pedir cuatro variaciones de la misma imagen.

Además, hay varias instrucciones que no ha captado bien. El respaldo de la silla no es suficientemente alto y no se ve la pantalla del ordenador, donde debería aparecer ChatGPT. Así que habría que pedirle otras modificaciones.

Antes de eso, te dejo las versiones que no he utilizado.

Chico en una oficina estilo anime
Estilo anime
Chico en oficina estilo 3D
Imagen en estilo 3D (render)
Ilustración de chico en la oficina
Estilo ilustración

La nueva instrucción ha sido:

Necesito que el respaldo de la silla sea más elevado, llegando hasta la cabeza del chico. También quiero que se vea la pantalla del ordenador para que se vea ChatGPT.

Sin embargo, solo he conseguido el respaldo alto en la ilustración. El resto no lo ha entendido, así que tendría que seguir iterando hasta lograr el objetivo.

Modificación de la ilustración
Versión con respaldo elevado

Como podéis ver, se trata de ir puliendo los resultados e ir trabajando sobre ellos, hasta transformar nuestra idea en la cabeza en una realidad.

Por cierto, todas las imágenes de este post han sido generadas con herramientas de inteligencia artificial (eso sí, sin utilizar ninguna imagen con copyright como referencia).