puntos de vista
Muchos dicen que este año es el "primer año en el que las IA (Inteligencia Artificial) han empezado a darse a conocer como los futuros grandes artistas y reativos".
En primer lugar, el Disco Diffusion es popular y todo el mundo lo conoce. Desde el Text-to-Image (usar texto para generar imágenes) hasta el desarrollo de la comunidad y la industria del diseño creativo, se ha hecho popular a los ojos de la gente corriente.
A la gente le gusta poner dos objetos completamente incompatibles, como las palabras "Da Vinci" y "iPhone", en el programa de IA, y luego esperar a que la imagen se dibuje capa a capa.
Entonces, la herramienta de pintura de la IA Midjourney también se hizo popular.
A diferencia de la no muy sencilla interfaz de Disco Diffusion, llena de código y parametros raros, Midjourney está directamente en el canal de Discord. El proceso de introducción de comandos no es diferente al de enviar mensajes a otros. Lo que es aún más sorprendente es que normalmente se tarda 60 segundos en generar las imagenes.
Luego, conocimos a DALL-E y antes de darnos cuenta ya teniamos a DALL-E 2 de OpenAI dando un paso de gigante. A diferencia de los dos anteriores, que son buenos en el "estilo conceptual", DALL-E 2 es más "realista", y puede generar 10 imágenes en menos de 60 segundos. Si no está satisfecho, también puede borrar partes Regenerar... En pocos meses, el título de "El pintor de IA más sorprendente" ha cambiado de manos varias veces.
Google tampoco podía quedarse quieto. A finales de mayo, publicó un documento para presentar a su propio contendiente, Imagen, amenazando directamente a DALL-E 2 y afirmando que su algoritmo tiene "un realismo sin precedentes y una profunda comprensión del lenguaje". Sin embargo Google también dijo que no tenía ninguna intención de momento de publicar o dar acceso a su código que aún no está abierto.
En los últimos dos meses, he tratado con los tres primeros "pintores de la IA" con frecuencia, probando descripciones, entrenando robots casi todos los días, pisando un montón de fosas y volcando un montón de coches. Pero al mismo tiempo, también se han obtenido muchas obras maestras.
En esta ocasión, compararé sus características, su facilidad de uso, etc., y organizaré sus URL, así como algunos métodos sencillos de funcionamiento.
Para los usuarios normales, son potentes herramientas de imaginación figurativa; para los profesionales, si se vinculan con otras herramientas, pueden tener un espacio de imaginación infinito.
Probablemente veremos el surgimiento de los movimientos artísticos basados en los diferentes algoritmos de IA. El nuevo cubismo será el VQGanismo, y así sucesivamente.
Mejores herramientas de IA para dibujar como un artista
VGGAN + CLIP
VQGAN y CLIP son en realidad dos algoritmos diferentes de aprendizaje automático que pueden generar imágenes basadas en una indicación de texto.
En 2021 Katherine Crowson y Ryan Murdoch comenzaron a hacer experimentos utilizando dos algoritmos diferentes, CLIP (de OpenAI) con varias arquitecturas GAN. El resultado fue un cuaderno que se ha compartido miles de veces.
¿Cómo funciona? VQGAN es el artista. Genera imágenes que se parecen a otras, y CLIP es un crítico de arte y puede determinar lo bien que una indicación se ajusta a una imagen.
Trabajan juntos para generar el mejor resultado posible a partir de una indicación.
DISCO DIFFUSION
Disco Diffusion es la evolución de VQGAN y trabaja junto con CLIP para conectar las indicaciones con las imágenes.
Daniel Russell lo ha modificado para que las generaciones sean más rápidas y los aumentos más robustos. Como puedes ver en la imagen de abajo, el resultado es increíble.
Midjourney
Puede acceder a su beta aqui: https://www.midjourney.com/
Cuando vi el producto terminado, tuve una sensación intuitiva: La imaginación de Midjourney no es tan salvaje como la de Disco Diffusion. Pero si lo considero desde la perspectiva de la creación auxiliar, me inclinaría más por Midjourney, una herramienta más "obediente". Al fin y al cabo, ningún creador está dispuesto a ceder el control creativo a la IA.
La ventaja de Midjourney es que es rápido. El software genera gráficos muy rápidamente, unos 60 segundos para una imagen. Si no estás satisfecho con el producto final, también puedes mejorar los detalles casi al instante, o ampliar los cambios.
DALL-E
Hace apenas unos días acaban de lanzar la beta de su versión DALL-E 2
El resultado deja a la gente sin palabras.
No es exagerado decir que esta es la mejor herramienta de dibujo de IA que se puede utilizar hoy en día.
El funcionamiento es bastante sencillo, el grado de terminación es alto, y la velocidad es lo suficientemente rápida como para ser un motor de búsqueda: se generan 10 imágenes (1024 × 1024) en menos de un minuto, los cambios se pueden ampliar infinitamente, e incluso se pueden regenerar parcialmente borrando.
En cuanto a los derechos de autor, OpenAI, la organización que está detrás de DALL-E 2, ha enumerado varias restricciones estrictas: los derechos de autor de las imágenes son, en última instancia, propiedad de OpenAI; es sólo para el aprendizaje y la exploración personal, no para el uso comercial, y no se puede utilizar para hacer NFTs; no se puede publicar en las redes sociales Los rostros demasiado realistas producen resultados, y existe el riesgo de infracción de retratos.
OpenAI también afirma haber prohibido a la IA recordar las caras de los famosos, así como sortear los estereotipos raciales y de género, entre otras cosas.
Antes de esperar la calificación de la prueba interna de DALL-E 2, encontré un "sustituto": DALL-E mini, que es una demo realizada con la primera generación de DALL-E. La velocidad de producción es rápida, pero la terminación de la imagen no es tan buena como la de DALL-E E 2.
Stable Diffusion - La herramienta de IA más potente es Open Source
Stable Diffusion es un modelo de aprendizaje automático de texto a imagen desarrollado por StabilityAI, en colaboración con EleutherAI y LAION, para generar imágenes digitales a partir de descripciones en lenguaje natural.
El modelo puede utilizarse también para otras tareas, como la generación de traducciones de imagen a imagen guiadas por una indicación de texto.
A diferencia de modelos como DALL-E, Stable Diffusion pone a disposición su código fuente.
Su licencia prohíbe ciertos casos de uso perjudicial. Los críticos han planteado preocupaciones sobre la ética de la IA, afirmando que el modelo puede ser utilizado para crear deepfakes y también cuestionando la legalidad de generar imágenes con un modelo entrenado en un conjunto de datos que contiene contenido con derechos de autor sin el consentimiento de los artistas originales.
A continuación ejemplo de imagenes creadas con esta IA de arte generativo:
conversaciones de facebook