Los modelos generadores de imagen y de arte de inteligencia artificial revolucionarán el trabajo creativo, el negocio creativo, y el negocio en general. El ocio y la cultura.
La fotografía amenazó a la pintura, (pero todos entendemos que son cosas diferentes) los sintetizadores de imágenes amenazaron a la fotografía (son cosas diferentes).
¿Cuántos días faltan para que cualquiera pueda crear una película narrándola o escribiéndola?
¿La Inteligencia Artificial acabará con el arte, la fotografía, o el video?
No se trata de buscadores de fotos o de videos en una base de datos o repositorio. Sino de software que genera una imagen que nunca antes existió. Y lo hace como por generación espontánea, porque es una inteligencia artificial. Una IA que tiene cierto grado de creatividad o imaginación. Un punto de intersección entre la tecnología y lo creativo.
Las aplicaciones más potentes se basan en un algoritmo llamado Red Generativa Antagónica o GAN (Generative Adversarial Networks). Básicamente, las GANs son dos redes neuronales antagónicas y en conflicto: una “generadora” y otra “discriminadora”. Que desde visiones opuestas tratan de negociar el resultado final. El generador toma variables random o aleatorias como inputs, frases o entradas y crea nuevos datos. El discriminador toma datos “verdaderos” y “generados”, intenta discriminarlos y los clasifica. Para crear imágenes o video desde Texto, desde otra imagen o desde voz. Para realizar arte generativo, pintura, arte en 3D, ilustración, fotografía, NFTs, animación digital, memes, rostros artificiales, deepfakes, voces sintetizadas o lo que se te ocurra. También tiene enormes aplicaciones en la empresa, en los negocios, en la industria, en las ciencias creativas, en el arte, en la comunicación empresarial y el marketing.. Estamos ante el inicio de otro gran salto tecnológico, de momento, no exento de estereotipos y errores. O riesgos de propiedad intelectual (Aunque te informen que “Puedes usar todas las imágenes que generas para tus fines comerciales”). O Fraudes, engaños,. como en la vida misma. O ser considerado por Google como Spam
A continuación presentamos 10 programas de Inteligencia Artificial para crear Imágenes (Texto a Imagen T2I) y Texto a Vídeo T2V, con ejemplos concretos.
Generadores de Inteligencia Artificial Texto a Imagen (T2I)
0. NightCafe
Es un generador de Texto a Imagen muy simple y personalizable que utiliza varios tipos de Inteligencia Artificial. En el video que acompaña este artículo puedes ver cómo se escribe el Prompt o Inputs (frase de texto referencia para realizar la nueva imagen). Y utiliza como ejemplo el promt Salvador Dalí trabajando en un McDonald’s (en inglés) o Salvador Dalí working at a McDonald’s (en español)
NightCafé permite diferentes estilos como Retrato Artístico, Buen Viaje, Foto, Épico, Fantasía oscura, Anime, Cómic Moderno, Personaje Imagen Generada por Computación, Neo Impresionista, Arte pop, Retrato en blanco y negro, etc. Y Aparte, cuatro opciones de Algoritmos:
- Estable
- Coherente: Difusión guiada por CLIP (red neuronal entrenada )
- Artístico: Personaje CGI
- Transferencia de Estilo (estilo de piezas maestras de artistas famosos Vangogh, Matisse, Picasso, Kandinsky)
1. Stable Diffusion
Stable Diffusion es una implementación opensource de la arquitectura Latent Diffusion. Si bien cualquiera puede descargar este sistema de generación de imágenes, su complejidad y requerimientos de infraestructura y computacionales restringen su uso a nivel profesional y académico. Pero tiene versión web en beta que es Dream Studio con facilidades Text 2 Pix texto a imagen, Pix-2-Pix (imagen a imagen) y animación
2. DALL·E
DALL·E es una aplicación nativa en web de Inteligencia Artificial desarrollada por Open AI Texto a Imagen que también permite añadir imágenes propias y modificarlas.
Ofrece un nivel de control extraordinario sobre sujetos, estilos, técnicas, ángulos, fondos, ubicaciones, acciones, atributos y conceptos, y genera imágenes de altísima calidad. Devuelve varios resultados, muy originales, mucha calidad y la posibilidad de editarlos.
3. Craiyon
Es un generador de IA de texto a imagen muy básico. Es una réplica de código abierto y gratis del Dall-E, primera versión. De hecho se llamaba Dall-E Mini.
4. Starry AI
Starry AI es un generador de arte en inteligencia artificial gratuito. Las obras resultantes se pueden utilizar libremente. Lo posicionan como generador de imágenes para tokens NFT. Tiene versión para iPhone iOS y Android y web.
En este caso la creación de imagen es con un smartphone.
5. ArtBreeder
ArtBreeder es arte de calidad. Y lo interesante es que es una plataforma de aprendizaje automático y de creación colaborativa. Crea arte abstracto, rostros humanos, retratos, anime, paisajes y pinturas, entre otro tipo de imágenes. Es freemium, permite cargar gratis hasta 5 imágenes por mes.
6. Deep Dream Generator de Google
Deep Dreem Generator es una herramienta de inteligencia artificial de Google. Una red neuronal entrenada en miles de millones de imágenes. De momento, las nuevas imagenes se originan desde otra imagen. Pero es una plataforma que seguramente nos va a sorprender tanto o mas que Stable Diffusion, DALL-E 2 o MidJourney
7. Pixray
Es otro generador de texto a imagen con IA con códigos personalizados, basada en la web. Es muy potente, aunque el resultado del promt: de Dalí trabajando en McDonald’s no ha sido muy satisfactorio. Se pueden establecer artistas, estilos, calidad, iteraciones, escala, filtros. Es minimalista pero muy completa. Es opensource y gratis.
8. MidJourney
Otro generador texto a imagen con IA es MidJourney. Es una aplicación muy poderosa. Con acceso al público desde un servidor de Discord.
Generadores de Inteligencia Artificial Texto a Vídeo (T2V)
9. Synthesia
Synthesia es un creador de videos de IA que utiliza procesamiento avanzado de lenguaje natural (NLP) y algoritmos de aprendizaje automático para crear videos de alta calidad a partir de texto.
No es un sistema muy sofisticado como todos los mencionados anteriormente, pero puede ser muy útil para crear spots de contenido demostrativo o publicitario de forma automatizada, simple y económica.
El video se genera desde un texto específico, publicaciones ya realizadas en blog, artículos de noticias o páginas web. Y los traduce a 50 idiomas.
10. Make-A-Video de T2V de Meta
Meta está finalizando un modelo de T2V a gran escala basado en la tecnología de generación de texto a imagen, en donde la senda del camino ya está hecha, en cuanto a entrenamiento del modelo. El sistema utiliza imágenes con descripciones para aprender cómo es el mundo y cómo se describe a menudo. Utiliza videos sin etiquetar para aprender cómo se mueve el mundo.
Meta Make-A-Video permite crear un video a partir de unas palabras, líneas de texto, o text prompts. Recreando la diversidad estética, representaciones fantásticas, etc. de los modelos actuales de generación de imágenes. (Fuente: Singer et. al 2022. Make-A-Video: Text-to-Video Generation Without Text-Video Data. Meta AI.)
Enlaces a las AI mencionadas: