Inteligencia artificial para creación de contenidos: herramientas útiles

febrero 21, 2023
Midjourney - Mujer con inteligencia artificial

No esperes encontrar en este artículo una larga retahíla de herramientas de inteligencia artificial para creación de contenidos, de esas interminables y super exhaustiva, con su enlace (y poco más). Tampoco un listado con una descripción aséptica, como la que podrías encontrar, por ejemplo, si le preguntas a ChatGPT

Aviso a navegantes: herramientas de inteligencia artificial para generar contenidos hay muchas, y en las próximas semanas, meses y años veremos surgir (y morir) muchas más, por lo que es probable que este artículo se quede desactualizado en poco tiempo. Pero sea lo que sea que está por venir, una cosa está clara: las bases se están poniendo hoy.

El boom de ChatGPT (la inteligencia conversacional de OpenAI, en la que Microsoft ha invertido 10.000 millones de euros), seguido del lanzamiento de Bard de Google y el nuevo Bing de Microsoft son solo una muestra de ello.

Pero no: no te voy a hablar aquí de ChatGPT, ni Bard, ni Bing.

Lo que aquí te traigo son herramientas de inteligencia artificial para creación de contenidos: imágenes, música, vídeos a partir de texto, audios a partir de texto y dibujos animados. No es un listado exhaustivo ni pretende serlo: son las herramientas que he probado y con las que he estado trabajando. Hay más, sin duda, y te animo a añadir en comentarios las que estés usando tú (pero por favor, ni se te ocurra ir a ChatGPT a preguntar para hacer un copiar y pegar).

Antes de entrar en materia, un poco de contexto. En torno a las herramientas de generación de contenidos hay un amplio debate abierto, sobre cuestiones como: ¿de quién es la propiedad intelectual de los contenidos que se obtienen? ¿A quién culpar si no son veraces, si son inexactos o si se produce algún error? ¿Destruirán profesiones tal como las conocemos ahora, o simplemente las obligarán a evolucionar? ¿Son las herramientas de inteligencia artificial una excusa “para vagos” o una forma de democratizar la generación de contenidos, y hacerlo accesible a no expertos ni especialistas?

¿Qué opinas tú?

Un detalle importante: en todo este maremágnum, apenas existen desarrollos españoles que estén despuntando. Como verás a continuación, en este artículo solo incluyo una herramienta de inteligencia artificial 100% española, especializada en sintetizar texto en audio. Quizás haya más, ojalá haya más y el único problema sea que yo no las conozco. Pero sea como fuere, la realidad es que el sector de la inteligencia artificial está de momento dominado por inversiones estadounidenses (o chinas), en las que Europa y España aún tienen un largo camino por recorrer. ¿Llegaremos a tiempo?

Índice

1.Inteligencia artificial para crear imágenes

4.Inteligencia artificial para transformar textos en audio

5. Inteligencia artificial para animar dibujos

1.Inteligencia artificial para crear imágenes

Las herramientas de IA para generación de imágenes han experimentado un auge exponencial en los últimos meses, impulsadas principalmente por tres: Dall-e, Stable Diffusion y Midjourney, a las que se ha unido en los últimos meses Lexica Aperture.

Todas ellas se basan en convertir texto (denominado “prompt”) en imagen, a partir de una combinación ingente de imágenes previamente almacenadas en el sistema. Esto ha movido, a su vez, a que varias artistas hayan promovido a finales de enero una demanda contra Midjourney  y Stable Diffusion, alegando que estas plataformas se han nutrido del trabajo de artistas sin su consentimiento. ¿Pataleta o defensa de los derechos de autor? La polémica está servida.

Importante: todas estas herramientas ofrecen mejores resultados si el texto de la orden está escrito en inglés, aunque también “entienden” castellano. El entorno de la inteligencia artificial está dominado por el lenguaje anglosajón, lo que representa un reto para otras lenguas y culturas.

Dall-e, la plataforma de OpenAI

Abrió “sus puertas” a todo el público a finales de septiembre de 2022. Dall-e es la plataforma de Open AI, dueña también de ChaptGPT y que tiene entre sus fundadores a Elon Musk (sí, el de Testla, Twitter y SpaceX).

Sencilla de usar, aunque no es la que mejores resultados arroja: los rostros y rasgos de personas humanas se le dan especialmente mal. Tiene sin embargo funcionalidades curiosas, como la posibilidad de amplificar el “lienzo” de una imagen, añadiendo elementos adicionales a una ya dada. Y es difícil prever cómo evolucionará, dado que Microsoft anunció en enero de 2023 una inversión de 10.000 millones de dólares en Open AI.

Para utilizarla solo hay que registrarse. De momento es gratis, aunque te asigna un límite mensual de créditos para generar imágenes.

En esta imagen, le he pedido a Dall-e que continúe el cuadro de «Las Meninas» de Velázquez con el prompt: «room with high windows and curtains».

Stable Diffusion, la herramienta de código abierto

Stable Diffusion pertenece a Stability AI y se distingue de las demás en que es de código abierto, además de gratis. Que sea de código abierto ha permitido desarrollar, por ejemplo, plugins para Photoshop e implementarlo en Canva, haciéndolo todavía más accesible. Puedes probarla sin necesidad de registro previo.

En mi opinión, Stable Diffusion ofrece unos resultados más espectaculares, realistas y versátiles que Dall-e, para un mismo “prompt”, aunque es aún poco preciso para rostros humanos.

Respecto al copyright de las obras generadas, la plataforma establece que están dentro de la categoría de Creative Commons CC0 1.0 Universal – Dedicación de Dominio Público, es decir, están dedicadas al domino público y se renuncia a los derechos de autor: las imágenes se pueden copiar, modificar o distribuir incluso para fines comerciales, sin pedir permiso.

Esto es lo que generó cuando le pedí una cabeza de mujer con inteligencia artificial.

Lexica, para imágenes fotorrealistas

Lexica ofrece tanto un buscador de imágenes ya producidas por Stable Diffusion, como la posibilidad de generar otras nuevas a través de Lexica Aperture. Su principal característica: se trata de imágenes fotorrealistas, especializada además en retratos, con la posibilidad de seleccionar las dimensiones. Está desarrollada por Sharif Shameem, quien (al menos de momento) no ha desvelado a partir de qué parámetros se nutre la plataforma, aunque el hecho de que incluya un buscador para Stable Diffusion, y que ésta sea open source, da una pista.

La herramienta permite utilizar cualquier imagen para uso personal, aunque para uso comercial hay que suscribirse a alguno de los planes de pago (también tiene opción gratuita, previo registro).

Para probarla, le pedí una imagen de Ángela Merkel en un barco.

Midjourney, la “amiga” de Discord

La opción más avanzada, versátil y precisa. Midjourney es capaz de generar imágenes hiperrealistas, o adaptadas a estilos pictóricos, en dimensión cuadrada, vertical u horizontal (Dall-e y Stable Diffusion generan imágenes cuadradas), con la posibilidad de iterar cada imagen hasta obtener el resultado deseado, o incluso fusionar dos imágenes para generar una nueva. Es capaz de recrear detalles hasta el extremo, incluso en figuras humanas (aunque pierde eficacia con las manos, y a veces aparecen siete dedos en vez de cinco). Todo un reto para diseñadores y creadores gráficos.

Para interactuar con el bot de Midjourney es preciso abrir cuenta en Discord. El plan gratuito solo proporciona 25 imágenes (en ocasiones alguna más, dependiendo del consumo de GPU): a partir de ahí, hay que suscribir algún plan de pago.

Una de las claves de Midjourney es saber utilizar adecuadamente los comandos y las órdenes de texto que se van introduciendo. Con /imagine se arranca el proceso de generación, y con /blend el de fusión de imágenes (hasta cuatro). Para que las imágenes no sean cuadradas, hay que incluir en el prompt la orden –ar 3:2 (formato horizontal) o –ar 2:3 (vertical). En el entorno online hay decenas de recursos sobre cómo generar imágenes según e estilo de un determinado artista.

La imagen que abre este artículo ha sido creada con Midjourney.

2.Inteligencia artificial para producir música

Sí, ya hay herramientas de IA capaces de generar música a partir de un texto o incluso la descripción de una imagen. ¿Llegará a interferir en el trabajo de compositores y músicos? ¿Les ayudará a desarrollar su inspiración hasta un nuevo nivel, o al contrario, suplantará su creatividad y desvalorizará su labor?

MusicLM, el generador de música de Google Research

Cornell University publicó en enero de 2023 un paper firmado por varios investigadores de Google Research en el que se presentaba MusicLM, un generador de música a partir de texto aún en fase experimental: el modelo incluye 5.500 resultados ya generados, pero de momento no está abierto al público.

MusicLM es capaz de producir melodías a partir de descripciones largas del tipo: “La banda sonora principal de un juego arcade. Es rápida y alegre, con un pegadizo riff de guitarra eléctrica. La música es repetitiva y fácil de recordar, pero con sonidos inesperados, como golpes de platillos o redobles de batería”, o textos sencillos como: “jazz relajante”.

También genera melodías a partir de textos concatenados en los que se marque qué duración debe tener cada secuencia de música. O incluso, componer una música inspirada en la descripción de un cuadro.

Aún en fase experimental, es una de esas plataformas de IA a la que seguir la pista muy de cerca en 2023.

Aquí tienes uno de los prompts que utilizó la IA, debajo el audio con la música resultante, para escucharla.

Soundraw, IA de origen japonés para componer música

Soundraw nació en febrero de 2020 con sede en Japón, y podríamos decir que está a medio caballo entre un editor de música sencillo y una auténtica inteligencia artificial. Parte de una librería sonora a través de la cual filtrar y seleccionar por estilo, género, tema y duración, para a continuación editar la intensidad de los tramos de música, los instrumentos que participan etcétera. Probarla es gratis, descargar las melodías requiere suscribir un plan de pago.

Reconozco que a mí me resulta un poco confuso cómo presenta la plataforma las cuestiones relacionadas con propiedad intelectual: en los mensajes de marketing de la home se asegura que “tú conservas las licencia de uso de las canciones aunque te des de baja”, que la licencia es la misma para uso personal comercial “independientemente de alcance del contenido”, y que “tus canciones son tuyas mientras respetes este acuerdo de licencia”, lo que podría hacer pensar que la persona que ha generado la música ostenta la propiedad intelectual.

Sin embargo, en los “Términos de uso” (o sea, en la letra pequeña) se advierte claramente de que: “Todos los derechos de propiedad intelectual, así como los derechos de autor y los derechos de marca relativos al Servicio y a los programas que constituyen el Servicio, pertenecen a Soundraw. Usted concede a Soundraw una licencia mundial, no exclusiva, gratuita, sublicenciable”… y etcétera. Vamos, que las canciones son de Soundraw, te pongas como te pongas.

Ecrett Music, el “hermano pequeño” de Soundraw

O al menos, por contraposición a como se expresan los promotores de la IA: “¿Te gusta Ecrett? Prueba su hermano mayor Soundraw”.

Ambos pertenecen a la misma compañía (Soundraw Inc, con sede en japón), y aunque similares, Ecrett es más sencilla, con menos funcionalidades. Basta con seleccionar escena, ambiente y género, y a partir de ahí, el tempo y el volumen de los instrumentos. Puedes modificar la estructura de la música y los instrumentos. Si quieres probar cómo queda en un vídeo, es posible cargarlo y testarlo.

La plataforma asegura que se añaden 500.000 patrones cada mes, para que la inteligencia artificial pueda evolucionar, con lo que aunque utilices varias veces los mismos comandos, la melodía será siempre diferente. La versión gratuita permite descargar la música, y la plataforma asegura que todas las creaciones son libres de derechos de autor.

Pero… los “Términos del servicio” son exactamente los mismos que los de Soundraw (por algo la plataforma pertenece a esta compañía). Es decir: los derechos de propiedad intelectual pertenecen a Soundraw.

3.Inteligencia artificial para generar vídeos a partir de texto

Aunque el auge de la inteligencia artificial ha sido exponencial en los últimos meses, en el terreno del vídeo este tipo de herramientas llevan ya muchos años operativas. Ya en 2018 te hablaba en este post sobre cómo crear vídeos sencillos de forma rápida, y entre las opciones te mencionaba Lumen5, que transforma un artículo de texto en un vídeo en apenas unos minutos. Pero hay, por supuesto, muchas más.

La pregunta sería: ¿acabarán estas herramientas con el trabajo tradicional de edición y producción de vídeos? ¿O simplemente abrirán las puertas a quienes hasta ahora no disponían de los recursos y el conocimiento mínimo para ello? ¿Obligará a los profesionales actuales a elevar la calidad y creatividad de sus producciones, para competir con la IA?

Synthesia, para vídeos con avatar

Synthesia fue fundada en 2017 por un equipo de investigadores de IA y emprendedores de UCL, Stanford, TUM y Cambridge, aunque ha sido últimamente cuando se ha puesto de moda. La clave: genera vídeos con un presentador virtual, a partir de un avatar, que habla en más de 120 idiomas diferentes. Da a elegir entre más de 100 avatares, “gemelos digitales” de actores y actrices reales que han sido procesados con inteligencia artificial, para que sean capaces de pronunciar cualquier texto con naturalidad. Propone también plantillas prediseñadas para presentaciones de informes, cursos, planes de negocio…

Según los fundadores de Synthesia: “Nuestra misión es capacitar a todo el mundo para crear contenidos de vídeo, sin cámaras, micrófonos ni estudios. Usando la IA, estamos aquí para cambiar radicalmente el proceso de creación de contenidos y dar rienda suelta a la creatividad humana para siempre”.

Aunque es una herramienta de pago, permite generar un vídeo de prueba aquí. Aquí tienes el que yo he realizado.

Studio D-Id, para dar voz a avatares propios

Tiene en común con la anterior que está especializada en crear vídeos con avatar, personajes a los que da voz a partir de texto. Y se diferencia en que está especializada precisamente en esto. Studio D-Id da la posibilidad de seleccionar un presentador entre la galería de fotos disponibles, crear la imagen con inteligencia artificial a partir de una instrucción de texto (para lo que se utiliza Stable Difffusion) o utilizar una imagen propia, que se carga en el sistema.

A partir de ahí, basta con escribir el texto, seleccionar el idioma entre las decenas de variantes posibles y elegir la voz: para el español de España, solo ofrece una voz masculina y otra femenina. También es posible usar un archivo de audio ya grabado.

El resultado visual y la entonación es extremadamente realista. Y a diferencia de la anterior, con la versión gratuita de Studio D-Id se pueden crear y descargar hasta 19 vídeos (con la marca de agua).

Phenaki, la IA para vídeos de Google Research

Esta es otra de las inteligencias artificiales a la que habrá que seguir la pista en 2023, por si depara alguna sorpresa.

Aún en fase experimental en Google Research, Phenaki crea vídeos realistas a partir de textos. Sus desarrolladores aclaran que “generar vídeos a partir de texto es especialmente difícil debido a varios factores, como el elevado coste computacional, la duración variable de los vídeos y la disponibilidad limitada de datos de texto-vídeo de alta calidad”.

Para abordar esos problemas, Phenaki utiliza un modelo codificador-decodificador que comprime los vídeos en tokens, con un tokenizador que puede trabajar con vídeos de longitud variable. El modelo genera tokens de vídeo a partir de texto, que posteriormente se destokenizan para crear el vídeo real. La explicación completa está en un paper publicado a principios de febrero de 2023 en Open Review.

En la web de Phenaki muestran resultados para instrucciones de texto como: «Vista lateral de un astronauta que camina por un charco en Marte. El astronauta baila en Marte. El astronauta pasea a su perro en Marte. El astronauta y su perro ven fuegos artificiales».

Sin embargo, aún no está abierto al público.

Raw Shorts, para animaciones a partir de texto

Aunque Raw Shorts se está queriendo posicionar como herramienta de inteligencia artificial, su principal característica es que es un editor rápido y sencillo de vídeos animados. Más que una IA, es una herramienta de vídeos modelo “drag and drop”, con múltiples plantillas, tipografías y melodías.

Raw Shorts da la opción de transformar un texto en audio para incorporar al vídeo… pero la interpretación oral que hizo del texto que le escribí no era de buena calidad.

4.Inteligencia artificial para transformar textos en audio

Vall-e, el sintetizador de voz de Microsoft

Un grupo de investigadores de Microsoft publicaron en enero de 2023 un paper en el que presentaban Vall-e, un método de modelado del lenguaje para la síntesis de texto a voz a través de inteligencia artificial que aún está en fase experimental: de momento solo se pueden probar los resultados ya obtenidos, no sintetizar textos propios.

Vall-e está entrenado con 60.000 horas de habla inglesa, tiene capacidad para aprender del contexto y puede utilizarse para sintetizar habla personalizada utilizando como estímulo acústico una grabación de tres segundos de cualquier persona hablando. Además, los investigadores aseguran que Vall-e puede conservar la emoción del hablante y el entorno acústico que se le indique.

Los mismos investigadores advierten de que: “Dado que Vall-e podría sintetizar el habla manteniendo la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como la suplantación de la identificación de la voz o la suplantación de un hablante específico. Si el modelo se generaliza, debería incluir un protocolo que garantice que el hablante aprueba el uso de su voz y de un modelo de detección de voz sintetizada”.

Auris Audio, de lectores a oyentes

Auris Audio es un desarrollo de la empresa española Voikers, especializada en tecnologías conversacionales, de voz y de audio online. Convierte textos en audios para que puedan ser escuchados o consumirse como podcast.

Para ello, da a elegir entre varias entonaciones de voces, masculinas y femeninas y para diferentes idiomas. Combinando diferentes voces, se pueden generar conversaciones. También permite añadir sonidos de fondo, para aumentar la atención del oyente.

La versión gratuita permite crear un audio mensual.

ReadSpeaker Speech Maker, de texto a voz

ReadSpeaker Speech Maker se basa en la tecnología de texto a voz para convertir escritos en audios, en 12 idiomas diferentes.

Como funcionalidades adicionales, permite cambiar la lectura de palabras específicas, como acrónimos o abreviaturas, añadiendo adaptaciones en el diccionario de pronunciación.

También, ajustar el sonido de la voz o crear efectos especiales con los parámetros de tono y velocidad.

5.Inteligencia artificial para animar dibujos

Animated Drawings, del laboratorio de IA de Meta

No es ni mucho menos la herramienta de inteligencia artificial más potente de Meta, pero sí curiosa.

Animated Drawings transforma dibujos infantiles en animaciones sencillas, dando vida a personajes que pueden saltar, correr o bailar.

Aunque muy simple, es interesante cómo procesa las imágenes y marca los puntos de referencia a partir de los cuales generará la animación (que el usuario puede modificar).

Puede servir para introducir a los más pequeños en los parámetros de la inteligencia artificial (no solo para animar sus pinturas).

Y tú, ¿qué opinas de este tipo de herramientas de inteligencia artificial para crear contenidos? ¿Cuál más recomendarías?

Y sobre todo: ¿conoces alguna herramienta de IA española?

Foto de portada: creada por María Lázaro con Midjourney

También te podría interesar

2 Comentarios

  • Reply juan MANUEL cabello febrero 23, 2023 at 3:12 pm

    Estupendo Maria. no tiene desperdicio… eso si para comprobar cada herramienta… tenemos que sacar buenos ratos!

    Me pregunto que será de los copys, de ilustradores, incluso de fotógrafos con estos avances y esta carrera que se abre.

    Yo he brujuleado algo con herramientas para generar código, que las hay, pero creo que le falta un poco todavía… aunque me da la sensación de que no mucho!

    • Reply María Lázaro marzo 5, 2023 at 9:15 pm

      ¡Hola Juanma!
      No creo ni mucho menos que desaparezcan estas profesiones! Lo que sí será necesario, quizás, es que revisen y actualicen sus procesos, para sacar partido a lo que tienen a sus disposición.

    Deja tu comentario