CoDi, la revolucionaria Inteligencia Artificial de Microsoft

CoDi Microsoft-Any-to-Any-Composable-Diffusion

Introducción a CoDi

¡Bienvenido al futuro de la inteligencia artificial, donde la innovación y la creatividad se encuentran para fusionarse! Hoy queremos hablarte de Codi, ¡la revolucionaria IA de Microsoft!.

Any-to-Any Generation via Composable DiffusionMicrosoft Azure Cognitive Service Research y UNC NLP presentan CoDi, un nuevo modelo generativo capaz de procesar y generar simultáneamente contenido en múltiples modalidades.

CoDi permite la generación sinérgica de productos coherentes y de alta calidad que abarcan diversas modalidades, a partir de combinaciones variadas de modalidades de entrada. CoDi es el último trabajo del Proyecto i-Code de Microsoft, que tiene como objetivo desarrollar IA multimodal integradora y componible. A través de extensos experimentos, los investigadores demuestran las notables capacidades de CoDi.

Composable Diffusion (CoDi), un novedoso modelo generativo capaz de generar cualquier combinación de modalidades de salida, como lenguaje, imagen, video o audio, a partir de cualquier combinación de modalidades de entrada. A diferencia de los sistemas de IA generativa existentes, CoDi puede generar múltiples modalidades en paralelo y su entrada no se limita a un subconjunto de modalidades como texto o imagen. Por ejemplo, a partir de un texto puede generar una imagen, un video y/o un audio.

Cómo funciona CoDi

CoDi salta a un nivel completamente nuevo de asistencia personalizada, ya sea respondiendo a sus preguntas más complejas, ayudando con las tareas cotidianas o incluso participando en conversaciones significativas. ¡CoDi se ha diseñado para afrontar muchos más retos que los previstos hasta ahora con una misma herramienta. Como toda tecnología, evoluciona para ser cada vez más eficaz y eficiente.

A pesar de la ausencia de conjuntos de datos de capacitación para muchas combinaciones de modalidades, proponemos alinear las modalidades tanto en el espacio de entrada como en el de salida. Esto permite a CoDi condicionar libremente cualquier combinación de entrada y generar cualquier grupo de modalidades, incluso si no están presentes en los datos de entrenamiento.

CoDi emplea una novedosa estrategia de generación componible que implica la construcción de un espacio multimodal compartido mediante la alineación de puentes en el proceso de difusión, lo que permite la generación sincronizada de modalidades entrelazadas, como video y audio alineados temporalmente. Altamente personalizable y flexible, CoDi logra una fuerte calidad de generación de modalidad conjunta, y supera o está a la par con el estado de la técnica unimodal para la síntesis de modalidad única.

Arquitectura-del-modelo-CoDi-Microsoft-difusión-componible-de-texto-imagen-video-y-audio

La difusión componible utiliza un esquema de capacitación de varias etapas para poder entrenar solo en un número lineal de tareas, pero infiriendo en todas las combinaciones de modalidades de entrada y salida, es decir, texto, imagen, audio y video.

Aprovechando el poder del procesamiento del lenguaje natural, CoDi entiende y responde de una manera natural, más similar a la interacción humana. Al menos con algunos humanos :).

Se van reduciendo instrucciones confusas e indicaciones vagas, con una tendencia más clara hacia las conversaciones naturales e intuitivas.

Para qué sirve CoDi

Esta integración perfecta en su vida diaria garantiza que tendrá un compañero de IA útil a su alcance siempre que lo necesite. Seas estudiante, profesional o simplemente alguien que busca entretenimiento, CoDi podrá tener una solución para tu necesidad.

Modelo-CODI-de-microsoft-any-to-any

Podrás conseguir datos fidedignos de manera instantánea, compartir las últimas noticias, recomendar películas o incluso ayudar en tu desarrollo académico. CoDi se adapta a sus necesidades únicas.

Qué es CoDi

Pero CodI es más que un asistente virtual. Es un compañero que aprende de tus interacciones, adaptándose a tus preferencias y anticipándose a tus necesidades, por lo que se convierte en una experiencia increíblemente personalizada. Se trata de darle tu contexto a la Inteligencia Artificial para que el procesado de respuestas pase por dicho entorno tanto a la ida como a la vuelta y por tanto, tus resultados se adapten a tu historia, gustos, contexto, datos e información relevante para tu caso.

La privacidad de tus datos

Sabemos que la privacidad es de suma importancia para usted, por lo que CodI tiene controles de privacidad incorporados. Usted tiene el control de la información a la que CodI tiene acceso, lo que garantiza una experiencia confiable y segura.

Entonces, ya sea que esté buscando una mano amiga, una conversación estimulante o simplemente un poco de diversión, CoDi está aquí para revolucionar su experiencia de IA, ¡al estilo de Microsoft! ¡Gracias por acompañarnos hoy, y no olvides suscribirte a nuestro boletín para recibir más actualizaciones emocionantes!

Generación conjunta de múltiples salidas

El modelo toma una o varias indicaciones, incluidas video, imagen, texto o audio, para generar múltiples mensajes alineados. Salidas como video con sonido acompañante.

Texto + Imagen + Audio → Video + Audio

convirtiendo imagen-video-texto-audio-a-otra-cosa

Texto + Audio + Imagen → Texto + Imagen

Audio + Imagen → Texto + Imagen

Audio-mas-imagen-igual-texto-mas-imagen-tocando-el-piano-en-el-bosque

Texto + Imagen → Texto + Imagen

Acondicionamiento múltiple

El modelo toma múltiples entradas, incluyendo video, imagen, texto o audio para generar salidas.

Texto + Audio Imagen

Pintura al óleo de un buque velero medieval zurcando el mar pintado al estilo Craig Mullins
Barco-en-el-mar-velero-de-combate-medieval
Fuente: CoDi: Generar cualquier cosa a partir de cualquier cosa a la vez a través de la difusión componible (codi-gen.github.io).
Aquí tienes el Paper de Any-to-Any Generation via Composable Diffusion

Tang, Z., Yang, Z., Zhu, C., Zeng, M., & Bansal, M. (2023). Any-to-Any Generation via Composable Diffusion. ArXiv. /abs/2305.11846

1University of North Carolina at Chapel Hill, 2Microsoft Azure Cognitive Services Research * Work done at Microsoft internship and UNC. Corresponding Authors

Paper: Cornell University: Any-to-Any Generation via Composable Diffusion.

Autores: Zineng TangZiyi YangChenguang ZhuMichael ZengMohit Bansal

GitHub: GitHub – nerfies/nerfies.github.io

Podrás encontrar la publicación de Microsoft en Romper los límites intermodales en la IA multimodal: introducción a CoDi, difusión componible para cualquier generación – Microsoft Research