Microsoft presenta MAI-Image-2, su generador de imágenes IA

MundoWin » General » Microsoft lanza MAI-Image-2, su nuevo generador de imágenes con IA

MAI-Image-2 se estrena como generador de imágenes propio de Microsoft y ya ocupa el tercer puesto en Arena.ai, por detrás de Google y OpenAI.
El modelo mejora el realismo, los tonos de piel, la iluminación y la generación de texto integrado en las imágenes.
Por ahora solo está disponible en MAI Playground y vía API para clientes seleccionados, sin acceso desde España en esta fase preliminar.
Las fuertes restricciones de uso, moderación estricta y la ausencia de funciones de edición limitan su aprovechamiento profesional de inicio.

Microsoft ha movido ficha en el campo de la imagen generada por inteligencia artificial con la presentación oficial de MAI-Image-2, un modelo que llega apenas unos meses después de su primera versión y que busca situar a la compañía en un lugar más relevante dentro de este mercado tan competido.

Con este lanzamiento, la empresa de Redmond intenta pasar de un rol centrado en integrar tecnología ajena a tener un generador de imágenes propio con aspiraciones de alta gama, pensado tanto para creadores como para clientes corporativos que necesiten producir contenido visual a gran escala.

Qué es MAI-Image-2 y por qué es importante para Microsoft

MAI-Image-2 es el nuevo modelo de texto a imagen desarrollado directamente por los equipos de IA de Microsoft, en concreto el grupo de Superinteligencia, que hasta ahora había confiado sobre todo en modelos de terceros, especialmente de OpenAI, para sus productos visuales como Bing Image Creator o Copilot.

La compañía ha querido subrayar que el modelo no ha nacido en un laboratorio aislado: fotógrafos, diseñadores, ilustradores y narradores visuales han participado en su desarrollo, aportando feedback continuo para pulir aspectos como la iluminación, la naturalidad de las escenas o la representación de las personas.

El resultado, según Microsoft, es un sistema que prioriza el fotorrealismo por encima del espectáculo visual exagerado, algo que encaja con la necesidad de muchas empresas de generar imágenes que no parezcan claramente artificiales cuando se usan en campañas, webs o material corporativo.

La jugada tiene una clara lectura estratégica: disponer de un modelo propio reduce la dependencia de OpenAI para la generación de imágenes, recorta costes a medio plazo y ofrece a Microsoft una base tecnológica sobre la que iterar sin tener que ajustarse a calendarios o prioridades ajenas.

Un modelo que ya compite en los rankings, pero no lidera

Microsoft no ha escondido la posición de su nuevo modelo: MAI-Image-2 figura actualmente en el tercer puesto del ranking de Arena.ai, la plataforma que compara de manera independiente distintos sistemas de generación de imágenes.

Este lugar supone un salto apreciable respecto a MAI-Image-1, que se estrenó en el noveno puesto, pero también deja claro que por delante siguen los modelos de Google y OpenAI, que continúan encabezando las comparativas de calidad general.

Pese a no liderar la tabla, la compañía destaca que el modelo ya supera a propuestas de otros actores relevantes, como las soluciones de Bytedance o Grok, algo significativo para una empresa que hasta hace poco prácticamente no contaba con tecnología propia en este terreno.

Visto desde Europa, el avance coloca a Microsoft como un competidor más serio en un segmento dominado por un puñado de grandes laboratorios estadounidenses, donde la mayoría de herramientas avanzadas llegan de forma gradual a los mercados de la UE.

En las pruebas prácticas que se han ido publicando, MAI-Image-2 rinde en muchos casos por encima de lo que sugeriría su tercer puesto, especialmente en calidad de imagen y texto, lo que refuerza la idea de que los benchmarks no siempre reflejan todos los matices de uso real.

Mejoras en realismo, escenas complejas y texto dentro de la imagen

Uno de los puntos que Microsoft repite con insistencia es que MAI-Image-2 ha sido diseñado para generar imágenes que parezcan sacadas de una cámara y no de una IA. Esto se traduce en cambios concretos en varios frentes clave.

Por un lado, el modelo maneja mejor la luz natural y la textura de las superficies, algo que se nota en materiales, reflejos y sombras, que suelen ser los detalles donde fallan los sistemas menos avanzados.

También se ha puesto especial cuidado en la representación de los tonos de piel y de los rasgos humanos, con el objetivo de evitar resultados artificiales o poco consistentes que puedan dar problemas de percepción o incluso de sesgos en determinados contextos.

En escenas complejas, MAI-Image-2 demuestra un control más fiable de proporciones, profundidad y posiciones corporales, manteniendo la coherencia entre distintos elementos aunque la composición sea surrealista o muy recargada.

Otro aspecto que destaca es la generación de texto integrado en las imágenes: carteles, rótulos, tipografías trabajadas y bloques de texto amplios aparecen con menos errores y desorden que en muchos modelos anteriores, uno de los puntos débiles tradicionales en este tipo de herramientas.

Incluso en pruebas con texto multilingüe el modelo es capaz de producir caracteres complejos con cierto acierto, aunque todavía con fallos, algo que puede ser relevante para empresas europeas que trabajen en varios idiomas y necesiten material visual adaptable.

Limitaciones actuales: filtros estrictos y pocas opciones de formato

A pesar de estas mejoras técnicas, el modelo llega acompañado de varias restricciones que condicionan su utilidad en flujos de trabajo profesionales, especialmente para quienes produzcan grandes volúmenes de imágenes.

En primer lugar, MAI-Image-2 aplica filtros de moderación de contenido muy agresivos. Peticiones que otros modelos aceptan, como ciertas ilustraciones de terror o escenas tensas incluso en clave de dibujo animado, son rechazadas sin matices.

Esta política puede resultar razonable en productos masivos integrados en servicios de consumo, pero para artistas, estudios creativos o agencias que trabajan en zonas “grises” del contenido supone un freno considerable.

A ello se suma un sistema de uso algo rígido en la versión de pruebas: cada generación activa un tiempo de espera de 30 segundos y, una vez se alcanzan unas 15 imágenes, el usuario queda bloqueado durante 24 horas en la interfaz nativa.

Otro punto llamativo es que, por ahora, el modelo solo produce imágenes en formato cuadrado 1:1. No hay relación de aspecto horizontal, vertical ni tamaños personalizados, algo especialmente limitante para contenido pensado para redes sociales o campañas digitales específicas.

Además, en esta fase MAI-Image-2 funciona únicamente como herramienta de texto a imagen pura: no se ofrecen capacidades de edición sobre imágenes ya existentes, ni funciones como inpainting, outpainting o uso de referencias visuales, que sí están presentes en soluciones como Firefly o Midjourney.

Dependencia de terceros y respuesta a las críticas

El lanzamiento de MAI-Image-2 llega en un momento singular para Microsoft, que lleva años invirtiendo cantidades enormes en inteligencia artificial y, al mismo tiempo, apoyándose de forma intensa en la tecnología de otras compañías.

Buena parte de lo que hoy conocemos como Copilot, así como la generación de imágenes en Bing, se apoya todavía en modelos ajenos, en especial de OpenAI, pese a que la propia Microsoft ha manifestado en varias ocasiones su intención de reducir esa dependencia a largo plazo.

En la práctica, la empresa se ha comportado más como un gran integrador y distribuidor de IA que como un creador de referencia en modelos fundamentales, algo que MAI-Image-2 intenta empezar a corregir en el terreno específico de la imagen.

El contexto mediático tampoco le ha resultado especialmente favorable: en las últimas semanas, la compañía se ha visto envuelta en críticas por la proliferación de contenido de IA percibido como poco pulido o de baja calidad en algunos de sus servicios, fenómeno que en redes se ha bautizado irónicamente como “Microslop”.

MAI-Image-2 se presenta precisamente con un énfasis claro en el realismo y la mejora de la calidad visual, lo que muchos interpretan como un intento de responder a esas críticas, afinando la tecnología antes de expandir su integración en todo el ecosistema de productos.

Disponibilidad, regiones y acceso desde España y Europa

En el plano práctico, Microsoft ha puesto MAI-Image-2 a disposición del público en versión preliminar a través de MAI Playground, una plataforma web en la que se puede probar el modelo con ciertas limitaciones de uso y contenido.

Sin embargo, el acceso no es universal: la propia compañía ha confirmado que España no se encuentra entre las regiones con acceso inicial, y la disponibilidad en otros países europeos está siendo gradual, lo que deja a parte de los usuarios de la UE a la espera.

Para las empresas, Microsoft ha abierto ya el acceso a la API a un grupo reducido de clientes corporativos que necesitan generación de imágenes a escala, entre los que menciona a agencias de comunicación y grandes grupos publicitarios como WPP.

La intención es ampliar más adelante ese acceso a través de Microsoft Foundry, su programa para desarrolladores, de manera que equipos técnicos y startups europeas puedan integrar el modelo en sus propias aplicaciones cuando la disponibilidad regional lo permita.

En paralelo, el modelo se está desplegando de forma progresiva en Copilot y en Bing Image Creator, aunque todavía no aparece de forma generalizada en todos los mercados ni en todas las superficies de producto de Microsoft.

Para uso profesional dentro de la Unión Europea, será clave ver cómo se ajusta la disponibilidad a las normativas locales y al marco regulatorio europeo de IA, un aspecto que las tecnológicas están vigilando de cerca para evitar problemas legales futuros.

Un paso adelante con margen de mejora en el producto

Más allá de los titulares, MAI-Image-2 se puede ver como una base técnica sólida condicionada por decisiones de producto conservadoras, entre filtros estrictos, límites de uso y ausencia de funciones de edición avanzadas.

La lógica empresarial, no obstante, es bastante clara: Microsoft necesitaba un modelo competitivo que fuera “lo bastante bueno” como para reducir su dependencia de otros proveedores, aunque todavía no lidere el sector en todas las métricas.

En rendimiento puro, las pruebas públicas apuntan a que supera en varios escenarios a algunos modelos con mejor posición en el ranking, especialmente en claridad del texto dentro de la imagen y consistencia del realismo, dos aspectos muy valorados por marcas y agencias.

El reto ahora pasa por relajar ciertas restricciones, ampliar formatos y añadir capacidades de edición si Microsoft quiere que el modelo pase de ser una buena demostración técnica a una herramienta realmente central en el día a día de creativos y empresas europeas.

Por el momento, MAI-Image-2 se coloca como un avance relevante en la estrategia de IA de Microsoft: no desbanca todavía a los líderes del sector, pero supone un movimiento claro hacia una mayor autonomía tecnológica y una mejor calidad visual en su ecosistema, a la espera de que su disponibilidad se normalice en España y el resto de Europa.