Meta lanza SAM Audio, la IA para separar sonidos en tus vídeos

MundoWin » General » Meta presenta SAM Audio, su modelo de IA para separar sonidos

Meta lanza SAM Audio, un modelo de IA capaz de aislar sonidos concretos en mezclas complejas usando texto, pistas visuales y tiempo.
La herramienta se orienta a edición de música, pódcast, cine, TV, creación de contenido, investigación y accesibilidad.
SAM Audio está disponible gratis en Segment Anything Playground y también puede descargarse para pruebas avanzadas.
El modelo unificado busca sustituir múltiples programas de edición tradicionales con una solución más intuitiva y multimodal.

Herramienta de IA para separar audio

La edición de audio y vídeo da un giro importante con la llegada de SAM Audio, el nuevo modelo de inteligencia artificial de Meta pensado para separar sonidos concretos dentro de grabaciones complejas sin necesidad de recurrir a programas profesionales ni a procesos técnicos demasiado enrevesados. La herramienta se ha lanzado de forma global y se puede probar desde España y el resto de Europa a través de la plataforma Segment Anything Playground.

Este modelo se integra en la colección Segment Anything, hasta ahora centrada en imágenes y vídeo, y la amplía al terreno del sonido. La propuesta de Meta pasa por ofrecer un sistema capaz de aislar voces, instrumentos o ruidos ambientales con simples indicaciones de texto, clics sobre elementos del vídeo o marcas de tiempo, imitando la manera natural en la que las personas identifican lo que están escuchando.

ajustes de audio para entender mejor los diálogos

Qué es SAM Audio y qué plantea Meta con este modelo

SAM Audio es, según la compañía liderada por Mark Zuckerberg, el primer modelo de IA unificado que segmenta cualquier sonido dentro de mezclas de audio complejas, combinando información de texto, señales visuales y tramos temporales. En lugar de tener una herramienta para limpiar ruido, otra para extraer voces y otra para separar instrumentos, este sistema intenta concentrar todas esas funciones en un único modelo.

Meta enmarca esta novedad dentro de su estrategia de IA aplicada a los medios, donde ya contaba con soluciones para recortar objetos en fotos y vídeos o generar escenas en 3D a través de la familia SAM 3. Con SAM Audio se completa la jugada añadiendo el componente sonoro, lo que abre la puerta a flujos de trabajo más integrados para creadores de contenido, productoras y usuarios particulares, que incluso pueden combinarlo con herramientas de postproducción como un ecualizador en Windows 11 para ajustar el sonido.

La compañía subraya que el modelo ha sido diseñado para ajustarse a la percepción natural del audio, de forma que el usuario pueda pedir “ladrido de perro”, “voz cantando” o “ruido de tráfico” y el sistema actúe en consecuencia sobre la mezcla sin obligar a conocer frecuencias, filtros o plugins avanzados.

Según Meta, este enfoque le permite ofrecer un rendimiento de vanguardia en tareas de separación de audio, superando soluciones anteriores que estaban centradas en casos de uso muy específicos, como la simple reducción de ruido o la clásica separación voz-fondo musical.

Cómo funciona SAM Audio: texto, imagen y tiempo al servicio del sonido

La principal particularidad de SAM Audio es su enfoque multimodal: combina distintas formas de instrucción que se pueden usar por separado o en conjunto. El modelo entiende tres tipos de indicaciones o prompts que dan bastante margen de maniobra a la hora de editar.

Por un lado, se encuentran las indicaciones de texto. Aquí basta con escribir lo que se quiere aislar o suprimir: “voz cantando”, “aplausos”, “guitarra eléctrica”, “ladrido de perro” o “ruido de coches”, por poner algunos ejemplos. El sistema identifica ese elemento sonoro dentro del archivo y permite conservarlo, eliminarlo o destacarlo en la mezcla final.

En segundo lugar están las indicaciones visuales. Cuando se trabaja con vídeo, el usuario puede hacer clic sobre la persona u objeto que emite el sonido que le interesa: un cantante, un batería, un coche pasando, un presentador en medio de una multitud… A partir de esa selección en pantalla, SAM Audio se encarga de aislar el audio asociado a ese elemento y tratarlo de forma independiente del resto.

El tercer tipo son las denominadas indicaciones de intervalo o span prompts. En este caso, se marcan los segundos concretos en los que ocurre el sonido objetivo, algo útil cuando solo interesa una parte del evento, como un solo de guitarra, una intervención en una mesa redonda o un momento puntual de ruido. Meta destaca que es la primera vez que se incorpora este tipo de indicación de manera tan directa en un modelo de separación de audio.

La combinación de texto, imagen y tiempo está pensada para ofrecer un control muy preciso de la edición, sin obligar a pasar por curvas de aprendizaje largas propias de los programas de postproducción tradicionales. Según la compañía, este enfoque unificado reduce la fragmentación habitual del sector, en el que era frecuente saltar entre varias aplicaciones para completar una sola tarea.

Ejemplos prácticos de uso en música, pódcast, cine y TV

Meta pone especial énfasis en las aplicaciones para música y creación de contenidos. Un usuario puede grabar un concierto o un ensayo de una banda y pedir al sistema que extraiga solo la guitarra, que se quede únicamente con la voz principal o que silencie el público para escuchar mejor un instrumento concreto. Todo ello sin tener pistas separadas, únicamente a partir de la mezcla final.

En el terreno del podcasting y el vídeo online, SAM Audio se puede usar para limpiar entrevistas o programas grabados en entornos ruidosos, filtrando el tráfico de fondo, los golpes de micrófono o los ladridos de un perro que se cuelan en mitad de una conversación. También permite resaltar solo la voz de un invitado en un espacio con mucha gente, algo habitual en eventos o ferias.

En cine y televisión, el modelo promete agilizar tareas de postproducción sonora, como ajustar volúmenes de ambientes, separar diálogos de efectos o reconfigurar ciertas escenas sin tener que repetir mezcla desde cero. Aunque los estudios europeos acostumbran a trabajar con herramientas profesionales muy consolidadas, una solución de este tipo puede servir como apoyo rápido para versiones preliminares, maquetas o contenidos para redes sociales.

Meta también menciona usos en investigación científica, por ejemplo para aislar señales específicas en grabaciones de campo o experimentos, y en accesibilidad, ya que la posibilidad de separar con precisión voces y ruidos facilita la generación de contenidos adaptados a personas con discapacidad auditiva o cognitiva.

En general, la compañía ve en SAM Audio una base para desarrollar nuevas herramientas creativas de medios, que podrían integrarse en productos propios o en soluciones de terceros, sin limitarse a un único sector.

Disponibilidad, acceso desde Europa y pasos para probarlo

Meta ha puesto SAM Audio a disposición del público a través de Segment Anything Playground, una plataforma web donde se concentran las distintas herramientas de la familia Segment Anything. Desde España y otros países europeos se puede acceder directamente desde un ordenador a la dirección habilitada por la compañía para probar sus demos de IA.

El proceso de uso es bastante directo: hay que entrar en la página de demostraciones, seleccionar la opción relacionada con aislar audio, subir un archivo de sonido o de vídeo y, a continuación, introducir la indicación deseada, ya sea de texto, visual o mediante un intervalo de tiempo. Con unos pocos clics, el sistema genera una nueva pista donde el elemento sonoro elegido queda separado, eliminado o resaltado, según la orden que se haya dado.

Meta remarca que la herramienta está disponible de forma gratuita para pruebas, lo que abre la puerta a que tanto profesionales como aficionados puedan experimentar sin coste inicial. Además, el modelo se ofrece para descarga, de manera que desarrolladores y equipos técnicos pueden evaluarlo e integrarlo en sus propios flujos de trabajo.

Desde la compañía apuntan que ya están explorando posibles integraciones de SAM Audio en otros productos de su ecosistema y colaboraciones con entidades del ámbito de la accesibilidad y la tecnología aplicada a la salud auditiva. Esto encaja con la apuesta de Meta por combinar IA y dispositivos, que en otros frentes incluye cascos de realidad virtual y herramientas de creación de escenas 3D.

Con este lanzamiento, Meta amplía la oferta de Segment Anything, donde también se encuentran utilidades para crear recortes de vídeo e imagen o generar escenas tridimensionales a partir de contenido visual, todas ellas accesibles desde la misma web de demostraciones.

Todo este movimiento sitúa a SAM Audio como una pieza clave en la estrategia de IA de Meta para medios digitales: un modelo unificado y multimodal que permite trabajar con el sonido de forma más intuitiva, rápida y accesible, tanto para quienes producen música, pódcast o cine, como para investigadores, docentes o creadores de contenido en redes que operan desde España, Europa o cualquier otra región donde la plataforma esté disponible.