Microsoft lança novos modelos de IA para textos e áudio; conheça

A Microsoft lançou dois novos modelos de inteligência artificial treinados internamente. O MAI-Voice-1 é o primeiro modelo de geração de fala “altamente expressivo e natural”, enquanto o MAI-1-preview é baseado em texto. 

“Temos grandes ambições para o futuro. Não apenas buscaremos novos avanços, como também acreditamos que orquestrar uma gama de modelos especializados que atendam a diferentes intenções e casos de uso do usuário gerará um valor imenso”, diz a empresa em um comunicado.

Segundo o líder da divisão de IA da Microsoft, Mustafa Suleyman, os modelos focam em eficiência e custo-benefício. Algumas das técnicas de treinamento obtidas na comunidade de código aberto ampliaram as capacidades dos modelos usando recursos mínimos.

Microsoft quer desenvolver diferentes modelos de IA para atender demandas específicas (Imagem: Rokas Tenys/Shutterstock)

“Cada vez mais, a arte de treinar modelos consiste em selecionar os dados perfeitos e não desperdiçar nenhum dos seus fracassos em tokens desnecessários que, na verdade, não ensinaram muito ao seu modelo”, afirmou em entrevista ao site Semafor.

Sobre o MAI-Voice-1

O MAI-Voice-1 é um modelo de geração de fala extremamente rápido, com capacidade de gerar um minuto inteiro de áudio em menos de um segundo em uma única GPU, tornando-o um dos sistemas de fala mais eficientes disponíveis atualmente, segundo a Microsoft. A ferramenta pode ser acessada pelos recursos Copilot Daily e Podcasts. 

“A voz é a interface do futuro para companheiros de IA e o MAI-Voice-1 oferece áudio expressivo e de alta fidelidade em cenários com um ou vários falantes”, diz a empresa.

Os usuários poderão experimentar demonstrações de discurso expressivo e narrativa no Copilot Labs, que permite desde criar histórias com uma simples mensagem até elaborar uma meditação guiada personalizada para ajudar a dormir.

Modelo traz um dos sistemas de fala mais eficientes disponíveis atualmente (Imagem: Reprodução)

Leia Mais:

E o MAI-1-preview?

O MAI-1-preview é um modelo interno, pré-treinado e pós-treinado em aproximadamente 15.000 GPUs NVIDIA H100 — o Grok, da xAI, foi treinado em mais de 100.000 desses chips. A IA foi projetada para seguir instruções e fornecer respostas a perguntas do dia a dia. Trata-se do primeiro modelo básico da Microsoft treinado de ponta a ponta, oferecendo uma visão geral do que podemos esperar do Copilot no futuro.

Nas próximas semanas, o recurso estará disponível para determinados casos de uso de texto no Copilot. A Microsoft também iniciou os testes públicos do MAI-1-preview no LMArena, uma plataforma popular para avaliação de modelos comunitários. 

MAI-1-preview é o primeiro modelo básico da Microsoft treinado de ponta a ponta (Imagem: Mamun_Sheikh/Shutterstock)

“Continuaremos a usar os melhores modelos da nossa equipe, dos nossos parceiros e as inovações mais recentes da comunidade de código aberto para impulsionar nossos produtos. Essa abordagem nos dá a flexibilidade necessária para entregar os melhores resultados em milhões de interações únicas todos os dias”, diz a big tech.

O post Microsoft lança novos modelos de IA para textos e áudio; conheça apareceu primeiro em Olhar Digital.

Related posts

Por que gatos e leões dormem tanto?

O que é um roteador dual-band?

Lixo sob controle: IA e robótica facilitam descarte e reciclagem