Thinking Machines Lab lança seu primeiro modelo e argumenta que interatividade é o que a OpenAI erra sobre voz

Criptomoedas Mercado Financeiro Tecnologia

Thinking Machines critica OpenAI e aposta em voz interativa

Raia12/05/2026 Blockchain Criptomoedas Inteligência Artificial Mercado Financeiro Tecnologia

Se você já se frustrou ao interromper um assistente de voz e ele “travou”, ignorou seu comando ou respondeu fora de contexto, saiba: o problema não é você — é a arquitetura. Enquanto sistemas como GPT-Realtime e Gemini Live ainda operam com uma lógica rígida de “pergunta-resposta”, a Thinking Machines Lab, fundada pela ex-CTO da OpenAI, Mira Murati, acaba de lançar um modelo que processa áudio, vídeo e texto em janelas de 200 milissegundos, permitindo conversas fluidas, com interrupções naturais, sobreposição de fala e reações em tempo real — exatamente como humanos fazem.

Mas por que essa mudança aparentemente técnica importa para você, profissional de tecnologia, desenvolvedor ou entusiasta de IA? A psicologia cognitiva revela que nosso cérebro processa interações sociais com base em pistas sutis de timing, tom e sincronia. Quando uma IA falha nesses micro-momentos — mesmo sendo inteligente —, ativamos inconscientemente o viés de desconfiança, reduzindo engajamento e adoção. Em outras palavras: inteligência sem interatividade é como um palestrante brilhante que não sabe ouvir.

Neste artigo, você vai descobrir: (1) como a arquitetura de “micro-turnos alinhados no tempo” substitui os limites artificiais de turno, permitindo que a IA decida quando falar, ouvir ou intervir — sem travar; (2) por que a estratégia de modelo duplo (um rápido para interação + um assíncrono para raciocínio profundo) resolve o dilema entre velocidade e profundidade que limita os assistentes atuais; (3) os dados reais de benchmark que mostram vantagem de latência (0,40s vs 1,18s do GPT-Realtime-2) e qualidade de interação em cenários complexos; e (4) os desafios estratégicos que uma startup avaliada em US$ 12 bilhões enfrenta para competir com OpenAI, Google e Anthropic — especialmente após a saída de talentos-chave.

Além disso, exploramos um conceito fundamental: a escalabilidade da interatividade. Assim como a “Lição Amarga” de Sutton sugere que capacidades gerais superam sistemas artesanais, a Thinking Machines argumenta que tratar a interação como núcleo — e não como acessório — é o próximo salto evolutivo da IA generativa.

Se você busca antecipar tendências em vez de apenas reagir a elas, continue lendo. Nos próximos parágrafos, entregamos uma análise fundamentada em arquitetura de modelos, benchmarks técnicos e princípios de design cognitivo para ajudar você a avaliar criticamente a próxima geração de assistentes de voz.

Resumo NeuralNet:
Entenda os impactos práticos para investidores, traders e empresas no Brasil.

Leitura: 3-4 min | Atualizado: 2026-05-12 13:16:00 | Categoria: Criptomoedas

Table of Contents

O Que Isso Significa para o Investidor Brasileiro?

Com a Instrução Normativa 1.888/2022 da Receita Federalista e a recente regulamentação do mercado de criptoativos (Lei 14.478/2022), movimentos do mercado global impactam diretamente quem opera no Brasil:

Tributação: Operações supra de R$ 35 mil/mês têm incidência de IR (15-22,5%)
Exchanges reguladas: Priorize plataformas registradas na CVM para maior segurança jurídica
Adoção institucional: Bancos e fintechs brasileiras ampliam oferta de cripto para clientes
Autocustódia: Entenda a diferença entre deixar em exchange vs. carteira própria (hardware wallet)

Pontos-chave

O Thinking Machines Lab, fundado pela ex-CTO da OpenAI, Mira Murati, lançou seu primeiro modelo de IA que processa áudio, vídeo e texto em blocos de 200 milissegundos, substituindo a rígida alternância de turnos por uma conversa fluida e em tempo real.
O modelo supera o GPT-Realtime-2 da OpenAI e o Gemini Live do Google em benchmarks de qualidade de interação e latência, combinando um modelo de interação rápido com um modelo de raciocínio em segundo plano.
Apesar do potencial técnico, a startup ainda enfrenta pressão, visto que vários funcionários importantes deixaram a empresa recentemente.

A Thinking Machines Lab divulgou uma prévia de pesquisa de seu primeiro modelo de IA, projetado para romper com o padrão tradicional de perguntas e respostas na IA de voz. O modelo processa áudio, vídeo e texto em blocos paralelos de 200 milissegundos, e a startup afirma que ele supera o GPT-Realtime-2 da OpenAI e o Gemini Live do Google em qualidade de interação.

O Thinking Machines Lab publicou uma prévia de sua pesquisa sobre o que chama de Modelos de Interação , modelos de IA que lidam com a interação de forma nativa, em vez de por meio de estruturas externas. A ideia central é que a interatividade deve ser escalável juntamente com a inteligência, e não tratada como uma reflexão tardia.

Os sistemas de IA de voz atuais ainda parecem robóticos.

Os sistemas de tempo real atuais, como o GPT-Realtime ou o Gemini Live, captam áudio continuamente, mas o modelo de linguagem em si nunca o vê diretamente. De acordo com a Thinking Machines, um conjunto de componentes separados fica à frente do modelo, incluindo elementos como um detector de atividade vocal que decide quando a fala do interlocutor termina. Somente então a frase finalizada é entregue ao modelo, que gera uma resposta completa. Enquanto fala, sua percepção fica congelada, não recebendo novas informações até que termine ou seja interrompido.

Esses componentes são muito menos inteligentes que o próprio modelo. Isso significa que comportamentos que definem uma conversa real simplesmente não funcionam, de acordo com a Thinking Machines: intervir proativamente (“interrompa-me se eu disser algo errado”), reagir a pistas visuais (“avise-me quando eu cometer um erro”) ou falar simultaneamente, o que seria útil para algo como tradução simultânea. Citando a “Lição Amarga” de Sutton, o laboratório argumenta que esses sistemas artesanais acabarão sendo superados pelo avanço das capacidades gerais.

Os modelos de interação da Thinking Machines substituem o sistema de processamento por um modelo que processa o fluxo de áudio e vídeo diretamente, em vez de receber enunciados pré-segmentados. A abordagem se assemelha a modelos full-duplex como o Moshi ou o Nemotron VoiceChat , que funcionam de maneira intercalada similar, mas são modelos de menor escala focados na latência em vez de benchmarks de inteligência.

Um cronômetro de 200 milissegundos substitui os limites artificiais das curvas.

A verdadeira inovação em relação às arquiteturas existentes reside no que a equipe chama de micro-turnos alinhados no tempo. O modelo processa continuamente 200 milissegundos de entrada e gera 200 milissegundos de saída, com ambos os fluxos de dados ocorrendo de forma intercalada. A entrada e a saída não acontecem mais sequencialmente. Em vez disso, compartilham o mesmo ciclo de clock.

Isso elimina limites artificiais de turnos, permitindo que o modelo decida por si só se deve permanecer em silêncio, intervir ou falar junto com o usuário. Áudio e imagens não são pré-processados por meio de grandes codificadores independentes, mas são enviados diretamente para o transformador com pré-processamento mínimo. Isso economiza latência, embora também possa limitar a capacidade do modelo de captar detalhes visuais sutis, como texto.

O modelo em tempo real, porém, apresenta outro desafio. Se você precisa responder a cada 200 milissegundos, não pode passar minutos raciocinando ou pesquisando na internet simultaneamente. O Thinking Machines resolve isso combinando o modelo de interação com um segundo modelo assíncrono em segundo plano, que lida com tarefas mais longas, como raciocínio, uso de ferramentas e pesquisa.

Ambos os modelos compartilham o mesmo contexto de conversa. O modelo de interação delega tarefas enquanto mantém a conversa em andamento, integrando os resultados do modelo de fundo à conversa à medida que chegam, em um momento apropriado ao que o usuário está fazendo, em vez de uma mudança abrupta de contexto. O objetivo é combinar a velocidade de resposta de um modelo rápido com a profundidade de um modelo de raciocínio.

Os indicadores sugerem que a abordagem funciona.

O modelo chama-se TML-Interaction-Small, um modelo de mistura de especialistas com 276 bilhões de parâmetros, dos quais 12 bilhões são ativos. No FD-bench v1.5, que mede a qualidade da interação em diversos cenários, como interrupções do usuário, backchanneling e fala em segundo plano, ele supera significativamente tanto o GPT-Realtime-2 da OpenAI quanto o Gemini-3.1-flash-live do Google. A latência de resposta é de 0,40 segundos, em comparação com 1,18 segundos para o GPT-Realtime-2 (mínimo) e 0,57 segundos para o Gemini.

No teste Audio MultiChallenge, que avalia a inteligência e a capacidade de seguir instruções, o modelo obteve uma pontuação de 43,4%, acima das variantes rápidas de seus concorrentes, mas abaixo do GPT-Realtime-2 no modo de raciocínio “xhigh”, que atingiu 48,5%. Nos testes de referência do próprio laboratório para percepção temporal (TimeSpeak, CueSpeak) e proatividade visual (RepCount-A, ProactiveVideoQA, Charades), a Thinking Machines relata que nenhum modelo existente consegue executar essas tarefas de forma significativa. Os concorrentes testados permanecem em silêncio ou fornecem respostas incorretas.

Uma startup de 2 bilhões de dólares com algo a provar.

A Thinking Machines Lab foi fundada em fevereiro de 2025 por Mira Murati e outros ex-pesquisadores da OpenAI. Em julho de 2025, a empresa concluiu uma rodada de investimento seed de US$ 2 bilhões, atingindo uma avaliação de US$ 12 bilhões, tudo isso sem um produto em desenvolvimento. Uma rodada subsequente, supostamente em andamento, na faixa de US$ 50 bilhões, não se concretizou até o final de 2025, e vários funcionários importantes deixaram a empresa desde então . O Interaction Model é o primeiro modelo de IA desenvolvido internamente, corroborando a afirmação de Murati de que ela pode construir um concorrente à altura da OpenAI, Anthropic e Google DeepMind.

Anteriormente, a empresa havia lançado o Tinker , uma ferramenta projetada para permitir que os desenvolvedores ajustassem com eficiência modelos abertos usando LoRAs, sem precisar lidar com treinamento distribuído.

Insight NeuralNet:

Criptomoedas são ativos de subida volatilidade. Nunca invista mais do que pode perder e sempre faça sua própria pesquisa (DYOR – Do Your Own Research). Diversificação e estratégia de longo prazo reduzem riscos.

Tendências do Mercado Crypto em Destaque

Ativo/Categoria	Catalisador Recente	Situação no Brasil	Potencial
₿ Bitcoin (BTC)	ETFs nos EUA, Halving, adoção institucional	Liquidez subida em exchanges BR
Ethereum (ETH)	Atualizações da rede, staking, Layer 2	Ecossistema DeFi em desenvolvimento
Stablecoins (USDT, USDC)	Reservas auditadas, regulação global	Uso crescente para proteção contra volatilidade
Altcoins & DeFi	Inovação em yield, governança, interoperabilidade	Sobranceiro risco; exige pesquisa profunda

* Potencial fundamentado em estudo de mercado. Não é recomendação de investimento.

Aprofunde-se no NeuralNet:

Aviso Lícito e de Risco:

Nascente teor é estritamente educativo e informativo. Não constitui aconselhamento financeiro, jurídico ou recomendação de investimento. Criptoativos são voláteis e podem tolerar variações bruscas de valor. Rentabilidade passada não garante retornos futuros.Recomendações: (1) Faça sua própria pesquisa (DYOR); (2) Diversifique; (3) Use somente capital que pode perder; (4) Consulte um advisor financeiro credenciado para decisões pessoais.

Tags:
Bitcoin
Criptomoedas
Regulamentação
Tributação
DeFi

Share this content:

Plataforma de Gestão de Consentimento by Real Cookie Banner