Xiaomi lança MiMo-V2.5-Pro ​​e MiMo-V2.5: comparando benchmarks de modelos de fronteira com custo de token significativamente mais baixo | NeuralNet IA

MiMo V2.5 Oferece Alto Desempenho Barato | NeuralNet IA

Xiaomi MiMo lança V2.5 Pro e V2.5: modelos de IA agêntica que executam tarefas complexas e autônomas com ferramentas e preço competitivo. Disponíveis via API, os novos benchmarks demonstram como a IA aberta está alcançando a fronteira na criação de compiladores, testes e correções sem intervenção humana.

📊 Resumo: Veja abaixo a análise completa e os impactos práticos para profissionais e empresas no Brasil.

Tempo de leitura: 3-5 minutos | Atualizado em 2026-04-23 03:46:00


🇧🇷 O Que Isso Significa para o Brasil?

Com o crescimento do ecossistema de IA no país e discussões sobre regulação (PL 2338/2023), avanços em inteligência artificial, machine learning e automação impactam diretamente profissionais, startups e empresas brasileiras. Fique atento a:

  • 🎓 Capacitação profissional: Demanda por habilidades em IA cresce 3x ao ano no mercado brasileiro
  • ⚖️ Marco Regulatório: Proposta de lei sobre IA pode afetar desenvolvimento e uso de ferramentas
  • 🏢 Adoção empresarial: Setores como saúde, jurídico e financeiro lideram implementação de IA no Brasil

Análise Completa

A equipe Xiaomi MiMo lançou publicamente dois novos modelos: MiMo V2.5 Pró e MiMo V2.5. Os benchmarks, combinados com algumas demonstrações de tarefas do mundo real genuinamente impressionantes, apresentam um argumento convincente de que a IA de agência aberta está alcançando a fronteira mais rápido do que se esperava. Ambos os modelos estão disponíveis imediatamente via API e com preços competitivos.

O que é um modelo agente e por que isso é importante?

A maioria dos benchmarks LLM testa a capacidade de um modelo de responder a uma pergunta única e independente. Os benchmarks Agentic testam algo muito mais difícil – se um modelo pode completar um meta de várias etapas de forma autônoma, usando ferramentas (pesquisa na web, execução de código, E/S de arquivos, chamadas de API) em vários turnos, sem perder o controle do objetivo original.

Pense nisso como a diferença entre um modelo que pode responder “como escrevo um lexer?” versus um que pode realmente escreva um compilador completoexecute testes, capture regressões e corrija-as — tudo isso sem um humano no circuito. Este último é exatamente o que a equipe Xiaomi MiMo está demonstrando aqui.

MiMo-V2.5-Pro: o carro-chefe

O MiMo-V2.5-Pro ​​é o modelo mais capaz da Xiaomi até o momento, oferecendo melhorias significativas em relação ao seu antecessor, MiMo-V2-Pro, em capacidades gerais de agente, engenharia de software complexa e tarefas de longo horizonte.

Os principais números de benchmark são competitivos com os principais modelos de código fechado: SWE-bench Pro 57.2, Claw-Eval 63.8 e τ3-Bench 72.9 – colocando-o ao lado de Claude Opus 4.6 e GPT-5.4 na maioria das avaliações. A V2.5-Pro ​​pode sustentar tarefas complexas e de longo horizonte, abrangendo mais de mil chamadas de ferramentas, demonstrando melhorias substanciais no acompanhamento de instruções em cenários de agente, aderindo de forma confiável a requisitos sutis incorporados no contexto e mantendo forte coerência em contextos ultralongos.

Uma propriedade comportamental que distingue o V2.5-Pro ​​dos modelos anteriores é o que a equipe Xiaomi MiMo chama “aproveitar a consciência”: faz pleno uso das possibilidades de seu ambiente de aproveitamento, gerencia sua memória e molda como seu próprio contexto é preenchido em direção ao objetivo final. Isso significa que o modelo não executa instruções apenas mecanicamente. Ele otimiza ativamente seu próprio ambiente de trabalho para permanecer no caminho certo em tarefas muito longas.

As três demonstrações de tarefas do mundo real publicadas pela Xiaomi ilustram exatamente o que “capacidade de agente de longo horizonte” significa na prática.

Demonstração 1 – Compilador SysY em Rust: Referido pela Universidade de Pequim Princípios do compilador projeto do curso, esta tarefa pede ao modelo para implementar um compilador SysY completo em Rust do zero: lexer, analisador, AST, codegen Koopa IR, back-end de montagem RISC-V e otimização de desempenho. O projeto de referência normalmente leva várias semanas para um aluno importante da PKU CS. MiMo-V2.5-Pro ​​terminou em 4,3 horas em 672 chamadas de ferramentas, marcando 233/233 perfeitos em relação ao conjunto de testes oculto do curso.

O que é notável não é apenas a pontuação final – é a arquitetura de execução. Em vez de se debater por tentativa e erro, o modelo construiu o compilador camada por camada: primeiro andaime o pipeline completo, Koopa IR perfeito (110/110), depois o back-end RISC-V (103/103) e depois o desempenho (20/20). Somente a primeira compilação passou em 137/233 testes, uma inicialização a frio de 59% que sugere que a arquitetura foi projetada corretamente antes de um único teste ser executado. Quando uma etapa de refatoração posteriormente causou regressões, o modelo diagnosticou as falhas, recuperou-se e seguiu em frente. Este é um comportamento de engenharia estruturado e autocorretivo – e não uma geração de código com correspondência de padrão.

Demonstração 2 — Editor de vídeo para desktop completo: Com apenas alguns prompts simples, o MiMo-V2.5-Pro ​​forneceu um aplicativo de desktop funcional: linha do tempo multitrilha, corte de clipe, cross-fades, mixagem de áudio e pipeline de exportação. A compilação final tem 8.192 linhas de código, produzidas em 1.868 chamadas de ferramentas em 11,5 horas de trabalho autônomo.

Demonstração 3 – Projeto Analógico EDA-FVF-LDO: Esta é a demonstração mais especializada tecnicamente: uma tarefa EDA de circuito analógico de nível graduado que requer o projeto e a otimização de um FVF-LDO completo (regulador de baixo dropout invertido-seguidor de tensão) do zero no processo CMOS TSMC 180nm. O modelo teve que dimensionar o transistor de potência, ajustar a rede de compensação e escolher tensões de polarização para que seis métricas ficassem dentro das especificações simultaneamente – margem de fase, regulação de linha, regulação de carga, corrente quiescente, PSRR e resposta transitória. Conectado a um loop de simulação ngspice, em cerca de uma hora de iteração de loop fechado – chamando o simulador, lendo formas de onda, ajustando parâmetros – o modelo produziu um design onde todas as métricas alvo são atendidas, com quatro métricas principais melhoradas em uma ordem de magnitude em relação à sua própria tentativa inicial.

Eficiência de token: A inteligência a nível de fronteira só é útil se for rentável. No ClawEval, o V2.5-Pro ​​chega a 64% Pass^3 usando apenas aproximadamente 70 mil tokens por trajetória – aproximadamente 40–60% menos tokens do que Claude Opus 4.6, Gemini 3.1 Pro e GPT-5.4 em níveis de capacidade comparáveis. Para os engenheiros que constroem pipelines de agentes de produção, isso representa uma redução de custos de materiais, não apenas uma estatística de marketing.

1777065291_466_Xiaomi-lanca-MiMo-V25-Pro-​​e-MiMo-V25-comparando-benchmarks-de-modelos-de MiMo V2.5 Oferece Alto Desempenho Barato | NeuralNet IA1777065291_466_Xiaomi-lanca-MiMo-V25-Pro-​​e-MiMo-V25-comparando-benchmarks-de-modelos-de MiMo V2.5 Oferece Alto Desempenho Barato | NeuralNet IA
https://mimo.xiaomi.com/mimo-v2-5-pro/

Banco de codificação MiMo é o conjunto de avaliação interno da Xiaomi projetado para avaliar modelos em tarefas de desenvolvedores do mundo real dentro de estruturas de agente como Claude Code. Abrange compreensão de repositórios, construção de projetos, revisão de código, geração de artefatos estruturados, planejamento, SWE e muito mais. V2.5-Pro ​​lidera neste benchmark, e a Xiaomi o posiciona explicitamente como um backend drop-in para scaffolds, incluindo Claude Code, OpenCode e Kilo.

MiMo-V2.5: Omnimodal nativo pela metade do custo

Embora o V2.5-Pro ​​tenha como alvo as tarefas de agência mais difíceis de longo prazo, o MiMo-V2.5 é um grande passo em frente na capacidade de agência e na compreensão multimodal. Com compreensão visual e de áudio nativa, o MiMo-V2.5 raciocina perfeitamente em todas as modalidades, supera o MiMo-V2-Pro em desempenho de agente e suporta até 1 milhão de tokens de contexto.

O modelo foi projetado com percepção e ação unificadas desde o início. O MiMo-V2.5 é treinado desde o início para ver, ouvir e agir de acordo com o que percebe, levando a um modelo único que entende tudo e realiza tarefas. Isto é arquitetonicamente significativo – os modelos multimodais anteriores muitas vezes fixavam a visão em cima de uma espinha dorsal de texto, criando lacunas de capacidade na fronteira entre percepção e ação.

Do lado da codificação, a proposta de valor é clara: no MiMo Coding Bench, o MiMo-V2.5 oferece resultados sólidos nas tarefas diárias de codificação, fechando a lacuna com os modelos de ponta e igualando o MiMo-V2.5-Pro ​​pela metade do custo. Para equipes que não precisam da profundidade extrema do horizonte longo do V2.5-Pro, este é um ponto operacional atraente.

1777065291_783_Xiaomi-lanca-MiMo-V25-Pro-​​e-MiMo-V25-comparando-benchmarks-de-modelos-de MiMo V2.5 Oferece Alto Desempenho Barato | NeuralNet IA1777065291_783_Xiaomi-lanca-MiMo-V25-Pro-​​e-MiMo-V25-comparando-benchmarks-de-modelos-de MiMo V2.5 Oferece Alto Desempenho Barato | NeuralNet IA
https://mimo.xiaomi.com/mimo-v2-5/

Em benchmarks multimodais: MiMo-V2.5 atinge 62,3 no subconjunto geral Claw-Eval, colocando-o na fronteira de Pareto de desempenho e eficiência. No subconjunto agente multimodal, MiMo-V2.5 atinge 23,8 no Claw-Eval Multimodal, igualando Claude Sonnet 4.6, liderando MiMo-V2-Omni por oito pontos e atrás de Claude Opus 4.6 por um único ponto.

Na compreensão de vídeo, o MiMo-V2.5 obteve pontuação de 87,7 no Video-MME, efetivamente empatado com o Gemini 3 Pro (88,4) e bem à frente do Gemini 3 Flash. A compreensão de vídeo de longo horizonte – rastreamento de cena, raciocínio temporal, fundamentação visual em minutos de filmagem – está agora em território de fronteira. Na compreensão da imagem, o MiMo-V2.5 atinge 81,0 no CharXiv RQ e 77,9 no MMMU-Pro, aproximando-se do Gemini 3 Pro.

O preço é simples: o MiMo-V2.5 funciona a 1x (1 token = 1 crédito), enquanto o MiMo-V2.5-Pro ​​funciona a 2x (1 token = 2 créditos). Os Planos de Token não cobram mais um multiplicador pela janela de contexto de 1 milhão de tokens — anteriormente um atrito de custo comum para cargas de trabalho de agente de contexto longo.

Principais conclusões

  • MiMo-V2.5-Pro ​​combina com modelos de código fechado de fronteira nos principais benchmarks de agentes (SWE-bench Pro 57.2, Claw-Eval 63.8, τ3-Bench 72.9), enquanto usa 40–60% menos tokens por trajetória do que Claude Opus 4.6, Gemini 3.1 Pro e GPT-5.4.
  • A autonomia a longo prazo é real e mensurável – V2.5-Pro ​​construiu de forma autônoma um compilador SysY completo em Rust (233/233 testes, 672 chamadas de ferramentas, 4,3 horas) e um editor de vídeo para desktop completo (8.192 linhas de código, 1.868 chamadas de ferramentas, 11,5 horas).
  • MiMo-V2.5 é nativamente omnimodal – treinado do zero para ver, ouvir e agir em todas as modalidades com uma janela de contexto nativa de 1 milhão de tokens, igualando Claude Sonnet 4.6 no Claw-Eval Multimodal e quase empatando com Gemini 3 Pro no Video-MME (87,7 vs. 88,4).
  • Desempenho de codificação de nível profissional pela metade do custo — no MiMo Coding Bench, o MiMo-V2.5 corresponde ao MiMo-V2.5-Pro ​​em tarefas diárias de codificação com preço de token de 1x, tornando-o a escolha prática para a maioria dos pipelines de agentes de produção.
  • Ambos os modelos são já compatível com estruturas de agente populares, como Claude Code, OpenCode e Kilo – proporcionando aos desenvolvedores de IA um caminho imediato, auditável e auto-hospedado para a IA de agente de nível de fronteira.

Confira o Detalhes técnicos MiMo-V2.5e Detalhes técnicos MiMo-V2.5-Pro. Além disso, sinta-se à vontade para nos seguir no Twitter e não se esqueça de participar do nosso SubReddit de 130k + ML e inscreva-se em nosso boletim informativo. Espere! você está no telegrama? agora você também pode se juntar a nós no telegrama.

Precisa fazer parceria conosco para promover seu repositório GitHub OU Hugging Face Page OU lançamento de produto OU webinar etc.? Conecte-se conosco


💡 Insight NeuralNet: A adoção de IA deve ser estratégica, não apenas tecnológica. Priorize ferramentas com transparência, ética e alinhamento aos objetivos do seu negócio ou carreira.

📈 Tendências e Aplicações em Destaque

Área de IA Aplicação Prática Maturidade no Brasil Potencial
IA Generativa Criação de conteúdo, código e design 🟡 Em expansão ⭐⭐⭐⭐⭐
Machine Learning Análise preditiva, automação de processos 🟢 Consolidado ⭐⭐⭐⭐
IA Ética & Governança Compliance, auditoria de algoritmos 🔵 Emergente ⭐⭐⭐⭐⭐

⚠️ Aviso Importante: Este conteúdo é apenas para fins educacionais e informativos. Não constitui aconselhamento técnico, jurídico ou profissional. Tecnologias de IA evoluem rapidamente e podem apresentar limitações, vieses ou riscos. Sempre valide informações em fontes oficiais e use ferramentas de IA com responsabilidade e crítica.

Fontes: www.marktechpost.com | arXiv | MIT Technology Review | Dados de mercado
Publicado em: 2026-04-23 03:46:00 | Traduzido e adaptado por: NeuralNet
Link original: Ver matéria completa na fonte

Tags: Inteligência Artificial, Machine Learning, IA Generativa, Automação, Ética em IA, Tecnologia, Inovação, Brasil, LLM, Deep Learning

Share this content: