O governo dos EUA afirma que os melhores modelos de IA da China ficaram para trás. Especialistas não têm tanta certeza

O governo dos EUA afirma que os melhores modelos de IA da China ficaram para trás. Especialistas não têm tanta certeza

Um relatório do governo dos EUA afirma que a IA mais avançada da China está “8 meses atrás” — mas e se a metodologia usada para medir esse gap estiver escondendo a verdadeira corrida tecnológica? Neste artigo, revelamos os bastidores da avaliação do CAISI/NIST sobre o DeepSeek V4 Pro: por que dois benchmarks secretos podem distorcer a comparação e como os dados públicos contam uma história radicalmente diferente.

Você entenderá o que é a Teoria de Resposta ao Item (IRT) — o sistema de pontuação que redefine “capacidade” em IA — e por que especialistas estão questionando suas conclusões. Com base em análises do Stanford AI Index e do Artificial Analysis Intelligence Index, separamos fato técnico de ruído geopolítico para que você forme sua própria opinião fundamentada. Cada parágrafo foi estruturado com clareza progressiva: da controvérsia inicial às implicações reais para inovação, segurança e competitividade global.

Se você busca antecipar tendências em IA sem cair em manchetes alarmistas, os próximos minutos de leitura são um investimento estratégico em seu repertório crítico. Descubra também por que o custo por token pode ser um indicador mais relevante que pontuações abstratas — e como isso impacta desenvolvedores, investidores e políticas públicas.

Continue lendo para dominar os dois lados dessa disputa e entender se o “fosso” entre EUA e China está se ampliando… ou desaparecendo diante dos seus olhos.

Resumo NeuralNet:

Entenda os impactos práticos para investidores, traders e empresas no Brasil.

Leitura: 3-4 min | Atualizado: 2026-05-04 18:58:00 | Categoria: Criptomoedas




O Que Isso Significa para o Investidor Brasiliano?

Com a Instrução Normativa 1.888/2022 da Receita Federalista e a recente regulamentação do mercado de criptoativos (Lei 14.478/2022), movimentos do mercado global impactam diretamente quem opera no Brasil. Fique cauteloso a:

  • Tributação: Operações supra de R$ 35 milénio/mês têm incidência de IR (15-22,5%)
  • Exchanges reguladas: Priorize plataformas registradas na CVM para maior segurança jurídica
  • Adoção institucional: Bancos e fintechs brasileiras ampliam oferta de cripto para clientes
  • Autocustódia: Entenda a diferença entre deixar em exchange vs. carteira própria (hardware wallet)

  • A avaliação da CAISI classificou o DeepSeek V4 Pro oito meses detrás da fronteira dos EUA, usando um sistema de pontuação fundamentado em IRT em nove benchmarks, incluindo dois conjuntos de dados privados e não verificáveis.
  • A verificação de custos excluiu todos os modelos dos EUA considerados muito caros ou muito fracos – deixando somente o GPT-5.4 mini, contra o qual o DeepSeek ainda era mais barato em cinco dos sete benchmarks.
  • O Índice AI de 2026 de Stanford descobriu que a diferença de desempenho entre EUA e China nas tabelas de classificação públicas caiu para 2,7%.

Um instituto do governo dos EUA publicou o seu veredicto sobre a IA mais poderosa da China: há oito meses de tardada e, quanto mais o tempo passa, maior se torna a diferença. A internet leu a metodologia e começou a fazer perguntas.

CAISI – o Núcleo de Padrões e Inovação de IA, uma unidade dentro do NIST –divulgou sua avaliação do DeepSeek V4 Pro em 1º de maio. A peroração: o carro-chefe de peso lhano do DeepSeek “está murado de 8 meses detrás da fronteira”.

A CAISI também o considera o protótipo chinês de IA mais capaz que já avaliou até o momento.

O sistema de pontuação

O CAISI não calcula a média das pontuações de benchmark uma vez que a maioria dos avaliadores faz. Em vez disso, aplica a Teoria de Resposta ao Item – um método estatístico de testes padronizados – para prezar a capacidade latente de cada protótipo, rastreando quais problemas ele resolve e quais não resolve, em nove benchmarks em cinco domínios: segurança cibernética, engenharia de software, ciências naturais, raciocínio abstrato e matemática.

As pontuações Gavinha estimadas pelo IRT: GPT-5.5 com 1.260 pontos, Claude Opus da Anthropic 4.6 com 999. DeepSeek V4 Pro pontua em torno de 800 (± 28), o que é muito próximo do GPT-5.4 mini com 749. No sistema CAISI, DeepSeek fica mais próximo da antiga geração de GPT mini do que do Opus.

O sistema de pontos na pontuação dos benchmarks modela a forma uma vez que os testes padronizados pontuam os alunos – não pela percentagem bruta de acertos, mas pela ponderação dos problemas que resolvem e dos que falham, produzindo uma estimativa de pontos que só significa um pouco em relação a outros modelos na mesma avaliação. Quanto mais pontos, melhor é o protótipo em termos gerais, sendo a melhor pontuação do protótipo o ponto de referência para ver a capacidade de um protótipo.

O-governo-dos-EUA-afirma-que-os-melhores-modelos-de.png@webp O governo dos EUA afirma que os melhores modelos de IA da China ficaram para trás. Especialistas não têm tanta certeza

É impossível reproduzir os resultados do CAISI porque dois dos nove benchmarks não são públicos e é nesses dois benchmarks que a diferença é maior. Por exemplo, GPT-5.5 obteve pontuação de 71% no CTF-Archive-Diamond, um dos testes de segurança cibernética do CAISI, com DeepSeek registrando murado de 32%.

Nos benchmarks públicos, o quadro muda. GPQA-Diamond – raciocínio científico em nível de doutorado, pontuado uma vez que porcentagem correta – colocou o DeepSeek em 90%, um ponto detrás dos 91% do Opus 4.6. Os benchmarks das olimpíadas de matemática (OTIS-AIME-2025, PUMaC 2024, SMT 2025) colocam o DeepSeek em 97%, 96% e 96%. No SWE-Bench Verified – correções reais de bugs do GitHub, pontuadas uma vez que porcentagem resolvida – DeepSeek marcou 74% contra 81% do GPT-5.5. O próprio relatório técnico do DeepSeek afirma que o V4 Pro corresponde ao Opus 4.6 e ao GPT-5.4.

Para verificação de custos, o CAISI filtrou qualquer protótipo dos EUA que teve desempenho significativamente pior ou custou significativamente mais por token do que o DeepSeek. Exclusivamente um protótipo ultrapassou a barreira: GPT-5.4 mini. Essa é toda a fronteira dos EUA, filtrada em uma única ingressão.

O DeepSeek saiu mais barato em 5 dos 7 benchmarks, superando até mesmo o protótipo de IA mais ínfimo e menos capaz da OpenAI.

1777922245_198_O-governo-dos-EUA-afirma-que-os-melhores-modelos-de.png@webp O governo dos EUA afirma que os melhores modelos de IA da China ficaram para trás. Especialistas não têm tanta certeza

O contra-argumento: a diferença é maior ou menor?

Criticar a metodologia do CAISI não justifica totalmente o DeepSeek. O desenvolvedor de IA sob o pseudônimo Ex0bit recuado diretamente: “Não há ‘vazio’ e ninguém está 8 meses procrastinado. Fomos monitorados em cada queda fechada nos EUA e flexionados com pesos abertos.”

O Índice de Lucidez de Estudo Sintético v4.0 – um sistema de classificação que rastreia a lucidez do protótipo de fronteira em 10 avaliações – mostra OpenAI perto de 60 pontos e DeepSeek na morada dos 50 em maio de 2026, muito mais compactado do que há um ano.

Com base em benchmarks padronizados, a sua metodologia mostra que a diferença está, na verdade, a diminuir.

1777922246_695_O-governo-dos-EUA-afirma-que-os-melhores-modelos-de.png@webp O governo dos EUA afirma que os melhores modelos de IA da China ficaram para trás. Especialistas não têm tanta certeza
1777922247_507_O-governo-dos-EUA-afirma-que-os-melhores-modelos-de.png@webp O governo dos EUA afirma que os melhores modelos de IA da China ficaram para trás. Especialistas não têm tanta certeza

Quando o DeepSeek surgiu pela primeira vez em Janeiro de 2025, a questão era se a China já tinha restaurado o tardada. Os laboratórios dos EUA se esforçaram para responder. Stanford Índice de IA de 2026—lançado em 13 de abril—relata que a diferença na tábua de classificação da Estádio entre Claude Opus 4.6 e o ​​Dola-Seed-2.0 Preview da China está diminuindo, separados agora por somente 2,7%.

A CAISI planeja lançar um cláusula mais completo sobre a metodologia IRT em um horizonte próximo.

 

Resumo Quotidiano Boletim informativo

Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.



Insight NeuralNet:

Criptomoedas são ativos de subida volatilidade. Nunca invista mais do que pode perder e sempre faça sua própria pesquisa (DYOR – Do Your Own Research). Diversificação e estratégia de longo prazo reduzem riscos.



Tendências do Mercado Crypto em Destaque

Ativo/Categoria Catalisador Recente Situação no Brasil Potencial
₿ Bitcoin (BTC) ETFs nos EUA, Halving, adoção institucional Liquidez subida em exchanges BR
Ethereum (ETH) Atualizações da rede, staking, Layer 2 Ecossistema DeFi em prolongamento
Stablecoins (USDT, USDC) Reservas auditadas, regulação global Uso crescente para proteção contra volatilidade
Altcoins & DeFi Inovação em yield, governança, interoperabilidade Cumeeira risco; exige pesquisa profunda

* Potencial fundamentado em estudo de mercado. Não é recomendação de investimento.

Computacao-Quantica-e-IA-1 O governo dos EUA afirma que os melhores modelos de IA da China ficaram para trás. Especialistas não têm tanta certeza

Aprofunde-se no NeuralNet:



Aviso Lícito e de Risco:

Oriente teor é estritamente educativo e informativo. Não constitui aconselhamento financeiro, jurídico ou recomendação de investimento. Criptoativos são voláteis e podem suportar variações bruscas de valor. Rentabilidade passada não garante retornos futuros.
Recomendações: (1) Faça sua própria pesquisa (DYOR); (2) Diversifique; (3) Use somente capital que pode perder; (4) Consulte um advisor financeiro credenciado para decisões pessoais.



Fontes Verificadas:
decrypt.co | CoinGecko | CoinMarketCap | CVM | Receita Federalista | Blockchain explorers Publicado em: 2026-05-04 18:58:00 |
Curadoria: NeuralNet |
Original: Ver matéria completa na fonte



Share this content: