Google DeepMind apresenta DiLoCo

Google DeepMind Revoluciona Treinamento com DiLoCo | NeuralNet IA

Google DeepMind apresenta DiLoCo: arquitetura distribuída que elimina sincronização rígida e permite treinar modelos de IA em data centers geograficamente dispersos. Descubra como ilhas de computação assíncronas tornam o treinamento de LLMs mais resiliente, escalável e eficiente em custos.

📊 Resumo: Veja abaixo a análise completa e os impactos práticos para profissionais e empresas no Brasil.

Tempo de leitura: 3-5 minutos | Atualizado em 2026-04-24 04:40:00


🇧🇷 O Que Isso Significa para o Brasil?

Com o crescimento do ecossistema de IA no país e discussões sobre regulação (PL 2338/2023), avanços em inteligência artificial, machine learning e automação impactam diretamente profissionais, startups e empresas brasileiras. Fique atento a:

  • 🎓 Capacitação profissional: Demanda por habilidades em IA cresce 3x ao ano no mercado brasileiro
  • ⚖️ Marco Regulatório: Proposta de lei sobre IA pode afetar desenvolvimento e uso de ferramentas
  • 🏢 Adoção empresarial: Setores como saúde, jurídico e financeiro lideram implementação de IA no Brasil

Análise Completa

O treinamento de modelos de IA de fronteira é, em sua essência, um problema de coordenação. Milhares de chips devem se comunicar continuamente entre si, sincronizando cada atualização de gradiente na rede. Quando um chip falha ou até fica lento, todo o treino pode parar. À medida que os modelos atingem centenas de milhares de milhões de parâmetros, essa fragilidade torna-se cada vez mais insustentável. O Google DeepMind agora propõe um modelo totalmente diferente.

Pesquisadores do Google DeepMind apresentados DiLoCo desacoplado (Distributed Low-Communication), uma arquitetura de treinamento distribuída que separa a computação em “ilhas” assíncronas e isoladas por falhas, permitindo o pré-treinamento de grandes modelos de linguagem em data centers geograficamente distantes sem exigir a sincronização rígida que torna as abordagens convencionais frágeis em escala.

O problema do treinamento distribuído tradicional

Para entender por que o DiLoCo dissociado é importante, é útil entender como o treinamento distribuído normalmente funciona. Padrão Dados paralelos o treinamento replica um modelo em vários aceleradores (GPUs ou TPUs), cada um processando um minilote diferente de dados. Após cada passagem para frente e para trás, a média dos gradientes deve ser calculada em cada dispositivo – um processo chamado TudoReduzir – antes que a próxima etapa do treinamento possa começar. Esta etapa de sincronização de bloqueio significa que cada dispositivo deve esperar pelo mais lento. Em milhares de chips que abrangem vários data centers, esse gargalo não é apenas inconveniente; torna o treinamento em escala global efetivamente impraticável.

A largura de banda é outra restrição difícil. O treinamento convencional de dados paralelos requer aproximadamente 198 Gbps de largura de banda entre datacenters em oito data centers — muito além do que a rede de área ampla (WAN) padrão pode suportar entre instalações distribuídas geograficamente.

Como funciona o DiLoCo desacoplado

O DiLoCo dissociado baseia-se em dois sistemas anteriores do Google. O primeiro é Caminhosque introduziu um sistema de IA distribuído baseado em fluxo de dados assíncrono, permitindo que diferentes recursos de computação funcionassem em seu próprio ritmo, sem bloquear uns aos outros. O segundo é DiLoCoque reduziu drasticamente a largura de banda entre datacenters necessária para o treinamento distribuído, fazendo com que cada trabalhador executasse muitas etapas de gradiente local antes de se comunicar com os pares, reduzindo drasticamente a quantidade de dados necessária para fluir entre os datacenters.

DiLoCo dissociado reúne as duas ideias. Construído com base no Pathways, o treinamento é dividido em grupos separados de aceleradores chamados unidades de aprendizagem – as ‘ilhas’ da computação. Cada unidade de aprendizagem treina de forma semi-independente, executando muitas etapas locais, antes de compartilhar um sinal de gradiente compactado com um otimizador externo que agrega atualizações em todas as unidades de aprendizagem. Como essa etapa de sincronização externa é assíncrona, uma falha de chip ou uma unidade de aprendizagem lenta em uma ilha não impede que as outras continuem o treinamento.

A economia de largura de banda é dramática. O DiLoCo desacoplado reduz a largura de banda necessária entre datacenters de 198 Gbps para apenas 0,84 Gbps em oito data centers – várias ordens de magnitude mais baixas – tornando-o compatível com a conectividade padrão em escala de Internet entre instalações de datacenters, em vez de exigir infraestrutura de rede personalizada de alta velocidade.

Autocura por meio da engenharia do caos

Uma das propriedades tecnicamente mais significativas do DiLoCo Decoupled é a sua tolerância a falhas. A equipe de pesquisa usou engenharia do caosum método que introduz deliberadamente falhas artificiais de hardware em um sistema em execução para testar sua robustez durante execuções de treinamento. O sistema continuou o treinamento após a perda de unidades inteiras de alunos e, em seguida, reintegrou perfeitamente essas unidades quando elas voltaram a ficar online. Este comportamento é o que a equipe de pesquisa descreve como “autocura”.

Em simulações envolvendo 1,2 milhão de chips sob altas taxas de falhas, o Decoupled DiLoCo manteve um boa colocação (a fração de tempo que o sistema está realizando treinamento útil) de 88%, em comparação com apenas 27% para métodos paralelos de dados padrão. Goodput é a métrica prática que importa aqui: uma execução de treinamento com alta computação nominal, mas baixo goodput desperdiça recursos significativos.

1777034957_629_Google-DeepMind-apresenta-DiLoCo-desacoplado-uma-arquitetura-de-treinamento-assincrona Google DeepMind Revoluciona Treinamento com DiLoCo | NeuralNet IA1777034957_629_Google-DeepMind-apresenta-DiLoCo-desacoplado-uma-arquitetura-de-treinamento-assincrona Google DeepMind Revoluciona Treinamento com DiLoCo | NeuralNet IA
https://deepmind.google/blog/decoupled-diloco/?

De forma crítica, esses ganhos de resiliência acarretam degradação mínima na qualidade do modelo. Em experimentos do mundo real usando Gema 4 modelos, o Decoupled DiLoCo alcançou uma precisão média de benchmark de ML de 64,1%, em comparação com 64,4% para a linha de base convencional – uma diferença bem dentro do ruído da variância de avaliação típica.

Treinando um modelo 12B em quatro regiões dos EUA

A equipe de pesquisa validou o DiLoCo dissociado em escala de produção treinando com sucesso um Modelo de 12 bilhões de parâmetros em quatro regiões distintas dos EUA usando apenas 2 a 5 Gbps de rede de área ampla, um nível de largura de banda alcançável com a infraestrutura comercial de Internet existente entre instalações de data center. O sistema conseguiu isso mais de 20 vezes mais rápido que os métodos convencionais de sincronização. O principal motivo: em vez de forçar a pausa da computação e aguardar a conclusão da comunicação, o Decoupled DiLoCo incorpora a comunicação necessária em períodos mais longos de computação, eliminando os gargalos de “bloqueio” que tornam o treinamento distribuído convencional lento em escala global.

Misturando Gerações de Hardware

Uma implicação subestimada da arquitetura é o seu suporte a hardware heterogêneo. Como as unidades de aprendizagem operam de forma assíncrona, elas não precisam ser executadas em hardware idêntico e na mesma velocidade de clock. A equipe de pesquisa demonstrou execuções de treinamento que misturaram TPU v6e e TPU v5p chips — diferentes gerações de hardware com diferentes características de desempenho — em um único trabalho de treinamento, sem degradar o desempenho de ML em relação a execuções homogêneas.

Isto tem duas consequências práticas dignas de nota. Primeiro, prolonga a vida útil do hardware existente, permitindo que aceleradores mais antigos continuem contribuindo significativamente para o treinamento em larga escala. Em segundo lugar, como as novas gerações de hardware não chegam a todos os lugares ao mesmo tempo, a capacidade de treinar entre gerações pode aliviar os recorrentes gargalos logísticos e de capacidade que surgem durante os períodos de transição de hardware — um verdadeiro desafio operacional em organizações que administram grandes infraestruturas de treinamento.

Principais conclusões

  • DiLoCo dissociado elimina o problema do ponto único de falha no treinamento de IA em larga escala dividindo o treinamento em “ilhas” de computação assíncronas e isoladas por falhas, chamadas unidades de aprendizagem – para que uma falha de chip ou cluster em uma ilha não atrapalhe o restante da execução do treinamento.
  • A arquitetura reduz os requisitos de largura de banda entre datacenters em ordens de magnitude — de 198 Gbps para 0,84 Gbps em oito data centers — tornando viável o pré-treinamento distribuído globalmente em redes de área ampla padrão, em vez de exigir infraestrutura personalizada de alta velocidade.
  • DiLoCo desacoplado é autocurável: usando a engenharia do caos para simular falhas reais de hardware, o sistema manteve 88% de bom desempenho em comparação com apenas 27% para o treinamento padrão de dados paralelos sob altas taxas de falha e reintegrado perfeitamente as unidades de aprendizagem off-line quando elas voltaram a ficar on-line.
  • A abordagem foi validada em escala de produçãotreinando com sucesso um modelo de 12 bilhões de parâmetros em quatro regiões dos EUA — conseguindo isso mais de 20 vezes mais rápido do que os métodos de sincronização convencionais, dobrando a comunicação em computação, em vez de tratá-la como uma etapa de bloqueio.
  • DiLoCo desacoplado suporta hardware heterogêneo em uma única execução de treinamentodemonstrado pela mistura de chips TPU v6e e TPU v5p sem degradação de desempenho — estendendo a vida útil de aceleradores mais antigos e aliviando gargalos de capacidade durante transições de geração de hardware.

Confira o Papel e Detalhes técnicos. Além disso, sinta-se à vontade para nos seguir no Twitter e não se esqueça de participar do nosso SubReddit de 130k + ML e inscreva-se em nosso boletim informativo. Espere! você está no telegrama? agora você também pode se juntar a nós no telegrama.

Precisa fazer parceria conosco para promover seu repositório GitHub OU Hugging Face Page OU lançamento de produto OU webinar etc.? Conecte-se conosco


💡 Insight NeuralNet: A adoção de IA deve ser estratégica, não apenas tecnológica. Priorize ferramentas com transparência, ética e alinhamento aos objetivos do seu negócio ou carreira.

📈 Tendências e Aplicações em Destaque

Área de IA Aplicação Prática Maturidade no Brasil Potencial
IA Generativa Criação de conteúdo, código e design 🟡 Em expansão ⭐⭐⭐⭐⭐
Machine Learning Análise preditiva, automação de processos 🟢 Consolidado ⭐⭐⭐⭐
IA Ética & Governança Compliance, auditoria de algoritmos 🔵 Emergente ⭐⭐⭐⭐⭐

⚠️ Aviso Importante: Este conteúdo é apenas para fins educacionais e informativos. Não constitui aconselhamento técnico, jurídico ou profissional. Tecnologias de IA evoluem rapidamente e podem apresentar limitações, vieses ou riscos. Sempre valide informações em fontes oficiais e use ferramentas de IA com responsabilidade e crítica.

Fontes: www.marktechpost.com | arXiv | MIT Technology Review | Dados de mercado
Publicado em: 2026-04-24 04:40:00 | Traduzido e adaptado por: NeuralNet
Link original: Ver matéria completa na fonte

Tags: Inteligência Artificial, Machine Learning, IA Generativa, Automação, Ética em IA, Tecnologia, Inovação, Brasil, LLM, Deep Learning

Share this content: