IA em Hardware Antigo: Um Projeto Gloriosamente Absurdo!

Desenvolvedor Windows executa modelo Transformer em PDP-11 de 47 anos com CPU de 6 MHz e 64KB de RAM, desmistificando a “magia” da IA.

A “Magia” da IA Desmistificada

  • Dave Plummer, um veterano desenvolvedor Windows, demonstra um modelo Transformer rodando em um PDP-11 de 47 anos.
  • O objetivo? Expor o “segredo sujo” da IA e mostrá-la em sua forma mais básica.
  • Seu sistema, com CPU de 6 MHz e 64KB de RAM, executa o ‘Attention 11’, um modelo escrito em linguagem assembly PDP-11.

Aprendizado Estrutural em Miniatura

  • A tarefa do PDP-11: inverter uma sequência de oito dígitos.
  • O modelo precisa aprender uma regra estrutural, similar ao funcionamento dos LLMs modernos.
  • Dave argumenta que a essência da IA pode ser reduzida e compreendida em máquinas antigas.

Não é Mágica, é Aritmética

  • “Não é mágica da IA. É a máquina atualizando repetidamente a força de milhares de pequenos links ponderados.”
  • O modelo ‘Attention 11’ possui apenas 1.216 parâmetros.
  • Otimizações incluem matemática de ponto fixo e precisão de 8 bits para o ‘forward pass’.

Resultados Impressionantes e Lições Valiosas

  • O modelo alcançou 100% de precisão na tarefa de inversão em cerca de 350 passos de treinamento.
  • Isso levou aproximadamente 3,5 minutos no PDP-11/44.
  • A “anatomia do aprendizado” é observada: o modelo evolui de “adivinhar” para “saber”.
  • Dave enfatiza que a IA moderna é a mesma técnica mecânica, mas em escala massiva.

Eficiência é a Chave para o Futuro da IA

  • Plummer conclui que a obsessão por eficiência e otimização pode ser uma vantagem crucial.
  • Isso é especialmente relevante considerando a crescente demanda por recursos computacionais.
Baseado no artigo de Tom’s Hardware