IA em Hardware Antigo: Um Projeto Gloriosamente Absurdo!

Desenvolvedor Windows executa modelo Transformer em PDP-11 de 47 anos com CPU de 6 MHz e 64KB de RAM, desmistificando a “magia” da IA.

A “Magia” da IA Desmistificada

Dave Plummer, um veterano desenvolvedor Windows, demonstra um modelo Transformer rodando em um PDP-11 de 47 anos.
O objetivo? Expor o “segredo sujo” da IA e mostrá-la em sua forma mais básica.
Seu sistema, com CPU de 6 MHz e 64KB de RAM, executa o ‘Attention 11’, um modelo escrito em linguagem assembly PDP-11.

Aprendizado Estrutural em Miniatura

A tarefa do PDP-11: inverter uma sequência de oito dígitos.
O modelo precisa aprender uma regra estrutural, similar ao funcionamento dos LLMs modernos.
Dave argumenta que a essência da IA pode ser reduzida e compreendida em máquinas antigas.

Não é Mágica, é Aritmética

“Não é mágica da IA. É a máquina atualizando repetidamente a força de milhares de pequenos links ponderados.”
O modelo ‘Attention 11’ possui apenas 1.216 parâmetros.
Otimizações incluem matemática de ponto fixo e precisão de 8 bits para o ‘forward pass’.

Resultados Impressionantes e Lições Valiosas

O modelo alcançou 100% de precisão na tarefa de inversão em cerca de 350 passos de treinamento.
Isso levou aproximadamente 3,5 minutos no PDP-11/44.
A “anatomia do aprendizado” é observada: o modelo evolui de “adivinhar” para “saber”.
Dave enfatiza que a IA moderna é a mesma técnica mecânica, mas em escala massiva.

Eficiência é a Chave para o Futuro da IA

Plummer conclui que a obsessão por eficiência e otimização pode ser uma vantagem crucial.
Isso é especialmente relevante considerando a crescente demanda por recursos computacionais.

Baseado no artigo de Tom’s Hardware