O que tem de tão especial no DeepSeek, o algoritmo que abalou o mundo?
A China surpreendeu pesquisadores ao lançar uma IA mais barata e eficiente
Alexandre Chiavegatto Filho/O Estado de São Paulo
Há pouco tempo, os avanços de inteligência artificial (IA) levavam alguns meses, ou até anos, para ter um impacto real na área. A arquitetura neural dos transformers, introduzida por Vaswani et al. no artigo Attention Is All You Need em 2017, só começou a demonstrar todo o seu potencial anos depois, principalmente após o lançamento do GPT-3 em 2020.
Porém, não estamos mais vivendo em tempos normais. O DeepSeek-R1, lançado na semana passada por uma startup chinesa, causou um impacto duplo na área: além de publicar o artigo DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, que detalha as suas inovações técnicas, disponibilizou o algoritmo de forma aberta e gratuita.
Ao contrário das LLMs tradicionais, que dependem de ajuste fino supervisionado (SFT) com o uso de dados rotulados, a DeepSeek adotou uma abordagem puramente de aprendizado por reforço (RL), realizando o seu treinamento por meio de interações com o ambiente e uma otimização baseada em diferentes graus de recompensas.
Essa estratégia, inicialmente tornada famosa pelo AlphaGo em 2016, permitiu que o algoritmo desenvolvesse capacidades autônomas de raciocínio em cadeia (CoT), auto-verificação e reflexão. Isso facilitou o encadeamento lógico de raciocínios e o ajuste contínuo das respostas, melhorando a sua resolução de problemas complexos sem a necessidade de uma supervisão direta como é feita pelas outras LLMs.
Segundo a DeepSeek, o treinamento do algoritmo levou apenas dois meses e custou menos de seis milhões de dólares. Em comparação, o último grande modelo lançado pela Meta teve um custo estimado de sessenta a setenta milhões de dólares, enquanto o GPT-4 da OpenAI provavelmente custou centenas de milhões de dólares. O DeepSeek-R1 foi treinado usando duas mil GPUs NVIDI A A100, uma fração do hardware necessário para modelos como o GPT-3, que exigiu dez mil GPUs, ou o GPT-4, estimado em vinte e cinco a trinta mil GPUs.
Além disso, graças à sua arquitetura mais enxuta, o DeepSeek-R1 consome até 50% menos energia do que modelos comparáveis, o que é muito importante em um mundo onde o impacto climático dos algoritmos será uma preocupação crescente.
Em termos de performance, o DeepSeek-R1 rivaliza com os principais algoritmos das big techs. Em benchmarks de raciocínio matemático, como o AIME 2024, alcançou uma pontuação de 79,8%, um pouco superior aos 79,2% do OpenAI o1. No MATH-500, obteve 97,3%, superando os 96,4% do mesmo concorrente. Em tarefas de codificação, como o Codeforces, o DeepSeek-R1 atingiu 96,3%, próximo aos 96,6% do OpenAI o1.
Por fim, por ser open-source, o DeepSeek-R1 democratizou o acesso a essas inovações, permitindo que pesquisadores de todo o mundo consigam utilizar a tecnologia. Para o Brasil, serve como uma inspiração de que, mesmo com recursos limitados, é possível participar da revolução tecnológica que está apenas começando.
Leia: Inteligência artificial chinesa DeepSeek passa ChatGPT em downloads https://lucianosiqueira.blogspot.com/2025/01/deepseek-em-cena.html
Nenhum comentário:
Postar um comentário