DeepSeek R1 tem momento divertido durante treinamento com desenvolvedores

O DeepSeek já estava rindo à toa antes de fazer empresas de tecnologia dos EUA perderem US$ 1 trilhão na última segunda-feira (27). Isto foi demonstrado pela equipe responsável por treinar a IA em um artigo publicado no GitHub, onde o DeepSeek teve o que ele chamou de “momento aha” ao se divertir com uma equação matemática.

O “momento aha” foi presenciado durante uma sessão de aprendizado de reforço (RL) para aprimorar as habilidades de raciocínio de IA do DeepSeek. Nela, a IA deve solucionar a equação para receber uma recompensa e melhorar a si mesma, o que torna o seu treinamento mais barato e eficiente que o do ChatGPT da OpenAI.

Confira o trecho da cadeia de raciocínio do DeepSeek onde ele rotulou o momento inesperado como se ele estivesse rindo (em vermelho):

Clique aqui para ler mais

Adicionar aos favoritos o Link permanente.