Explicando o polêmico paper da APPLE
LRMs apresentam limitações a partir de certas complexidades, assim como os LLMs.
Em alguns casos, performam pior que LLMs. É sabido que LRMs por vezes apresentam raciocínio distante da resposta mostrada e que também às vezes “pensam demais” e retornam mais conteúdo que o necessário.Objetivo dos autores: analisar as limitações dos LRMs.
LRMs são modelos que aplicam a técnica chamada reasoning, equivalente humano a “pensar”.
Um exemplo open source e popular de modelo que usa essa estratégia é o DeepSeek, sobre o qual escrevi antes.Limitações dos mecanismos de avaliação:
Segundo o trabalho, os mecanismos atuais de avaliação dos modelos capazes de realizar reasoning não produzem análises robustas sobre as limitações dos LRMs.
Uma das razões é a contaminação dos dados, porém o foco da pesquisa não é criar um novo benchmarking.Solução proposta:
Os autores apresentam os controllable puzzle environments, usados anteriormente, e escolhidos aqui apenas para medir as limitações dos Large Reasoning Models.Comparação LLMs vs LRMs:
O trabalho encontrou três cenários:- Em tarefas simples, LLMs são preferíveis.
- LRMs performam melhor que LLMs em tarefas intermediárias.
- A partir de certo ponto, ambos colapsam, inclusive os LRMs.
Colapso dos LRMs:
O fato de LRMs colapsarem a partir de certo ponto demonstra uma limitação de escalabilidade.Conclusão:
Apesar das limitações do trabalho, os autores demonstram — através dos controllable puzzle environments — que LRMs possuem limites em sua escalabilidade, colapsando à medida que a complexidade das tarefas aumenta.
São esperadas novas avaliações sobre como entendemos o reasoning nos LRMs.