A inteligência artificial que estuda o mundo sozinha – The BRIEF

Um novo estudo das universidades de Hong Kong e Berkeley desafia um dos dogmas do treinamento de inteligência artificial: a necessidade de exemplos rotulados por humanos. A pesquisa mostra que modelos de linguagem (LLMs) e visão (VLMs) generalizam melhor quando aprendem por reforço, sem depender de dados pré-formatados

Em testes, modelos treinados com reforço foram mais eficazes em tarefas novas, enquanto os ajustados com supervisão humana apenas memorizaram regras específicas. Isso não significa que o aprendizado supervisionado (SFT) seja inútil. Segundo os pesquisadores, ele ajuda a estabilizar a saída dos modelos e a preparar o terreno para que o aprendizado por reforço (RL) funcione bem. Mas o estudo reforça a tendência já explorada por modelos como o DeepSeek-R1, concorrente da OpenAI, que aposta no aprendizado autônomo para resolver problemas complexos.

Leia mais…

Related posts

Smart TV, Galaxy S25, Tab S10 e mais ofertas Samsung no Esquenta Pay Day do Magalu

Nvidia GeForce Now recebe mais de 20 jogos em novembro! Veja lista

Novo golpe do WhatsApp usa compartilhamento de tela pra roubar contas bancárias