Pesquisadores da Brown University (EUA) desenvolveram um sistema que permite que robôs encontrem objetos em ambientes complexos utilizando não apenas linguagem, mas, também, gestos humanos, como apontar e direcionar o olhar.
No cotidiano, a comunicação entre pessoas vai além das palavras. Gestos, olhares e o contexto compartilhado ajudam a transmitir significados de forma natural. No entanto, para robôs, interpretar esse tipo de interação ainda representa um grande desafio, especialmente em ambientes com muitos objetos, movimento e itens parcialmente ocultos.
Segundo os pesquisadores, embora robôs já consigam identificar objetos, situações com desordem visual, duplicidade de itens e oclusões aumentam significativamente a incerteza durante a busca.
Para lidar com esse problema, a equipe desenvolveu um sistema que integra linguagem, gestos, apontamento e direção do olhar em um único processo de tomada de decisão. A proposta é permitir que os robôs lidem com a incerteza de forma mais próxima à humana, sem assumir que possuem informações completas.
Em testes de laboratório, o sistema foi capaz de identificar corretamente o objeto desejado em 89% das vezes, superando outras abordagens de busca.
“A busca por objetos exige que um robô navegue por ambientes extensos”, afirmou, ao Earth.com, Ivy He, estudante de pós-graduação da Brown e autora principal do estudo. Ela destaca que, apesar dos avanços, fatores, como desordem, movimento e obstruções tornam a tarefa muito mais difícil. “Este trabalho consiste em usar tanto a linguagem quanto os gestos para auxiliar nessa tarefa de busca”, completou.
Robôs aprendendo a entender gestos humanos
- No mundo real, robôs frequentemente lidam com informações incompletas;
- Objetos podem ser semelhantes entre si, múltiplos itens idênticos podem estar presentes em um mesmo espaço e parte da cena pode estar escondida. Em situações como quando uma pessoa diz “o vermelho”, mas há vários objetos dessa cor, a ambiguidade se torna um obstáculo;
- Sem mecanismos adequados para lidar com essa incerteza, robôs tendem a travar por indecisão ou agir de forma precipitada, escolhendo o objeto errado com confiança excessiva;
- Para resolver isso, os pesquisadores utilizaram um modelo de planejamento conhecido como processo de decisão de Markov parcialmente observável (POMDP, na sigla em inglês);
- Nesse modelo, o robô trabalha com probabilidades, mantendo uma estimativa contínua sobre o que é mais provável ser verdadeiro. À medida que coleta novas informações, ele atualiza essa “crença” e toma decisões que ajudam a reduzir a ambiguidade, como se mover para obter um melhor ângulo de visão antes de agir.
Um dos avanços centrais do estudo foi a integração de gestos ao mesmo sistema matemático utilizado para linguagem. Para isso, Ivy He se inspirou em pesquisas conduzidas no Brown Dog Lab, liderado pela cientista cognitiva Daphna Buchsbaum.
Leia mais:
- 7 aplicativos que usam IA para você testar no dia a dia
- 4 melhores inteligências artificiais para criar e editar vídeos
- Robôs aprendem a usar ferramentas apenas assistindo vídeos
Como o sistema ajuda o robô
Cães são conhecidos por sua habilidade em interpretar gestos humanos, especialmente o ato de apontar. No entanto, eles não tratam o gesto como uma indicação exata, mas como uma informação ambígua que deve ser interpretada em conjunto com o contexto.
A partir dessa observação, os pesquisadores desenvolveram um modelo que interpreta o gesto de apontar como um “cone de probabilidade”, ou seja, uma região onde o objeto desejado provavelmente se encontra, em vez de uma direção exata.
O modelo também leva em consideração outros aspectos da comunicação humana, como o olhar e a posição do braço. Os pesquisadores identificaram que o alinhamento entre o olhar e o gesto de apontar ajuda a indicar com mais precisão a intenção da pessoa.
“O que descobrimos é que os humanos usam o olhar para se alinhar com aquilo para o qual estão apontando”, afirmou Ivy He. “Assim, foi natural criar um cone com base em uma linha que ligava o olho ao cotovelo e ao pulso”, explicou.
Segundo Daphna Buchsbaum, o trabalho traduz a capacidade intuitiva dos cães de interpretar sinais humanos para um modelo probabilístico aplicado à robótica. “Este trabalho traduz a compreensão intuitiva do cão sobre o olhar e o apontar humanos em um modelo probabilístico”, disse.
Além dos gestos, o sistema incorpora um modelo de visão e linguagem (VLM, na sigla em inglês), capaz de interpretar imagens em conjunto com descrições em linguagem natural. Dessa forma, o robô pode processar comandos, como “pegue a garrafa azul” enquanto analisa o ambiente ao redor.
A principal inovação está na integração dessas diferentes fontes de informação em um único sistema baseado em probabilidades. Em vez de tratar linguagem e gestos como comandos separados, o robô os interpreta como evidências complementares: o gesto ajuda a restringir onde procurar, enquanto a linguagem indica o que procurar.
Nos experimentos, realizados com um robô quadrúpede em um ambiente com objetos espalhados, o uso combinado de linguagem e gestos resultou em taxas de acerto próximas a 90%, superando o desempenho obtido quando apenas um dos recursos era utilizado isoladamente.
Para os pesquisadores, os resultados indicam um avanço importante na direção de robôs capazes de atuar como assistentes em ambientes domésticos e profissionais, ajudando a recuperar objetos, buscar ferramentas ou operar em situações em que instruções perfeitas não são possíveis.
“A estrutura que desenvolvemos ajuda a pavimentar o caminho para uma interação multimodal perfeita entre humanos e robôs”, afirmou Jason Liu, coautor do estudo. “No futuro, poderemos nos comunicar com nossos robôs assistentes da mesma forma que as pessoas interagem — por meio da linguagem, gestos, contato visual e demonstrações”, disse.
Ellie Pavlick, também pesquisadora da Brown, destacou que o estudo demonstra como a integração entre ciência da computação e ciência cognitiva pode tornar a interação entre humanos e máquinas mais natural. “Este é um excelente exemplo de como podemos viabilizar uma interação humano-máquina mais natural, combinando ciência da computação e ciência cognitiva”, pontuou.
O trabalho foi apresentado na International Conference on Human-Robot Interaction e aponta que o futuro da robótica passa não apenas por avanços em sensores e modelos de linguagem, mas, também, por uma melhor compreensão de como os humanos realmente se comunicam.
Ao incorporar gestos, olhares e contexto, os robôs se aproximam de uma comunicação mais intuitiva — semelhante à forma como as pessoas interagem entre si no dia a dia.
O post Robôs aprendem a encontrar objetos com gestos humanos simples apareceu primeiro em Olhar Digital.