A Google disponibilizou nesta terça-feira (7) a primeira demonstração pública de uma tecnologia para ser usada no desenvolvimento de IAs agênticas. A novidade é um modelo de inteligência artificial (IA) chamado Gemini 2.5 Computer Use, capaz de realizar várias ações no computador de um usuário automaticamente.
Projetos parecidos já foram lançados por rivais como a Anthropic, dona do Claude, e a OpenAI. A Google diz que resultados em testes internos de desempenho, porém, colocam o seu próprio produto como superior em efetividade e baixa latência.
A ferramenta por enquanto só foi liberada ao público para testes em um ambiente controlado e limitado por meio deste link. Além disso, a Google divulgou vídeos que mostram exemplos de como empresas podem usar a tecnologia para gerar ações.
Desenvolvedores podem fazer os primeiros testes práticos pelas APIs do Gemini via Google AI Studio e Vertex AI.
Como funciona a IA de navegação da Google
O destaque do novo modelo está na capacidade de usar o computador do usuário, inclusive controlando o cursor e digitando conteúdos. A IA pode fazer uma série de tarefas básicas de navegação em um site, dependendo da complexidade do comando.
As ações envolvem rolagem de tela, cliques, digitação (como ao preencher um formulário) e até arrastar itens, caso o site em questão permita esse tipo de uso. Outros comandos mais complexos podem ser adicionados com o tempo.
Os exemplos publicados pela empresa foram acelerados em três vezes nos vídeos, para a visualização ser mais dinâmica — atualmente, o processamento e o tempo de execução de cada ação ainda leva alguns segundos para cada etapa. Eles incluem as seguintes tarefas:
- Do ‘site X’ de cadastro de cuidado com animais, pegue todos os detalhes de cada bichinho de estimação situado na Califórnia e coloque eles como hóspedes no meu sistema de spa no ‘site Y’. Depois, agende uma consulta de acompanhamento com o especialista Anima Lavar para o dia 10 de outubro, a qualquer hora após as 8h. O motivo da consulta é o mesmo do tratamento que for solicitado.
- Meu clube de arte fez um brainstorming de tarefas antes da nossa conferência. O quadro está caótico e preciso da sua ajuda para organizar as tarefas em algumas categorias que criei. Acesse o ‘site Z’ e certifique-se de que as notas estejam claramente nas seções corretas. Arraste-as para elas, caso não estejam.
Essa capacidade é possível graças a uma tecnologia já existente na própria Google. O modelo de linguagem usa as capacidades de reconhecimento visual e “argumentação” do Gemini 2.5 Pro para interagir com as interfaces.
No futuro, o modelo vai permitir que usuários automatizem tarefas, como fazer reservas, compras ou buscas específicas pelo preço ou disponibilidade de um produto.
Além disso, empresas parceiras podem desenvolver por cima dessa tecnologia agentes de IA voltados para atividades baseadas em cada empreendimento — incluindo até testar a navegabilidade em uma interface de um site em construção, por exemplo.
De acordo com os teste da companhia, o modelo por enquanto só consegue agir em um navegador, mas já está demonstrando resultados satisfatórios em experimentos para automatizar ações em aparelhos com Android. No futuro, a ideia é permitir que ele também realize tarefas na própria interface de um computador.
Recentemente, a Google lançou uma IA que corrige bugs de segurança automaticamente. Saiba mais sobre isso nesta matéria!