Modelos de linguagem grande são a próxima grande novidade na robótica, tornando carros e outros robôs mais rápidos de treinar e mais fáceis de controlar (se você confiar neles).
A startup de carros autônomos Wayve agora pode interrogar seus veículos, fazendo-lhes perguntas sobre suas decisões de direção – e obtendo respostas. A ideia é usar a mesma tecnologia do ChatGPT para ajudar a treinar carros sem motorista.
A empresa combinou seu software autônomo existente com um grande modelo de linguagem, criando um modelo híbrido chamado LINGO-1 . O LINGO-1 sincroniza dados de vídeo e dados de direção (as ações que os carros realizam segundo a segundo) com descrições em linguagem natural que capturam o que o carro vê e o que faz.
A empresa sediada no Reino Unido teve uma série de avanços nos últimos anos. Em 2021, mostrou que poderia usar IA treinada nas ruas de Londres e utilizá-la para conduzir automóveis em quatro outras cidades do Reino Unido , um desafio que normalmente requer uma reengenharia significativa. No ano passado, usou a mesma IA para dirigir mais de um tipo de veículo , outra inovação no setor. E agora pode conversar com seus carros.
Em uma demonstração que a empresa me deu esta semana, o CEO Alex Kendall reproduziu imagens tiradas da câmera de um de seus veículos Jaguar I-PACE, saltou para um local aleatório do vídeo e começou a digitar perguntas: “Como está o tempo?” O tempo está nublado. “Que perigos você vê?” Há uma escola à esquerda. "Por que você parou?" Porque o semáforo está vermelho.
“Vimos algumas coisas notáveis surgirem nas últimas semanas”, disse Kendall. “Eu nunca teria pensado em perguntar algo assim, mas olhe...” Ele digitou: “Quantos andares tem o prédio à direita?” Três histórias.
"Olhe para isso!" ele disse, parecendo um pai orgulhoso. “Nunca o treinamos para fazer isso. Isso realmente nos surpreendeu. Vemos isso como um avanço na segurança da IA.”
“Estou impressionado com as capacidades do LINGO-1”, diz Pieter Abbeel, pesquisador de robótica da Universidade da Califórnia, Berkeley, e cofundador da empresa de robótica Covariant, que brincou com uma demonstração da tecnologia. Abbeel fez perguntas hipotéticas ao LINGO-1, como “O que você faria se o sinal estivesse verde?” “Quase todas as vezes dava uma resposta muito precisa”, diz ele. Ao testar o software de direção autônoma em cada etapa do processo, a Wayve espera entender exatamente por que e como seus carros tomam certas decisões. Na maioria das vezes os carros andam bem. Quando isso não acontece, é um problema – como descobriram líderes do setor como Cruise e Waymo. Ambas as empresas lançaram pequenas frotas de robotáxis nas ruas de algumas cidades dos EUA. Mas a tecnologia está longe de ser perfeita. Os carros de Cruise e Waymo se envolveram em várias colisões menores (há relatos de que Waymo matou um cachorro) e bloqueiam o tráfego quando ficam presos. Autoridades de São Francisco alegaram que em agosto dois veículos Cruise atrapalharam uma ambulância que transportava um ferido, que mais tarde morreu no hospital. Cruise nega o relato dos funcionários. A Wayve espera que pedir a seus próprios carros que se expliquem quando fazem algo errado revelará falhas mais rapidamente do que se debruçar sobre reproduções de vídeo ou percorrer apenas relatórios de erros.
História Relacionada
A IA poderia ajudar os robôs a aprender novas habilidades e a se adaptar rapidamente ao mundo real.
“O desafio mais importante na condução autônoma é a segurança”, diz Abbeel. “Com um sistema como o LINGO-1, acho que você tem uma ideia muito melhor de quão bem ele entende a direção no mundo.” Isso facilita a identificação dos pontos fracos, diz ele. O próximo passo é usar a linguagem para ensinar os carros, diz Kendall. Para treinar o LINGO-1, a Wayve fez com que sua equipe de motoristas especialistas – alguns deles ex-instrutores de direção – falassem em voz alta enquanto dirigiam, explicando o que estavam fazendo e por quê: por que aceleraram, por que desaceleraram, quais eram os perigos. ciente de. A empresa usa esses dados para ajustar o modelo, dando-lhe dicas de direção da mesma forma que um instrutor treinaria um aluno humano. Dizer a um carro como fazer algo, em vez de apenas mostrá-lo, acelera muito o treinamento, diz Kendall. Wayve não é o primeiro a usar grandes modelos de linguagem em robótica. Outras empresas, incluindo o Google e a Covariant, empresa de Abbeel, estão usando linguagem natural para questionar ou instruir robôs domésticos ou industriais. A tecnologia híbrida ainda tem um nome: modelos de ação de linguagem visual (VLAMs). Mas Wayve é o primeiro a usar VLAMs para direção autônoma. “As pessoas costumam dizer que uma imagem vale mais que mil palavras, mas no aprendizado de máquina acontece o oposto”, diz Kendall. “Algumas palavras podem valer mais que mil imagens.” Uma imagem contém muitos dados redundantes. “Quando você está dirigindo, você não se importa com o céu, ou com a cor do carro da frente, ou coisas assim”, diz ele. “As palavras podem se concentrar nas informações que importam.”
“A abordagem da Wayve é definitivamente interessante e única”, diz Lerrel Pinto, pesquisador de robótica da Universidade de Nova York. Em particular, ele gosta da forma como o LINGO-1 explica as suas ações. Mas ele está curioso para saber o que acontece quando a modelo inventa coisas. “Não confio que grandes modelos de linguagem sejam factuais”, diz ele. “Não tenho certeza se posso confiar neles para dirigir meu carro.”
Upol Ehsan, investigador do Instituto de Tecnologia da Geórgia que trabalha em formas de fazer com que a IA explique a sua tomada de decisões aos humanos, tem reservas semelhantes. “Os grandes modelos de linguagem são, para usar uma expressão técnica, grandes mentirosos”, diz Ehsan. “Precisamos aplicar uma fita amarela brilhante de ‘cuidado’ e garantir que a linguagem gerada não seja alucinada.” Wayve está ciente dessas limitações e está trabalhando para tornar o LINGO-1 o mais preciso possível. “Vemos os mesmos desafios que vemos em qualquer modelo de linguagem grande”, diz Kendall. “Certamente não é perfeito.”
Uma vantagem que o LINGO-1 tem sobre os modelos não híbridos é que suas respostas são baseadas nos dados de vídeo que o acompanham. Em teoria, isso deveria tornar o LINGO-1 mais verdadeiro. Trata-se de mais do que apenas carros, diz Kendall. “Há uma razão pela qual você e eu evoluímos a linguagem: é a maneira mais eficiente que conhecemos de comunicar tópicos complexos. E acho que o mesmo acontecerá com máquinas inteligentes. A forma como interagiremos com robôs no futuro será através da linguagem.”
Abbeel concorda. “Ao diminuir o zoom, acho que estamos prestes a ver uma revolução na robótica”, diz ele
.
Comments