top of page

Como os agentes de IA já estão simulando a civilização humana

Modelos de grande linguagem (LLM) de inteligência artificial (IA), como o sucesso GPT-3, 3.5 e 4 da OpenAI, codificam uma riqueza de informações sobre como vivemos, nos comunicamos e nos comportamos, e os pesquisadores estão constantemente encontrando novas maneiras de colocar isso conhecimento para usar.


Um estudo recente conduzido por pesquisadores da Universidade de Stanford demonstrou que, com o design correto, os LLMs podem ser aproveitados para simular o comportamento humano de uma maneira dinâmica e convincentemente realista.


O estudo, intitulado “Agentes Gerativos: Simulacros Interativos do Comportamento Humano”, explora o potencial dos modelos generativos na criação de uma arquitetura de agente de IA que lembra suas interações, reflete sobre as informações que recebe e planeja metas de longo e curto prazo com base em um fluxo de memória em constante expansão. Esses agentes de IA são capazes de simular o comportamento de um ser humano em sua vida diária, desde tarefas mundanas até processos complexos de tomada de decisão.

Além disso, quando estes agentes são combinados, podem emular os comportamentos sociais mais complexos que emergem das interacções de uma grande população. Este trabalho abre muitas possibilidades, particularmente na simulação da dinâmica populacional, oferecendo informações valiosas sobre comportamentos e interações sociais.


Um ambiente virtual para agentes generativos

No estudo, os pesquisadores simularam os agentes generativos em Smallville, um ambiente de jogo sandbox composto por diversos objetos como bufês, escolas, bares e muito mais.

O ambiente é habitado por 25 agentes generativos alimentados por um LLM. O LLM é iniciado com um prompt que inclui uma descrição detalhada do comportamento, ocupação, preferências, memórias e relacionamentos do agente com outros agentes. A saída do LLM é o comportamento do agente.

Os agentes interagem com seu ambiente por meio de ações. Inicialmente, eles geram uma declaração de ação em linguagem natural, como “Isabella está tomando café”. Esta afirmação é então traduzida em movimentos concretos dentro de Smallville.

Além disso, os agentes comunicam entre si através de diálogo em linguagem natural. Suas conversas são influenciadas por suas memórias e interações anteriores.

Os usuários humanos também podem interagir com os agentes falando com eles através da voz de um narrador, alterando o estado do ambiente ou controlando diretamente um agente. O design interativo visa criar um ambiente dinâmico com muitas possibilidades.


Lembrando e refletindo


Cada agente no ambiente SmallVille está equipado com um fluxo de memória, um banco de dados abrangente que registra as experiências do agente em linguagem natural. Este fluxo de memória desempenha um papel crucial no comportamento do agente.


Para cada ação, o agente recupera registros de memória relevantes para auxiliar no seu planejamento. Por exemplo, se um agente encontra outro agente pela segunda vez, ele recupera registros de interações passadas com esse agente. Isso permite que o agente retome conversas anteriores ou acompanhe tarefas que precisam ser concluídas em conjunto.

No entanto, a recuperação da memória apresenta um desafio significativo. À medida que a duração da simulação aumenta, o fluxo de memória do agente torna-se mais longo. Ajustar todo o fluxo de memória ao contexto do LLM pode distrair o modelo. E quando o fluxo de memória se tornar muito longo, ele não caberá na janela de contexto do LLM. Portanto, para cada interação com o LLM, o agente deve recuperar os bits mais relevantes do fluxo de memória e fornecê-los ao modelo como contexto.


Para resolver isso, os pesquisadores desenvolveram uma função de recuperação que avalia a relevância de cada parte da memória do agente para a sua situação atual. A relevância de cada memória é medida comparando sua incorporação com a da situação atual ( embeddings são valores numéricos que representam diferentes significados de texto e são usados ​​para busca de similaridade). A atualidade da memória também é importante, o que significa que as memórias mais recentes recebem maior relevância.

Além disso, os pesquisadores desenvolveram uma função que resume periodicamente partes do fluxo de memória em pensamentos abstratos de nível superior, chamados de “reflexos”. Essas reflexões formam camadas umas sobre as outras, contribuindo para uma imagem mais matizada da personalidade e das preferências do agente e melhorando a qualidade da recuperação da memória para ações futuras.

A memória e as reflexões permitem que o sistema de IA crie um prompt rico para o LLM, que então o utiliza para planejar as ações de cada agente.


Colocando os agentes em ação


O planejamento é outro aspecto intrigante do projeto. Os pesquisadores tiveram que elaborar um sistema que permitisse aos agentes realizar ações diretas e ao mesmo tempo planejar o longo prazo. Para conseguir isso, eles adotaram uma abordagem hierárquica de planejamento.

O modelo primeiro recebe um resumo do status do agente e é solicitado a gerar um plano de alto nível para uma meta de longo prazo. Em seguida, ele executa cada etapa recursivamente e cria ações mais detalhadas, primeiro em programações de hora em hora e depois em tarefas de 5 a 15 minutos. Os agentes também atualizam seus planos à medida que seu ambiente muda e observam novas situações ou interagem com outros agentes. Esta abordagem dinâmica ao planeamento garante que os agentes possam adaptar-se ao seu ambiente e interagir com ele de uma forma realista e credível.


O que acontece quando a simulação é executada? Cada agente começa com alguns conhecimentos básicos, rotinas diárias e metas a cumprir. Eles planejam e executam esses objetivos e interagem entre si. Através dessas interações, os agentes podem transmitir informações uns aos outros. À medida que novas informações são difundidas pela população, o comportamento da comunidade muda. Os agentes reagem alterando ou ajustando seus planos e objetivos à medida que tomam consciência do comportamento de outros agentes.

As experiências dos investigadores mostram que os agentes geradores aprendem a coordenar-se entre si sem serem explicitamente instruídos para o fazer. Por exemplo, um dos agentes começou com o objetivo de realizar uma festa de Dia dos Namorados. Esta informação acabou por chegar a outros agentes e vários acabaram por comparecer na festa. (Uma demonstração foi lançada online .)


Apesar dos resultados impressionantes do estudo, é importante reconhecer as limitações da técnica. Os agentes generativos, embora superem outros métodos baseados em LLM na simulação do comportamento humano, ocasionalmente falham na recuperação da memória. Eles podem ignorar memórias relevantes ou, inversamente, “alucinar” ao adicionar detalhes inexistentes às suas lembranças. Isso pode levar a inconsistências em seu comportamento e interações.

Além disso, os investigadores notaram uma peculiaridade inesperada no comportamento dos agentes: eram excessivamente educados e cooperativos. Embora essas características possam ser desejáveis ​​em um assistente de IA, elas não refletem com precisão todo o espectro do comportamento humano, que inclui conflitos e desacordos.


Simulacros do comportamento humano


O estudo despertou interesse na comunidade de pesquisa. Os pesquisadores de Stanford lançaram recentemente o código-fonte de seu ambiente virtual e agentes generativos.


Isto permitiu que outros investigadores desenvolvessem o seu trabalho, com entidades notáveis ​​como a famosa empresa de capital de risco Andreessen Horowitz (a16z) criando as suas próprias versões do ambiente .

Embora os agentes virtuais de Smallville sejam divertidos, os pesquisadores acreditam que seu trabalho tem aplicações práticas de longo alcance.

Uma dessas aplicações é a prototipagem da dinâmica em produtos de uso em massa, como redes sociais. Os investigadores esperam que estes modelos generativos possam ajudar a prever e mitigar resultados negativos, como a propagação de desinformação ou trollagem. Ao criar uma população diversificada de agentes e observar as suas interações no contexto de um produto, os investigadores podem estudar comportamentos emergentes, tanto positivos como negativos. Os agentes também podem ser utilizados para experimentar situações contrafactuais e simular como diferentes políticas e modificações de comportamento podem alterar os resultados. Este conceito constitui a base dos simulacros sociais.


No entanto, o potencial dos agentes geradores não está isento de riscos. Eles poderiam ser usados ​​para criar bots que imitam de forma convincente humanos reais, amplificando potencialmente atividades maliciosas, como a disseminação de desinformação em grande escala. Para contrariar esta situação, os investigadores propõem a manutenção de registos de auditoria dos comportamentos dos agentes para proporcionar um nível de transparência e responsabilização.

“Olhando para o futuro, sugerimos que os agentes generativos podem desempenhar papéis em muitas aplicações interativas, desde ferramentas de design a sistemas de computação social e ambientes imersivos”, escrevem os investigadores.







2 visualizações0 comentário

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
bottom of page