O APRENDIZADO POR REFORÇO PODE SER CAPAZ DE ENSINAR A SI MESMO COMO ALCANÇAR A INTELIGÊNCIA VERDADEIRA.
Fonte: VentureBeat
Em sua busca de décadas para criar inteligência artificial, os cientistas da computação projetaram e desenvolveram todos os tipos de mecanismos e tecnologias complicadas para replicar a visão, a linguagem, o raciocínio, as habilidades motoras e outras habilidades associadas à vida inteligente. Embora esses esforços tenham resultado em sistemas de IA que podem resolver com eficiência problemas específicos em ambientes limitados, eles não conseguem desenvolver o tipo de inteligência geral observada em humanos e animais.
Em um novo artigo submetido à revista Artificial Intelligence , os cientistas do laboratório de IA do Reino Unido, DeepMind, argumentam que a inteligência e suas habilidades associadas surgirão não da formulação e solução de problemas complicados, mas aderindo a um princípio simples, mas poderoso: maximização da recompensa .
Intitulado “ Recompensa é o suficiente ”, o artigo, que ainda está em pré-prova no momento desta redação, se inspira no estudo da evolução da inteligência natural, bem como nas lições de conquistas recentes em inteligência artificial. Os autores sugerem que a maximização da recompensa e a experiência de tentativa e erro são suficientes para desenvolver um comportamento que exibe o tipo de habilidades associadas à inteligência. E a partir disso, eles concluem que o aprendizado por reforço, um ramo da IA que se baseia na maximização da recompensa, pode levar ao desenvolvimento da inteligência geral artificial .
Dois caminhos para IA
Um método comum para criar IA é tentar replicar elementos de comportamento inteligente em computadores. Por exemplo, nossa compreensão do sistema de visão dos mamíferos deu origem a todos os tipos de sistemas de IA que podem categorizar imagens, localizar objetos em fotos, definir os limites entre os objetos e muito mais. Da mesma forma, nossa compreensão da linguagem ajudou no desenvolvimento de vários sistemas de processamento de linguagem natural , como resposta a perguntas, geração de texto e tradução automática.
PROPAGANDA
Todas essas são instâncias de inteligência artificial estreita , sistemas que foram projetados para realizar tarefas específicas em vez de ter habilidades gerais de resolução de problemas. Alguns cientistas acreditam que a montagem de vários módulos estreitos de IA produzirá sistemas inteligentes superiores. Por exemplo, você pode ter um sistema de software que coordena entre módulos separados de visão computacional , processamento de voz, PNL e controle motor para resolver problemas complicados que requerem uma infinidade de habilidades.
Uma abordagem diferente para a criação de IA, proposta pelos pesquisadores da DeepMind, é recriar a regra simples, mas eficaz, que deu origem à inteligência natural. “[Nós] consideramos uma hipótese alternativa: que o objetivo genérico de maximizar a recompensa é suficiente para conduzir o comportamento que exibe a maioria, senão todas as habilidades que são estudadas na inteligência natural e artificial”, escrevem os pesquisadores.
É basicamente assim que a natureza funciona. No que diz respeito à ciência, não houve design inteligente de cima para baixo nos organismos complexos que vemos ao nosso redor. Bilhões de anos de seleção natural e variação aleatória filtraram formas de vida para sua aptidão para sobreviver e se reproduzir. Seres vivos que estavam mais bem equipados para lidar com os desafios e situações em seus ambientes conseguiram sobreviver e se reproduzir. O resto foi eliminado.
Este mecanismo simples, mas eficiente, levou à evolução de seres vivos com todos os tipos de habilidades e habilidades para perceber, navegar, modificar seus ambientes e comunicar-se entre si.
“O mundo natural enfrentado por animais e humanos, e presumivelmente também os ambientes enfrentados no futuro por agentes artificiais, são inerentemente tão complexos que requerem habilidades sofisticadas a fim de ter sucesso (por exemplo, sobreviver) dentro desses ambientes,” os pesquisadores Escreva. “Assim, o sucesso, medido pela maximização da recompensa, exige uma variedade de habilidades associadas à inteligência. Em tais ambientes, qualquer comportamento que maximize a recompensa deve necessariamente exibir essas habilidades. Nesse sentido, o objetivo genérico de maximização da recompensa contém muitos ou possivelmente todos os objetivos da inteligência. ”
PROPAGANDA
Por exemplo, considere um esquilo que busca a recompensa de minimizar a fome. Por um lado, suas habilidades sensoriais e motoras ajudam a localizar e coletar nozes quando o alimento está disponível. Mas um esquilo que só consegue encontrar comida está fadado a morrer de fome quando a comida escasseia. É por isso que ele também tem habilidades de planejamento e memória para armazenar as nozes e restaurá-las no inverno. E o esquilo tem habilidades sociais e conhecimento para garantir que outros animais não roubem suas nozes. Se você diminuir o zoom, a minimização da fome pode ser um subobjetivo de “permanecer vivo”, que também requer habilidades como detectar e se esconder de animais perigosos, se proteger de ameaças ambientais e buscar melhores habitats com mudanças sazonais.
“Quando as habilidades associadas à inteligência surgem como soluções para um objetivo único de maximização da recompensa, isso pode, de fato, fornecer uma compreensão mais profunda, pois explica por que tal habilidade surge”, escrevem os pesquisadores. “Em contraste, quando cada habilidade é entendida como a solução para seu próprio objetivo especializado, a questão do porquê é deixada de lado para focar no que essa habilidade faz.”
Finalmente, os pesquisadores argumentam que a maneira “mais geral e escalável” de maximizar a recompensa é por meio de agentes que aprendem por meio da interação com o ambiente.
Desenvolvimento de habilidades por meio da maximização da recompensa
No artigo, os pesquisadores de IA fornecem alguns exemplos de alto nível de como “a inteligência e as habilidades associadas surgirão implicitamente a serviço da maximização de um dos muitos sinais de recompensa possíveis, correspondendo aos muitos objetivos pragmáticos para os quais a inteligência natural ou artificial pode ser direcionada . ”
PROPAGANDA
Por exemplo, as habilidades sensoriais atendem à necessidade de sobreviver em ambientes complicados. O reconhecimento de objetos permite que os animais detectem alimentos, presas, amigos e ameaças, ou encontrem caminhos, abrigos e poleiros. A segmentação de imagens permite que eles identifiquem a diferença entre diferentes objetos e evitem erros fatais, como correr de um penhasco ou cair de um galho. Enquanto isso, a audição ajuda a detectar ameaças onde o animal não pode ver ou encontrar presas quando estão camufladas. O tato, o paladar e o olfato também dão ao animal a vantagem de ter uma experiência sensorial mais rica do habitat e uma chance maior de sobrevivência em ambientes perigosos.
Recompensas e ambientes também moldam o conhecimento inato e aprendido nos animais. Por exemplo, habitats hostis governados por animais predadores, como leões e chitas, recompensam as espécies de ruminantes que possuem o conhecimento inato para fugir de ameaças desde o nascimento. Enquanto isso, os animais também são recompensados por seu poder de aprender conhecimentos específicos de seus habitats, como onde encontrar comida e abrigo.
Os pesquisadores também discutem a base impulsionada por recompensas da linguagem, inteligência social, imitação e, finalmente, inteligência geral, que eles descrevem como "maximizar uma recompensa singular em um ambiente único e complexo".
Aqui, eles traçam uma analogia entre inteligência natural e AGI: "O fluxo de experiência de um animal é suficientemente rico e variado que pode exigir uma capacidade flexível para atingir uma vasta variedade de subobjetivos (como forragear, lutar ou fugir), em ordem para ter sucesso em maximizar sua recompensa geral (como fome ou reprodução). Da mesma forma, se o fluxo de experiência de um agente artificial for suficientemente rico, então muitos objetivos (como vida útil da bateria ou sobrevivência) podem implicitamente exigir a capacidade de atingir uma variedade igualmente ampla de subobjetivos, e a maximização da recompensa deve, portanto, ser suficiente para render uma inteligência geral artificial. ”
Aprendizagem por reforço para maximizar a recompensa
O aprendizado por reforço é um ramo especial dos algoritmos de IA que é composto de três elementos principais: um ambiente, agentes e recompensas.
Ao realizar ações, o agente muda seu próprio estado e o do ambiente. Com base no quanto essas ações afetam o objetivo que o agente deve alcançar, ele é recompensado ou penalizado. Em muitos problemas de aprendizagem por reforço, o agente não tem conhecimento inicial do ambiente e começa a realizar ações aleatórias. A partir do feedback que recebe, o agente aprende a sintonizar suas ações e a desenvolver políticas que maximizem sua recompensa.
Em seu artigo, os pesquisadores da DeepMind sugerem o aprendizado por reforço como o algoritmo principal que pode replicar a maximização da recompensa como visto na natureza e pode, eventualmente, levar à inteligência geral artificial.
“Se um agente pode ajustar continuamente seu comportamento de modo a melhorar sua recompensa cumulativa, então quaisquer habilidades que são repetidamente exigidas por seu ambiente devem, em última análise, ser produzidas no comportamento do agente”, escrevem os pesquisadores, acrescentando que, no decorrer da maximização para como recompensa, um bom agente de aprendizagem por reforço poderia eventualmente aprender percepção, linguagem, inteligência social e assim por diante.
No artigo, os pesquisadores fornecem vários exemplos que mostram como os agentes de aprendizagem por reforço foram capazes de aprender habilidades gerais em jogos e ambientes robóticos.
No entanto, os pesquisadores enfatizam que alguns desafios fundamentais permanecem sem solução. Por exemplo, eles dizem: "Não oferecemos qualquer garantia teórica sobre a eficiência da amostra de agentes de aprendizagem por reforço." O aprendizado por reforço é notoriamente conhecido por exigir grandes quantidades de dados. Por exemplo, um agente de aprendizagem por reforço pode precisar de séculos de jogabilidade para dominar um jogo de computador. E os pesquisadores de IA ainda não descobriram como criar sistemas de aprendizagem por reforço que podem generalizar suas aprendizagens em vários domínios. Portanto, pequenas mudanças no ambiente geralmente requerem um retreinamento completo do modelo.
O aprendizado por reforço é um ramo especial dos algoritmos de IA que é composto de três elementos principais: um ambiente, agentes e recompensas.
Ao realizar ações, o agente muda seu próprio estado e o do ambiente. Com base no quanto essas ações afetam o objetivo que o agente deve alcançar, ele é recompensado ou penalizado. Em muitos problemas de aprendizagem por reforço, o agente não tem conhecimento inicial do ambiente e começa a realizar ações aleatórias. A partir do feedback que recebe, o agente aprende a sintonizar suas ações e a desenvolver políticas que maximizem sua recompensa.
Em seu artigo, os pesquisadores da DeepMind sugerem o aprendizado por reforço como o algoritmo principal que pode replicar a maximização da recompensa como visto na natureza e pode, eventualmente, levar à inteligência geral artificial.
“Se um agente pode ajustar continuamente seu comportamento de modo a melhorar sua recompensa cumulativa, então quaisquer habilidades que são repetidamente exigidas por seu ambiente devem, em última análise, ser produzidas no comportamento do agente”, escrevem os pesquisadores, acrescentando que, no decorrer da maximização para como recompensa, um bom agente de aprendizagem por reforço poderia eventualmente aprender percepção, linguagem, inteligência social e assim por diante.
No artigo, os pesquisadores fornecem vários exemplos que mostram como os agentes de aprendizagem por reforço foram capazes de aprender habilidades gerais em jogos e ambientes robóticos.
No entanto, os pesquisadores enfatizam que alguns desafios fundamentais permanecem sem solução. Por exemplo, eles dizem: "Não oferecemos qualquer garantia teórica sobre a eficiência da amostra de agentes de aprendizagem por reforço." O aprendizado por reforço é notoriamente conhecido por exigir grandes quantidades de dados. Por exemplo, um agente de aprendizagem por reforço pode precisar de séculos de jogabilidade para dominar um jogo de computador. E os pesquisadores de IA ainda não descobriram como criar sistemas de aprendizagem por reforço que podem generalizar suas aprendizagens em vários domínios. Portanto, pequenas mudanças no ambiente geralmente requerem um retreinamento completo do modelo.
Os pesquisadores também reconhecem que os mecanismos de aprendizagem para maximizar a recompensa é um problema não resolvido que permanece uma questão central a ser estudada posteriormente na aprendizagem por reforço.
Pontos fortes e fracos da maximização da recompensa
Patricia Churchland, neurocientista, filósofa e professora emérita da Universidade da Califórnia, San Diego, descreveu as ideias do artigo como "elaboradas com muito cuidado e perspicácia".
No entanto, Churchland apontou para possíveis falhas na discussão do jornal sobre a tomada de decisão social. Os pesquisadores da DeepMind se concentram em ganhos pessoais nas interações sociais. Churchland, que escreveu recentemente um livro sobre as origens biológicas das intuições morais , argumenta que o apego e o vínculo são um fator poderoso na tomada de decisão social de mamíferos e pássaros , razão pela qual os animais se colocam em grande perigo para proteger seus filhos.
“Tenho tendência a ver o vínculo e, portanto, o cuidado com os outros, como uma extensão do âmbito do que conta como uma pessoa - 'eu e meu'”, disse Churchland. “Nesse caso, uma pequena modificação na hipótese [do papel] para permitir a maximização da recompensa para mim e para mim funcionaria muito bem, eu acho. Claro, nós, animais sociais, temos graus de apego - super forte com a prole, muito forte com companheiros e parentes, forte com amigos e conhecidos etc., e a força dos tipos de apego pode variar dependendo do ambiente e também do estágio de desenvolvimento. ”
Esta não é uma crítica importante, disse Churchland, e provavelmente poderia ser trabalhada na hipótese com bastante elegância.
“Estou muito impressionado com o grau de detalhamento do artigo e com o cuidado com que eles consideram as possíveis fraquezas”, disse Churchland. “Posso estar errado, mas tendo a ver isso como um marco.”
O cientista de dados Herbert Roitblat desafiou a posição do artigo de que mecanismos simples de aprendizagem e experiência de tentativa e erro são suficientes para desenvolver as habilidades associadas à inteligência. Roitblat argumentou que as teorias apresentadas no artigo enfrentam vários desafios quando se trata de implementá-las na vida real.
“Se não houver restrições de tempo, a aprendizagem por tentativa e erro pode ser suficiente, mas, caso contrário, teremos o problema de um número infinito de macacos digitando por um período infinito de tempo”, disse Roitblat. O teorema do macaco infinito afirma que um macaco que aperta as teclas aleatórias de uma máquina de escrever por um período infinito de tempo pode eventualmente digitar qualquer texto.
Roitblat é o autor de Algorithms are Not Enough , no qual ele explica por que todos os algoritmos de IA atuais, incluindo aprendizagem por reforço, requerem formulação cuidadosa do problema e representações criadas por humanos.
“Uma vez que o modelo e sua representação intrínseca são configurados, a otimização ou o reforço podem guiar sua evolução, mas isso não significa que o reforço seja suficiente”, disse Roitblat.
Na mesma linha, Roitblat acrescentou que o artigo não faz nenhuma sugestão sobre como a recompensa, as ações e outros elementos da aprendizagem por reforço são definidos.
“A aprendizagem por reforço pressupõe que o agente tenha um conjunto finito de ações potenciais. Um sinal de recompensa e função de valor foram especificados. Em outras palavras, o problema da inteligência geral é precisamente contribuir com aquelas coisas que a aprendizagem por reforço requer como pré-requisito ”, disse Roitblat. “Portanto, se o aprendizado de máquina pode ser reduzido a alguma forma de otimização para maximizar alguma medida avaliativa, então deve ser verdade que o aprendizado por reforço é relevante, mas não é muito explicativo.”
Comments