O truque é usar dados do cérebro para sintetizar a fala em tempo real para que os usuários possam praticar e a máquina possa aprender. Novos sistemas de interface cérebro-computador estão chegando lá.
Fonte: Wired Magazine
Sinal: Fraco
Tendência: Inteligência Artiificial
AQUI ESTÁ A PESQUISA configuração: uma mulher fala holandês em um microfone, enquanto 11 minúsculas agulhas feitas de platina e irídio registram suas ondas cerebrais.
A voluntária de 20 anos tem epilepsia, e seus médicos enfiaram aqueles pedaços de metal de 2 milímetros de comprimento - cada um cravejado com até 18 eletrodos - na frente e no lado esquerdo de seu cérebro na esperança de localizar o ponto de origem dela convulsões. Mas aquele pedaço de microacupuntura neural também é um golpe de sorte para uma equipe separada de pesquisadores porque os eletrodos estão em contato com partes de seu cérebro responsáveis pela produção e articulação das palavras faladas.
Essa é a parte legal. Depois que a mulher fala (isso é chamado de “fala aberta”), e depois que um computador equaciona algoritmicamente os sons com a atividade em seu cérebro, os pesquisadores pedem que ela faça isso novamente. Desta vez, ela mal sussurra, imitando as palavras com a boca, a língua e a mandíbula. Isso é "discurso intencional". E então ela faz tudo mais uma vez - mas sem se mover. Os pesquisadores pediram que ela simplesmente se imaginasse dizendo as palavras.
Era uma versão de como as pessoas falam, mas ao contrário. Na vida real, formulamos ideias silenciosas em uma parte de nossos cérebros, outra parte as transforma em palavras, e então outras controlam o movimento da boca, língua, lábios e laringe, que produzem sons audíveis nas frequências certas para fazer a fala . Aqui, os computadores permitem que a mente da mulher salte a fila. Eles registraram quando ela estava pensando-falando - o termo técnico é “fala imaginada” - e foram capazes de reproduzir, em tempo real, um sinal audível formado a partir dos sinais interpolados vindos de seu cérebro. Os sons não eram inteligíveis como palavras.
Este trabalho, publicado no final de setembro, ainda é um tanto preliminar. Mas o simples fato de terem acontecido na velocidade de milissegundos de pensamento e ação mostra um progresso surpreendente em direção a um uso emergente para interfaces cérebro-computador: dar voz a pessoas que não podem falar.
Essa incapacidade - de um distúrbio neurológico ou lesão cerebral - é chamada de "anartria". É debilitante e assustador, mas as pessoas têm algumas maneiras de lidar com isso. Em vez da fala direta, as pessoas com anartria podem usar dispositivos que traduzem o movimento de outras partes do corpo em letras ou palavras; até mesmo uma piscadela funcionará. Recentemente, uma interface cérebro-computador implantada no córtex de uma pessoa com síndrome de encarceramento permitiu-lhes traduzir a caligrafia imaginada em uma produção de 90 caracteres por minuto. Bom, mas não ótimo; Uma conversa típica de palavra falada em inglês é relativamente empolgante de 150 palavras por minuto.
O problema é que, como mover um braço (ou cursor), a formulação e a produção da fala são realmente complicadas. Depende do feedback, um loop de 50 milissegundos entre quando dizemos algo e nos ouvimos dizendo. Isso é o que permite que as pessoas façam controle de qualidade em tempo real em suas próprias falas. Por falar nisso, é o que permite que os humanos aprendam a falar em primeiro lugar - ouvir a linguagem, produzir sons, ouvir a nós mesmos produzir esses sons (através do ouvido e do córtex auditivo, uma outra parte do cérebro) e comparar o que somos fazendo com o que estamos tentando fazer.
O problema é que os melhores BCIs e computadores podem levar muito mais tempo para ir dos dados do cérebro à produção de um som. Mas o grupo que trabalhava com a mulher que fala holandês fez isso em apenas 30 milissegundos. Certo, os sons produzidos por seu sistema eram ininteligíveis - eles não soavam como palavras. Se isso melhorar, em teoria esse loop deve ser rápido o suficiente para fornecer o feedback que permitiria ao usuário praticar em tal dispositivo e aprender a usar um sistema melhor com o tempo, mesmo que ele próprio não consiga emitir sons audíveis. “Temos esse conjunto de dados superlimitado de apenas 100 palavras e também tivemos um tempo experimental muito curto, então não fomos capazes de dar a ela tempo suficiente para praticar”, disse Christian Herff, um cientista da computação na Universidade de Maastricht e um dos autores principais do novo artigo.
O problema é que os melhores BCIs e computadores podem levar muito mais tempo para ir dos dados do cérebro à produção de um som. Mas o grupo que trabalhava com a mulher que fala holandês fez isso em apenas 30 milissegundos. Certo, os sons produzidos por seu sistema eram ininteligíveis - eles não soavam como palavras. Se isso melhorar, em teoria esse loop deve ser rápido o suficiente para fornecer o feedback que permitiria ao usuário praticar em tal dispositivo e aprender a usar um sistema melhor com o tempo, mesmo que ele próprio não consiga emitir sons audíveis. “Temos esse conjunto de dados superlimitado de apenas 100 palavras e também tivemos um tempo experimental muito curto, então não fomos capazes de dar a ela tempo suficiente para praticar”, disse Christian Herff, um cientista da computação na Universidade de Maastricht e um dos autores principais do novo artigo.
Os neurocientistas têm trabalhado para obter sinais de fala do cérebro das pessoas por pelo menos 20 anos . À medida que aprenderam mais sobre como a fala se origina no cérebro, eles usaram eletrodos e imagens para escanear o que o cérebro fazia enquanto uma pessoa falava. Eles tiveram sucessos incrementais, obtendo dados que podiam transformar em sons de vogais e consoantes. Mas não é fácil. “A fala imaginada, em particular, é uma coisa difícil de estudar e difícil de entender”, diz Ciaran Cooney, pesquisador do BCI na Universidade de Ulster que trabalha com síntese de fala. “Há um debate interessante porque temos que descobrir o quão próxima é a relação entre a fala imaginária e a fala aberta, se vamos usar a fala aberta para validá-la”.
É complicado interpolar apenas sinais das partes do cérebro que formulam a fala - principalmente o giro frontal inferior. (Se você enfiasse uma agulha de tricô direto no crânio, logo acima da têmpora, você a cutucaria. [Não faça isso.]) A fala imaginária não é apenas sua mente divagando ou seu monólogo interior; provavelmente é mais parecido com o que você ouve em sua mente quando está tentando pensar no que dizer. A maneira como o cérebro faz isso pode ser diferente - sintaticamente, fonologicamente, em seu ritmo - do que realmente sai de sua boca. Diferentes pessoas podem codificar informações nessas partes do cérebro de forma idiossincrática.
Além disso, antes que a boca faça qualquer trabalho, seja o que for que as partes da linguagem do cérebro tenham classificado, tem que chegar aos córtices pré-motor e motor, que controlam o movimento físico. Se você está tentando construir um sistema para ser usado por pessoas que não podem falar, elas não têm suas próprias palavras para buscar, para validar que o sistema está sintetizando o que elas querem dizer. Cada prótese assistida pela BCI requer esse tipo de validação e treinamento. “O problema com a fala imaginária é que não temos um resultado observável”, diz Herff.
Em 2019, uma equipe baseada na UC San Francisco propôs uma solução alternativa elegante . Eles pediram aos participantes que falassem e registraram sinais não apenas das partes do cérebro responsáveis por produzir as palavras - o córtex frontal inferior - mas também das regiões que controlam o movimento da boca, língua, mandíbula e assim por diante. Esse é o córtex sensório-motor ventral, meio que para cima e para trás de onde você não enfiou aquela agulha de tricô. A equipe construiu um sistema de aprendizado de máquina que poderia transformar esses sinais em uma versão virtual dos movimentos mecânicos da fala. Ele poderia sintetizar palavras inteligíveis, mas não em tempo real. Essa abordagem é chamada de sistema de malha aberta.
Liderada pelo neurocientista Eddie Chang da UCSF , essa equipe - competidores científicos da equipe que trabalha com a mulher que fala holandês e com financiamento da empresa que costumava ser chamada de Facebook - publicou outro grande sucesso.. Em julho, eles mostraram como colocaram eletrodos dentro e ao redor dos centros corticais da fala de uma pessoa que ficou sem fala após um derrame. Depois de um ano e meio de treinamento, eles tinham um sistema que conseguia captar a intenção de dizer qualquer uma das 50 palavras. Com a ajuda de um algoritmo capaz de prever quais tinham mais probabilidade de seguir outras, ele permitia que a pessoa falasse, por meio de um sintetizador de voz, sentenças de oito palavras a cerca de 12 palavras por minuto. Foi o primeiro teste real de quão bem uma pessoa com anartria poderia usar um sistema como este. A fala sintética resultante ainda não estava em tempo real, mas computadores melhores significam um retorno mais rápido. “Pudemos usar seus sinais mimados e sussurrados para produzir e decodificar a saída da linguagem”, diz Gopala Anumanchipalli, um engenheiro de computação e neural da UCSF e da UC Berkeley que trabalhou na pesquisa.
Essa abordagem, com foco em um léxico de 50 palavras, deu ao trabalho da equipe de Chang melhor precisão e inteligibilidade. Mas tem algumas limitações. Sem um ciclo de feedback, o usuário não pode corrigir a escolha de uma palavra se o computador errar. E levou 81 semanas para a pessoa aprender a produzir essas 50 palavras. Imagine quanto tempo levaria para chegar a 1.000. “Quanto mais palavras você adiciona a esse sistema, mais o problema se torna insustentável”, diz Frank Guenther, neurocientista da fala da Universidade de Boston que não trabalhou no projeto. “Se você chega a 100 palavras, fica muito mais difícil decodificar cada palavra e o número de combinações fica muito maior, então é mais difícil de prever. Um vocabulário completo, a maioria das pessoas usa milhares de palavras, não 50 ”.
O objetivo de tentar construir um sistema em tempo real como o que o grupo de Herff está tentando montar - um “ciclo fechado” - é permitir que os usuários eventualmente não façam palavras, mas sons. Fonemas como “oh” ou “hh”, ou mesmo sílabas ou sons de vogais, são as unidades atômicas da fala. Monte uma biblioteca de correlatos neurais para aqueles que uma máquina pode entender, e um usuário deve ser capaz de fazer quantas palavras quiser. Teoricamente. Guenther estava em uma equipe que em 2009 usou um BCIimplantado no córtex motor de uma pessoa com síndrome de encarceramento para dar a ela a capacidade de produzir sons de vogais (mas não palavras completas) com apenas um atraso de 50 milissegundos, bom o suficiente para melhorar sua precisão ao longo do tempo. “A ideia por trás de um sistema de loop fechado era apenas dar a eles a capacidade de criar uma acústica que pudesse ser usada para produzir qualquer som”, diz Guenther. “Por outro lado, um sistema de 50 palavras seria muito melhor do que a situação atual se funcionasse de forma muito confiável, e a equipe de Chang está muito mais perto da decodificação confiável do que qualquer outra pessoa.”
O jogo final, provavelmente daqui a meia década, será alguma unificação de precisão e inteligibilidade com áudio em tempo real. “Essa é a direção comum para todos os grupos que estão fazendo isso - fazendo isso em tempo real”, diz Anumanchipalli.
Matrizes de eletrodos maiores e melhores podem ajudar. É nisso que Meta, ex-Facebook, está interessado. Assim como a Neuralink, empresa de Elon Musk . Mais dados das áreas de formação da fala do cérebro podem ajudar a tornar os fonemas sintéticos inteligíveis em tempo real e determinar se o cérebro de cada pessoa faz isso mais ou menos da mesma maneira. Se o fizerem, isso tornará o processo de treinamento em BCIs individuais mais fácil porque todos os sistemas começarão com a mesma linha de base. Isso tornaria o processo de aprendizagem algo mais parecido com ver um cursor se mover na direção certa e descobrir - por meio de processos de biofeedback que ninguém realmente entende ainda - como fazê-lo melhor e de forma mais confiável.
Mas se isso não for possível, algoritmos melhores para compreender e prever o que o cérebro está tentando fazer se tornarão mais importantes. Arranjos de eletrodos construídos especificamente colocados, neurocirurgicamente, no lugar certo para a fala seria ótimo, mas as regras atuais de ética em pesquisa significam que “isso é muito difícil na Europa”, diz Herff. “Portanto, atualmente nosso foco está em usar um algoritmo mais complexo que seja capaz de uma fala de alta qualidade, e realmente nos concentramos no aspecto do treinamento”.
O grupo de Anumanchipalli está convergindo para esse alvo. Os BCIs atuais aprovados para uso humano não têm eletrodos suficientes para obter todos os dados que os pesquisadores gostariam, embora muitos esperem que tecnologias futuras como o Neuralink melhorem isso. “É seguro dizer que sempre seremos esparsos em nossa amostragem do cérebro”, diz ele. “Portanto, seja qual for a carga residual, ela deve ser compensada por algoritmos.” Isso significa melhorar a coleta de intenções, “a melhor forma de criar um protocolo em que o sujeito está aprendendo com o sistema e o sistema está aprendendo com o sujeito”. Esse sintetizador de fala do futuro pode receber informações de todos os tipos de outros fluxos biométricos além dos eletrodos no cérebro - Anumanchipalli diz que isso pode incluir outros indicadores de intenção ou desejo, como movimento ou até mesmo frequência cardíaca. E qualquer novo sistema terá que ser fácil de aprender e usar para que o usuário não desista dele por fadiga ou frustração. “Acho que estamos muito próximos. Temos todas essas provas de princípios agora ”, diz Anumanchipalli. “O progresso tem sido lento, mas acho que estamos focando na abordagem certa.” A fala imaginada pode não ser imaginária para sempre.
Comments