As preocupações com a privacidade dos sistemas de IA estão crescendo. Portanto, os pesquisadores estão testando se podem remover dados confidenciais sem retreinar o sistema do zero.
Sinal: Fraco
Fonte: Wired Magazine
EMPRESAS DE TODOS tipos usam aprendizado de máquina para analisar os desejos, desgostos ou rostos das pessoas. Alguns pesquisadores agora estão fazendo uma pergunta diferente: como podemos fazer as máquinas esquecerem?
Uma área nascente da ciência da computação chamada de desaprendizado de máquina busca maneiras de induzir amnésia seletiva em software de inteligência artificial . O objetivo é remover todos os vestígios de uma determinada pessoa ou ponto de dados de um sistema de aprendizado de máquina, sem afetar seu desempenho.
Se tornado prático, o conceito pode dar às pessoas mais controle sobre seus dados e o valor derivado deles. Embora os usuários já possam pedir a algumas empresas que excluam dados pessoais, eles geralmente não sabem quais algoritmos suas informações ajudaram a ajustar ou treinar. O desaprendizado por máquina pode permitir que uma pessoa retire seus dados e a capacidade da empresa de lucrar com eles.
Embora intuitiva para qualquer pessoa que tenha lamentado o que compartilharam online, essa noção de amnésia artificial requer algumas novas ideias na ciência da computação. As empresas gastam milhões de dólares treinando algoritmos de aprendizado de máquina para reconhecer rostos ou classificar postagens sociais, porque os algoritmos geralmente podem resolver um problema mais rapidamente do que os codificadores humanos sozinhos. Mas, uma vez treinado, um sistema de aprendizado de máquina não é facilmente alterado, ou mesmo compreendido. A maneira convencional de remover a influência de um determinado ponto de dados é reconstruir um sistema desde o início, um exercício potencialmente caro. “Esta pesquisa visa encontrar um meio-termo”, diz Aaron Roth, um professor da Universidade da Pensilvânia que está trabalhando no desaprendizado por máquina. “Podemos remover toda a influência dos dados de alguém quando eles pedem para excluí-los, mas evitar o custo total do retreinamento do zero?”
O trabalho de desaprendizagem por máquina é motivado em parte pela crescente atenção às maneiras como a inteligência artificial pode corroer a privacidade. Os reguladores de dados em todo o mundo há muito têm o poder de forçar as empresas a excluir informações mal obtidas. Cidadãos de algumas localidades, como a UE e a Califórnia , têm até o direito de solicitar que uma empresa exclua seus dados se mudarem de opinião sobre o que divulgaram. Mais recentemente, reguladores dos EUA e da Europa disseram que os proprietários de sistemas de IA às vezes precisam dar um passo adiante: excluir um sistema que foi treinado com dados confidenciais.
“Podemos remover toda a influência dos dados de alguém quando eles pedem para excluí-los, mas evitar o custo total do retreinamento do zero?” AARON ROTH, UNIVERSIDADE DA PENSILVÂNIA
No ano passado, o regulador de dados do Reino Unido avisou as empresas que alguns softwares de aprendizado de máquina poderiam estar sujeitos a direitos GDPR, como exclusão de dados, porque um sistema de IA pode conter dados pessoais. Os pesquisadores de segurança mostraram que os algoritmos às vezes podem ser forçados a vazar dados confidenciais usados em sua criação. No início deste ano, a Comissão Federal de Comércio dos EUA forçou a Paravision, startup de reconhecimento facial, a excluir uma coleção de fotos de rostos obtidas indevidamente e algoritmos de aprendizado de máquina treinados com eles. O comissário da FTC, Rohit Chopra, elogiou essa nova tática de fiscalização como forma de forçar uma empresa que viole as regras de dados a "perder os frutos de seu engano".
O pequeno campo da pesquisa de desaprendizagem por máquina lida com algumas das questões práticas e matemáticas levantadas por essas mudanças regulatórias. Os pesquisadores mostraram que podem fazer os algoritmos de aprendizado de máquina esquecerem sob certas condições, mas a técnica ainda não está pronta para o horário nobre. “Como é comum para um campo jovem, há uma lacuna entre o que essa área aspira fazer e o que sabemos fazer agora”, diz Roth.
Uma abordagem promissora proposta em 2019 por pesquisadores das universidades de Toronto e Wisconsin-Madison envolve a segregação dos dados de origem para um novo projeto de aprendizado de máquina em várias partes. Cada um é então processado separadamente, antes que os resultados sejam combinados no modelo final de aprendizado de máquina. Se um ponto de dados posteriormente precisar ser esquecido, apenas uma fração dos dados de entrada originais precisará ser reprocessada. A abordagem mostrou funcionar com dados de compras online e uma coleção de mais de um milhão de fotos .
Roth e colaboradores de Penn, Harvard e Stanford demonstraram recentemente uma falha nessa abordagem, mostrando que o sistema de desaprendizagem entraria em colapso se as solicitações de exclusão enviadas viessem em uma sequência específica, seja por acaso ou por um ator malicioso. Eles também mostraram como o problema pode ser mitigado.
Gautam Kamath, professor da Universidade de Waterloo que também trabalha com desaprendizagem, diz que o problema que o projeto encontrou e corrigiu é um exemplo das muitas questões em aberto sobre como fazer com que o desaprendizado da máquina seja mais do que apenas uma curiosidade de laboratório. Seu próprio grupo de pesquisa tem explorado o quanto a precisão de um sistema é reduzida ao fazê-lo desaprender sucessivamente vários pontos de dados.
Kamath também está interessado em encontrar maneiras de uma empresa provar - ou um regulador verificar - que um sistema realmente esqueceu o que deveria desaprender. “Parece que está um pouco mais adiante, mas talvez eles eventualmente tenham auditores para esse tipo de coisa”, diz ele.
Razões regulatórias para investigar a possibilidade de desaprendizado da máquina provavelmente crescerão à medida que o FTC e outros examinam mais de perto o poder dos algoritmos. Reuben Binns, professor associado da Universidade de Oxford que estuda proteção de dados, diz que a noção de que as pessoas deveriam ter algo a dizer sobre o destino e os frutos de seus dados cresceu nos últimos anos nos Estados Unidos e na Europa.
Será necessário um trabalho técnico virtuoso antes que as empresas de tecnologia possam realmente implementar o desaprendizado de máquina como uma forma de oferecer às pessoas mais controle sobre o destino algorítmico de seus dados. Mesmo assim, a tecnologia pode não mudar muito sobre os riscos de privacidade da era da IA.
A privacidade diferencial , uma técnica inteligente para estabelecer limites matemáticos sobre o que um sistema pode vazar sobre uma pessoa, fornece uma comparação útil. A Apple, o Google e a Microsoft festejam a tecnologia, mas ela é usada relativamente raramente, e os perigos da privacidade ainda são abundantes.
Binns diz que embora possa ser genuinamente útil, “em outros casos, é mais algo que uma empresa faz para mostrar que está inovando”. Ele suspeita que o desaprendizado por máquina pode ser semelhante, mais uma demonstração de perspicácia técnica do que uma grande mudança na proteção de dados. Mesmo que as máquinas aprendam a esquecer, os usuários terão que se lembrar de ter cuidado com quem eles compartilham dados.
Comments