Em 2011, Jeff Bezos idealizou um dispositivo de fala. Mas fazer o assistente virtual parecer inteligente provou-se muito mais difícil do que qualquer um poderia ter imaginado.
JEFF BEZOS primeiro esboçou o dispositivo que se tornaria o Amazon Echo em um quadro branco de sala de conferências no início de 2011. Ele queria que custasse US$ 20 e fosse totalmente controlado por voz. Seu cérebro viveria na nuvem, explorando as ofertas de Web Services da empresa e permitindo que a Amazon o melhorasse constantemente, sem exigir que os proprietários atualizassem seu hardware.
A primeira representação de um dispositivo com Alexa - o assistente virtual artificialmente inteligente que Bezos deu o nome da antiga biblioteca de Alexandria - mostrava o alto-falante, um microfone e um botão mudo. Ele não seria capaz de entender os comandos assim que saísse da caixa, então o esboço identificava o ato de configurar o dispositivo para uma rede sem fio como um desafio que requeria reflexão.
Greg Hart, que era o consultor técnico de Bezos, ou “TA”, na época, era a outra pessoa na reunião e estava ouvindo com atenção. Bezos disse que queria que Hart liderasse o grupo que transformaria essa noção um tanto bizarra de um computador de voz em um produto real. Hart tirou uma foto do desenho com seu telefone.
“Jeff, não tenho nenhuma experiência em hardware, e a maior equipe de software que liderei tem apenas cerca de 40 pessoas”, ele lembra de ter dito.
“Você vai se sair bem”, respondeu Bezos.
Hart agradeceu pelo voto de confiança e disse: "OK, bem, lembre-se disso quando errarmos ao longo do caminho."
Jeff Bezos esboçou pela primeira vez um dispositivo Alexa em um quadro branco em 2011.
PARA O PRÓXIMO três anos, Bezos permaneceria intimamente envolvido no projeto. Ele autorizou o investimento de centenas de milhões de dólares antes que o primeiro Echo fosse lançado, tomou decisões detalhadas sobre o produto e se reuniu com a equipe com a mesma frequência em dias alternados. Usando o superlativo alemão, os funcionários se referiam a ele como o gerente de produto über.
Mas foi Hart quem comandou o esforço, do outro lado da rua do escritório de Bezos, em um prédio que abrigava a equipe que trabalhava no Kindle. Nos meses seguintes, Hart contratou um pequeno grupo de dentro e de fora da empresa. Como seu chefe, ele era obcecado por sigilo. Ele enviou e-mails vagos para possíveis contratações com o assunto "Junte-se à minha missão" e fez perguntas para a entrevista como "Como você projetaria um Kindle para cegos?" Ele se recusou a especificar em quais produtos os candidatos estariam trabalhando. Um entrevistado se lembra de ter adivinhado que era o famoso smartphone da Amazon e disse que Hart respondeu: “Há outra equipe construindo um telefone. Mas isso é muito mais interessante. ”
A equipe inicial de Alexa trabalhou com um senso febril de urgência. Irrealisticamente, Bezos queria lançar o dispositivo em seis a 12 meses. Ele teria um bom motivo para se apressar. Em 4 de outubro de 2011, quando a equipe Alexa estava se reunindo, a Apple apresentou o assistente virtual Siri no iPhone 4S. Foi o último projeto de paixão do cofundador Steve Jobs, que morreu de câncer no dia seguinte. Hart e sua equipe se sentiram validados pela notícia de que um ressurgente Apple também estava trabalhando em um assistente pessoal ativado por voz, mas foram desencorajados pelo fato de que Siri foi o primeiro a comercializar e inicialmente recebeu algumas críticas negativas.
A equipe da Amazon tentou se assegurar de que seu produto era único, já que seria independente de smartphones. Eles também estavam tentando realizar um feito muito mais complexo tecnicamente. Os usuários do Siri falaram comandos diretamente nos microfones. A Amazon estava tentando construir um serviço capaz de entender a linguagem falada em uma sala barulhenta, usando uma tecnologia relativamente imatura chamada reconhecimento de fala em campo distante.
Para acelerar o desenvolvimento, Hart e sua equipe procuraram startups para adquirir. Foi um desafio nada trivial, já que Nuance, a gigante da fala com sede em Boston cuja tecnologia a Apple licenciara para a Siri (e que foi recentemente adquirida pela Microsoft), cresceu ao longo dos anos engolindo as principais empresas de fala americanas. Os executivos da Alexa tentaram descobrir quais das startups restantes eram promissoras, pedindo a possíveis alvos que habilitassem o catálogo de livros digitais do Kindle por voz e, em seguida, estudando seus métodos e resultados. A busca levou a várias aquisições rápidas nos dois anos seguintes, incluindo a startup polonesa Ivona.
A Ivona foi fundada em 2001 por Lukasz Osowski, um estudante de ciência da computação na Universidade de Tecnologia de Gdańsk. Osowski tinha a noção de que o chamado texto para fala, ou TTS, podia ler textos digitais em voz alta com uma voz natural e ajudar os deficientes visuais na Polônia. Com um colega de classe mais jovem, Michal Kaszczuk, ele gravou a voz de um ator e selecionou fragmentos de palavras, chamados difonemas, e depois os mesclou ou "concatenou" em diferentes combinações para aproximar palavras e frases de som natural que o ator jamais poderia ter proferido.
Os fundadores da Ivona tiveram um primeiro vislumbre de como sua tecnologia poderia ser poderosa quando contrataram um popular ator polonês chamado Jacek Labijak para gravar horas de fala e criar um banco de dados de sons. O produto resultante, que eles chamaram de Spiker, rapidamente se tornou a voz por computador mais vendida na Polônia. Nos anos seguintes, foi amplamente utilizado em metrôs, elevadores e para campanhas de chamadas automáticas. Posteriormente, Labijak começou a se ouvir em todos os lugares e regularmente recebia telefonemas em sua própria voz instando-o, por exemplo, a votar em um candidato em uma próxima eleição. Pranksters manipularam o software para que ele dissesse coisas inadequadas e postou os clipes online, onde seus filhos os descobriram. Os fundadores da Ivona tiveram então que renegociar o contrato do ator depois que ele furiosamente tentou retirar sua voz do software.
Em 2006, Ivona começou a participar e vencer repetidamente o Blizzard Challenge anual, uma competição para a voz computacional mais natural, organizada pela Carnegie Mellon University. Em 2012, a Ivona havia se expandido para 20 outros idiomas e oferecido mais de 40 vozes. Hart e Al Lindsay, o primeiro gerente de engenharia do projeto, os visitaram em Gdańsk em uma viagem que estavam fazendo pela Europa em busca de alvos de aquisição. “Desde o minuto em que entramos em seus escritórios, sabíamos que era um ajuste cultural”, diz Lindsay, apontando para o progresso de Ivona em um campo onde os pesquisadores muitas vezes se distraem com atividades nobres e têm dificuldade em enviar produtos reais. “Sua fragilidade permitiu que olhassem para fora da academia pura e não fossem cegados pela ciência”.
A compra, por cerca de US $ 30 milhões, foi concluída em 2012, mas mantida em segredo por um ano. A equipe Ivona e o número crescente de engenheiros de fala que a Amazon contrataria para seu novo centro de P&D em Gdańsk foram encarregados de criar a voz de Alexa. O programa foi microgerido pelo próprio Bezos e sujeito às curiosidades e caprichos habituais do CEO.
No início, Bezos disse que queria que dezenas de vozes distintas emanassem do dispositivo, cada uma associada a um objetivo ou tarefa diferente, como ouvir música ou reservar um voo. Quando isso se mostrou impraticável, a equipe considerou listas de características desejadas em uma única personalidade, como confiabilidade, empatia e cordialidade, e determinou que essas características eram mais comumente associadas a uma voz feminina.
Para desenvolver essa voz e garantir que ela não tivesse nenhum traço de sotaque regional, a equipe na Polônia trabalhou com um estúdio de locução baseado em Atlanta, GM Voices, a mesma empresa que ajudou a transformar as gravações de uma dubladora chamada Susan Bennett no agente da Apple, Siri. Para criar personalidades sintéticas para seus clientes, o GM Voices dá aos dubladores centenas de horas de texto para ler, de livros inteiros a artigos aleatórios, um processo entorpecente que pode se estender por meses.
Acreditando que a seleção da voz certa para Alexa era crítica, Hart e colegas passaram meses revisando as gravações de vários candidatos que o GM Voices produziu para o projeto e apresentaram as escolhas principais a Bezos. A equipe da Amazon classificou os melhores, pediu amostras adicionais e finalmente fez uma escolha. Bezos assinou. Caracteristicamente secreta, a Amazon nunca revelou o nome da dubladora por trás de Alexa. Eu aprendi sua identidade depois de pesquisar a comunidade de locutores profissionais: a dubladora e cantora de Boulder, Colorado, Nina Rolle. Seu site profissional contém links para antigos anúncios de rádio de produtos como o suco de maçã da Mott e o Volkswagen Passat - e o timbre quente da voz de Alexa é inconfundível. Rolle disse que não tinha permissão para falar comigo quando eu a contatei por telefone em fevereiro de 2021.
ALEXA AGORA TINHA uma voz, mas logo ficou claro que ela precisava de um novo cérebro. No início de 2013, a Amazon começou a mover um protótipo do Echo original para as casas de centenas de funcionários, que foram convidados a assinar acordos de confidencialidade e preencher pesquisas sobre suas experiências com o produto.
“Todos nós pensamos que poderia ser o fim do projeto, ou pelo menos o fim de alguns de nós na Amazon.” ENGENHEIRO AMAZON
Os dispositivos experimentais foram, segundo todos os relatos, lentos e burros. Talvez a crítica mais angustiante tenha vindo do próprio Bezos. O CEO aparentemente estava testando uma unidade em sua casa em Seattle e, frustrado por sua falta de compreensão, disse a Alexa para ir "dar um tiro na própria cabeça". Um dos engenheiros que ouviu o comentário ao analisar as interações com o dispositivo de teste disse: “Todos nós pensamos que poderia ser o fim do projeto, ou pelo menos o fim de alguns de nós na Amazon”.
Nos meses que se seguiram, os esforços contínuos da Amazon para tornar seu produto mais inteligente se envolveram em uma batalha entre duelos de dogmas de IA e levaram ao seu maior desafio até então.
Graças à aquisição de uma empresa de inteligência artificial sediada em Cambridge, Inglaterra, chamada Evi, Alexa já era proficiente no bate-papo culturalmente comum chamado fala fática. Se um usuário dissesse ao dispositivo: “Alexa, bom dia, como você está?” Alexa poderia fazer a conexão certa e responder. Ele também pode lidar com consultas factuais, como solicitações para nomear os planetas no sistema solar. Essas qualidades, resultado de uma técnica de programação chamada de gráficos de conhecimento, davam a impressão de que Alexa era inteligente. Mas foi isso? Os defensores de outro método de compreensão de linguagem natural, chamado aprendizado profundo, acreditavam que o método de Evi era muito arregimentado para dar a Alexa o tipo de inteligência autêntica que satisfaria o sonho de Bezos de um assistente versátil que pudesse falar com os usuários e responder a qualquer pergunta. Se um usuário disser: “Tocar música do Sting,
No método de aprendizagem profunda, as máquinas foram alimentadas com grandes quantidades de dados sobre como as pessoas conversam e quais respostas se mostraram satisfatórias e, em seguida, foram programadas para se treinar para oferecer as melhores respostas. Em outras palavras, quanto mais Alexa fosse usada, mais inteligente ela ficaria.
O principal defensor dessa abordagem foi um engenheiro indiano chamado Rohit Prasad. Prasad e seus colegas tiveram que resolver o paradoxo que confronta todas as empresas que desenvolvem IA: se lançarem um sistema burro, os clientes não o usarão e, portanto, não gerarão dados suficientes para melhorar o serviço. Mas as empresas precisam desses dados para treinar o sistema e torná-lo mais inteligente. O Google e a Apple resolveram o paradoxo em parte licenciando a tecnologia da Nuance, usando seus resultados para treinar seus próprios modelos de fala e, em seguida, cortando os laços com a empresa. Durante anos, o Google também coletou dados de fala de uma linha gratuita de assistência ao diretório, 800-Goog-411. A Amazon não tinha esses serviços que pudesse explorar, e Hart era contra o licenciamento de tecnologia externa - ele achava que isso limitaria a flexibilidade da empresa a longo prazo. Mas os parcos dados de treinamento dos testes beta nas casas dos funcionários equivaleram ao discurso de algumas centenas de trabalhadores de colarinho branco, geralmente proferido em uma sala barulhenta pela manhã e à noite quando eles não estavam no escritório. Os dados eram ruins e não eram suficientes.
Rohit Prasad é o cientista-chefe da Alexa Artificial Intelligence da Amazon.FOTOGRAFIA: JOE BUGLEWICZ / BLOOMBERG / GETTY IMAGES
Enquanto isso, Bezos ficou impaciente. “Como saberemos quando este produto é bom?” ele continuou perguntando. Hart, Prasad e sua equipe criaram gráficos que projetavam como Alexa melhoraria à medida que a coleta de dados progredia. A matemática sugeriu que eles precisariam dobrar aproximadamente a escala de seus esforços de coleta de dados para alcançar cada aumento sucessivo de 3 por cento na precisão de Alexa.
Enquanto isso, Bezos ficou impaciente. “Como saberemos quando este produto é bom?” ele continuou perguntando. Hart, Prasad e sua equipe criaram gráficos que projetavam como Alexa melhoraria à medida que a coleta de dados progredia. A matemática sugeriu que eles precisariam dobrar aproximadamente a escala de seus esforços de coleta de dados para alcançar cada aumento sucessivo de 3 por cento na precisão de Alexa.
Naquela primavera, apenas algumas semanas depois de Prasad ter ingressado na empresa, a equipe trouxe uma narrativa de seis páginas a Bezos que expôs esses fatos e propôs dobrar o tamanho da equipe de ciências da fala e adiar um lançamento planejado do verão para a queda. A reunião não correu bem. “Você está fazendo isso da maneira errada”, disse Bezos após ler sobre o atraso, segundo alguém que estava presente. “Primeiro me diga o que seria um produto mágico, depois me diga como chegar lá.”
Bezos se levantou e disse: “Vocês não estão falando sério sobre como fazer este produto”, e encerrou abruptamente a reunião.
O assessor técnico de Bezos na época, Dilip Kumar, perguntou então se a empresa tinha dados suficientes. Prasad, que estava convocando a reunião de Cambridge, respondeu que precisariam de mais milhares de horas de comandos de voz complexos e de campo distante. Segundo um executivo que estava na sala, Bezos aparentemente levou em consideração o pedido de aumento do número de cientistas da fala e fez o cálculo mentalmente em alguns segundos. "Deixe-me ver se entendi. Você está me dizendo que para o seu grande pedido de tornar este produto um sucesso, em vez de levar 40 anos, levaremos apenas 20? ”
Prasad tentou dançar em torno dele. "Jeff, não é assim que pensamos."
“Mostre-me onde minha matemática está errada!” Bezos disse, de acordo com uma pessoa que estava na sala. Hart interveio. "Espere aí, Jeff, ouvimos, entendemos." Prasad e outros executivos da Amazon se lembrariam daquela reunião, e das outras interações difíceis com Bezos durante o desenvolvimento de Alexa, de maneira diferente. Mas, de acordo com uma pessoa que estava lá, o CEO se levantou e disse: “Vocês não estão falando sério sobre fazer este produto”, e encerrou abruptamente a reunião.
Depois que Jeff Bezos os abandonou, os executivos da Alexa que trabalhavam no protótipo recuaram com seu orgulho ferido para uma sala de conferências próxima e reconsideraram sua solução para o paradoxo dos dados. Seu chefe estava certo. O teste interno e o treinamento com os funcionários da Amazon eram muito limitados. Eles precisariam expandir maciçamente o Alexa beta e, de alguma forma, ainda mantê-lo em segredo do mundo exterior.
O programa resultante colocaria o programa Alexa em esteróides e responderia a uma pergunta que mais tarde incomodou os especialistas em fala: como a Amazon surgiu do nada para ultrapassar o Google e a Apple na corrida para construir um assistente virtual habilitado para fala?
Para executar seu plano, chamado internamente de AMPED, a Amazon contratou uma empresa australiana de coleta de dados chamada Appen e saiu para a estrada com Alexa, disfarçada. Começando em Boston, a Appen alugou casas e apartamentos e, em seguida, a Amazon lotou vários quartos com todos os tipos de dispositivos “chamariz”: microfones de pedestal, consoles de jogos Xbox, televisores e tablets. Também havia cerca de 20 dispositivos Alexa plantados ao redor das salas em diferentes alturas, cada um envolto em um tecido acústico que os ocultava da vista, mas permitia que o som passasse. Appen então contratou uma agência de empregos temporários e um fluxo de trabalhadores contratados filtrou as propriedades, oito horas por dia, seis dias por semana, lendo scripts de um iPad com linhas enlatadas e prompts abertos como “peça para tocar sua música favorita ”E“ pergunte tudo o que você gostaria que um assistente fizesse ”.
Os alto-falantes foram desligados, então o Alexas não deu um pio, mas os sete microfones em cada dispositivo capturaram tudo e transmitiram o áudio para os servidores da Amazon. Em seguida, outro exército de trabalhadores revisou manualmente as gravações e anotou as transcrições, classificando as consultas que podem confundir uma máquina, como “ligar Jogos Vorazes, ”Como um pedido para ver um filme, para que Alexa soubesse da próxima vez. O teste de Boston mostrou-se promissor, então a Amazon expandiu o programa, alugando mais casas e apartamentos em Seattle e 10 outras cidades nos próximos seis meses para capturar as vozes e padrões de fala de outros milhares de falantes pagos. Foi uma explosão de dados em forma de cogumelo sobre o posicionamento do dispositivo, ambientes acústicos, ruído de fundo, sotaques regionais e todas as formas gloriosamente aleatórias que um ser humano pode fazer uma simples solicitação para ouvir o tempo, por exemplo, ou tocar um hit de Justin Timberlake .
A constante inundação de pessoas aleatórias em casas e apartamentos fez com que vizinhos suspeitos chamassem a polícia repetidamente. Em um caso, um residente de um condomínio de Boston suspeitou que um traficante de drogas ou rede de prostituição estava na porta ao lado e chamou a polícia, que pediu para entrar no apartamento. A equipe nervosa deu-lhes uma explicação evasiva e um tour e, em seguida, fechou o site às pressas. Ocasionalmente, trabalhadores temporários apareciam, consideravam o roteiro bizarro e a imprecisão de todo o caso e simplesmente se recusavam a participar. Um funcionário da Amazon que estava anotando as transcrições mais tarde lembrou-se de ter ouvido um trabalhador temporário interromper uma sessão e sussurrar para quem ele suspeitava estar ouvindo: “Isso é tão estúpido. A empresa por trás disso deveria estar envergonhada! ”
A Amazon estava tudo menos envergonhada. Em 2014, ela aumentou seu armazenamento de dados de voz por um fator de 10.000 e fechou amplamente a lacuna de dados com rivais como Apple e Google. Bezos estava tonto. Alexa estava sendo alimentada com o equivalente a um superalimento estimulante do cérebro. No outono, ele estava pronto para o lançamento.
A INTRODUÇÃO DEo Amazon Echo em 6 de novembro de 2014 foi moldado pela falha do Fire Phone da empresa poucos meses antes. Não houve entrevista coletiva ou discurso visionário de Bezos - ele parecia ter acabado para sempre com sua impressão desanimada do falecido Steve Jobs, que havia revelado novos produtos com tanta energia. Em vez disso, Bezos parecia mais confortável com uma abordagem nova e discreta: a equipe anunciou o Echo com um comunicado à imprensa e um vídeo explicativo de dois minutos no YouTube que mostrava uma família conversando animadamente com Alexa. Os executivos da Amazon não elogiaram o novo dispositivo como um computador totalmente comunicativo, mas destacaram cuidadosamente vários domínios em que estavam confiantes de que seria útil, como entregar notícias e previsão do tempo, definir cronômetros, criar listas de compras e tocar música.
Em seguida, eles pediram aos clientes que entrassem em uma lista de espera para comprar um Echo e analisaram a lista cuidadosamente, considerando fatores como se os candidatos eram usuários da Amazon Music e possuíam um Kindle. Reconhecendo que era um mercado não testado, eles também encomendaram um lote inicial de apenas 80.000 dispositivos, em comparação com um pedido preliminar de mais de 300.000 Fire Phones, e os distribuíram gradualmente ao longo dos meses seguintes. “O Fire Phone certamente deixou as pessoas um pouco cautelosas”, diz Hart. “Isso nos levou a revisitar tudo.”
Mais de um veterano do Alexa suspeitou que o Amazon Echo poderia deixar outra cratera fumegante no cenário da tecnologia de consumo, bem ao lado do Fire Phone. No dia do lançamento, eles se amontoaram sobre seus laptops em uma “sala de guerra” para assistir enquanto a lista de espera aumentava até mesmo em suas projeções mais hiperbólicas. Descobriu-se que a noção de um computador conectado à nuvem que escuta e responde do outro lado da sala era tão tentadora e inovadora quanto Jeff Bezos esperava que fosse quando o esboçou pela primeira vez no quadro branco da sala de conferências, quase quatro anos antes .
No meio da vigília, alguém percebeu que estavam deixando uma conquista significativa passar despercebida. Então, cerca de cem funcionários dirigiram-se a um bar próximo para uma comemoração há muito esperada, e alguns dos executivos e engenheiros de longa data do projeto o fecharam naquela noite.
Comments