Alexa está em silêncio: como a Amazon fracassou em sua estratégia de IA


Assistente corre o risco de se tornar uma relíquia digital a história de uma tecnologia revolucionária que ficou presa jogando o jogo errado

Por Sharon Goldman

“Alexa, vamos conversar.”

Com essa frase, David Limp, na época chefe de dispositivos e serviços da Amazon, apresentou uma nova versão da inteligência artificial (IA) da assistente de voz Alexa, produto conhecido da empresa, em setembro de 2023.

Em um evento lotado, Limp demonstrou a nova Alexa para uma sala cheia de repórteres e funcionários animados. Ele mostrou como, em resposta à nova frase de acionamento, “Alexa, vamos conversar”, a assistente digital respondeu com uma voz muito mais natural e coloquial do que a voz amigável, porém robótica, com a qual centenas de milhões de pessoas se acostumaram a se comunicar para obter atualizações meteorológicas, lembretes, temporizadores e solicitações de música. Limp perguntou à Alexa como estava seu time de futebol favorito, a Universidade de Vanderbilt. A Alexa mostrou como poderia responder com uma voz alegre e como poderia escrever uma mensagem para seus amigos para lembrá-los de assistir ao próximo jogo de futebol do Vanderbilt e enviá-la para o telefone dele.

continua após a publicidade
Alexa da Amazon foi uma sensação quando foi lançada e logo estava disponível em uma variedade de alto-falantes inteligentes Amazon Echo e outros dispositivos  Foto: John Minchillo/AP

O novo Alexa LLM, segundo a empresa, estaria disponível em breve como uma prévia gratuita nos dispositivos com Alexa nos EUA. Rohit Prasad, vice-presidente sênior da Amazon e líder da Alexa, disse que a notícia marcou uma “transformação maciça da assistente que amamos” e chamou a nova Alexa de “superagente”. Ficou claro que a empresa queria refutar as percepções de que a Alexa existente não era inteligente.

Mas, após o evento, houve silêncio no rádio - ou silêncio na assistente digital. A voz tradicional da Alexa nunca mudou nos meio bilhão de dispositivos que foram vendidos globalmente, e poucas notícias surgiram nos meses seguintes sobre a nova Alexa com IA generativa, além de relatórios recentes sobre um possível lançamento no final deste ano que poderia incluir uma taxa de assinatura.

continua após a publicidade

O motivo, de acordo com entrevistas com ex-funcionários que trabalharam na IA para a Alexa, é uma organização assolada por disfunções estruturais e desafios tecnológicos que atrasaram repetidamente o envio da nova Alexa com IA generativa. De modo geral, os ex-funcionários pintam o quadro de uma empresa desesperadamente atrás de seus rivais, Google, Microsoft e Meta, na corrida pelo lançamento de chatbots e agentes de IA, e com dificuldades em seus esforços para recuperar o atraso.

A demonstração de setembro de 2023, enfatizam os ex-funcionários, era apenas isso - uma demonstração. A nova Alexa não estava pronta para ser lançada, e ainda não está. O modelo grande de linguagem (LLM) da Alexa está, de acordo com ex-funcionários, longe de ser o estado da arte.

Cientistas pesquisadores que trabalharam no LLM disseram que a Amazon não tem dados suficientes ou acesso aos chips de computador especializados necessários para executar LLMs para competir com os esforços rivais de empresas como a OpenAI. Além disso, a Amazon tem repetidamente desprivilegiado a nova Alexa em favor da criação de IA generativa para a unidade de computação em nuvem da Amazon, a AWS. E embora a Amazon tenha criado uma parceria e investido US$ 4 bilhões na startup Anthropic, cujo modelo LLM Claude é considerado competitivo em relação aos modelos da OpenAI, ela não conseguiu capitalizar esse relacionamento para criar uma Alexa melhor. As preocupações com a privacidade impediram que as equipes da Alexa usassem o Claude.

continua após a publicidade

Um porta-voz da Amazon disse que os detalhes fornecidos pelos ex-cientistas pesquisadores para este texto eram “datados” - embora muitas dessas fontes tenham deixado a empresa nos últimos seis meses - e não refletiam o estado atual do Alexa LLM. Ela acrescentou que a empresa tem acesso a centenas de milhares de GPUs e outros chips específicos de IA. Ela também contestou a ideia de que a Alexa tenha sido despriorizada ou que o Claude tenha ficado fora dos limites devido a preocupações com a privacidade, mas se recusou a fornecer evidências de como o Claude está sendo usado na nova Alexa.

Embora os aspectos da luta da Amazon para atualizar a Alexa sejam exclusivos, os desafios da empresa dão uma indicação de como é difícil para as empresas renovar os assistentes digitais criados com tecnologias mais antigas. A Apple também enfrentou dificuldades semelhantes para integrar a IA em seus produtos, incluindo sua assistente digital Siri. A Siri e a Alexa compartilham um pedigree tecnológico semelhante - na verdade, a Siri foi lançada três anos antes da Alexa, em outubro de 2011. E, assim como a Amazon, a Apple investiu pouco no tipo de conhecimento especializado em IA necessário para criar os modelos de linguagem massivos que sustentam a IA generativa atual e nos vastos clusters de unidades de processamento gráfico (GPUs), os chips de computador especializados que esses modelos exigem. A Apple também, assim como a Amazon, lançou um esforço determinado, mas tardio, para recuperar o atraso.

continua após a publicidade

A Apple deu alguns passos importantes para recuperar o terreno perdido na corrida da IA generativa com um conjunto de anúncios altamente esperados no início desta semana. A estreia incluiu uma grande atualização para a Siri, incluindo uma voz com som mais natural e o potencial de “consciência na tela”, que permitirá que a Siri realize mais ações semelhantes às de um agente em todos os aplicativos. A Apple também anunciou uma integração da Siri com o ChatGPT. Os anúncios da Apple só aumentam a pressão sobre a Amazon para que ela ofereça a nova Alexa.

Infelizmente, há evidências crescentes de que a Amazon está mal preparada para essa nova batalha dos assistentes digitais, embora muitos tenham presumido que a empresa estaria perfeitamente posicionada para levar a Alexa para a era da IA generativa. Mihail Eric, ex-cientista sênior de aprendizado de máquina da Alexa AI, foi ao X (antigo Twitter) para dizer exatamente isso: Em um post intitulado “How Alexa dropped the ball on being the top conversational system on the planet”, Eric, que deixou a Amazon em julho de 2021, apontou que a Alexa havia vendido mais de 500 milhões de dispositivos, “o que é um fosso de dados de usuários alucinante”, e que “tínhamos todos os recursos, talento e impulso para nos tornarmos o líder de mercado inequívoco em IA conversacional”. Mas a maior parte dessa tecnologia nunca viu a luz do dia, disse ele, porque a Alexa AI “estava repleta de problemas técnicos e burocráticos”. Os ex-funcionários com quem a Fortune conversou no último mês ecoa o relato de Eric e acrescenta mais detalhes à história do fracasso da gigante. Os ex-funcionários falaram sob anonimato para evitar violar os acordos de não divulgação ou as cláusulas de não divulgação que haviam assinado.

Alexa foi pega de surpresa pelo ChatGPT

continua após a publicidade

Bem antes de o ChatGPT impressionar o mundo em novembro de 2022, havia a Alexa. A assistente digital foi lançada em 2014 junto com o alto-falante inteligente Echo, que servia como sua interface de hardware. O assistente digital, segundo a Amazon, foi inspirado no computador onisciente apresentado em Star Trek. O produto rapidamente se tornou um sucesso entre os consumidores, vendendo mais de 20 milhões de dispositivos até 2017. Mas a Alexa não foi criada com os mesmos modelos e métodos de IA que tornaram o ChatGPT inovador. Em vez disso, era uma coleção de pequenos modelos de aprendizado de máquina e milhares de regras criadas manualmente e codificadas que transformavam as declarações de um usuário nas ações executadas pela Alexa.

O CEO da Apple, Tim Cook, fez parceria com a OpenAI para dar ao seu assistente Siri algumas novas informações  Foto: David Paul Morris/Bloomberg

A Amazon estava experimentando alguns LLMs - todos eles muito menores que o GPT-3 e o GPT-4 - mas eles não estavam nem perto de estarem prontos para serem implantados em um produto. Segundo ex-funcionários, a empresa foi pega de surpresa pelo boom da IA generativa na esteira do lançamento do ChatGPT. Seguiram-se alguns meses frenéticos, enquanto a organização Alexa da Amazon se esforçava para se unir em torno de uma visão que levasse a assistente digital de um bot de ação de comando afetado a um agente verdadeiramente conversacional e útil. Os projetos de IA não generativa foram despriorizados da noite para o dia e, durante todo o período do Natal de 2022, os executivos pediram aos cientistas, engenheiros e gerentes de produtos da Amazon que descobrissem como garantir que a Amazon tivesse produtos de IA generativa para oferecer aos clientes. Um ex-gerente de projeto da Alexa AI descreveu a atmosfera na empresa como “um pouco de pânico”.

continua após a publicidade

A resposta da Amazon quase imediatamente teve problemas, pois várias equipes da Alexa e da AWS não conseguiram se unir em torno de um plano unificado. Muitos funcionários ainda estavam trabalhando remotamente após a pandemia, o que fez com que as pessoas ficassem interminavelmente “reunidas em teleconferências debatendo as minúcias de documentos, disse o gerente de projeto da Alexa AI. A empresa teve dificuldades, segundo ele, para “mudar do modo de tempo de paz para o modo de tempo de guerra”.

Um cientista de dados sênior da Alexa disse que isso era especialmente frustrante porque ele havia tentado soar o alarme sobre a próxima onda de IA generativa já em meados de 2022, reunindo dados para mostrar à sua liderança de nível de diretor, mas ele disse que não conseguia convencê-los de que a empresa precisava mudar sua estratégia de IA. Somente após o lançamento do ChatGPT é que a empresa entrou em ação, explicou ele.

O problema é que, como centenas de milhões de pessoas já sabem, a assistente não foi criada e nunca foi usada para conversas de ida e volta. Em vez disso, ela sempre se concentrou no que a organização da Alexa chama de “declarações” - as perguntas e os comandos como “como está o tempo?” ou “acender as luzes”.

Nos primeiros meses após o lançamento do ChatGPT, não ficou claro que os LLMs seriam capazes de acionar essas ações do mundo real a partir de uma conversa natural, disse um cientista pesquisador com Ph.D. que estagiou na equipe da Alexa durante esse período. “A ideia de que um LLM poderia ‘acender as luzes’ quando você dissesse ‘não consigo ver, acenda tudo’ ainda não estava comprovada”, disse ele. “Portanto, os líderes internos claramente tinham grandes planos, mas não sabiam realmente no que estavam se metendo.” Agora é amplamente aceito que os LLMs podem, pelo menos em teoria, ser acoplados a outras tecnologias para controlar ferramentas digitais.

Em vez disso, as equipes estavam descobrindo como implementar a IA generativa em tempo real. Isso incluía a criação de conjuntos de dados sintéticos - nesse caso, coleções de diálogos gerados por computador com um chatbot - que poderiam ser usados para treinar um LLM. Os criadores de modelos de IA costumam usar dados sintéticos quando não há dados reais suficientes para melhorar a precisão da IA ou quando a proteção da privacidade é necessária - e lembre-se de que a maior parte do que a equipe da Alexa tinha eram “declarações” simples e declarativas.

“Os clientes estavam falando na linguagem da Alexa”, disse um ex-cientista de aprendizado de máquina da Amazon. “Agora imagine que você queira incentivar as pessoas a falar em uma linguagem que nunca aconteceu. De onde você vai tirar os dados para treinar o modelo? Você precisa criá-lo, mas isso traz uma série de obstáculos porque há um milhão de maneiras de as pessoas dizerem a mesma coisa.”

Além disso, embora a Alexa tenha sido integrada a milhares de dispositivos e serviços de terceiros, verifica-se que os LLMs não são muito bons em lidar com essas integrações. De acordo com um ex-gerente de aprendizado de máquina da Alexa, que trabalhou nos recursos de casa inteligente da Alexa, até mesmo o mais recente modelo GPT-4o, da OpenAI, ou o Gemini, do Google, têm dificuldade para passar do diálogo falado para a execução de uma tarefa usando outro software. Isso requer o que é conhecido como chamada de API e os LLMs ainda não fazem isso bem.

“Não são consistentes o suficiente, têm alucinações, fazem coisas erradas, é difícil criar uma experiência quando você está se conectando a muitos dispositivos diferentes”, disse o ex-cientista de aprendizado de máquina.

Na metade de 2023, muitos dos funcionários da Alexa não sabiam como a assistente digital enfrentaria o momento da IA generativa. O projeto carecia de visão, disseram ex-funcionários.

Nova assistente causava preocupação

A estrutura interna da Amazon e as unidades de negócios isoladas dificultaram a reformulação do Alexa, de acordo com fontes  Foto: Markus Schreiber/AP

A demonstração da Alexa em setembro de 2023 fez parecer que o lançamento da nova Alexa iminente, mas ela “não atendeu aos critérios”, disse um ex-funcionário. Os LLMs são conhecidos por produzirem alucinações e conteúdo tóxico, e o da Amazon não era diferente, tornando arriscada uma ampla divulgação.

Segundo ex-funcionários, esse é o motivo pelo qual o recurso “vamos conversar” da Alexa nunca foi lançado em larga escala. “É muito difícil tornar a IA suficientemente segura e testar todos os aspectos dessa caixa preta para liberá-la”, disse um ex-gerente.

A mesma demonstração, ele destacou, envolvia uma funcionalidade diferente daquela pela qual a Alexa era mais conhecida - ou seja, receber um comando e executá-lo. Garantir que a Alexa ainda pudesse executar essas funções antigas e, ao mesmo tempo, possibilitar o diálogo de conversação que a nova Alexa prometia não seria uma tarefa fácil. O gerente disse que estava cada vez mais claro para ele que a organização precisaria, pelo menos temporariamente, manter duas pilhas de tecnologia completamente diferentes - uma com suporte para os recursos antigos da Alexa e outra para os novos. Mas os gerentes não queriam aceitar essa ideia, disse ele. Em vez disso, a mensagem na empresa na época em que ele foi demitido, em novembro de 2023, ainda era “precisamos esquecer do antigo modelo de IA da Alexa e passar a trabalhar apenas no novo”.

Mesmo com o fracasso do lançamento do novo Alexa LLM, os executivos da Amazon estabeleceram metas cada vez mais elevadas para a IA generativa. Pouco antes da demonstração, Prasad, o vice-presidente sênior da Amazon que havia atuado como cientista-chefe da Alexa, foi promovido a uma nova função destinada a reunir as diferentes equipes de pesquisa da empresa sob um único guarda-chuva, com o objetivo de desenvolver inteligência artificial geral de nível humano, ou AGI. A medida colocou a Amazon em concorrência direta com empresas como OpenAI, DeepMind e Anthropic, que têm a criação de AGI como sua missão fundadora. O CEO da Meta, Mark Zuckerberg, também disse recentemente que a criação de AGI também é a missão de sua empresa.

Em novembro de 2023, foi noticiado que a Amazon estava investindo milhões no treinamento de um modelo de IA, de codinome Olympus, que teria 2 trilhões de parâmetros (conexões entre palavras expressadas matematicamente). Os parâmetros dão uma ideia da complexidade de um modelo. E a contagem de parâmetros do Olympus faria com que ele tivesse o dobro do suposto tamanho do modelo mais capaz da OpenAI, o GPT-4.

O ex-cientista pesquisador que trabalha no Alexa LLM disse que o Projeto Olympus é “uma piada”, acrescentando que o maior modelo em andamento tem 470 bilhões de parâmetros. Ele também enfatizou que a versão atual do Alexa LLM não sofreu alterações em relação ao modelo de 100 bilhões de parâmetros que foi usado na demonstração de setembro de 2023, mas recebeu mais pré-treinamento e ajustes finos para melhorá-lo.

A falta de dados dificultou o processo

Nos meses seguintes à demonstração de setembro de 2023, um ex-cientista pesquisador que trabalhou na criação do novo Alexa LLM lembrou como a liderança da Alexa, incluindo o líder de IA generativa da Amazon, Rohit Prasad, incentivou a equipe a trabalhar cada vez mais. A mensagem era para “conseguir alguma mágica” com o LLM, disse o cientista pesquisador. Mas a mágica nunca aconteceu. A falta de dados adequados foi um dos principais motivos.

O Llama 3 da Meta foi pré-treinado com 15 trilhões de tokens, a menor unidade de dados que um LLM processa. O Alexa LLM foi treinado apenas com 3 trilhões. Diferentemente dos parâmetros, que são o número de configurações ajustáveis de um modelo, um token é a menor unidade de dados - como uma palavra - que o modelo processa durante o treinamento. Enquanto isso, o “ajuste fino” de um modelo de IA - que utiliza um modelo pré-treinado e o aprimora para tarefas específicas - também se beneficia de conjuntos de dados maiores do que os que a Amazon tem à disposição. O modelo Llama 3 da Meta foi ajustado com 10 milhões de pontos de dados. O LLM criado pela organização AGI da Amazon acumulou até agora apenas cerca de 1 milhão, com apenas 500 mil pontos de dados de alta qualidade, disse o ex-cientista de pesquisa do Alexa LLM.

O ex-executivo da Amazon, David Limp, fez de Alexa um sucesso entre os consumidores. Mas na era do ChatGPT, o assistente inteligente pioneiro da Amazon não consegue acompanhar  Foto: Dado Ruvic/Reuters

Um dos muitos motivos para isso, explicou ele, é que a Amazon insiste em usar seus próprios anotadores de dados (pessoas responsáveis por rotular os dados para que os modelos de IA possam reconhecer padrões) e essa organização é muito lenta. “Portanto, nunca conseguimos obter dados de alta qualidade deles após várias rodadas, mesmo após um ano de desenvolvimento do modelo”, disse ele.

Além da escassez de dados, a equipe da Alexa também não tem acesso às grandes quantidades das mais recentes GPUs da Nvidia, os chips especializados usados para treinar e executar modelos de IA, que as equipes da OpenAI, Meta e Google têm. “A maioria das GPUs ainda é A100, não H100″, acrescentou o ex-cientista pesquisador do Alexa LLM, referindo-se à GPU mais poderosa que a Nvidia tem disponível atualmente.

Às vezes, a criação da nova Alexa ficou em segundo plano em relação a outras prioridades de IA generativa na Amazon, disseram eles. O foco principal da Amazon após o lançamento do ChatGPT foi lançar o Bedrock, um novo serviço de computação em nuvem da AWS que permitia que os clientes criassem chatbots de IA generativa e outros aplicativos na nuvem. A AWS é um fator crítico de lucro para a Amazon.

A Alexa, por outro lado, é um centro de custos - a divisão supostamente perde bilhões a cada ano - e é vista principalmente como uma forma de manter os clientes envolvidos com a Amazon e como uma maneira de coletar dados que podem ajudar a Amazon e seus parceiros a direcionar melhor a publicidade. O LLM que os cientistas da Amazon estão construindo (uma versão do qual também alimentará a Alexa) também está sendo implementado pela primeira vez no assistente de IA generativa da AWS, o Amazon Q, disse um ex-cientista do LLM da Alexa que saiu nos últimos meses, porque o modelo agora é considerado bom o suficiente para casos específicos de uso corporativo.

Burocracia e problemas de infraestrutura

Um ex-funcionário da Alexa AI, que contratou vários funcionários que estavam trabalhando no novo LLM da Alexa, disse que a maioria mencionou “sentir-se exausta” pela pressão constante para preparar o modelo para um lançamento que é repetidamente adiado - e frustrada porque outros trabalhos estão em espera até esse momento. Alguns também expressaram um ceticismo crescente quanto ao fato de o design geral da Alexa baseada em LLM fazer sentido, acrescentou.

“Uma história que ouvi foi que, no início do projeto, houve uma grande pressão por parte dos executivos seniores que se tornaram excessivamente confiantes depois de fazer experiências com o ChatGPT e que esse excesso de confiança persistiu entre alguns líderes seniores que continuam a se esforçar para atingir uma meta irrealista”, disse ele. Outro ex-cientista do Alexa LLM disse que os gerentes estabelecem prazos inatingíveis. “Toda vez que os gerentes nos atribuíam uma tarefa relacionada ao LLM, eles nos pediam para concluí-la em um período de tempo muito curto (por exemplo, dois dias, uma semana), o que é impossível”, disse ele. “Parece que a liderança não sabe nada sobre LLMs - eles não sabem de quantas pessoas precisam e qual deve ser o tempo esperado para concluir cada tarefa para criar um produto de sucesso como o ChatGPT.”

Alexa nunca se alinhou com a ideia de Jeff Bezos de “equipes de duas pizzas”, ou seja, que as equipes deveriam ser pequenas o suficiente para que fosse possível atender a uma reunião completa da equipe com apenas duas pizzas. Bezos acreditava que equipes menores promoviam a tomada de decisões e a colaboração eficazes. Em vez disso, a Alexa tem sido historicamente - e continua sendo, em sua maior parte - uma divisão gigante. Antes das demissões mais recentes, ela tinha 10 mil funcionários. E, embora tenha menos agora, ainda está organizada em domínios grandes e isolados, como Alexa Home, Alexa Entertainment, Alexa Music e Alexa Shopping, cada um com centenas de funcionários.

À medida que aumentava a pressão para que cada domínio trabalhasse com o novo Alexa LLM para criar recursos de IA generativos, cada um dos quais exigia benchmarks de precisão, os domínios entraram em conflito, com resultados às vezes contraproducentes, disseram as fontes.

Por exemplo, um cientista de aprendizado de máquina que trabalhava na Alexa Home lembrou que, enquanto seu domínio trabalhava em maneiras de a Alexa ajudar os usuários a controlar suas luzes ou o termostato, o domínio Música estava ocupado trabalhando em como fazer com que a Alexa entendesse solicitações muito específicas, como “tocar Rihanna, depois Tupac, pausar 30 minutos e depois tocar DMX”.

A visão do fundador da Amazon, Jeff Bezos, para Alexa foi moldada por seu amor por Star Trek  Foto: Linda Davidson/The Washington Post

Cada equipe de domínio teve que construir seu próprio relacionamento com a equipe central de LLM da Alexa. “Passamos meses trabalhando com o pessoal do LLM apenas para entender sua estrutura e quais dados poderíamos fornecer a eles para ajustar o modelo e fazê-lo funcionar.” Cada equipe queria ajustar o modelo de IA para seus próprios objetivos de domínio.

Mas, como se viu, se a equipe de Casa tentasse ajustar o Alexa LLM para torná-lo mais capaz de responder a perguntas de Casa e, em seguida, a equipe de Música viesse e o ajustasse usando seus próprios dados para Música, o modelo acabaria tendo um desempenho pior. O “esquecimento catastrófico”, em que o que um modelo aprende mais tarde no treinamento degrada sua capacidade de ter um bom desempenho em tarefas que encontrou anteriormente no treinamento, é um problema com todos os modelos de aprendizagem profunda. “À medida que melhora na música, o modelo pode ficar menos inteligente em casa”, disse o cientista de aprendizado de máquina. “Portanto, encontrar o ponto ideal no qual você está tentando fazer o ajuste fino para 12 domínios é quase uma loteria.” Hoje em dia, acrescentou ele, os cientistas do LLM sabem que o ajuste fino pode não ser a melhor técnica para criar um modelo com recursos avançados e flexibilidade - há outras técnicas, como a engenharia de prontidão, que podem ser melhores. Mas, a essa altura, muitos meses já haviam se passado, com pouco progresso para mostrar.

A Amazon reafirma seu compromisso com a Alexa

A Amazon insiste que está totalmente comprometida em fornecer uma Alexa com IA generativa, acrescentando que sua visão continua sendo a de construir o “melhor assistente pessoal do mundo”. Um representante da Amazon ressaltou que mais de meio bilhão de dispositivos habilitados para Alexa foram vendidos, e os clientes interagem com a Alexa dezenas de milhões de vezes a cada hora.

Ela acrescentou que a implementação da IA generativa vem com uma “enorme responsabilidade - os detalhes realmente importam” com uma implementação técnica dessa escala, em um dispositivo que milhões de clientes receberam em suas casas. Embora o recurso “Vamos conversar” da Alexa LLM não tenha sido implementado para o público em geral, ele foi testado em pequenos grupos de clientes “de forma contínua”.

Mas muitos dos funcionários com quem a Fortune conversou disseram que saíram em parte porque se desesperaram com a possibilidade de a nova Alexa ficar pronta - ou que, quando isso acontecer, ela já terá sido ultrapassada por produtos lançados por concorrentes mais ágeis, como a OpenAI. Essas empresas não precisam navegar em uma pilha de tecnologia existente e defender um conjunto de recursos existente. O ex-funcionário que contratou vários funcionários que deixaram a organização Alexa no último ano disse que muitos estavam pessimistas em relação ao lançamento do Alexa LLM. “Eles simplesmente não viam que isso realmente aconteceria”, disse ele.

É possível que a Amazon finalmente lance uma Alexa baseada em LLMl. Afinal de contas, há centenas de milhões de usuários da Alexa no mundo que certamente ficariam felizes se o dispositivo que fica em sua mesa ou balcão de cozinha pudesse fazer mais do que executar comandos simples.

Mas, dados os desafios que pesam sobre o esforço do Alexa LLM e a lacuna que o separa das ofertas de líderes em IA generativa, como OpenAI e Google, nenhuma das fontes com quem a Fortune conversou acredita que o Alexa esteja perto de cumprir a missão da Amazon de ser “o melhor assistente pessoal do mundo”, muito menos a visão do fundador da Amazon, Jeff Bezos, de criar uma versão real do útil computador de Star Trek. Em vez disso, a Alexa da Amazon corre o risco de se tornar uma relíquia digital com uma história de advertência - a de uma tecnologia potencialmente revolucionária que ficou presa jogando o jogo errado.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

c.2024 Fortune Media IP Limited

Distribuído por The New York Times Licensing Group

“Alexa, vamos conversar.”

Com essa frase, David Limp, na época chefe de dispositivos e serviços da Amazon, apresentou uma nova versão da inteligência artificial (IA) da assistente de voz Alexa, produto conhecido da empresa, em setembro de 2023.

Em um evento lotado, Limp demonstrou a nova Alexa para uma sala cheia de repórteres e funcionários animados. Ele mostrou como, em resposta à nova frase de acionamento, “Alexa, vamos conversar”, a assistente digital respondeu com uma voz muito mais natural e coloquial do que a voz amigável, porém robótica, com a qual centenas de milhões de pessoas se acostumaram a se comunicar para obter atualizações meteorológicas, lembretes, temporizadores e solicitações de música. Limp perguntou à Alexa como estava seu time de futebol favorito, a Universidade de Vanderbilt. A Alexa mostrou como poderia responder com uma voz alegre e como poderia escrever uma mensagem para seus amigos para lembrá-los de assistir ao próximo jogo de futebol do Vanderbilt e enviá-la para o telefone dele.

Alexa da Amazon foi uma sensação quando foi lançada e logo estava disponível em uma variedade de alto-falantes inteligentes Amazon Echo e outros dispositivos  Foto: John Minchillo/AP

O novo Alexa LLM, segundo a empresa, estaria disponível em breve como uma prévia gratuita nos dispositivos com Alexa nos EUA. Rohit Prasad, vice-presidente sênior da Amazon e líder da Alexa, disse que a notícia marcou uma “transformação maciça da assistente que amamos” e chamou a nova Alexa de “superagente”. Ficou claro que a empresa queria refutar as percepções de que a Alexa existente não era inteligente.

Mas, após o evento, houve silêncio no rádio - ou silêncio na assistente digital. A voz tradicional da Alexa nunca mudou nos meio bilhão de dispositivos que foram vendidos globalmente, e poucas notícias surgiram nos meses seguintes sobre a nova Alexa com IA generativa, além de relatórios recentes sobre um possível lançamento no final deste ano que poderia incluir uma taxa de assinatura.

O motivo, de acordo com entrevistas com ex-funcionários que trabalharam na IA para a Alexa, é uma organização assolada por disfunções estruturais e desafios tecnológicos que atrasaram repetidamente o envio da nova Alexa com IA generativa. De modo geral, os ex-funcionários pintam o quadro de uma empresa desesperadamente atrás de seus rivais, Google, Microsoft e Meta, na corrida pelo lançamento de chatbots e agentes de IA, e com dificuldades em seus esforços para recuperar o atraso.

A demonstração de setembro de 2023, enfatizam os ex-funcionários, era apenas isso - uma demonstração. A nova Alexa não estava pronta para ser lançada, e ainda não está. O modelo grande de linguagem (LLM) da Alexa está, de acordo com ex-funcionários, longe de ser o estado da arte.

Cientistas pesquisadores que trabalharam no LLM disseram que a Amazon não tem dados suficientes ou acesso aos chips de computador especializados necessários para executar LLMs para competir com os esforços rivais de empresas como a OpenAI. Além disso, a Amazon tem repetidamente desprivilegiado a nova Alexa em favor da criação de IA generativa para a unidade de computação em nuvem da Amazon, a AWS. E embora a Amazon tenha criado uma parceria e investido US$ 4 bilhões na startup Anthropic, cujo modelo LLM Claude é considerado competitivo em relação aos modelos da OpenAI, ela não conseguiu capitalizar esse relacionamento para criar uma Alexa melhor. As preocupações com a privacidade impediram que as equipes da Alexa usassem o Claude.

Um porta-voz da Amazon disse que os detalhes fornecidos pelos ex-cientistas pesquisadores para este texto eram “datados” - embora muitas dessas fontes tenham deixado a empresa nos últimos seis meses - e não refletiam o estado atual do Alexa LLM. Ela acrescentou que a empresa tem acesso a centenas de milhares de GPUs e outros chips específicos de IA. Ela também contestou a ideia de que a Alexa tenha sido despriorizada ou que o Claude tenha ficado fora dos limites devido a preocupações com a privacidade, mas se recusou a fornecer evidências de como o Claude está sendo usado na nova Alexa.

Embora os aspectos da luta da Amazon para atualizar a Alexa sejam exclusivos, os desafios da empresa dão uma indicação de como é difícil para as empresas renovar os assistentes digitais criados com tecnologias mais antigas. A Apple também enfrentou dificuldades semelhantes para integrar a IA em seus produtos, incluindo sua assistente digital Siri. A Siri e a Alexa compartilham um pedigree tecnológico semelhante - na verdade, a Siri foi lançada três anos antes da Alexa, em outubro de 2011. E, assim como a Amazon, a Apple investiu pouco no tipo de conhecimento especializado em IA necessário para criar os modelos de linguagem massivos que sustentam a IA generativa atual e nos vastos clusters de unidades de processamento gráfico (GPUs), os chips de computador especializados que esses modelos exigem. A Apple também, assim como a Amazon, lançou um esforço determinado, mas tardio, para recuperar o atraso.

A Apple deu alguns passos importantes para recuperar o terreno perdido na corrida da IA generativa com um conjunto de anúncios altamente esperados no início desta semana. A estreia incluiu uma grande atualização para a Siri, incluindo uma voz com som mais natural e o potencial de “consciência na tela”, que permitirá que a Siri realize mais ações semelhantes às de um agente em todos os aplicativos. A Apple também anunciou uma integração da Siri com o ChatGPT. Os anúncios da Apple só aumentam a pressão sobre a Amazon para que ela ofereça a nova Alexa.

Infelizmente, há evidências crescentes de que a Amazon está mal preparada para essa nova batalha dos assistentes digitais, embora muitos tenham presumido que a empresa estaria perfeitamente posicionada para levar a Alexa para a era da IA generativa. Mihail Eric, ex-cientista sênior de aprendizado de máquina da Alexa AI, foi ao X (antigo Twitter) para dizer exatamente isso: Em um post intitulado “How Alexa dropped the ball on being the top conversational system on the planet”, Eric, que deixou a Amazon em julho de 2021, apontou que a Alexa havia vendido mais de 500 milhões de dispositivos, “o que é um fosso de dados de usuários alucinante”, e que “tínhamos todos os recursos, talento e impulso para nos tornarmos o líder de mercado inequívoco em IA conversacional”. Mas a maior parte dessa tecnologia nunca viu a luz do dia, disse ele, porque a Alexa AI “estava repleta de problemas técnicos e burocráticos”. Os ex-funcionários com quem a Fortune conversou no último mês ecoa o relato de Eric e acrescenta mais detalhes à história do fracasso da gigante. Os ex-funcionários falaram sob anonimato para evitar violar os acordos de não divulgação ou as cláusulas de não divulgação que haviam assinado.

Alexa foi pega de surpresa pelo ChatGPT

Bem antes de o ChatGPT impressionar o mundo em novembro de 2022, havia a Alexa. A assistente digital foi lançada em 2014 junto com o alto-falante inteligente Echo, que servia como sua interface de hardware. O assistente digital, segundo a Amazon, foi inspirado no computador onisciente apresentado em Star Trek. O produto rapidamente se tornou um sucesso entre os consumidores, vendendo mais de 20 milhões de dispositivos até 2017. Mas a Alexa não foi criada com os mesmos modelos e métodos de IA que tornaram o ChatGPT inovador. Em vez disso, era uma coleção de pequenos modelos de aprendizado de máquina e milhares de regras criadas manualmente e codificadas que transformavam as declarações de um usuário nas ações executadas pela Alexa.

O CEO da Apple, Tim Cook, fez parceria com a OpenAI para dar ao seu assistente Siri algumas novas informações  Foto: David Paul Morris/Bloomberg

A Amazon estava experimentando alguns LLMs - todos eles muito menores que o GPT-3 e o GPT-4 - mas eles não estavam nem perto de estarem prontos para serem implantados em um produto. Segundo ex-funcionários, a empresa foi pega de surpresa pelo boom da IA generativa na esteira do lançamento do ChatGPT. Seguiram-se alguns meses frenéticos, enquanto a organização Alexa da Amazon se esforçava para se unir em torno de uma visão que levasse a assistente digital de um bot de ação de comando afetado a um agente verdadeiramente conversacional e útil. Os projetos de IA não generativa foram despriorizados da noite para o dia e, durante todo o período do Natal de 2022, os executivos pediram aos cientistas, engenheiros e gerentes de produtos da Amazon que descobrissem como garantir que a Amazon tivesse produtos de IA generativa para oferecer aos clientes. Um ex-gerente de projeto da Alexa AI descreveu a atmosfera na empresa como “um pouco de pânico”.

A resposta da Amazon quase imediatamente teve problemas, pois várias equipes da Alexa e da AWS não conseguiram se unir em torno de um plano unificado. Muitos funcionários ainda estavam trabalhando remotamente após a pandemia, o que fez com que as pessoas ficassem interminavelmente “reunidas em teleconferências debatendo as minúcias de documentos, disse o gerente de projeto da Alexa AI. A empresa teve dificuldades, segundo ele, para “mudar do modo de tempo de paz para o modo de tempo de guerra”.

Um cientista de dados sênior da Alexa disse que isso era especialmente frustrante porque ele havia tentado soar o alarme sobre a próxima onda de IA generativa já em meados de 2022, reunindo dados para mostrar à sua liderança de nível de diretor, mas ele disse que não conseguia convencê-los de que a empresa precisava mudar sua estratégia de IA. Somente após o lançamento do ChatGPT é que a empresa entrou em ação, explicou ele.

O problema é que, como centenas de milhões de pessoas já sabem, a assistente não foi criada e nunca foi usada para conversas de ida e volta. Em vez disso, ela sempre se concentrou no que a organização da Alexa chama de “declarações” - as perguntas e os comandos como “como está o tempo?” ou “acender as luzes”.

Nos primeiros meses após o lançamento do ChatGPT, não ficou claro que os LLMs seriam capazes de acionar essas ações do mundo real a partir de uma conversa natural, disse um cientista pesquisador com Ph.D. que estagiou na equipe da Alexa durante esse período. “A ideia de que um LLM poderia ‘acender as luzes’ quando você dissesse ‘não consigo ver, acenda tudo’ ainda não estava comprovada”, disse ele. “Portanto, os líderes internos claramente tinham grandes planos, mas não sabiam realmente no que estavam se metendo.” Agora é amplamente aceito que os LLMs podem, pelo menos em teoria, ser acoplados a outras tecnologias para controlar ferramentas digitais.

Em vez disso, as equipes estavam descobrindo como implementar a IA generativa em tempo real. Isso incluía a criação de conjuntos de dados sintéticos - nesse caso, coleções de diálogos gerados por computador com um chatbot - que poderiam ser usados para treinar um LLM. Os criadores de modelos de IA costumam usar dados sintéticos quando não há dados reais suficientes para melhorar a precisão da IA ou quando a proteção da privacidade é necessária - e lembre-se de que a maior parte do que a equipe da Alexa tinha eram “declarações” simples e declarativas.

“Os clientes estavam falando na linguagem da Alexa”, disse um ex-cientista de aprendizado de máquina da Amazon. “Agora imagine que você queira incentivar as pessoas a falar em uma linguagem que nunca aconteceu. De onde você vai tirar os dados para treinar o modelo? Você precisa criá-lo, mas isso traz uma série de obstáculos porque há um milhão de maneiras de as pessoas dizerem a mesma coisa.”

Além disso, embora a Alexa tenha sido integrada a milhares de dispositivos e serviços de terceiros, verifica-se que os LLMs não são muito bons em lidar com essas integrações. De acordo com um ex-gerente de aprendizado de máquina da Alexa, que trabalhou nos recursos de casa inteligente da Alexa, até mesmo o mais recente modelo GPT-4o, da OpenAI, ou o Gemini, do Google, têm dificuldade para passar do diálogo falado para a execução de uma tarefa usando outro software. Isso requer o que é conhecido como chamada de API e os LLMs ainda não fazem isso bem.

“Não são consistentes o suficiente, têm alucinações, fazem coisas erradas, é difícil criar uma experiência quando você está se conectando a muitos dispositivos diferentes”, disse o ex-cientista de aprendizado de máquina.

Na metade de 2023, muitos dos funcionários da Alexa não sabiam como a assistente digital enfrentaria o momento da IA generativa. O projeto carecia de visão, disseram ex-funcionários.

Nova assistente causava preocupação

A estrutura interna da Amazon e as unidades de negócios isoladas dificultaram a reformulação do Alexa, de acordo com fontes  Foto: Markus Schreiber/AP

A demonstração da Alexa em setembro de 2023 fez parecer que o lançamento da nova Alexa iminente, mas ela “não atendeu aos critérios”, disse um ex-funcionário. Os LLMs são conhecidos por produzirem alucinações e conteúdo tóxico, e o da Amazon não era diferente, tornando arriscada uma ampla divulgação.

Segundo ex-funcionários, esse é o motivo pelo qual o recurso “vamos conversar” da Alexa nunca foi lançado em larga escala. “É muito difícil tornar a IA suficientemente segura e testar todos os aspectos dessa caixa preta para liberá-la”, disse um ex-gerente.

A mesma demonstração, ele destacou, envolvia uma funcionalidade diferente daquela pela qual a Alexa era mais conhecida - ou seja, receber um comando e executá-lo. Garantir que a Alexa ainda pudesse executar essas funções antigas e, ao mesmo tempo, possibilitar o diálogo de conversação que a nova Alexa prometia não seria uma tarefa fácil. O gerente disse que estava cada vez mais claro para ele que a organização precisaria, pelo menos temporariamente, manter duas pilhas de tecnologia completamente diferentes - uma com suporte para os recursos antigos da Alexa e outra para os novos. Mas os gerentes não queriam aceitar essa ideia, disse ele. Em vez disso, a mensagem na empresa na época em que ele foi demitido, em novembro de 2023, ainda era “precisamos esquecer do antigo modelo de IA da Alexa e passar a trabalhar apenas no novo”.

Mesmo com o fracasso do lançamento do novo Alexa LLM, os executivos da Amazon estabeleceram metas cada vez mais elevadas para a IA generativa. Pouco antes da demonstração, Prasad, o vice-presidente sênior da Amazon que havia atuado como cientista-chefe da Alexa, foi promovido a uma nova função destinada a reunir as diferentes equipes de pesquisa da empresa sob um único guarda-chuva, com o objetivo de desenvolver inteligência artificial geral de nível humano, ou AGI. A medida colocou a Amazon em concorrência direta com empresas como OpenAI, DeepMind e Anthropic, que têm a criação de AGI como sua missão fundadora. O CEO da Meta, Mark Zuckerberg, também disse recentemente que a criação de AGI também é a missão de sua empresa.

Em novembro de 2023, foi noticiado que a Amazon estava investindo milhões no treinamento de um modelo de IA, de codinome Olympus, que teria 2 trilhões de parâmetros (conexões entre palavras expressadas matematicamente). Os parâmetros dão uma ideia da complexidade de um modelo. E a contagem de parâmetros do Olympus faria com que ele tivesse o dobro do suposto tamanho do modelo mais capaz da OpenAI, o GPT-4.

O ex-cientista pesquisador que trabalha no Alexa LLM disse que o Projeto Olympus é “uma piada”, acrescentando que o maior modelo em andamento tem 470 bilhões de parâmetros. Ele também enfatizou que a versão atual do Alexa LLM não sofreu alterações em relação ao modelo de 100 bilhões de parâmetros que foi usado na demonstração de setembro de 2023, mas recebeu mais pré-treinamento e ajustes finos para melhorá-lo.

A falta de dados dificultou o processo

Nos meses seguintes à demonstração de setembro de 2023, um ex-cientista pesquisador que trabalhou na criação do novo Alexa LLM lembrou como a liderança da Alexa, incluindo o líder de IA generativa da Amazon, Rohit Prasad, incentivou a equipe a trabalhar cada vez mais. A mensagem era para “conseguir alguma mágica” com o LLM, disse o cientista pesquisador. Mas a mágica nunca aconteceu. A falta de dados adequados foi um dos principais motivos.

O Llama 3 da Meta foi pré-treinado com 15 trilhões de tokens, a menor unidade de dados que um LLM processa. O Alexa LLM foi treinado apenas com 3 trilhões. Diferentemente dos parâmetros, que são o número de configurações ajustáveis de um modelo, um token é a menor unidade de dados - como uma palavra - que o modelo processa durante o treinamento. Enquanto isso, o “ajuste fino” de um modelo de IA - que utiliza um modelo pré-treinado e o aprimora para tarefas específicas - também se beneficia de conjuntos de dados maiores do que os que a Amazon tem à disposição. O modelo Llama 3 da Meta foi ajustado com 10 milhões de pontos de dados. O LLM criado pela organização AGI da Amazon acumulou até agora apenas cerca de 1 milhão, com apenas 500 mil pontos de dados de alta qualidade, disse o ex-cientista de pesquisa do Alexa LLM.

O ex-executivo da Amazon, David Limp, fez de Alexa um sucesso entre os consumidores. Mas na era do ChatGPT, o assistente inteligente pioneiro da Amazon não consegue acompanhar  Foto: Dado Ruvic/Reuters

Um dos muitos motivos para isso, explicou ele, é que a Amazon insiste em usar seus próprios anotadores de dados (pessoas responsáveis por rotular os dados para que os modelos de IA possam reconhecer padrões) e essa organização é muito lenta. “Portanto, nunca conseguimos obter dados de alta qualidade deles após várias rodadas, mesmo após um ano de desenvolvimento do modelo”, disse ele.

Além da escassez de dados, a equipe da Alexa também não tem acesso às grandes quantidades das mais recentes GPUs da Nvidia, os chips especializados usados para treinar e executar modelos de IA, que as equipes da OpenAI, Meta e Google têm. “A maioria das GPUs ainda é A100, não H100″, acrescentou o ex-cientista pesquisador do Alexa LLM, referindo-se à GPU mais poderosa que a Nvidia tem disponível atualmente.

Às vezes, a criação da nova Alexa ficou em segundo plano em relação a outras prioridades de IA generativa na Amazon, disseram eles. O foco principal da Amazon após o lançamento do ChatGPT foi lançar o Bedrock, um novo serviço de computação em nuvem da AWS que permitia que os clientes criassem chatbots de IA generativa e outros aplicativos na nuvem. A AWS é um fator crítico de lucro para a Amazon.

A Alexa, por outro lado, é um centro de custos - a divisão supostamente perde bilhões a cada ano - e é vista principalmente como uma forma de manter os clientes envolvidos com a Amazon e como uma maneira de coletar dados que podem ajudar a Amazon e seus parceiros a direcionar melhor a publicidade. O LLM que os cientistas da Amazon estão construindo (uma versão do qual também alimentará a Alexa) também está sendo implementado pela primeira vez no assistente de IA generativa da AWS, o Amazon Q, disse um ex-cientista do LLM da Alexa que saiu nos últimos meses, porque o modelo agora é considerado bom o suficiente para casos específicos de uso corporativo.

Burocracia e problemas de infraestrutura

Um ex-funcionário da Alexa AI, que contratou vários funcionários que estavam trabalhando no novo LLM da Alexa, disse que a maioria mencionou “sentir-se exausta” pela pressão constante para preparar o modelo para um lançamento que é repetidamente adiado - e frustrada porque outros trabalhos estão em espera até esse momento. Alguns também expressaram um ceticismo crescente quanto ao fato de o design geral da Alexa baseada em LLM fazer sentido, acrescentou.

“Uma história que ouvi foi que, no início do projeto, houve uma grande pressão por parte dos executivos seniores que se tornaram excessivamente confiantes depois de fazer experiências com o ChatGPT e que esse excesso de confiança persistiu entre alguns líderes seniores que continuam a se esforçar para atingir uma meta irrealista”, disse ele. Outro ex-cientista do Alexa LLM disse que os gerentes estabelecem prazos inatingíveis. “Toda vez que os gerentes nos atribuíam uma tarefa relacionada ao LLM, eles nos pediam para concluí-la em um período de tempo muito curto (por exemplo, dois dias, uma semana), o que é impossível”, disse ele. “Parece que a liderança não sabe nada sobre LLMs - eles não sabem de quantas pessoas precisam e qual deve ser o tempo esperado para concluir cada tarefa para criar um produto de sucesso como o ChatGPT.”

Alexa nunca se alinhou com a ideia de Jeff Bezos de “equipes de duas pizzas”, ou seja, que as equipes deveriam ser pequenas o suficiente para que fosse possível atender a uma reunião completa da equipe com apenas duas pizzas. Bezos acreditava que equipes menores promoviam a tomada de decisões e a colaboração eficazes. Em vez disso, a Alexa tem sido historicamente - e continua sendo, em sua maior parte - uma divisão gigante. Antes das demissões mais recentes, ela tinha 10 mil funcionários. E, embora tenha menos agora, ainda está organizada em domínios grandes e isolados, como Alexa Home, Alexa Entertainment, Alexa Music e Alexa Shopping, cada um com centenas de funcionários.

À medida que aumentava a pressão para que cada domínio trabalhasse com o novo Alexa LLM para criar recursos de IA generativos, cada um dos quais exigia benchmarks de precisão, os domínios entraram em conflito, com resultados às vezes contraproducentes, disseram as fontes.

Por exemplo, um cientista de aprendizado de máquina que trabalhava na Alexa Home lembrou que, enquanto seu domínio trabalhava em maneiras de a Alexa ajudar os usuários a controlar suas luzes ou o termostato, o domínio Música estava ocupado trabalhando em como fazer com que a Alexa entendesse solicitações muito específicas, como “tocar Rihanna, depois Tupac, pausar 30 minutos e depois tocar DMX”.

A visão do fundador da Amazon, Jeff Bezos, para Alexa foi moldada por seu amor por Star Trek  Foto: Linda Davidson/The Washington Post

Cada equipe de domínio teve que construir seu próprio relacionamento com a equipe central de LLM da Alexa. “Passamos meses trabalhando com o pessoal do LLM apenas para entender sua estrutura e quais dados poderíamos fornecer a eles para ajustar o modelo e fazê-lo funcionar.” Cada equipe queria ajustar o modelo de IA para seus próprios objetivos de domínio.

Mas, como se viu, se a equipe de Casa tentasse ajustar o Alexa LLM para torná-lo mais capaz de responder a perguntas de Casa e, em seguida, a equipe de Música viesse e o ajustasse usando seus próprios dados para Música, o modelo acabaria tendo um desempenho pior. O “esquecimento catastrófico”, em que o que um modelo aprende mais tarde no treinamento degrada sua capacidade de ter um bom desempenho em tarefas que encontrou anteriormente no treinamento, é um problema com todos os modelos de aprendizagem profunda. “À medida que melhora na música, o modelo pode ficar menos inteligente em casa”, disse o cientista de aprendizado de máquina. “Portanto, encontrar o ponto ideal no qual você está tentando fazer o ajuste fino para 12 domínios é quase uma loteria.” Hoje em dia, acrescentou ele, os cientistas do LLM sabem que o ajuste fino pode não ser a melhor técnica para criar um modelo com recursos avançados e flexibilidade - há outras técnicas, como a engenharia de prontidão, que podem ser melhores. Mas, a essa altura, muitos meses já haviam se passado, com pouco progresso para mostrar.

A Amazon reafirma seu compromisso com a Alexa

A Amazon insiste que está totalmente comprometida em fornecer uma Alexa com IA generativa, acrescentando que sua visão continua sendo a de construir o “melhor assistente pessoal do mundo”. Um representante da Amazon ressaltou que mais de meio bilhão de dispositivos habilitados para Alexa foram vendidos, e os clientes interagem com a Alexa dezenas de milhões de vezes a cada hora.

Ela acrescentou que a implementação da IA generativa vem com uma “enorme responsabilidade - os detalhes realmente importam” com uma implementação técnica dessa escala, em um dispositivo que milhões de clientes receberam em suas casas. Embora o recurso “Vamos conversar” da Alexa LLM não tenha sido implementado para o público em geral, ele foi testado em pequenos grupos de clientes “de forma contínua”.

Mas muitos dos funcionários com quem a Fortune conversou disseram que saíram em parte porque se desesperaram com a possibilidade de a nova Alexa ficar pronta - ou que, quando isso acontecer, ela já terá sido ultrapassada por produtos lançados por concorrentes mais ágeis, como a OpenAI. Essas empresas não precisam navegar em uma pilha de tecnologia existente e defender um conjunto de recursos existente. O ex-funcionário que contratou vários funcionários que deixaram a organização Alexa no último ano disse que muitos estavam pessimistas em relação ao lançamento do Alexa LLM. “Eles simplesmente não viam que isso realmente aconteceria”, disse ele.

É possível que a Amazon finalmente lance uma Alexa baseada em LLMl. Afinal de contas, há centenas de milhões de usuários da Alexa no mundo que certamente ficariam felizes se o dispositivo que fica em sua mesa ou balcão de cozinha pudesse fazer mais do que executar comandos simples.

Mas, dados os desafios que pesam sobre o esforço do Alexa LLM e a lacuna que o separa das ofertas de líderes em IA generativa, como OpenAI e Google, nenhuma das fontes com quem a Fortune conversou acredita que o Alexa esteja perto de cumprir a missão da Amazon de ser “o melhor assistente pessoal do mundo”, muito menos a visão do fundador da Amazon, Jeff Bezos, de criar uma versão real do útil computador de Star Trek. Em vez disso, a Alexa da Amazon corre o risco de se tornar uma relíquia digital com uma história de advertência - a de uma tecnologia potencialmente revolucionária que ficou presa jogando o jogo errado.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

c.2024 Fortune Media IP Limited

Distribuído por The New York Times Licensing Group

“Alexa, vamos conversar.”

Com essa frase, David Limp, na época chefe de dispositivos e serviços da Amazon, apresentou uma nova versão da inteligência artificial (IA) da assistente de voz Alexa, produto conhecido da empresa, em setembro de 2023.

Em um evento lotado, Limp demonstrou a nova Alexa para uma sala cheia de repórteres e funcionários animados. Ele mostrou como, em resposta à nova frase de acionamento, “Alexa, vamos conversar”, a assistente digital respondeu com uma voz muito mais natural e coloquial do que a voz amigável, porém robótica, com a qual centenas de milhões de pessoas se acostumaram a se comunicar para obter atualizações meteorológicas, lembretes, temporizadores e solicitações de música. Limp perguntou à Alexa como estava seu time de futebol favorito, a Universidade de Vanderbilt. A Alexa mostrou como poderia responder com uma voz alegre e como poderia escrever uma mensagem para seus amigos para lembrá-los de assistir ao próximo jogo de futebol do Vanderbilt e enviá-la para o telefone dele.

Alexa da Amazon foi uma sensação quando foi lançada e logo estava disponível em uma variedade de alto-falantes inteligentes Amazon Echo e outros dispositivos  Foto: John Minchillo/AP

O novo Alexa LLM, segundo a empresa, estaria disponível em breve como uma prévia gratuita nos dispositivos com Alexa nos EUA. Rohit Prasad, vice-presidente sênior da Amazon e líder da Alexa, disse que a notícia marcou uma “transformação maciça da assistente que amamos” e chamou a nova Alexa de “superagente”. Ficou claro que a empresa queria refutar as percepções de que a Alexa existente não era inteligente.

Mas, após o evento, houve silêncio no rádio - ou silêncio na assistente digital. A voz tradicional da Alexa nunca mudou nos meio bilhão de dispositivos que foram vendidos globalmente, e poucas notícias surgiram nos meses seguintes sobre a nova Alexa com IA generativa, além de relatórios recentes sobre um possível lançamento no final deste ano que poderia incluir uma taxa de assinatura.

O motivo, de acordo com entrevistas com ex-funcionários que trabalharam na IA para a Alexa, é uma organização assolada por disfunções estruturais e desafios tecnológicos que atrasaram repetidamente o envio da nova Alexa com IA generativa. De modo geral, os ex-funcionários pintam o quadro de uma empresa desesperadamente atrás de seus rivais, Google, Microsoft e Meta, na corrida pelo lançamento de chatbots e agentes de IA, e com dificuldades em seus esforços para recuperar o atraso.

A demonstração de setembro de 2023, enfatizam os ex-funcionários, era apenas isso - uma demonstração. A nova Alexa não estava pronta para ser lançada, e ainda não está. O modelo grande de linguagem (LLM) da Alexa está, de acordo com ex-funcionários, longe de ser o estado da arte.

Cientistas pesquisadores que trabalharam no LLM disseram que a Amazon não tem dados suficientes ou acesso aos chips de computador especializados necessários para executar LLMs para competir com os esforços rivais de empresas como a OpenAI. Além disso, a Amazon tem repetidamente desprivilegiado a nova Alexa em favor da criação de IA generativa para a unidade de computação em nuvem da Amazon, a AWS. E embora a Amazon tenha criado uma parceria e investido US$ 4 bilhões na startup Anthropic, cujo modelo LLM Claude é considerado competitivo em relação aos modelos da OpenAI, ela não conseguiu capitalizar esse relacionamento para criar uma Alexa melhor. As preocupações com a privacidade impediram que as equipes da Alexa usassem o Claude.

Um porta-voz da Amazon disse que os detalhes fornecidos pelos ex-cientistas pesquisadores para este texto eram “datados” - embora muitas dessas fontes tenham deixado a empresa nos últimos seis meses - e não refletiam o estado atual do Alexa LLM. Ela acrescentou que a empresa tem acesso a centenas de milhares de GPUs e outros chips específicos de IA. Ela também contestou a ideia de que a Alexa tenha sido despriorizada ou que o Claude tenha ficado fora dos limites devido a preocupações com a privacidade, mas se recusou a fornecer evidências de como o Claude está sendo usado na nova Alexa.

Embora os aspectos da luta da Amazon para atualizar a Alexa sejam exclusivos, os desafios da empresa dão uma indicação de como é difícil para as empresas renovar os assistentes digitais criados com tecnologias mais antigas. A Apple também enfrentou dificuldades semelhantes para integrar a IA em seus produtos, incluindo sua assistente digital Siri. A Siri e a Alexa compartilham um pedigree tecnológico semelhante - na verdade, a Siri foi lançada três anos antes da Alexa, em outubro de 2011. E, assim como a Amazon, a Apple investiu pouco no tipo de conhecimento especializado em IA necessário para criar os modelos de linguagem massivos que sustentam a IA generativa atual e nos vastos clusters de unidades de processamento gráfico (GPUs), os chips de computador especializados que esses modelos exigem. A Apple também, assim como a Amazon, lançou um esforço determinado, mas tardio, para recuperar o atraso.

A Apple deu alguns passos importantes para recuperar o terreno perdido na corrida da IA generativa com um conjunto de anúncios altamente esperados no início desta semana. A estreia incluiu uma grande atualização para a Siri, incluindo uma voz com som mais natural e o potencial de “consciência na tela”, que permitirá que a Siri realize mais ações semelhantes às de um agente em todos os aplicativos. A Apple também anunciou uma integração da Siri com o ChatGPT. Os anúncios da Apple só aumentam a pressão sobre a Amazon para que ela ofereça a nova Alexa.

Infelizmente, há evidências crescentes de que a Amazon está mal preparada para essa nova batalha dos assistentes digitais, embora muitos tenham presumido que a empresa estaria perfeitamente posicionada para levar a Alexa para a era da IA generativa. Mihail Eric, ex-cientista sênior de aprendizado de máquina da Alexa AI, foi ao X (antigo Twitter) para dizer exatamente isso: Em um post intitulado “How Alexa dropped the ball on being the top conversational system on the planet”, Eric, que deixou a Amazon em julho de 2021, apontou que a Alexa havia vendido mais de 500 milhões de dispositivos, “o que é um fosso de dados de usuários alucinante”, e que “tínhamos todos os recursos, talento e impulso para nos tornarmos o líder de mercado inequívoco em IA conversacional”. Mas a maior parte dessa tecnologia nunca viu a luz do dia, disse ele, porque a Alexa AI “estava repleta de problemas técnicos e burocráticos”. Os ex-funcionários com quem a Fortune conversou no último mês ecoa o relato de Eric e acrescenta mais detalhes à história do fracasso da gigante. Os ex-funcionários falaram sob anonimato para evitar violar os acordos de não divulgação ou as cláusulas de não divulgação que haviam assinado.

Alexa foi pega de surpresa pelo ChatGPT

Bem antes de o ChatGPT impressionar o mundo em novembro de 2022, havia a Alexa. A assistente digital foi lançada em 2014 junto com o alto-falante inteligente Echo, que servia como sua interface de hardware. O assistente digital, segundo a Amazon, foi inspirado no computador onisciente apresentado em Star Trek. O produto rapidamente se tornou um sucesso entre os consumidores, vendendo mais de 20 milhões de dispositivos até 2017. Mas a Alexa não foi criada com os mesmos modelos e métodos de IA que tornaram o ChatGPT inovador. Em vez disso, era uma coleção de pequenos modelos de aprendizado de máquina e milhares de regras criadas manualmente e codificadas que transformavam as declarações de um usuário nas ações executadas pela Alexa.

O CEO da Apple, Tim Cook, fez parceria com a OpenAI para dar ao seu assistente Siri algumas novas informações  Foto: David Paul Morris/Bloomberg

A Amazon estava experimentando alguns LLMs - todos eles muito menores que o GPT-3 e o GPT-4 - mas eles não estavam nem perto de estarem prontos para serem implantados em um produto. Segundo ex-funcionários, a empresa foi pega de surpresa pelo boom da IA generativa na esteira do lançamento do ChatGPT. Seguiram-se alguns meses frenéticos, enquanto a organização Alexa da Amazon se esforçava para se unir em torno de uma visão que levasse a assistente digital de um bot de ação de comando afetado a um agente verdadeiramente conversacional e útil. Os projetos de IA não generativa foram despriorizados da noite para o dia e, durante todo o período do Natal de 2022, os executivos pediram aos cientistas, engenheiros e gerentes de produtos da Amazon que descobrissem como garantir que a Amazon tivesse produtos de IA generativa para oferecer aos clientes. Um ex-gerente de projeto da Alexa AI descreveu a atmosfera na empresa como “um pouco de pânico”.

A resposta da Amazon quase imediatamente teve problemas, pois várias equipes da Alexa e da AWS não conseguiram se unir em torno de um plano unificado. Muitos funcionários ainda estavam trabalhando remotamente após a pandemia, o que fez com que as pessoas ficassem interminavelmente “reunidas em teleconferências debatendo as minúcias de documentos, disse o gerente de projeto da Alexa AI. A empresa teve dificuldades, segundo ele, para “mudar do modo de tempo de paz para o modo de tempo de guerra”.

Um cientista de dados sênior da Alexa disse que isso era especialmente frustrante porque ele havia tentado soar o alarme sobre a próxima onda de IA generativa já em meados de 2022, reunindo dados para mostrar à sua liderança de nível de diretor, mas ele disse que não conseguia convencê-los de que a empresa precisava mudar sua estratégia de IA. Somente após o lançamento do ChatGPT é que a empresa entrou em ação, explicou ele.

O problema é que, como centenas de milhões de pessoas já sabem, a assistente não foi criada e nunca foi usada para conversas de ida e volta. Em vez disso, ela sempre se concentrou no que a organização da Alexa chama de “declarações” - as perguntas e os comandos como “como está o tempo?” ou “acender as luzes”.

Nos primeiros meses após o lançamento do ChatGPT, não ficou claro que os LLMs seriam capazes de acionar essas ações do mundo real a partir de uma conversa natural, disse um cientista pesquisador com Ph.D. que estagiou na equipe da Alexa durante esse período. “A ideia de que um LLM poderia ‘acender as luzes’ quando você dissesse ‘não consigo ver, acenda tudo’ ainda não estava comprovada”, disse ele. “Portanto, os líderes internos claramente tinham grandes planos, mas não sabiam realmente no que estavam se metendo.” Agora é amplamente aceito que os LLMs podem, pelo menos em teoria, ser acoplados a outras tecnologias para controlar ferramentas digitais.

Em vez disso, as equipes estavam descobrindo como implementar a IA generativa em tempo real. Isso incluía a criação de conjuntos de dados sintéticos - nesse caso, coleções de diálogos gerados por computador com um chatbot - que poderiam ser usados para treinar um LLM. Os criadores de modelos de IA costumam usar dados sintéticos quando não há dados reais suficientes para melhorar a precisão da IA ou quando a proteção da privacidade é necessária - e lembre-se de que a maior parte do que a equipe da Alexa tinha eram “declarações” simples e declarativas.

“Os clientes estavam falando na linguagem da Alexa”, disse um ex-cientista de aprendizado de máquina da Amazon. “Agora imagine que você queira incentivar as pessoas a falar em uma linguagem que nunca aconteceu. De onde você vai tirar os dados para treinar o modelo? Você precisa criá-lo, mas isso traz uma série de obstáculos porque há um milhão de maneiras de as pessoas dizerem a mesma coisa.”

Além disso, embora a Alexa tenha sido integrada a milhares de dispositivos e serviços de terceiros, verifica-se que os LLMs não são muito bons em lidar com essas integrações. De acordo com um ex-gerente de aprendizado de máquina da Alexa, que trabalhou nos recursos de casa inteligente da Alexa, até mesmo o mais recente modelo GPT-4o, da OpenAI, ou o Gemini, do Google, têm dificuldade para passar do diálogo falado para a execução de uma tarefa usando outro software. Isso requer o que é conhecido como chamada de API e os LLMs ainda não fazem isso bem.

“Não são consistentes o suficiente, têm alucinações, fazem coisas erradas, é difícil criar uma experiência quando você está se conectando a muitos dispositivos diferentes”, disse o ex-cientista de aprendizado de máquina.

Na metade de 2023, muitos dos funcionários da Alexa não sabiam como a assistente digital enfrentaria o momento da IA generativa. O projeto carecia de visão, disseram ex-funcionários.

Nova assistente causava preocupação

A estrutura interna da Amazon e as unidades de negócios isoladas dificultaram a reformulação do Alexa, de acordo com fontes  Foto: Markus Schreiber/AP

A demonstração da Alexa em setembro de 2023 fez parecer que o lançamento da nova Alexa iminente, mas ela “não atendeu aos critérios”, disse um ex-funcionário. Os LLMs são conhecidos por produzirem alucinações e conteúdo tóxico, e o da Amazon não era diferente, tornando arriscada uma ampla divulgação.

Segundo ex-funcionários, esse é o motivo pelo qual o recurso “vamos conversar” da Alexa nunca foi lançado em larga escala. “É muito difícil tornar a IA suficientemente segura e testar todos os aspectos dessa caixa preta para liberá-la”, disse um ex-gerente.

A mesma demonstração, ele destacou, envolvia uma funcionalidade diferente daquela pela qual a Alexa era mais conhecida - ou seja, receber um comando e executá-lo. Garantir que a Alexa ainda pudesse executar essas funções antigas e, ao mesmo tempo, possibilitar o diálogo de conversação que a nova Alexa prometia não seria uma tarefa fácil. O gerente disse que estava cada vez mais claro para ele que a organização precisaria, pelo menos temporariamente, manter duas pilhas de tecnologia completamente diferentes - uma com suporte para os recursos antigos da Alexa e outra para os novos. Mas os gerentes não queriam aceitar essa ideia, disse ele. Em vez disso, a mensagem na empresa na época em que ele foi demitido, em novembro de 2023, ainda era “precisamos esquecer do antigo modelo de IA da Alexa e passar a trabalhar apenas no novo”.

Mesmo com o fracasso do lançamento do novo Alexa LLM, os executivos da Amazon estabeleceram metas cada vez mais elevadas para a IA generativa. Pouco antes da demonstração, Prasad, o vice-presidente sênior da Amazon que havia atuado como cientista-chefe da Alexa, foi promovido a uma nova função destinada a reunir as diferentes equipes de pesquisa da empresa sob um único guarda-chuva, com o objetivo de desenvolver inteligência artificial geral de nível humano, ou AGI. A medida colocou a Amazon em concorrência direta com empresas como OpenAI, DeepMind e Anthropic, que têm a criação de AGI como sua missão fundadora. O CEO da Meta, Mark Zuckerberg, também disse recentemente que a criação de AGI também é a missão de sua empresa.

Em novembro de 2023, foi noticiado que a Amazon estava investindo milhões no treinamento de um modelo de IA, de codinome Olympus, que teria 2 trilhões de parâmetros (conexões entre palavras expressadas matematicamente). Os parâmetros dão uma ideia da complexidade de um modelo. E a contagem de parâmetros do Olympus faria com que ele tivesse o dobro do suposto tamanho do modelo mais capaz da OpenAI, o GPT-4.

O ex-cientista pesquisador que trabalha no Alexa LLM disse que o Projeto Olympus é “uma piada”, acrescentando que o maior modelo em andamento tem 470 bilhões de parâmetros. Ele também enfatizou que a versão atual do Alexa LLM não sofreu alterações em relação ao modelo de 100 bilhões de parâmetros que foi usado na demonstração de setembro de 2023, mas recebeu mais pré-treinamento e ajustes finos para melhorá-lo.

A falta de dados dificultou o processo

Nos meses seguintes à demonstração de setembro de 2023, um ex-cientista pesquisador que trabalhou na criação do novo Alexa LLM lembrou como a liderança da Alexa, incluindo o líder de IA generativa da Amazon, Rohit Prasad, incentivou a equipe a trabalhar cada vez mais. A mensagem era para “conseguir alguma mágica” com o LLM, disse o cientista pesquisador. Mas a mágica nunca aconteceu. A falta de dados adequados foi um dos principais motivos.

O Llama 3 da Meta foi pré-treinado com 15 trilhões de tokens, a menor unidade de dados que um LLM processa. O Alexa LLM foi treinado apenas com 3 trilhões. Diferentemente dos parâmetros, que são o número de configurações ajustáveis de um modelo, um token é a menor unidade de dados - como uma palavra - que o modelo processa durante o treinamento. Enquanto isso, o “ajuste fino” de um modelo de IA - que utiliza um modelo pré-treinado e o aprimora para tarefas específicas - também se beneficia de conjuntos de dados maiores do que os que a Amazon tem à disposição. O modelo Llama 3 da Meta foi ajustado com 10 milhões de pontos de dados. O LLM criado pela organização AGI da Amazon acumulou até agora apenas cerca de 1 milhão, com apenas 500 mil pontos de dados de alta qualidade, disse o ex-cientista de pesquisa do Alexa LLM.

O ex-executivo da Amazon, David Limp, fez de Alexa um sucesso entre os consumidores. Mas na era do ChatGPT, o assistente inteligente pioneiro da Amazon não consegue acompanhar  Foto: Dado Ruvic/Reuters

Um dos muitos motivos para isso, explicou ele, é que a Amazon insiste em usar seus próprios anotadores de dados (pessoas responsáveis por rotular os dados para que os modelos de IA possam reconhecer padrões) e essa organização é muito lenta. “Portanto, nunca conseguimos obter dados de alta qualidade deles após várias rodadas, mesmo após um ano de desenvolvimento do modelo”, disse ele.

Além da escassez de dados, a equipe da Alexa também não tem acesso às grandes quantidades das mais recentes GPUs da Nvidia, os chips especializados usados para treinar e executar modelos de IA, que as equipes da OpenAI, Meta e Google têm. “A maioria das GPUs ainda é A100, não H100″, acrescentou o ex-cientista pesquisador do Alexa LLM, referindo-se à GPU mais poderosa que a Nvidia tem disponível atualmente.

Às vezes, a criação da nova Alexa ficou em segundo plano em relação a outras prioridades de IA generativa na Amazon, disseram eles. O foco principal da Amazon após o lançamento do ChatGPT foi lançar o Bedrock, um novo serviço de computação em nuvem da AWS que permitia que os clientes criassem chatbots de IA generativa e outros aplicativos na nuvem. A AWS é um fator crítico de lucro para a Amazon.

A Alexa, por outro lado, é um centro de custos - a divisão supostamente perde bilhões a cada ano - e é vista principalmente como uma forma de manter os clientes envolvidos com a Amazon e como uma maneira de coletar dados que podem ajudar a Amazon e seus parceiros a direcionar melhor a publicidade. O LLM que os cientistas da Amazon estão construindo (uma versão do qual também alimentará a Alexa) também está sendo implementado pela primeira vez no assistente de IA generativa da AWS, o Amazon Q, disse um ex-cientista do LLM da Alexa que saiu nos últimos meses, porque o modelo agora é considerado bom o suficiente para casos específicos de uso corporativo.

Burocracia e problemas de infraestrutura

Um ex-funcionário da Alexa AI, que contratou vários funcionários que estavam trabalhando no novo LLM da Alexa, disse que a maioria mencionou “sentir-se exausta” pela pressão constante para preparar o modelo para um lançamento que é repetidamente adiado - e frustrada porque outros trabalhos estão em espera até esse momento. Alguns também expressaram um ceticismo crescente quanto ao fato de o design geral da Alexa baseada em LLM fazer sentido, acrescentou.

“Uma história que ouvi foi que, no início do projeto, houve uma grande pressão por parte dos executivos seniores que se tornaram excessivamente confiantes depois de fazer experiências com o ChatGPT e que esse excesso de confiança persistiu entre alguns líderes seniores que continuam a se esforçar para atingir uma meta irrealista”, disse ele. Outro ex-cientista do Alexa LLM disse que os gerentes estabelecem prazos inatingíveis. “Toda vez que os gerentes nos atribuíam uma tarefa relacionada ao LLM, eles nos pediam para concluí-la em um período de tempo muito curto (por exemplo, dois dias, uma semana), o que é impossível”, disse ele. “Parece que a liderança não sabe nada sobre LLMs - eles não sabem de quantas pessoas precisam e qual deve ser o tempo esperado para concluir cada tarefa para criar um produto de sucesso como o ChatGPT.”

Alexa nunca se alinhou com a ideia de Jeff Bezos de “equipes de duas pizzas”, ou seja, que as equipes deveriam ser pequenas o suficiente para que fosse possível atender a uma reunião completa da equipe com apenas duas pizzas. Bezos acreditava que equipes menores promoviam a tomada de decisões e a colaboração eficazes. Em vez disso, a Alexa tem sido historicamente - e continua sendo, em sua maior parte - uma divisão gigante. Antes das demissões mais recentes, ela tinha 10 mil funcionários. E, embora tenha menos agora, ainda está organizada em domínios grandes e isolados, como Alexa Home, Alexa Entertainment, Alexa Music e Alexa Shopping, cada um com centenas de funcionários.

À medida que aumentava a pressão para que cada domínio trabalhasse com o novo Alexa LLM para criar recursos de IA generativos, cada um dos quais exigia benchmarks de precisão, os domínios entraram em conflito, com resultados às vezes contraproducentes, disseram as fontes.

Por exemplo, um cientista de aprendizado de máquina que trabalhava na Alexa Home lembrou que, enquanto seu domínio trabalhava em maneiras de a Alexa ajudar os usuários a controlar suas luzes ou o termostato, o domínio Música estava ocupado trabalhando em como fazer com que a Alexa entendesse solicitações muito específicas, como “tocar Rihanna, depois Tupac, pausar 30 minutos e depois tocar DMX”.

A visão do fundador da Amazon, Jeff Bezos, para Alexa foi moldada por seu amor por Star Trek  Foto: Linda Davidson/The Washington Post

Cada equipe de domínio teve que construir seu próprio relacionamento com a equipe central de LLM da Alexa. “Passamos meses trabalhando com o pessoal do LLM apenas para entender sua estrutura e quais dados poderíamos fornecer a eles para ajustar o modelo e fazê-lo funcionar.” Cada equipe queria ajustar o modelo de IA para seus próprios objetivos de domínio.

Mas, como se viu, se a equipe de Casa tentasse ajustar o Alexa LLM para torná-lo mais capaz de responder a perguntas de Casa e, em seguida, a equipe de Música viesse e o ajustasse usando seus próprios dados para Música, o modelo acabaria tendo um desempenho pior. O “esquecimento catastrófico”, em que o que um modelo aprende mais tarde no treinamento degrada sua capacidade de ter um bom desempenho em tarefas que encontrou anteriormente no treinamento, é um problema com todos os modelos de aprendizagem profunda. “À medida que melhora na música, o modelo pode ficar menos inteligente em casa”, disse o cientista de aprendizado de máquina. “Portanto, encontrar o ponto ideal no qual você está tentando fazer o ajuste fino para 12 domínios é quase uma loteria.” Hoje em dia, acrescentou ele, os cientistas do LLM sabem que o ajuste fino pode não ser a melhor técnica para criar um modelo com recursos avançados e flexibilidade - há outras técnicas, como a engenharia de prontidão, que podem ser melhores. Mas, a essa altura, muitos meses já haviam se passado, com pouco progresso para mostrar.

A Amazon reafirma seu compromisso com a Alexa

A Amazon insiste que está totalmente comprometida em fornecer uma Alexa com IA generativa, acrescentando que sua visão continua sendo a de construir o “melhor assistente pessoal do mundo”. Um representante da Amazon ressaltou que mais de meio bilhão de dispositivos habilitados para Alexa foram vendidos, e os clientes interagem com a Alexa dezenas de milhões de vezes a cada hora.

Ela acrescentou que a implementação da IA generativa vem com uma “enorme responsabilidade - os detalhes realmente importam” com uma implementação técnica dessa escala, em um dispositivo que milhões de clientes receberam em suas casas. Embora o recurso “Vamos conversar” da Alexa LLM não tenha sido implementado para o público em geral, ele foi testado em pequenos grupos de clientes “de forma contínua”.

Mas muitos dos funcionários com quem a Fortune conversou disseram que saíram em parte porque se desesperaram com a possibilidade de a nova Alexa ficar pronta - ou que, quando isso acontecer, ela já terá sido ultrapassada por produtos lançados por concorrentes mais ágeis, como a OpenAI. Essas empresas não precisam navegar em uma pilha de tecnologia existente e defender um conjunto de recursos existente. O ex-funcionário que contratou vários funcionários que deixaram a organização Alexa no último ano disse que muitos estavam pessimistas em relação ao lançamento do Alexa LLM. “Eles simplesmente não viam que isso realmente aconteceria”, disse ele.

É possível que a Amazon finalmente lance uma Alexa baseada em LLMl. Afinal de contas, há centenas de milhões de usuários da Alexa no mundo que certamente ficariam felizes se o dispositivo que fica em sua mesa ou balcão de cozinha pudesse fazer mais do que executar comandos simples.

Mas, dados os desafios que pesam sobre o esforço do Alexa LLM e a lacuna que o separa das ofertas de líderes em IA generativa, como OpenAI e Google, nenhuma das fontes com quem a Fortune conversou acredita que o Alexa esteja perto de cumprir a missão da Amazon de ser “o melhor assistente pessoal do mundo”, muito menos a visão do fundador da Amazon, Jeff Bezos, de criar uma versão real do útil computador de Star Trek. Em vez disso, a Alexa da Amazon corre o risco de se tornar uma relíquia digital com uma história de advertência - a de uma tecnologia potencialmente revolucionária que ficou presa jogando o jogo errado.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

c.2024 Fortune Media IP Limited

Distribuído por The New York Times Licensing Group

“Alexa, vamos conversar.”

Com essa frase, David Limp, na época chefe de dispositivos e serviços da Amazon, apresentou uma nova versão da inteligência artificial (IA) da assistente de voz Alexa, produto conhecido da empresa, em setembro de 2023.

Em um evento lotado, Limp demonstrou a nova Alexa para uma sala cheia de repórteres e funcionários animados. Ele mostrou como, em resposta à nova frase de acionamento, “Alexa, vamos conversar”, a assistente digital respondeu com uma voz muito mais natural e coloquial do que a voz amigável, porém robótica, com a qual centenas de milhões de pessoas se acostumaram a se comunicar para obter atualizações meteorológicas, lembretes, temporizadores e solicitações de música. Limp perguntou à Alexa como estava seu time de futebol favorito, a Universidade de Vanderbilt. A Alexa mostrou como poderia responder com uma voz alegre e como poderia escrever uma mensagem para seus amigos para lembrá-los de assistir ao próximo jogo de futebol do Vanderbilt e enviá-la para o telefone dele.

Alexa da Amazon foi uma sensação quando foi lançada e logo estava disponível em uma variedade de alto-falantes inteligentes Amazon Echo e outros dispositivos  Foto: John Minchillo/AP

O novo Alexa LLM, segundo a empresa, estaria disponível em breve como uma prévia gratuita nos dispositivos com Alexa nos EUA. Rohit Prasad, vice-presidente sênior da Amazon e líder da Alexa, disse que a notícia marcou uma “transformação maciça da assistente que amamos” e chamou a nova Alexa de “superagente”. Ficou claro que a empresa queria refutar as percepções de que a Alexa existente não era inteligente.

Mas, após o evento, houve silêncio no rádio - ou silêncio na assistente digital. A voz tradicional da Alexa nunca mudou nos meio bilhão de dispositivos que foram vendidos globalmente, e poucas notícias surgiram nos meses seguintes sobre a nova Alexa com IA generativa, além de relatórios recentes sobre um possível lançamento no final deste ano que poderia incluir uma taxa de assinatura.

O motivo, de acordo com entrevistas com ex-funcionários que trabalharam na IA para a Alexa, é uma organização assolada por disfunções estruturais e desafios tecnológicos que atrasaram repetidamente o envio da nova Alexa com IA generativa. De modo geral, os ex-funcionários pintam o quadro de uma empresa desesperadamente atrás de seus rivais, Google, Microsoft e Meta, na corrida pelo lançamento de chatbots e agentes de IA, e com dificuldades em seus esforços para recuperar o atraso.

A demonstração de setembro de 2023, enfatizam os ex-funcionários, era apenas isso - uma demonstração. A nova Alexa não estava pronta para ser lançada, e ainda não está. O modelo grande de linguagem (LLM) da Alexa está, de acordo com ex-funcionários, longe de ser o estado da arte.

Cientistas pesquisadores que trabalharam no LLM disseram que a Amazon não tem dados suficientes ou acesso aos chips de computador especializados necessários para executar LLMs para competir com os esforços rivais de empresas como a OpenAI. Além disso, a Amazon tem repetidamente desprivilegiado a nova Alexa em favor da criação de IA generativa para a unidade de computação em nuvem da Amazon, a AWS. E embora a Amazon tenha criado uma parceria e investido US$ 4 bilhões na startup Anthropic, cujo modelo LLM Claude é considerado competitivo em relação aos modelos da OpenAI, ela não conseguiu capitalizar esse relacionamento para criar uma Alexa melhor. As preocupações com a privacidade impediram que as equipes da Alexa usassem o Claude.

Um porta-voz da Amazon disse que os detalhes fornecidos pelos ex-cientistas pesquisadores para este texto eram “datados” - embora muitas dessas fontes tenham deixado a empresa nos últimos seis meses - e não refletiam o estado atual do Alexa LLM. Ela acrescentou que a empresa tem acesso a centenas de milhares de GPUs e outros chips específicos de IA. Ela também contestou a ideia de que a Alexa tenha sido despriorizada ou que o Claude tenha ficado fora dos limites devido a preocupações com a privacidade, mas se recusou a fornecer evidências de como o Claude está sendo usado na nova Alexa.

Embora os aspectos da luta da Amazon para atualizar a Alexa sejam exclusivos, os desafios da empresa dão uma indicação de como é difícil para as empresas renovar os assistentes digitais criados com tecnologias mais antigas. A Apple também enfrentou dificuldades semelhantes para integrar a IA em seus produtos, incluindo sua assistente digital Siri. A Siri e a Alexa compartilham um pedigree tecnológico semelhante - na verdade, a Siri foi lançada três anos antes da Alexa, em outubro de 2011. E, assim como a Amazon, a Apple investiu pouco no tipo de conhecimento especializado em IA necessário para criar os modelos de linguagem massivos que sustentam a IA generativa atual e nos vastos clusters de unidades de processamento gráfico (GPUs), os chips de computador especializados que esses modelos exigem. A Apple também, assim como a Amazon, lançou um esforço determinado, mas tardio, para recuperar o atraso.

A Apple deu alguns passos importantes para recuperar o terreno perdido na corrida da IA generativa com um conjunto de anúncios altamente esperados no início desta semana. A estreia incluiu uma grande atualização para a Siri, incluindo uma voz com som mais natural e o potencial de “consciência na tela”, que permitirá que a Siri realize mais ações semelhantes às de um agente em todos os aplicativos. A Apple também anunciou uma integração da Siri com o ChatGPT. Os anúncios da Apple só aumentam a pressão sobre a Amazon para que ela ofereça a nova Alexa.

Infelizmente, há evidências crescentes de que a Amazon está mal preparada para essa nova batalha dos assistentes digitais, embora muitos tenham presumido que a empresa estaria perfeitamente posicionada para levar a Alexa para a era da IA generativa. Mihail Eric, ex-cientista sênior de aprendizado de máquina da Alexa AI, foi ao X (antigo Twitter) para dizer exatamente isso: Em um post intitulado “How Alexa dropped the ball on being the top conversational system on the planet”, Eric, que deixou a Amazon em julho de 2021, apontou que a Alexa havia vendido mais de 500 milhões de dispositivos, “o que é um fosso de dados de usuários alucinante”, e que “tínhamos todos os recursos, talento e impulso para nos tornarmos o líder de mercado inequívoco em IA conversacional”. Mas a maior parte dessa tecnologia nunca viu a luz do dia, disse ele, porque a Alexa AI “estava repleta de problemas técnicos e burocráticos”. Os ex-funcionários com quem a Fortune conversou no último mês ecoa o relato de Eric e acrescenta mais detalhes à história do fracasso da gigante. Os ex-funcionários falaram sob anonimato para evitar violar os acordos de não divulgação ou as cláusulas de não divulgação que haviam assinado.

Alexa foi pega de surpresa pelo ChatGPT

Bem antes de o ChatGPT impressionar o mundo em novembro de 2022, havia a Alexa. A assistente digital foi lançada em 2014 junto com o alto-falante inteligente Echo, que servia como sua interface de hardware. O assistente digital, segundo a Amazon, foi inspirado no computador onisciente apresentado em Star Trek. O produto rapidamente se tornou um sucesso entre os consumidores, vendendo mais de 20 milhões de dispositivos até 2017. Mas a Alexa não foi criada com os mesmos modelos e métodos de IA que tornaram o ChatGPT inovador. Em vez disso, era uma coleção de pequenos modelos de aprendizado de máquina e milhares de regras criadas manualmente e codificadas que transformavam as declarações de um usuário nas ações executadas pela Alexa.

O CEO da Apple, Tim Cook, fez parceria com a OpenAI para dar ao seu assistente Siri algumas novas informações  Foto: David Paul Morris/Bloomberg

A Amazon estava experimentando alguns LLMs - todos eles muito menores que o GPT-3 e o GPT-4 - mas eles não estavam nem perto de estarem prontos para serem implantados em um produto. Segundo ex-funcionários, a empresa foi pega de surpresa pelo boom da IA generativa na esteira do lançamento do ChatGPT. Seguiram-se alguns meses frenéticos, enquanto a organização Alexa da Amazon se esforçava para se unir em torno de uma visão que levasse a assistente digital de um bot de ação de comando afetado a um agente verdadeiramente conversacional e útil. Os projetos de IA não generativa foram despriorizados da noite para o dia e, durante todo o período do Natal de 2022, os executivos pediram aos cientistas, engenheiros e gerentes de produtos da Amazon que descobrissem como garantir que a Amazon tivesse produtos de IA generativa para oferecer aos clientes. Um ex-gerente de projeto da Alexa AI descreveu a atmosfera na empresa como “um pouco de pânico”.

A resposta da Amazon quase imediatamente teve problemas, pois várias equipes da Alexa e da AWS não conseguiram se unir em torno de um plano unificado. Muitos funcionários ainda estavam trabalhando remotamente após a pandemia, o que fez com que as pessoas ficassem interminavelmente “reunidas em teleconferências debatendo as minúcias de documentos, disse o gerente de projeto da Alexa AI. A empresa teve dificuldades, segundo ele, para “mudar do modo de tempo de paz para o modo de tempo de guerra”.

Um cientista de dados sênior da Alexa disse que isso era especialmente frustrante porque ele havia tentado soar o alarme sobre a próxima onda de IA generativa já em meados de 2022, reunindo dados para mostrar à sua liderança de nível de diretor, mas ele disse que não conseguia convencê-los de que a empresa precisava mudar sua estratégia de IA. Somente após o lançamento do ChatGPT é que a empresa entrou em ação, explicou ele.

O problema é que, como centenas de milhões de pessoas já sabem, a assistente não foi criada e nunca foi usada para conversas de ida e volta. Em vez disso, ela sempre se concentrou no que a organização da Alexa chama de “declarações” - as perguntas e os comandos como “como está o tempo?” ou “acender as luzes”.

Nos primeiros meses após o lançamento do ChatGPT, não ficou claro que os LLMs seriam capazes de acionar essas ações do mundo real a partir de uma conversa natural, disse um cientista pesquisador com Ph.D. que estagiou na equipe da Alexa durante esse período. “A ideia de que um LLM poderia ‘acender as luzes’ quando você dissesse ‘não consigo ver, acenda tudo’ ainda não estava comprovada”, disse ele. “Portanto, os líderes internos claramente tinham grandes planos, mas não sabiam realmente no que estavam se metendo.” Agora é amplamente aceito que os LLMs podem, pelo menos em teoria, ser acoplados a outras tecnologias para controlar ferramentas digitais.

Em vez disso, as equipes estavam descobrindo como implementar a IA generativa em tempo real. Isso incluía a criação de conjuntos de dados sintéticos - nesse caso, coleções de diálogos gerados por computador com um chatbot - que poderiam ser usados para treinar um LLM. Os criadores de modelos de IA costumam usar dados sintéticos quando não há dados reais suficientes para melhorar a precisão da IA ou quando a proteção da privacidade é necessária - e lembre-se de que a maior parte do que a equipe da Alexa tinha eram “declarações” simples e declarativas.

“Os clientes estavam falando na linguagem da Alexa”, disse um ex-cientista de aprendizado de máquina da Amazon. “Agora imagine que você queira incentivar as pessoas a falar em uma linguagem que nunca aconteceu. De onde você vai tirar os dados para treinar o modelo? Você precisa criá-lo, mas isso traz uma série de obstáculos porque há um milhão de maneiras de as pessoas dizerem a mesma coisa.”

Além disso, embora a Alexa tenha sido integrada a milhares de dispositivos e serviços de terceiros, verifica-se que os LLMs não são muito bons em lidar com essas integrações. De acordo com um ex-gerente de aprendizado de máquina da Alexa, que trabalhou nos recursos de casa inteligente da Alexa, até mesmo o mais recente modelo GPT-4o, da OpenAI, ou o Gemini, do Google, têm dificuldade para passar do diálogo falado para a execução de uma tarefa usando outro software. Isso requer o que é conhecido como chamada de API e os LLMs ainda não fazem isso bem.

“Não são consistentes o suficiente, têm alucinações, fazem coisas erradas, é difícil criar uma experiência quando você está se conectando a muitos dispositivos diferentes”, disse o ex-cientista de aprendizado de máquina.

Na metade de 2023, muitos dos funcionários da Alexa não sabiam como a assistente digital enfrentaria o momento da IA generativa. O projeto carecia de visão, disseram ex-funcionários.

Nova assistente causava preocupação

A estrutura interna da Amazon e as unidades de negócios isoladas dificultaram a reformulação do Alexa, de acordo com fontes  Foto: Markus Schreiber/AP

A demonstração da Alexa em setembro de 2023 fez parecer que o lançamento da nova Alexa iminente, mas ela “não atendeu aos critérios”, disse um ex-funcionário. Os LLMs são conhecidos por produzirem alucinações e conteúdo tóxico, e o da Amazon não era diferente, tornando arriscada uma ampla divulgação.

Segundo ex-funcionários, esse é o motivo pelo qual o recurso “vamos conversar” da Alexa nunca foi lançado em larga escala. “É muito difícil tornar a IA suficientemente segura e testar todos os aspectos dessa caixa preta para liberá-la”, disse um ex-gerente.

A mesma demonstração, ele destacou, envolvia uma funcionalidade diferente daquela pela qual a Alexa era mais conhecida - ou seja, receber um comando e executá-lo. Garantir que a Alexa ainda pudesse executar essas funções antigas e, ao mesmo tempo, possibilitar o diálogo de conversação que a nova Alexa prometia não seria uma tarefa fácil. O gerente disse que estava cada vez mais claro para ele que a organização precisaria, pelo menos temporariamente, manter duas pilhas de tecnologia completamente diferentes - uma com suporte para os recursos antigos da Alexa e outra para os novos. Mas os gerentes não queriam aceitar essa ideia, disse ele. Em vez disso, a mensagem na empresa na época em que ele foi demitido, em novembro de 2023, ainda era “precisamos esquecer do antigo modelo de IA da Alexa e passar a trabalhar apenas no novo”.

Mesmo com o fracasso do lançamento do novo Alexa LLM, os executivos da Amazon estabeleceram metas cada vez mais elevadas para a IA generativa. Pouco antes da demonstração, Prasad, o vice-presidente sênior da Amazon que havia atuado como cientista-chefe da Alexa, foi promovido a uma nova função destinada a reunir as diferentes equipes de pesquisa da empresa sob um único guarda-chuva, com o objetivo de desenvolver inteligência artificial geral de nível humano, ou AGI. A medida colocou a Amazon em concorrência direta com empresas como OpenAI, DeepMind e Anthropic, que têm a criação de AGI como sua missão fundadora. O CEO da Meta, Mark Zuckerberg, também disse recentemente que a criação de AGI também é a missão de sua empresa.

Em novembro de 2023, foi noticiado que a Amazon estava investindo milhões no treinamento de um modelo de IA, de codinome Olympus, que teria 2 trilhões de parâmetros (conexões entre palavras expressadas matematicamente). Os parâmetros dão uma ideia da complexidade de um modelo. E a contagem de parâmetros do Olympus faria com que ele tivesse o dobro do suposto tamanho do modelo mais capaz da OpenAI, o GPT-4.

O ex-cientista pesquisador que trabalha no Alexa LLM disse que o Projeto Olympus é “uma piada”, acrescentando que o maior modelo em andamento tem 470 bilhões de parâmetros. Ele também enfatizou que a versão atual do Alexa LLM não sofreu alterações em relação ao modelo de 100 bilhões de parâmetros que foi usado na demonstração de setembro de 2023, mas recebeu mais pré-treinamento e ajustes finos para melhorá-lo.

A falta de dados dificultou o processo

Nos meses seguintes à demonstração de setembro de 2023, um ex-cientista pesquisador que trabalhou na criação do novo Alexa LLM lembrou como a liderança da Alexa, incluindo o líder de IA generativa da Amazon, Rohit Prasad, incentivou a equipe a trabalhar cada vez mais. A mensagem era para “conseguir alguma mágica” com o LLM, disse o cientista pesquisador. Mas a mágica nunca aconteceu. A falta de dados adequados foi um dos principais motivos.

O Llama 3 da Meta foi pré-treinado com 15 trilhões de tokens, a menor unidade de dados que um LLM processa. O Alexa LLM foi treinado apenas com 3 trilhões. Diferentemente dos parâmetros, que são o número de configurações ajustáveis de um modelo, um token é a menor unidade de dados - como uma palavra - que o modelo processa durante o treinamento. Enquanto isso, o “ajuste fino” de um modelo de IA - que utiliza um modelo pré-treinado e o aprimora para tarefas específicas - também se beneficia de conjuntos de dados maiores do que os que a Amazon tem à disposição. O modelo Llama 3 da Meta foi ajustado com 10 milhões de pontos de dados. O LLM criado pela organização AGI da Amazon acumulou até agora apenas cerca de 1 milhão, com apenas 500 mil pontos de dados de alta qualidade, disse o ex-cientista de pesquisa do Alexa LLM.

O ex-executivo da Amazon, David Limp, fez de Alexa um sucesso entre os consumidores. Mas na era do ChatGPT, o assistente inteligente pioneiro da Amazon não consegue acompanhar  Foto: Dado Ruvic/Reuters

Um dos muitos motivos para isso, explicou ele, é que a Amazon insiste em usar seus próprios anotadores de dados (pessoas responsáveis por rotular os dados para que os modelos de IA possam reconhecer padrões) e essa organização é muito lenta. “Portanto, nunca conseguimos obter dados de alta qualidade deles após várias rodadas, mesmo após um ano de desenvolvimento do modelo”, disse ele.

Além da escassez de dados, a equipe da Alexa também não tem acesso às grandes quantidades das mais recentes GPUs da Nvidia, os chips especializados usados para treinar e executar modelos de IA, que as equipes da OpenAI, Meta e Google têm. “A maioria das GPUs ainda é A100, não H100″, acrescentou o ex-cientista pesquisador do Alexa LLM, referindo-se à GPU mais poderosa que a Nvidia tem disponível atualmente.

Às vezes, a criação da nova Alexa ficou em segundo plano em relação a outras prioridades de IA generativa na Amazon, disseram eles. O foco principal da Amazon após o lançamento do ChatGPT foi lançar o Bedrock, um novo serviço de computação em nuvem da AWS que permitia que os clientes criassem chatbots de IA generativa e outros aplicativos na nuvem. A AWS é um fator crítico de lucro para a Amazon.

A Alexa, por outro lado, é um centro de custos - a divisão supostamente perde bilhões a cada ano - e é vista principalmente como uma forma de manter os clientes envolvidos com a Amazon e como uma maneira de coletar dados que podem ajudar a Amazon e seus parceiros a direcionar melhor a publicidade. O LLM que os cientistas da Amazon estão construindo (uma versão do qual também alimentará a Alexa) também está sendo implementado pela primeira vez no assistente de IA generativa da AWS, o Amazon Q, disse um ex-cientista do LLM da Alexa que saiu nos últimos meses, porque o modelo agora é considerado bom o suficiente para casos específicos de uso corporativo.

Burocracia e problemas de infraestrutura

Um ex-funcionário da Alexa AI, que contratou vários funcionários que estavam trabalhando no novo LLM da Alexa, disse que a maioria mencionou “sentir-se exausta” pela pressão constante para preparar o modelo para um lançamento que é repetidamente adiado - e frustrada porque outros trabalhos estão em espera até esse momento. Alguns também expressaram um ceticismo crescente quanto ao fato de o design geral da Alexa baseada em LLM fazer sentido, acrescentou.

“Uma história que ouvi foi que, no início do projeto, houve uma grande pressão por parte dos executivos seniores que se tornaram excessivamente confiantes depois de fazer experiências com o ChatGPT e que esse excesso de confiança persistiu entre alguns líderes seniores que continuam a se esforçar para atingir uma meta irrealista”, disse ele. Outro ex-cientista do Alexa LLM disse que os gerentes estabelecem prazos inatingíveis. “Toda vez que os gerentes nos atribuíam uma tarefa relacionada ao LLM, eles nos pediam para concluí-la em um período de tempo muito curto (por exemplo, dois dias, uma semana), o que é impossível”, disse ele. “Parece que a liderança não sabe nada sobre LLMs - eles não sabem de quantas pessoas precisam e qual deve ser o tempo esperado para concluir cada tarefa para criar um produto de sucesso como o ChatGPT.”

Alexa nunca se alinhou com a ideia de Jeff Bezos de “equipes de duas pizzas”, ou seja, que as equipes deveriam ser pequenas o suficiente para que fosse possível atender a uma reunião completa da equipe com apenas duas pizzas. Bezos acreditava que equipes menores promoviam a tomada de decisões e a colaboração eficazes. Em vez disso, a Alexa tem sido historicamente - e continua sendo, em sua maior parte - uma divisão gigante. Antes das demissões mais recentes, ela tinha 10 mil funcionários. E, embora tenha menos agora, ainda está organizada em domínios grandes e isolados, como Alexa Home, Alexa Entertainment, Alexa Music e Alexa Shopping, cada um com centenas de funcionários.

À medida que aumentava a pressão para que cada domínio trabalhasse com o novo Alexa LLM para criar recursos de IA generativos, cada um dos quais exigia benchmarks de precisão, os domínios entraram em conflito, com resultados às vezes contraproducentes, disseram as fontes.

Por exemplo, um cientista de aprendizado de máquina que trabalhava na Alexa Home lembrou que, enquanto seu domínio trabalhava em maneiras de a Alexa ajudar os usuários a controlar suas luzes ou o termostato, o domínio Música estava ocupado trabalhando em como fazer com que a Alexa entendesse solicitações muito específicas, como “tocar Rihanna, depois Tupac, pausar 30 minutos e depois tocar DMX”.

A visão do fundador da Amazon, Jeff Bezos, para Alexa foi moldada por seu amor por Star Trek  Foto: Linda Davidson/The Washington Post

Cada equipe de domínio teve que construir seu próprio relacionamento com a equipe central de LLM da Alexa. “Passamos meses trabalhando com o pessoal do LLM apenas para entender sua estrutura e quais dados poderíamos fornecer a eles para ajustar o modelo e fazê-lo funcionar.” Cada equipe queria ajustar o modelo de IA para seus próprios objetivos de domínio.

Mas, como se viu, se a equipe de Casa tentasse ajustar o Alexa LLM para torná-lo mais capaz de responder a perguntas de Casa e, em seguida, a equipe de Música viesse e o ajustasse usando seus próprios dados para Música, o modelo acabaria tendo um desempenho pior. O “esquecimento catastrófico”, em que o que um modelo aprende mais tarde no treinamento degrada sua capacidade de ter um bom desempenho em tarefas que encontrou anteriormente no treinamento, é um problema com todos os modelos de aprendizagem profunda. “À medida que melhora na música, o modelo pode ficar menos inteligente em casa”, disse o cientista de aprendizado de máquina. “Portanto, encontrar o ponto ideal no qual você está tentando fazer o ajuste fino para 12 domínios é quase uma loteria.” Hoje em dia, acrescentou ele, os cientistas do LLM sabem que o ajuste fino pode não ser a melhor técnica para criar um modelo com recursos avançados e flexibilidade - há outras técnicas, como a engenharia de prontidão, que podem ser melhores. Mas, a essa altura, muitos meses já haviam se passado, com pouco progresso para mostrar.

A Amazon reafirma seu compromisso com a Alexa

A Amazon insiste que está totalmente comprometida em fornecer uma Alexa com IA generativa, acrescentando que sua visão continua sendo a de construir o “melhor assistente pessoal do mundo”. Um representante da Amazon ressaltou que mais de meio bilhão de dispositivos habilitados para Alexa foram vendidos, e os clientes interagem com a Alexa dezenas de milhões de vezes a cada hora.

Ela acrescentou que a implementação da IA generativa vem com uma “enorme responsabilidade - os detalhes realmente importam” com uma implementação técnica dessa escala, em um dispositivo que milhões de clientes receberam em suas casas. Embora o recurso “Vamos conversar” da Alexa LLM não tenha sido implementado para o público em geral, ele foi testado em pequenos grupos de clientes “de forma contínua”.

Mas muitos dos funcionários com quem a Fortune conversou disseram que saíram em parte porque se desesperaram com a possibilidade de a nova Alexa ficar pronta - ou que, quando isso acontecer, ela já terá sido ultrapassada por produtos lançados por concorrentes mais ágeis, como a OpenAI. Essas empresas não precisam navegar em uma pilha de tecnologia existente e defender um conjunto de recursos existente. O ex-funcionário que contratou vários funcionários que deixaram a organização Alexa no último ano disse que muitos estavam pessimistas em relação ao lançamento do Alexa LLM. “Eles simplesmente não viam que isso realmente aconteceria”, disse ele.

É possível que a Amazon finalmente lance uma Alexa baseada em LLMl. Afinal de contas, há centenas de milhões de usuários da Alexa no mundo que certamente ficariam felizes se o dispositivo que fica em sua mesa ou balcão de cozinha pudesse fazer mais do que executar comandos simples.

Mas, dados os desafios que pesam sobre o esforço do Alexa LLM e a lacuna que o separa das ofertas de líderes em IA generativa, como OpenAI e Google, nenhuma das fontes com quem a Fortune conversou acredita que o Alexa esteja perto de cumprir a missão da Amazon de ser “o melhor assistente pessoal do mundo”, muito menos a visão do fundador da Amazon, Jeff Bezos, de criar uma versão real do útil computador de Star Trek. Em vez disso, a Alexa da Amazon corre o risco de se tornar uma relíquia digital com uma história de advertência - a de uma tecnologia potencialmente revolucionária que ficou presa jogando o jogo errado.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

c.2024 Fortune Media IP Limited

Distribuído por The New York Times Licensing Group

“Alexa, vamos conversar.”

Com essa frase, David Limp, na época chefe de dispositivos e serviços da Amazon, apresentou uma nova versão da inteligência artificial (IA) da assistente de voz Alexa, produto conhecido da empresa, em setembro de 2023.

Em um evento lotado, Limp demonstrou a nova Alexa para uma sala cheia de repórteres e funcionários animados. Ele mostrou como, em resposta à nova frase de acionamento, “Alexa, vamos conversar”, a assistente digital respondeu com uma voz muito mais natural e coloquial do que a voz amigável, porém robótica, com a qual centenas de milhões de pessoas se acostumaram a se comunicar para obter atualizações meteorológicas, lembretes, temporizadores e solicitações de música. Limp perguntou à Alexa como estava seu time de futebol favorito, a Universidade de Vanderbilt. A Alexa mostrou como poderia responder com uma voz alegre e como poderia escrever uma mensagem para seus amigos para lembrá-los de assistir ao próximo jogo de futebol do Vanderbilt e enviá-la para o telefone dele.

Alexa da Amazon foi uma sensação quando foi lançada e logo estava disponível em uma variedade de alto-falantes inteligentes Amazon Echo e outros dispositivos  Foto: John Minchillo/AP

O novo Alexa LLM, segundo a empresa, estaria disponível em breve como uma prévia gratuita nos dispositivos com Alexa nos EUA. Rohit Prasad, vice-presidente sênior da Amazon e líder da Alexa, disse que a notícia marcou uma “transformação maciça da assistente que amamos” e chamou a nova Alexa de “superagente”. Ficou claro que a empresa queria refutar as percepções de que a Alexa existente não era inteligente.

Mas, após o evento, houve silêncio no rádio - ou silêncio na assistente digital. A voz tradicional da Alexa nunca mudou nos meio bilhão de dispositivos que foram vendidos globalmente, e poucas notícias surgiram nos meses seguintes sobre a nova Alexa com IA generativa, além de relatórios recentes sobre um possível lançamento no final deste ano que poderia incluir uma taxa de assinatura.

O motivo, de acordo com entrevistas com ex-funcionários que trabalharam na IA para a Alexa, é uma organização assolada por disfunções estruturais e desafios tecnológicos que atrasaram repetidamente o envio da nova Alexa com IA generativa. De modo geral, os ex-funcionários pintam o quadro de uma empresa desesperadamente atrás de seus rivais, Google, Microsoft e Meta, na corrida pelo lançamento de chatbots e agentes de IA, e com dificuldades em seus esforços para recuperar o atraso.

A demonstração de setembro de 2023, enfatizam os ex-funcionários, era apenas isso - uma demonstração. A nova Alexa não estava pronta para ser lançada, e ainda não está. O modelo grande de linguagem (LLM) da Alexa está, de acordo com ex-funcionários, longe de ser o estado da arte.

Cientistas pesquisadores que trabalharam no LLM disseram que a Amazon não tem dados suficientes ou acesso aos chips de computador especializados necessários para executar LLMs para competir com os esforços rivais de empresas como a OpenAI. Além disso, a Amazon tem repetidamente desprivilegiado a nova Alexa em favor da criação de IA generativa para a unidade de computação em nuvem da Amazon, a AWS. E embora a Amazon tenha criado uma parceria e investido US$ 4 bilhões na startup Anthropic, cujo modelo LLM Claude é considerado competitivo em relação aos modelos da OpenAI, ela não conseguiu capitalizar esse relacionamento para criar uma Alexa melhor. As preocupações com a privacidade impediram que as equipes da Alexa usassem o Claude.

Um porta-voz da Amazon disse que os detalhes fornecidos pelos ex-cientistas pesquisadores para este texto eram “datados” - embora muitas dessas fontes tenham deixado a empresa nos últimos seis meses - e não refletiam o estado atual do Alexa LLM. Ela acrescentou que a empresa tem acesso a centenas de milhares de GPUs e outros chips específicos de IA. Ela também contestou a ideia de que a Alexa tenha sido despriorizada ou que o Claude tenha ficado fora dos limites devido a preocupações com a privacidade, mas se recusou a fornecer evidências de como o Claude está sendo usado na nova Alexa.

Embora os aspectos da luta da Amazon para atualizar a Alexa sejam exclusivos, os desafios da empresa dão uma indicação de como é difícil para as empresas renovar os assistentes digitais criados com tecnologias mais antigas. A Apple também enfrentou dificuldades semelhantes para integrar a IA em seus produtos, incluindo sua assistente digital Siri. A Siri e a Alexa compartilham um pedigree tecnológico semelhante - na verdade, a Siri foi lançada três anos antes da Alexa, em outubro de 2011. E, assim como a Amazon, a Apple investiu pouco no tipo de conhecimento especializado em IA necessário para criar os modelos de linguagem massivos que sustentam a IA generativa atual e nos vastos clusters de unidades de processamento gráfico (GPUs), os chips de computador especializados que esses modelos exigem. A Apple também, assim como a Amazon, lançou um esforço determinado, mas tardio, para recuperar o atraso.

A Apple deu alguns passos importantes para recuperar o terreno perdido na corrida da IA generativa com um conjunto de anúncios altamente esperados no início desta semana. A estreia incluiu uma grande atualização para a Siri, incluindo uma voz com som mais natural e o potencial de “consciência na tela”, que permitirá que a Siri realize mais ações semelhantes às de um agente em todos os aplicativos. A Apple também anunciou uma integração da Siri com o ChatGPT. Os anúncios da Apple só aumentam a pressão sobre a Amazon para que ela ofereça a nova Alexa.

Infelizmente, há evidências crescentes de que a Amazon está mal preparada para essa nova batalha dos assistentes digitais, embora muitos tenham presumido que a empresa estaria perfeitamente posicionada para levar a Alexa para a era da IA generativa. Mihail Eric, ex-cientista sênior de aprendizado de máquina da Alexa AI, foi ao X (antigo Twitter) para dizer exatamente isso: Em um post intitulado “How Alexa dropped the ball on being the top conversational system on the planet”, Eric, que deixou a Amazon em julho de 2021, apontou que a Alexa havia vendido mais de 500 milhões de dispositivos, “o que é um fosso de dados de usuários alucinante”, e que “tínhamos todos os recursos, talento e impulso para nos tornarmos o líder de mercado inequívoco em IA conversacional”. Mas a maior parte dessa tecnologia nunca viu a luz do dia, disse ele, porque a Alexa AI “estava repleta de problemas técnicos e burocráticos”. Os ex-funcionários com quem a Fortune conversou no último mês ecoa o relato de Eric e acrescenta mais detalhes à história do fracasso da gigante. Os ex-funcionários falaram sob anonimato para evitar violar os acordos de não divulgação ou as cláusulas de não divulgação que haviam assinado.

Alexa foi pega de surpresa pelo ChatGPT

Bem antes de o ChatGPT impressionar o mundo em novembro de 2022, havia a Alexa. A assistente digital foi lançada em 2014 junto com o alto-falante inteligente Echo, que servia como sua interface de hardware. O assistente digital, segundo a Amazon, foi inspirado no computador onisciente apresentado em Star Trek. O produto rapidamente se tornou um sucesso entre os consumidores, vendendo mais de 20 milhões de dispositivos até 2017. Mas a Alexa não foi criada com os mesmos modelos e métodos de IA que tornaram o ChatGPT inovador. Em vez disso, era uma coleção de pequenos modelos de aprendizado de máquina e milhares de regras criadas manualmente e codificadas que transformavam as declarações de um usuário nas ações executadas pela Alexa.

O CEO da Apple, Tim Cook, fez parceria com a OpenAI para dar ao seu assistente Siri algumas novas informações  Foto: David Paul Morris/Bloomberg

A Amazon estava experimentando alguns LLMs - todos eles muito menores que o GPT-3 e o GPT-4 - mas eles não estavam nem perto de estarem prontos para serem implantados em um produto. Segundo ex-funcionários, a empresa foi pega de surpresa pelo boom da IA generativa na esteira do lançamento do ChatGPT. Seguiram-se alguns meses frenéticos, enquanto a organização Alexa da Amazon se esforçava para se unir em torno de uma visão que levasse a assistente digital de um bot de ação de comando afetado a um agente verdadeiramente conversacional e útil. Os projetos de IA não generativa foram despriorizados da noite para o dia e, durante todo o período do Natal de 2022, os executivos pediram aos cientistas, engenheiros e gerentes de produtos da Amazon que descobrissem como garantir que a Amazon tivesse produtos de IA generativa para oferecer aos clientes. Um ex-gerente de projeto da Alexa AI descreveu a atmosfera na empresa como “um pouco de pânico”.

A resposta da Amazon quase imediatamente teve problemas, pois várias equipes da Alexa e da AWS não conseguiram se unir em torno de um plano unificado. Muitos funcionários ainda estavam trabalhando remotamente após a pandemia, o que fez com que as pessoas ficassem interminavelmente “reunidas em teleconferências debatendo as minúcias de documentos, disse o gerente de projeto da Alexa AI. A empresa teve dificuldades, segundo ele, para “mudar do modo de tempo de paz para o modo de tempo de guerra”.

Um cientista de dados sênior da Alexa disse que isso era especialmente frustrante porque ele havia tentado soar o alarme sobre a próxima onda de IA generativa já em meados de 2022, reunindo dados para mostrar à sua liderança de nível de diretor, mas ele disse que não conseguia convencê-los de que a empresa precisava mudar sua estratégia de IA. Somente após o lançamento do ChatGPT é que a empresa entrou em ação, explicou ele.

O problema é que, como centenas de milhões de pessoas já sabem, a assistente não foi criada e nunca foi usada para conversas de ida e volta. Em vez disso, ela sempre se concentrou no que a organização da Alexa chama de “declarações” - as perguntas e os comandos como “como está o tempo?” ou “acender as luzes”.

Nos primeiros meses após o lançamento do ChatGPT, não ficou claro que os LLMs seriam capazes de acionar essas ações do mundo real a partir de uma conversa natural, disse um cientista pesquisador com Ph.D. que estagiou na equipe da Alexa durante esse período. “A ideia de que um LLM poderia ‘acender as luzes’ quando você dissesse ‘não consigo ver, acenda tudo’ ainda não estava comprovada”, disse ele. “Portanto, os líderes internos claramente tinham grandes planos, mas não sabiam realmente no que estavam se metendo.” Agora é amplamente aceito que os LLMs podem, pelo menos em teoria, ser acoplados a outras tecnologias para controlar ferramentas digitais.

Em vez disso, as equipes estavam descobrindo como implementar a IA generativa em tempo real. Isso incluía a criação de conjuntos de dados sintéticos - nesse caso, coleções de diálogos gerados por computador com um chatbot - que poderiam ser usados para treinar um LLM. Os criadores de modelos de IA costumam usar dados sintéticos quando não há dados reais suficientes para melhorar a precisão da IA ou quando a proteção da privacidade é necessária - e lembre-se de que a maior parte do que a equipe da Alexa tinha eram “declarações” simples e declarativas.

“Os clientes estavam falando na linguagem da Alexa”, disse um ex-cientista de aprendizado de máquina da Amazon. “Agora imagine que você queira incentivar as pessoas a falar em uma linguagem que nunca aconteceu. De onde você vai tirar os dados para treinar o modelo? Você precisa criá-lo, mas isso traz uma série de obstáculos porque há um milhão de maneiras de as pessoas dizerem a mesma coisa.”

Além disso, embora a Alexa tenha sido integrada a milhares de dispositivos e serviços de terceiros, verifica-se que os LLMs não são muito bons em lidar com essas integrações. De acordo com um ex-gerente de aprendizado de máquina da Alexa, que trabalhou nos recursos de casa inteligente da Alexa, até mesmo o mais recente modelo GPT-4o, da OpenAI, ou o Gemini, do Google, têm dificuldade para passar do diálogo falado para a execução de uma tarefa usando outro software. Isso requer o que é conhecido como chamada de API e os LLMs ainda não fazem isso bem.

“Não são consistentes o suficiente, têm alucinações, fazem coisas erradas, é difícil criar uma experiência quando você está se conectando a muitos dispositivos diferentes”, disse o ex-cientista de aprendizado de máquina.

Na metade de 2023, muitos dos funcionários da Alexa não sabiam como a assistente digital enfrentaria o momento da IA generativa. O projeto carecia de visão, disseram ex-funcionários.

Nova assistente causava preocupação

A estrutura interna da Amazon e as unidades de negócios isoladas dificultaram a reformulação do Alexa, de acordo com fontes  Foto: Markus Schreiber/AP

A demonstração da Alexa em setembro de 2023 fez parecer que o lançamento da nova Alexa iminente, mas ela “não atendeu aos critérios”, disse um ex-funcionário. Os LLMs são conhecidos por produzirem alucinações e conteúdo tóxico, e o da Amazon não era diferente, tornando arriscada uma ampla divulgação.

Segundo ex-funcionários, esse é o motivo pelo qual o recurso “vamos conversar” da Alexa nunca foi lançado em larga escala. “É muito difícil tornar a IA suficientemente segura e testar todos os aspectos dessa caixa preta para liberá-la”, disse um ex-gerente.

A mesma demonstração, ele destacou, envolvia uma funcionalidade diferente daquela pela qual a Alexa era mais conhecida - ou seja, receber um comando e executá-lo. Garantir que a Alexa ainda pudesse executar essas funções antigas e, ao mesmo tempo, possibilitar o diálogo de conversação que a nova Alexa prometia não seria uma tarefa fácil. O gerente disse que estava cada vez mais claro para ele que a organização precisaria, pelo menos temporariamente, manter duas pilhas de tecnologia completamente diferentes - uma com suporte para os recursos antigos da Alexa e outra para os novos. Mas os gerentes não queriam aceitar essa ideia, disse ele. Em vez disso, a mensagem na empresa na época em que ele foi demitido, em novembro de 2023, ainda era “precisamos esquecer do antigo modelo de IA da Alexa e passar a trabalhar apenas no novo”.

Mesmo com o fracasso do lançamento do novo Alexa LLM, os executivos da Amazon estabeleceram metas cada vez mais elevadas para a IA generativa. Pouco antes da demonstração, Prasad, o vice-presidente sênior da Amazon que havia atuado como cientista-chefe da Alexa, foi promovido a uma nova função destinada a reunir as diferentes equipes de pesquisa da empresa sob um único guarda-chuva, com o objetivo de desenvolver inteligência artificial geral de nível humano, ou AGI. A medida colocou a Amazon em concorrência direta com empresas como OpenAI, DeepMind e Anthropic, que têm a criação de AGI como sua missão fundadora. O CEO da Meta, Mark Zuckerberg, também disse recentemente que a criação de AGI também é a missão de sua empresa.

Em novembro de 2023, foi noticiado que a Amazon estava investindo milhões no treinamento de um modelo de IA, de codinome Olympus, que teria 2 trilhões de parâmetros (conexões entre palavras expressadas matematicamente). Os parâmetros dão uma ideia da complexidade de um modelo. E a contagem de parâmetros do Olympus faria com que ele tivesse o dobro do suposto tamanho do modelo mais capaz da OpenAI, o GPT-4.

O ex-cientista pesquisador que trabalha no Alexa LLM disse que o Projeto Olympus é “uma piada”, acrescentando que o maior modelo em andamento tem 470 bilhões de parâmetros. Ele também enfatizou que a versão atual do Alexa LLM não sofreu alterações em relação ao modelo de 100 bilhões de parâmetros que foi usado na demonstração de setembro de 2023, mas recebeu mais pré-treinamento e ajustes finos para melhorá-lo.

A falta de dados dificultou o processo

Nos meses seguintes à demonstração de setembro de 2023, um ex-cientista pesquisador que trabalhou na criação do novo Alexa LLM lembrou como a liderança da Alexa, incluindo o líder de IA generativa da Amazon, Rohit Prasad, incentivou a equipe a trabalhar cada vez mais. A mensagem era para “conseguir alguma mágica” com o LLM, disse o cientista pesquisador. Mas a mágica nunca aconteceu. A falta de dados adequados foi um dos principais motivos.

O Llama 3 da Meta foi pré-treinado com 15 trilhões de tokens, a menor unidade de dados que um LLM processa. O Alexa LLM foi treinado apenas com 3 trilhões. Diferentemente dos parâmetros, que são o número de configurações ajustáveis de um modelo, um token é a menor unidade de dados - como uma palavra - que o modelo processa durante o treinamento. Enquanto isso, o “ajuste fino” de um modelo de IA - que utiliza um modelo pré-treinado e o aprimora para tarefas específicas - também se beneficia de conjuntos de dados maiores do que os que a Amazon tem à disposição. O modelo Llama 3 da Meta foi ajustado com 10 milhões de pontos de dados. O LLM criado pela organização AGI da Amazon acumulou até agora apenas cerca de 1 milhão, com apenas 500 mil pontos de dados de alta qualidade, disse o ex-cientista de pesquisa do Alexa LLM.

O ex-executivo da Amazon, David Limp, fez de Alexa um sucesso entre os consumidores. Mas na era do ChatGPT, o assistente inteligente pioneiro da Amazon não consegue acompanhar  Foto: Dado Ruvic/Reuters

Um dos muitos motivos para isso, explicou ele, é que a Amazon insiste em usar seus próprios anotadores de dados (pessoas responsáveis por rotular os dados para que os modelos de IA possam reconhecer padrões) e essa organização é muito lenta. “Portanto, nunca conseguimos obter dados de alta qualidade deles após várias rodadas, mesmo após um ano de desenvolvimento do modelo”, disse ele.

Além da escassez de dados, a equipe da Alexa também não tem acesso às grandes quantidades das mais recentes GPUs da Nvidia, os chips especializados usados para treinar e executar modelos de IA, que as equipes da OpenAI, Meta e Google têm. “A maioria das GPUs ainda é A100, não H100″, acrescentou o ex-cientista pesquisador do Alexa LLM, referindo-se à GPU mais poderosa que a Nvidia tem disponível atualmente.

Às vezes, a criação da nova Alexa ficou em segundo plano em relação a outras prioridades de IA generativa na Amazon, disseram eles. O foco principal da Amazon após o lançamento do ChatGPT foi lançar o Bedrock, um novo serviço de computação em nuvem da AWS que permitia que os clientes criassem chatbots de IA generativa e outros aplicativos na nuvem. A AWS é um fator crítico de lucro para a Amazon.

A Alexa, por outro lado, é um centro de custos - a divisão supostamente perde bilhões a cada ano - e é vista principalmente como uma forma de manter os clientes envolvidos com a Amazon e como uma maneira de coletar dados que podem ajudar a Amazon e seus parceiros a direcionar melhor a publicidade. O LLM que os cientistas da Amazon estão construindo (uma versão do qual também alimentará a Alexa) também está sendo implementado pela primeira vez no assistente de IA generativa da AWS, o Amazon Q, disse um ex-cientista do LLM da Alexa que saiu nos últimos meses, porque o modelo agora é considerado bom o suficiente para casos específicos de uso corporativo.

Burocracia e problemas de infraestrutura

Um ex-funcionário da Alexa AI, que contratou vários funcionários que estavam trabalhando no novo LLM da Alexa, disse que a maioria mencionou “sentir-se exausta” pela pressão constante para preparar o modelo para um lançamento que é repetidamente adiado - e frustrada porque outros trabalhos estão em espera até esse momento. Alguns também expressaram um ceticismo crescente quanto ao fato de o design geral da Alexa baseada em LLM fazer sentido, acrescentou.

“Uma história que ouvi foi que, no início do projeto, houve uma grande pressão por parte dos executivos seniores que se tornaram excessivamente confiantes depois de fazer experiências com o ChatGPT e que esse excesso de confiança persistiu entre alguns líderes seniores que continuam a se esforçar para atingir uma meta irrealista”, disse ele. Outro ex-cientista do Alexa LLM disse que os gerentes estabelecem prazos inatingíveis. “Toda vez que os gerentes nos atribuíam uma tarefa relacionada ao LLM, eles nos pediam para concluí-la em um período de tempo muito curto (por exemplo, dois dias, uma semana), o que é impossível”, disse ele. “Parece que a liderança não sabe nada sobre LLMs - eles não sabem de quantas pessoas precisam e qual deve ser o tempo esperado para concluir cada tarefa para criar um produto de sucesso como o ChatGPT.”

Alexa nunca se alinhou com a ideia de Jeff Bezos de “equipes de duas pizzas”, ou seja, que as equipes deveriam ser pequenas o suficiente para que fosse possível atender a uma reunião completa da equipe com apenas duas pizzas. Bezos acreditava que equipes menores promoviam a tomada de decisões e a colaboração eficazes. Em vez disso, a Alexa tem sido historicamente - e continua sendo, em sua maior parte - uma divisão gigante. Antes das demissões mais recentes, ela tinha 10 mil funcionários. E, embora tenha menos agora, ainda está organizada em domínios grandes e isolados, como Alexa Home, Alexa Entertainment, Alexa Music e Alexa Shopping, cada um com centenas de funcionários.

À medida que aumentava a pressão para que cada domínio trabalhasse com o novo Alexa LLM para criar recursos de IA generativos, cada um dos quais exigia benchmarks de precisão, os domínios entraram em conflito, com resultados às vezes contraproducentes, disseram as fontes.

Por exemplo, um cientista de aprendizado de máquina que trabalhava na Alexa Home lembrou que, enquanto seu domínio trabalhava em maneiras de a Alexa ajudar os usuários a controlar suas luzes ou o termostato, o domínio Música estava ocupado trabalhando em como fazer com que a Alexa entendesse solicitações muito específicas, como “tocar Rihanna, depois Tupac, pausar 30 minutos e depois tocar DMX”.

A visão do fundador da Amazon, Jeff Bezos, para Alexa foi moldada por seu amor por Star Trek  Foto: Linda Davidson/The Washington Post

Cada equipe de domínio teve que construir seu próprio relacionamento com a equipe central de LLM da Alexa. “Passamos meses trabalhando com o pessoal do LLM apenas para entender sua estrutura e quais dados poderíamos fornecer a eles para ajustar o modelo e fazê-lo funcionar.” Cada equipe queria ajustar o modelo de IA para seus próprios objetivos de domínio.

Mas, como se viu, se a equipe de Casa tentasse ajustar o Alexa LLM para torná-lo mais capaz de responder a perguntas de Casa e, em seguida, a equipe de Música viesse e o ajustasse usando seus próprios dados para Música, o modelo acabaria tendo um desempenho pior. O “esquecimento catastrófico”, em que o que um modelo aprende mais tarde no treinamento degrada sua capacidade de ter um bom desempenho em tarefas que encontrou anteriormente no treinamento, é um problema com todos os modelos de aprendizagem profunda. “À medida que melhora na música, o modelo pode ficar menos inteligente em casa”, disse o cientista de aprendizado de máquina. “Portanto, encontrar o ponto ideal no qual você está tentando fazer o ajuste fino para 12 domínios é quase uma loteria.” Hoje em dia, acrescentou ele, os cientistas do LLM sabem que o ajuste fino pode não ser a melhor técnica para criar um modelo com recursos avançados e flexibilidade - há outras técnicas, como a engenharia de prontidão, que podem ser melhores. Mas, a essa altura, muitos meses já haviam se passado, com pouco progresso para mostrar.

A Amazon reafirma seu compromisso com a Alexa

A Amazon insiste que está totalmente comprometida em fornecer uma Alexa com IA generativa, acrescentando que sua visão continua sendo a de construir o “melhor assistente pessoal do mundo”. Um representante da Amazon ressaltou que mais de meio bilhão de dispositivos habilitados para Alexa foram vendidos, e os clientes interagem com a Alexa dezenas de milhões de vezes a cada hora.

Ela acrescentou que a implementação da IA generativa vem com uma “enorme responsabilidade - os detalhes realmente importam” com uma implementação técnica dessa escala, em um dispositivo que milhões de clientes receberam em suas casas. Embora o recurso “Vamos conversar” da Alexa LLM não tenha sido implementado para o público em geral, ele foi testado em pequenos grupos de clientes “de forma contínua”.

Mas muitos dos funcionários com quem a Fortune conversou disseram que saíram em parte porque se desesperaram com a possibilidade de a nova Alexa ficar pronta - ou que, quando isso acontecer, ela já terá sido ultrapassada por produtos lançados por concorrentes mais ágeis, como a OpenAI. Essas empresas não precisam navegar em uma pilha de tecnologia existente e defender um conjunto de recursos existente. O ex-funcionário que contratou vários funcionários que deixaram a organização Alexa no último ano disse que muitos estavam pessimistas em relação ao lançamento do Alexa LLM. “Eles simplesmente não viam que isso realmente aconteceria”, disse ele.

É possível que a Amazon finalmente lance uma Alexa baseada em LLMl. Afinal de contas, há centenas de milhões de usuários da Alexa no mundo que certamente ficariam felizes se o dispositivo que fica em sua mesa ou balcão de cozinha pudesse fazer mais do que executar comandos simples.

Mas, dados os desafios que pesam sobre o esforço do Alexa LLM e a lacuna que o separa das ofertas de líderes em IA generativa, como OpenAI e Google, nenhuma das fontes com quem a Fortune conversou acredita que o Alexa esteja perto de cumprir a missão da Amazon de ser “o melhor assistente pessoal do mundo”, muito menos a visão do fundador da Amazon, Jeff Bezos, de criar uma versão real do útil computador de Star Trek. Em vez disso, a Alexa da Amazon corre o risco de se tornar uma relíquia digital com uma história de advertência - a de uma tecnologia potencialmente revolucionária que ficou presa jogando o jogo errado.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

c.2024 Fortune Media IP Limited

Distribuído por The New York Times Licensing Group

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.