A destreza com as palavras exibida pelo ChatGPT tomou a imaginação de quem vive fora da bolha dos pesquisadores e entusiastas de inteligência artificial (IA). Antes mesmo do lançamento do GPT-4, novo “cérebro” do ChatgPT, o chatbot da OpenAI passou a ser visto além de suas qualidades técnicas, dando espaço para temores sobre um levante das máquinas, para ilusões de relacionamentos íntimos com sistemas e para fé profunda nas visões e respostas daquilo que surge na caixa de diálogo do serviço.
Boa parte dessas situações são resultado de um fenômeno batizado na comunidade científica de “alucinação”, que se refere a textos inventados pelas máquinas que extrapolam a realidade ou o bom senso. Ou seja, quando o ChatGPT demonstra algum tipo de intimidade com o usuário, ou argumenta com convicção sobre informações erradas, o sistema alucinou.
Leia também
“O ChatGPT é uma boa ferramenta para gerar textos, mas ele não sabe o significado das palavras. Ele é apenas um papagaio que repete aquilo que aprendeu”, diz Fernando Osório, professor da USP São Carlos.
De fato, o ChatGPT não entende o que escreve por uma razão simples: dentro de sistemas de IA, a palavra vira matemática. Ferramentas de IA que geram texto usam modelos de análise probabilística para entender a relação entre as palavras e selecionar os termos que melhor atendem às demandas dos usuários.
Tentar olhar de perto esse mecanismo abstrato ajuda a entender com clareza os motivos pelos quais estamos longe da singularidade (termo usado para o suposto despertar da consciência das máquinas) e as razões pelas quais essas ferramentas não devem ser usadas como fontes primárias de informação.
Até 2017, a arquitetura (ou técnica) de IA mais utilizada para analisar e gerar texto eram as chamadas redes neurais recorrentes (RNN, na sigla em inglês). Elas “olham” para um conjunto de termos e geram a próxima palavra de forma sequencial, sempre baseada naquilo que aparece anteriormente - é uma espécie de “fila de palavras”.
Mas as RNNs têm dois problemas. O primeiro é que elas não conseguem analisar várias palavras ao mesmo tempo, o que torna bastante lento o processo de treinamento desses sistemas. Além disso, elas não conseguem manter a “atenção” em frases muito longas e acabam “esquecendo” dos primeiros termos analisados. Ou seja, as RNN não conseguem lidar com uma fila de palavras muito compridas. Portanto, elas são incapazes de escrever parágrafos longos.
Tudo mudou em 2017, quando engenheiros do Google propuseram um novo design de IA chamado Transformer. Esse método se tornou o principal pilar para o processamento de linguagem e deu origem a diferentes sistemas, como o Bert, do Google, o T5, da HuggingFace, e o GPT, que posteriormente viria a abastecer o ChatGPT. A grande novidade do Transformer é que ele é capaz de olhar para todas as palavras em uma frase ao mesmo tempo e analisar paralelamente cada uma delas para determinar aquilo que será gerado. Assim, ele não tem dificuldades com textos longos.
O mecanismo que mede a relação das palavras e atribui pesos de importância entre elas se chama “atenção”. Os termos que costumam aparecer juntos com mais frequência ganham força na escala de atenção, enquanto pares incomuns são classificados como baixa probabilidade. Tudo isso ajuda a IA a selecionar quais palavras serão geradas a partir de um comando do usuário. As relações entre as palavras são batizadas de parâmetros - a IA por trás do ChatGPT tem 175 bilhões de parâmetros.
Computadores, porém, não entendem palavras. Para que essa relação entre termos seja medida, a linguagem precisa virar matemática. Agora o processo fica abstrato: cada termo ganha um número (chamado de token) e essas identificações são transformadas em vetores multidimensionais, chamados de embeddings.
Os embeddings ajudam a preservar a ideia de semântica porque agrupa os vetores de palavras similares - por exemplo, os vetores de “primavera” e “verão” tendem ficar perto uns dos outros na “nuvem” de palavras. Outro elemento dessa análise é a posição dessas palavras na frase. Um código referente à posição (chamado de position encoding) ajuda a determinar quais palavras costumam aparecer juntas e onde costumam aparecer em uma frase. Isso é importante porque o posicionamento de uma palavra na frase muda o seu significado.
Para refinar ainda mais o peso na relação das palavras, o Transformer tem três “filtros” que analisam essas informações. Eles são batizados de Query (Q), Key (K) e Value (V) e afetam o posicionamento dos vetores de cada palavra. O Q observa a palavra sobre o qual sistema está focado, enquanto o K mira nos termos relacionados à palavra inicial. O V atribui um peso final aos pares de palavras, dando uma nota (quanto mais alta, mais relevante a relação das duas).Tudo isso ajuda a IA a focar naquilo que importa e a ignorar o resto. Os refinamentos aprendidos pela máquina são realimentados ao sistema, numa técnica chamada back propagation.
As probabilidades de pares de palavras são feitas durante o treinamento da IA. “É algo feito praticamente por força bruta, com a máquina analisando palavra por palavra”, explica Anderson Soares, coordenador do Centro de Excelência em Inteligência Artificial da Universidade Federal de Goiás (UFG).
Para que a máquina entenda as relações e gere parâmetros são necessários volumes massivos de dados, chamados de modelos de linguagem ampla (LLM). O GPT-3.5, primeiro “cérebro” do ChatGPT, foi treinado com 45 TB de texto, incluindo 10 bilhões de palavras e 8 milhões de textos. Faz parte do material toda a Wikipédia em inglês, pacotes de livros digitais (em conjuntos chamados Books 1 e Books 2) e dois pacotes massivos de páginas da internet (chamados de The Common Crawl e WebText2).
Além disso, o GPT-3.5 passou por uma adaptação, chamada InstructGPT, antes de servir o ChatGPT: humanos passaram a avaliar as respostas que pudessem ajustar ainda melhor as escolhas da máquina. “Isso serve para dizer ao GPT-3 que ligações que ele entendeu como ‘mais verde’ talvez seja ‘mais vermelha’”, explica Soares.
Quando o usuário acessa o ChatGPT, o sistema já tem as relações mapeadas numa espécie de “menu”, que gera as palavras na janela do chatbot. Assim, as palavras entram pelo codificador, viram números e passam pelo decodificador para virar palavras novamente.
Limitação infinita
A transformação de palavras em números e vice-versa deixa claro os motivos pelos quais o ChatGPT alucina ou argumenta sobre informações erradas. “Ele apenas está escolhendo palavras num modelo probabilístico. Não há sentimento nem compreensão”, explica Osório. Ou seja, a ferramenta não é um oráculo.
Em relação a erros factuais, o ChatGPT tem outra limitação: os dados que treinaram o sistema vão apenas até setembro 2021, o que significa que o modelo vai escolher palavras apenas dentro desta janela temporal.
A OpenAI afirmou nesta semana, durante o lançamento do GPT-4, que o novo sistema alucina menos (com performance superior ao GPT-3 em 40%), mas admitiu que o modelo continua cometendo erros do tipo. “Apesar de suas habilidades, o GPT-4 tem limitações similares à de gerações anteriores do GPT”, diz a companhia. “Mais importante: ele ainda não é totalmente confiável (ele alucina fatos e comete erros de raciocínio)”.
E esse parece ser um caminho sem solução. “Com essa tecnologia, nunca uma máquina se tornará autoconsciente — mesmo que os próximos modelos de linguagem sejam ainda mais sofisticados,” afirma Osório.
Os comentários são exclusivos para assinantes do Estadão.