Nos últimos anos, temos assistido a uma transformação significativa na maneira como buscamos e consumimos informações. Os modelos de linguagem de grande escala (LLMs, na sigla em inglês) estão se tornando cada vez mais disseminados, substituindo progressivamente os mecanismos de busca tradicionais, como o Google.
Com respostas rápidas, em linguagem natural e aparentemente seguras, esses modelos estão se tornando a primeira escolha de muitos cidadãos comuns. Mas será que estamos cientes dos riscos embutidos nesse novo recurso?
Segundo artigo recente escrito por pesquisadores da Stanford University, University of Southern California, Carnegie Mellon University e Allen Institute for AI, os LLMs, como GPT e LLaMA-2, são frequentemente relutantes em expressar incertezas, mesmo quando suas respostas estão incorretas: cerca de 47% das respostas fornecidas com alta confiança pelos modelos estavam erradas.
Além disso, a pesquisa aborda a questão dos vieses nos modelos e na anotação humana. Durante o processo de Reinforcement Learning from Human Feedback (RLHF) – que significa “aprendizado por reforço com feedback humano” –, os modelos de linguagem são treinados para otimizar as respostas com base num retorno humano. No entanto, esse processo pode amplificar certos vieses presentes nos dados de treinamento ou no próprio feedback.
Entre os vieses que devem ser levados em consideração estão os de gênero e raça. No caso de fornecer feedbacks que seguem estereótipos ou evitam expressar incertezas em contextos que envolvem minorias, os modelos acabam perpetuando e amplificando essas perspectivas humanas.
Outro viés preocupante é a preferência dos anotadores por respostas que soam mais assertivas, mesmo quando há incertezas sobre essas informações. Isso leva os modelos a evitarem expressões de dúvida ao usuário, criando a falsa ilusão de conhecimento sólido, quando na verdade podem estar errados.
Por exemplo, uma afirmação categórica sobre a capital de um país pode ser preferida pelos anotadores, mesmo que o modelo estivesse incerto, resultando numa resposta potencialmente incorreta, mas apresentada de forma confiante.
Esses vieses são preocupantes porque moldam a maneira como as respostas são geradas e percebidas pelos usuários. Quando combinados com a confiança excessiva que os usuários tendem a depositar nas respostas dos LLMs, esses vieses podem levar à disseminação de informações distorcidas e à consolidação de preconceitos sociais.
Estamos, portanto, diante de um possível círculo vicioso. À medida que mais pessoas recorrem aos LLMs para buscar informações, a confiança excessiva nesses modelos pode amplificar a disseminação de desinformação.
Nesse sentido, o processo de alinhamento dos modelos com feedback humano (RLHF) pode estar exacerbando esse problema, reforçando respostas assertivas e subestimando a importância de expressar incertezas. Isso não apenas perpetua informações incorretas, como também pode reforçar preconceitos e vieses sociais, criando um ciclo que se retroalimenta e se intensifica com o tempo.
A longo prazo, isso pode resultar numa sociedade cada vez mais polarizada, em que preconceitos são reforçados e a confiança em fontes de informação tradicionais é minada. Além disso, essa “armadilha” pode também afetar a tomada de decisões fundamentadas, com impactos significativos em setores importantes como políticas públicas, educação e saúde.
Para evitar que esse círculo vicioso se consolide, é importante que ações sejam tomadas em diversas frentes, como por exemplo a transparência e a explicabilidade das ferramentas, uma vez que os LLMs devem ser projetados para expressar incertezas de maneira clara e contextual, permitindo que os usuários entendam melhor a confiabilidade das informações fornecidas. Além disso, incluir uma gama mais diversa de feedback durante o treinamento dos modelos, a fim de ajudar a mitigar os vieses introduzidos por um subconjunto limitado de usuários ou anotadores.
Nesse processo, é importante promover educação e conscientização dos usuários sobre os limites e as potencialidades das inteligências artificiais (IAs), incentivando uma abordagem mais crítica e questionadora ao consumirem informações geradas por modelos de linguagem. E, por fim, o desenvolvimento de regulamentações e normas pelos órgãos reguladores e a própria indústria, para garantir que os modelos de inteligência artificial sejam usados de forma ética e segura, minimizando o risco de desinformação em larga escala.
Estamos num ponto fundamental na história da interação humano-IA. Nesse contexto, a disseminação massiva de modelos de linguagem sem os devidos cuidados pode nos conduzir a um perigoso ciclo de desinformação e reforço de vieses.
Com isso, devemos agir agora para garantir que a tecnologia sirva para empoderar a sociedade com informações corretas e equilibradas, e não para disseminar incertezas e preconceitos. Na era da informação, a verdadeira sabedoria não está em buscar as respostas mais rápidas, mas em questionar e entender as incertezas que as acompanham.
*
É CEO DA A3DATA, CONSULTORIA ESPECIALIZADA EM DADOS E INTELIGÊNCIA ARTIFICIAL