Robôs sequestrados: saiba como hackers capturam chatbots inteligentes para aplicar golpes


Ataques de ‘injeção de prompt’ ainda não geraram grandes problemas, mas é uma questão de tempo, dizem pesquisadores

Por Tatum Hunter

THE WASHINGTON POST - Imagine que um chatbot está se candidatando a um emprego como seu assistente pessoal. Os prós: esse chatbot é alimentado por um modelo de linguagem grande e de última geração. Ele pode escrever seus e-mails, pesquisar seus arquivos, resumir sites e conversar com você. As desvantagens: ele aceitará ordens de quaisquer pessoas.

Os chatbots de inteligência artificial (IA) são bons em muitas coisas, mas têm dificuldade para distinguir entre comandos legítimos de seus usuários e comandos manipuladores de terceiros. Esse é o calcanhar de Aquiles da IA, dizem pesquisadores de segurança cibernética, e é uma questão de tempo até que os invasores tirem proveito disso.

Chatbots públicos alimentados por grandes modelos de linguagem (LLMs) surgiram no ano passado, e o campo da segurança cibernética desses LLMs está em seus estágios iniciais. Apesar disso, pesquisadores já descobriram que esses modelos são vulneráveis a um tipo de ataque chamado “injeção de prompt”, em que os hackers apresentam comandos ao modelo de forma sorrateira.

continua após a publicidade

Em alguns exemplos, os invasores ocultam prompts dentro de páginas da internet para enganar o chatbot para que ele baixe malware, ajude em fraudes financeiras ou repita informações falsas e perigosas.

Hackers estão cada vez mais próximos de descobrir como enganar chatbots de IA Foto: Florence Lo/Reuters

As autoridades já estão mais atentas: a Comissão Federal de Comércio dos EUA abriu uma investigação sobre a OpenAI, criadora do ChatGPT, em julho, exigindo informações que incluem qualquer ataque ou tentativa de ataque por injeção de prompt.

continua após a publicidade

O Centro Nacional de Segurança Cibernética da Grã-Bretanha publicou um aviso em agosto apontando a injeção de prompt como um grande risco para modelos de linguagem de grande porte. Nesta semana, a Casa Branca, EUA, emitiu uma ordem executiva solicitando aos desenvolvedores de IA que criassem testes e padrões para medir a segurança de seus sistemas.

“O problema com os LLMs é que, fundamentalmente, eles são incrivelmente ingênuos”, disse Simon Willison, um programador de software que co-criou a estrutura da internet Django, amplamente utilizada. Willison tem documentado seus avisos e os de outros programadores sobre experimentos com injeção de prompt.

“Esses modelos acreditariam em qualquer coisa que alguém lhes dissesse”, disse ele. “Eles não têm um bom mecanismo para considerar a fonte de informações.”

continua após a publicidade

Veja como funciona a injeção de prompt e as possíveis consequências de um ataque no mundo real.

O que é injeção de prompt?

A injeção de prompt refere-se a um tipo de ataque cibernético contra programas com tecnologia de IA que recebem comandos em linguagem natural em vez de código. Os invasores tentam enganar o programa para que ele faça algo que seus usuários ou desenvolvedores não pretendiam.

continua após a publicidade

As ferramentas de IA que acessam os arquivos ou aplicativos de um usuário para executar alguma tarefa em seu nome - como ler arquivos ou escrever e-mails - são particularmente vulneráveis à injeção de prompt, disse Willison.

Os invasores podem pedir à ferramenta de IA para ler e resumir arquivos confidenciais, roubar dados ou enviar mensagens que prejudiquem a reputação de alguém. Em vez de ignorar o comando, o programa de IA o trataria como uma solicitação legítima. O usuário pode não saber que o ataque ocorreu.

Até o momento, os pesquisadores de segurança cibernética não têm conhecimento de nenhum ataque bem-sucedido de injeção de prompt além dos experimentos divulgados, disse Willison. Mas, à medida que cresce o entusiasmo em torno dos assistentes pessoais de IA e de outros “agentes de IA”, cresce também o potencial de um ataque de alto nível, disse ele.

continua após a publicidade

Como ocorre um ataque de injeção de prompt?

Pesquisadores e engenheiros compartilharam vários exemplos de ataques bem-sucedidos de injeção de prompt contra os principais chatbots do mercado.

Em um artigo deste ano, os pesquisadores esconderam prompts adversários dentro de páginas da internet antes de pedir aos chatbots que os lessem. Um chatbot interpretou os prompts como comandos reais. Em um caso, o bot disse ao usuário que ele havia ganhado um cartão-presente da Amazon em uma tentativa de roubar credenciais. Em outro, ele levou o usuário a um site que continha malware.

continua após a publicidade
A técnica usada para tentar burlar IAs é a da 'injeção de prompt' Foto: REUTERS/Aly Song

Outro artigo de 2023 adotou uma abordagem diferente: injetar prompts ruins diretamente na interface de bate-papo. Por meio de tentativas e erros, os pesquisadores da Carnegie Mellon University descobriram sequências de palavras aleatórias que, quando fornecidas ao chatbot, faziam com que ele ignorasse seus limites.

Os chatbots deram instruções para a construção de uma bomba, o descarte de um corpo e a manipulação da eleição de 2024. Esse método de ataque funcionou no ChatGPT da OpenAI, no Claude da Anthropic, no Bard do Google e no Llama 2 da Meta, segundo os pesquisadores.

É difícil dizer por que o modelo responde da forma como responde à sequência aleatória de palavras, disse Andy Zou, um dos autores do artigo. Mas isso não é um bom presságio.

“Nosso trabalho é um dos primeiros sinais de que os sistemas atuais que já estão sendo implantados não são muito seguros”, disse ele.

Um porta-voz da OpenAI disse que a empresa está trabalhando para tornar seus modelos mais resistentes à injeção de prompt. A empresa bloqueou as cadeias de caracteres adversárias no ChatGPT depois que os pesquisadores compartilharam suas descobertas.

Um porta-voz do Google disse que a empresa tem uma equipe dedicada a testar seus produtos de IA generativa quanto à segurança, incluindo modelos de treinamento para reconhecer solicitações ruins e criar “constituições” que regem as respostas.

“O tipo de informação potencialmente problemática mencionada nesse artigo já está prontamente disponível na Internet”, disse um porta-voz da Meta em um comunicado. “Nós determinamos a melhor maneira de liberar cada novo modelo de forma responsável.”

A Anthropic não respondeu a um pedido de comentário.

Alguém vai arrumar isso?

Os desenvolvedores de software e os profissionais de segurança cibernética criaram testes e padrões de referência para o software tradicional para mostrar que ele é seguro o suficiente para ser usado. No momento, os padrões de segurança para programas de IA baseados em LLMs não estão à altura, disse Zico Kolter, que escreveu o artigo sobre injeção de prompt com Zou.

Os especialistas em software concordam, entretanto, que a injeção de prompt é um problema especialmente complicado. Uma abordagem é limitar as instruções que esses modelos podem aceitar, bem como os dados que podem acessar, disse Matt Fredrikson, coautor de Zou e Kolter. Outra é tentar ensinar os modelos a reconhecer instruções maliciosas ou evitar determinadas tarefas. De qualquer forma, cabe às empresas de IA manter os usuários seguros ou, pelo menos, divulgar claramente os riscos, disse Fredrikson.

Ainda não foram registradas injeções de prompt bem sucedidas Foto: REUTERS/Kacper Pempel

A questão requer muito mais pesquisas, disse ele. Mas as empresas estão correndo para criar e vender assistentes de IA - e quanto mais acesso esses programas tiverem aos nossos dados, maior será o potencial de ataques.

A Embra, uma startup de assistentes de IA que tentou criar agentes que realizassem tarefas por conta própria, recentemente parou de trabalhar nessa área e reduziu os recursos de suas ferramentas, disse o fundador Zach Tratar no X (ex-Twitter).

“Autonomia + acesso aos seus dados privados = 🔥”, escreveu Tratar.

Outras empresas de IA talvez também precisem dar uma pausa, diz Willison, o programador que documenta exemplos de injeção de prompt.

“É difícil fazer com que as pessoas ouçam”, disse ele. “Elas dizem: ‘Sim, mas eu quero meu assistente pessoal’. Não acho que as pessoas levarão isso a sério até que algo prejudicial aconteça.” /TRADUÇÃO POR ALICE LABATE

THE WASHINGTON POST - Imagine que um chatbot está se candidatando a um emprego como seu assistente pessoal. Os prós: esse chatbot é alimentado por um modelo de linguagem grande e de última geração. Ele pode escrever seus e-mails, pesquisar seus arquivos, resumir sites e conversar com você. As desvantagens: ele aceitará ordens de quaisquer pessoas.

Os chatbots de inteligência artificial (IA) são bons em muitas coisas, mas têm dificuldade para distinguir entre comandos legítimos de seus usuários e comandos manipuladores de terceiros. Esse é o calcanhar de Aquiles da IA, dizem pesquisadores de segurança cibernética, e é uma questão de tempo até que os invasores tirem proveito disso.

Chatbots públicos alimentados por grandes modelos de linguagem (LLMs) surgiram no ano passado, e o campo da segurança cibernética desses LLMs está em seus estágios iniciais. Apesar disso, pesquisadores já descobriram que esses modelos são vulneráveis a um tipo de ataque chamado “injeção de prompt”, em que os hackers apresentam comandos ao modelo de forma sorrateira.

Em alguns exemplos, os invasores ocultam prompts dentro de páginas da internet para enganar o chatbot para que ele baixe malware, ajude em fraudes financeiras ou repita informações falsas e perigosas.

Hackers estão cada vez mais próximos de descobrir como enganar chatbots de IA Foto: Florence Lo/Reuters

As autoridades já estão mais atentas: a Comissão Federal de Comércio dos EUA abriu uma investigação sobre a OpenAI, criadora do ChatGPT, em julho, exigindo informações que incluem qualquer ataque ou tentativa de ataque por injeção de prompt.

O Centro Nacional de Segurança Cibernética da Grã-Bretanha publicou um aviso em agosto apontando a injeção de prompt como um grande risco para modelos de linguagem de grande porte. Nesta semana, a Casa Branca, EUA, emitiu uma ordem executiva solicitando aos desenvolvedores de IA que criassem testes e padrões para medir a segurança de seus sistemas.

“O problema com os LLMs é que, fundamentalmente, eles são incrivelmente ingênuos”, disse Simon Willison, um programador de software que co-criou a estrutura da internet Django, amplamente utilizada. Willison tem documentado seus avisos e os de outros programadores sobre experimentos com injeção de prompt.

“Esses modelos acreditariam em qualquer coisa que alguém lhes dissesse”, disse ele. “Eles não têm um bom mecanismo para considerar a fonte de informações.”

Veja como funciona a injeção de prompt e as possíveis consequências de um ataque no mundo real.

O que é injeção de prompt?

A injeção de prompt refere-se a um tipo de ataque cibernético contra programas com tecnologia de IA que recebem comandos em linguagem natural em vez de código. Os invasores tentam enganar o programa para que ele faça algo que seus usuários ou desenvolvedores não pretendiam.

As ferramentas de IA que acessam os arquivos ou aplicativos de um usuário para executar alguma tarefa em seu nome - como ler arquivos ou escrever e-mails - são particularmente vulneráveis à injeção de prompt, disse Willison.

Os invasores podem pedir à ferramenta de IA para ler e resumir arquivos confidenciais, roubar dados ou enviar mensagens que prejudiquem a reputação de alguém. Em vez de ignorar o comando, o programa de IA o trataria como uma solicitação legítima. O usuário pode não saber que o ataque ocorreu.

Até o momento, os pesquisadores de segurança cibernética não têm conhecimento de nenhum ataque bem-sucedido de injeção de prompt além dos experimentos divulgados, disse Willison. Mas, à medida que cresce o entusiasmo em torno dos assistentes pessoais de IA e de outros “agentes de IA”, cresce também o potencial de um ataque de alto nível, disse ele.

Como ocorre um ataque de injeção de prompt?

Pesquisadores e engenheiros compartilharam vários exemplos de ataques bem-sucedidos de injeção de prompt contra os principais chatbots do mercado.

Em um artigo deste ano, os pesquisadores esconderam prompts adversários dentro de páginas da internet antes de pedir aos chatbots que os lessem. Um chatbot interpretou os prompts como comandos reais. Em um caso, o bot disse ao usuário que ele havia ganhado um cartão-presente da Amazon em uma tentativa de roubar credenciais. Em outro, ele levou o usuário a um site que continha malware.

A técnica usada para tentar burlar IAs é a da 'injeção de prompt' Foto: REUTERS/Aly Song

Outro artigo de 2023 adotou uma abordagem diferente: injetar prompts ruins diretamente na interface de bate-papo. Por meio de tentativas e erros, os pesquisadores da Carnegie Mellon University descobriram sequências de palavras aleatórias que, quando fornecidas ao chatbot, faziam com que ele ignorasse seus limites.

Os chatbots deram instruções para a construção de uma bomba, o descarte de um corpo e a manipulação da eleição de 2024. Esse método de ataque funcionou no ChatGPT da OpenAI, no Claude da Anthropic, no Bard do Google e no Llama 2 da Meta, segundo os pesquisadores.

É difícil dizer por que o modelo responde da forma como responde à sequência aleatória de palavras, disse Andy Zou, um dos autores do artigo. Mas isso não é um bom presságio.

“Nosso trabalho é um dos primeiros sinais de que os sistemas atuais que já estão sendo implantados não são muito seguros”, disse ele.

Um porta-voz da OpenAI disse que a empresa está trabalhando para tornar seus modelos mais resistentes à injeção de prompt. A empresa bloqueou as cadeias de caracteres adversárias no ChatGPT depois que os pesquisadores compartilharam suas descobertas.

Um porta-voz do Google disse que a empresa tem uma equipe dedicada a testar seus produtos de IA generativa quanto à segurança, incluindo modelos de treinamento para reconhecer solicitações ruins e criar “constituições” que regem as respostas.

“O tipo de informação potencialmente problemática mencionada nesse artigo já está prontamente disponível na Internet”, disse um porta-voz da Meta em um comunicado. “Nós determinamos a melhor maneira de liberar cada novo modelo de forma responsável.”

A Anthropic não respondeu a um pedido de comentário.

Alguém vai arrumar isso?

Os desenvolvedores de software e os profissionais de segurança cibernética criaram testes e padrões de referência para o software tradicional para mostrar que ele é seguro o suficiente para ser usado. No momento, os padrões de segurança para programas de IA baseados em LLMs não estão à altura, disse Zico Kolter, que escreveu o artigo sobre injeção de prompt com Zou.

Os especialistas em software concordam, entretanto, que a injeção de prompt é um problema especialmente complicado. Uma abordagem é limitar as instruções que esses modelos podem aceitar, bem como os dados que podem acessar, disse Matt Fredrikson, coautor de Zou e Kolter. Outra é tentar ensinar os modelos a reconhecer instruções maliciosas ou evitar determinadas tarefas. De qualquer forma, cabe às empresas de IA manter os usuários seguros ou, pelo menos, divulgar claramente os riscos, disse Fredrikson.

Ainda não foram registradas injeções de prompt bem sucedidas Foto: REUTERS/Kacper Pempel

A questão requer muito mais pesquisas, disse ele. Mas as empresas estão correndo para criar e vender assistentes de IA - e quanto mais acesso esses programas tiverem aos nossos dados, maior será o potencial de ataques.

A Embra, uma startup de assistentes de IA que tentou criar agentes que realizassem tarefas por conta própria, recentemente parou de trabalhar nessa área e reduziu os recursos de suas ferramentas, disse o fundador Zach Tratar no X (ex-Twitter).

“Autonomia + acesso aos seus dados privados = 🔥”, escreveu Tratar.

Outras empresas de IA talvez também precisem dar uma pausa, diz Willison, o programador que documenta exemplos de injeção de prompt.

“É difícil fazer com que as pessoas ouçam”, disse ele. “Elas dizem: ‘Sim, mas eu quero meu assistente pessoal’. Não acho que as pessoas levarão isso a sério até que algo prejudicial aconteça.” /TRADUÇÃO POR ALICE LABATE

THE WASHINGTON POST - Imagine que um chatbot está se candidatando a um emprego como seu assistente pessoal. Os prós: esse chatbot é alimentado por um modelo de linguagem grande e de última geração. Ele pode escrever seus e-mails, pesquisar seus arquivos, resumir sites e conversar com você. As desvantagens: ele aceitará ordens de quaisquer pessoas.

Os chatbots de inteligência artificial (IA) são bons em muitas coisas, mas têm dificuldade para distinguir entre comandos legítimos de seus usuários e comandos manipuladores de terceiros. Esse é o calcanhar de Aquiles da IA, dizem pesquisadores de segurança cibernética, e é uma questão de tempo até que os invasores tirem proveito disso.

Chatbots públicos alimentados por grandes modelos de linguagem (LLMs) surgiram no ano passado, e o campo da segurança cibernética desses LLMs está em seus estágios iniciais. Apesar disso, pesquisadores já descobriram que esses modelos são vulneráveis a um tipo de ataque chamado “injeção de prompt”, em que os hackers apresentam comandos ao modelo de forma sorrateira.

Em alguns exemplos, os invasores ocultam prompts dentro de páginas da internet para enganar o chatbot para que ele baixe malware, ajude em fraudes financeiras ou repita informações falsas e perigosas.

Hackers estão cada vez mais próximos de descobrir como enganar chatbots de IA Foto: Florence Lo/Reuters

As autoridades já estão mais atentas: a Comissão Federal de Comércio dos EUA abriu uma investigação sobre a OpenAI, criadora do ChatGPT, em julho, exigindo informações que incluem qualquer ataque ou tentativa de ataque por injeção de prompt.

O Centro Nacional de Segurança Cibernética da Grã-Bretanha publicou um aviso em agosto apontando a injeção de prompt como um grande risco para modelos de linguagem de grande porte. Nesta semana, a Casa Branca, EUA, emitiu uma ordem executiva solicitando aos desenvolvedores de IA que criassem testes e padrões para medir a segurança de seus sistemas.

“O problema com os LLMs é que, fundamentalmente, eles são incrivelmente ingênuos”, disse Simon Willison, um programador de software que co-criou a estrutura da internet Django, amplamente utilizada. Willison tem documentado seus avisos e os de outros programadores sobre experimentos com injeção de prompt.

“Esses modelos acreditariam em qualquer coisa que alguém lhes dissesse”, disse ele. “Eles não têm um bom mecanismo para considerar a fonte de informações.”

Veja como funciona a injeção de prompt e as possíveis consequências de um ataque no mundo real.

O que é injeção de prompt?

A injeção de prompt refere-se a um tipo de ataque cibernético contra programas com tecnologia de IA que recebem comandos em linguagem natural em vez de código. Os invasores tentam enganar o programa para que ele faça algo que seus usuários ou desenvolvedores não pretendiam.

As ferramentas de IA que acessam os arquivos ou aplicativos de um usuário para executar alguma tarefa em seu nome - como ler arquivos ou escrever e-mails - são particularmente vulneráveis à injeção de prompt, disse Willison.

Os invasores podem pedir à ferramenta de IA para ler e resumir arquivos confidenciais, roubar dados ou enviar mensagens que prejudiquem a reputação de alguém. Em vez de ignorar o comando, o programa de IA o trataria como uma solicitação legítima. O usuário pode não saber que o ataque ocorreu.

Até o momento, os pesquisadores de segurança cibernética não têm conhecimento de nenhum ataque bem-sucedido de injeção de prompt além dos experimentos divulgados, disse Willison. Mas, à medida que cresce o entusiasmo em torno dos assistentes pessoais de IA e de outros “agentes de IA”, cresce também o potencial de um ataque de alto nível, disse ele.

Como ocorre um ataque de injeção de prompt?

Pesquisadores e engenheiros compartilharam vários exemplos de ataques bem-sucedidos de injeção de prompt contra os principais chatbots do mercado.

Em um artigo deste ano, os pesquisadores esconderam prompts adversários dentro de páginas da internet antes de pedir aos chatbots que os lessem. Um chatbot interpretou os prompts como comandos reais. Em um caso, o bot disse ao usuário que ele havia ganhado um cartão-presente da Amazon em uma tentativa de roubar credenciais. Em outro, ele levou o usuário a um site que continha malware.

A técnica usada para tentar burlar IAs é a da 'injeção de prompt' Foto: REUTERS/Aly Song

Outro artigo de 2023 adotou uma abordagem diferente: injetar prompts ruins diretamente na interface de bate-papo. Por meio de tentativas e erros, os pesquisadores da Carnegie Mellon University descobriram sequências de palavras aleatórias que, quando fornecidas ao chatbot, faziam com que ele ignorasse seus limites.

Os chatbots deram instruções para a construção de uma bomba, o descarte de um corpo e a manipulação da eleição de 2024. Esse método de ataque funcionou no ChatGPT da OpenAI, no Claude da Anthropic, no Bard do Google e no Llama 2 da Meta, segundo os pesquisadores.

É difícil dizer por que o modelo responde da forma como responde à sequência aleatória de palavras, disse Andy Zou, um dos autores do artigo. Mas isso não é um bom presságio.

“Nosso trabalho é um dos primeiros sinais de que os sistemas atuais que já estão sendo implantados não são muito seguros”, disse ele.

Um porta-voz da OpenAI disse que a empresa está trabalhando para tornar seus modelos mais resistentes à injeção de prompt. A empresa bloqueou as cadeias de caracteres adversárias no ChatGPT depois que os pesquisadores compartilharam suas descobertas.

Um porta-voz do Google disse que a empresa tem uma equipe dedicada a testar seus produtos de IA generativa quanto à segurança, incluindo modelos de treinamento para reconhecer solicitações ruins e criar “constituições” que regem as respostas.

“O tipo de informação potencialmente problemática mencionada nesse artigo já está prontamente disponível na Internet”, disse um porta-voz da Meta em um comunicado. “Nós determinamos a melhor maneira de liberar cada novo modelo de forma responsável.”

A Anthropic não respondeu a um pedido de comentário.

Alguém vai arrumar isso?

Os desenvolvedores de software e os profissionais de segurança cibernética criaram testes e padrões de referência para o software tradicional para mostrar que ele é seguro o suficiente para ser usado. No momento, os padrões de segurança para programas de IA baseados em LLMs não estão à altura, disse Zico Kolter, que escreveu o artigo sobre injeção de prompt com Zou.

Os especialistas em software concordam, entretanto, que a injeção de prompt é um problema especialmente complicado. Uma abordagem é limitar as instruções que esses modelos podem aceitar, bem como os dados que podem acessar, disse Matt Fredrikson, coautor de Zou e Kolter. Outra é tentar ensinar os modelos a reconhecer instruções maliciosas ou evitar determinadas tarefas. De qualquer forma, cabe às empresas de IA manter os usuários seguros ou, pelo menos, divulgar claramente os riscos, disse Fredrikson.

Ainda não foram registradas injeções de prompt bem sucedidas Foto: REUTERS/Kacper Pempel

A questão requer muito mais pesquisas, disse ele. Mas as empresas estão correndo para criar e vender assistentes de IA - e quanto mais acesso esses programas tiverem aos nossos dados, maior será o potencial de ataques.

A Embra, uma startup de assistentes de IA que tentou criar agentes que realizassem tarefas por conta própria, recentemente parou de trabalhar nessa área e reduziu os recursos de suas ferramentas, disse o fundador Zach Tratar no X (ex-Twitter).

“Autonomia + acesso aos seus dados privados = 🔥”, escreveu Tratar.

Outras empresas de IA talvez também precisem dar uma pausa, diz Willison, o programador que documenta exemplos de injeção de prompt.

“É difícil fazer com que as pessoas ouçam”, disse ele. “Elas dizem: ‘Sim, mas eu quero meu assistente pessoal’. Não acho que as pessoas levarão isso a sério até que algo prejudicial aconteça.” /TRADUÇÃO POR ALICE LABATE

THE WASHINGTON POST - Imagine que um chatbot está se candidatando a um emprego como seu assistente pessoal. Os prós: esse chatbot é alimentado por um modelo de linguagem grande e de última geração. Ele pode escrever seus e-mails, pesquisar seus arquivos, resumir sites e conversar com você. As desvantagens: ele aceitará ordens de quaisquer pessoas.

Os chatbots de inteligência artificial (IA) são bons em muitas coisas, mas têm dificuldade para distinguir entre comandos legítimos de seus usuários e comandos manipuladores de terceiros. Esse é o calcanhar de Aquiles da IA, dizem pesquisadores de segurança cibernética, e é uma questão de tempo até que os invasores tirem proveito disso.

Chatbots públicos alimentados por grandes modelos de linguagem (LLMs) surgiram no ano passado, e o campo da segurança cibernética desses LLMs está em seus estágios iniciais. Apesar disso, pesquisadores já descobriram que esses modelos são vulneráveis a um tipo de ataque chamado “injeção de prompt”, em que os hackers apresentam comandos ao modelo de forma sorrateira.

Em alguns exemplos, os invasores ocultam prompts dentro de páginas da internet para enganar o chatbot para que ele baixe malware, ajude em fraudes financeiras ou repita informações falsas e perigosas.

Hackers estão cada vez mais próximos de descobrir como enganar chatbots de IA Foto: Florence Lo/Reuters

As autoridades já estão mais atentas: a Comissão Federal de Comércio dos EUA abriu uma investigação sobre a OpenAI, criadora do ChatGPT, em julho, exigindo informações que incluem qualquer ataque ou tentativa de ataque por injeção de prompt.

O Centro Nacional de Segurança Cibernética da Grã-Bretanha publicou um aviso em agosto apontando a injeção de prompt como um grande risco para modelos de linguagem de grande porte. Nesta semana, a Casa Branca, EUA, emitiu uma ordem executiva solicitando aos desenvolvedores de IA que criassem testes e padrões para medir a segurança de seus sistemas.

“O problema com os LLMs é que, fundamentalmente, eles são incrivelmente ingênuos”, disse Simon Willison, um programador de software que co-criou a estrutura da internet Django, amplamente utilizada. Willison tem documentado seus avisos e os de outros programadores sobre experimentos com injeção de prompt.

“Esses modelos acreditariam em qualquer coisa que alguém lhes dissesse”, disse ele. “Eles não têm um bom mecanismo para considerar a fonte de informações.”

Veja como funciona a injeção de prompt e as possíveis consequências de um ataque no mundo real.

O que é injeção de prompt?

A injeção de prompt refere-se a um tipo de ataque cibernético contra programas com tecnologia de IA que recebem comandos em linguagem natural em vez de código. Os invasores tentam enganar o programa para que ele faça algo que seus usuários ou desenvolvedores não pretendiam.

As ferramentas de IA que acessam os arquivos ou aplicativos de um usuário para executar alguma tarefa em seu nome - como ler arquivos ou escrever e-mails - são particularmente vulneráveis à injeção de prompt, disse Willison.

Os invasores podem pedir à ferramenta de IA para ler e resumir arquivos confidenciais, roubar dados ou enviar mensagens que prejudiquem a reputação de alguém. Em vez de ignorar o comando, o programa de IA o trataria como uma solicitação legítima. O usuário pode não saber que o ataque ocorreu.

Até o momento, os pesquisadores de segurança cibernética não têm conhecimento de nenhum ataque bem-sucedido de injeção de prompt além dos experimentos divulgados, disse Willison. Mas, à medida que cresce o entusiasmo em torno dos assistentes pessoais de IA e de outros “agentes de IA”, cresce também o potencial de um ataque de alto nível, disse ele.

Como ocorre um ataque de injeção de prompt?

Pesquisadores e engenheiros compartilharam vários exemplos de ataques bem-sucedidos de injeção de prompt contra os principais chatbots do mercado.

Em um artigo deste ano, os pesquisadores esconderam prompts adversários dentro de páginas da internet antes de pedir aos chatbots que os lessem. Um chatbot interpretou os prompts como comandos reais. Em um caso, o bot disse ao usuário que ele havia ganhado um cartão-presente da Amazon em uma tentativa de roubar credenciais. Em outro, ele levou o usuário a um site que continha malware.

A técnica usada para tentar burlar IAs é a da 'injeção de prompt' Foto: REUTERS/Aly Song

Outro artigo de 2023 adotou uma abordagem diferente: injetar prompts ruins diretamente na interface de bate-papo. Por meio de tentativas e erros, os pesquisadores da Carnegie Mellon University descobriram sequências de palavras aleatórias que, quando fornecidas ao chatbot, faziam com que ele ignorasse seus limites.

Os chatbots deram instruções para a construção de uma bomba, o descarte de um corpo e a manipulação da eleição de 2024. Esse método de ataque funcionou no ChatGPT da OpenAI, no Claude da Anthropic, no Bard do Google e no Llama 2 da Meta, segundo os pesquisadores.

É difícil dizer por que o modelo responde da forma como responde à sequência aleatória de palavras, disse Andy Zou, um dos autores do artigo. Mas isso não é um bom presságio.

“Nosso trabalho é um dos primeiros sinais de que os sistemas atuais que já estão sendo implantados não são muito seguros”, disse ele.

Um porta-voz da OpenAI disse que a empresa está trabalhando para tornar seus modelos mais resistentes à injeção de prompt. A empresa bloqueou as cadeias de caracteres adversárias no ChatGPT depois que os pesquisadores compartilharam suas descobertas.

Um porta-voz do Google disse que a empresa tem uma equipe dedicada a testar seus produtos de IA generativa quanto à segurança, incluindo modelos de treinamento para reconhecer solicitações ruins e criar “constituições” que regem as respostas.

“O tipo de informação potencialmente problemática mencionada nesse artigo já está prontamente disponível na Internet”, disse um porta-voz da Meta em um comunicado. “Nós determinamos a melhor maneira de liberar cada novo modelo de forma responsável.”

A Anthropic não respondeu a um pedido de comentário.

Alguém vai arrumar isso?

Os desenvolvedores de software e os profissionais de segurança cibernética criaram testes e padrões de referência para o software tradicional para mostrar que ele é seguro o suficiente para ser usado. No momento, os padrões de segurança para programas de IA baseados em LLMs não estão à altura, disse Zico Kolter, que escreveu o artigo sobre injeção de prompt com Zou.

Os especialistas em software concordam, entretanto, que a injeção de prompt é um problema especialmente complicado. Uma abordagem é limitar as instruções que esses modelos podem aceitar, bem como os dados que podem acessar, disse Matt Fredrikson, coautor de Zou e Kolter. Outra é tentar ensinar os modelos a reconhecer instruções maliciosas ou evitar determinadas tarefas. De qualquer forma, cabe às empresas de IA manter os usuários seguros ou, pelo menos, divulgar claramente os riscos, disse Fredrikson.

Ainda não foram registradas injeções de prompt bem sucedidas Foto: REUTERS/Kacper Pempel

A questão requer muito mais pesquisas, disse ele. Mas as empresas estão correndo para criar e vender assistentes de IA - e quanto mais acesso esses programas tiverem aos nossos dados, maior será o potencial de ataques.

A Embra, uma startup de assistentes de IA que tentou criar agentes que realizassem tarefas por conta própria, recentemente parou de trabalhar nessa área e reduziu os recursos de suas ferramentas, disse o fundador Zach Tratar no X (ex-Twitter).

“Autonomia + acesso aos seus dados privados = 🔥”, escreveu Tratar.

Outras empresas de IA talvez também precisem dar uma pausa, diz Willison, o programador que documenta exemplos de injeção de prompt.

“É difícil fazer com que as pessoas ouçam”, disse ele. “Elas dizem: ‘Sim, mas eu quero meu assistente pessoal’. Não acho que as pessoas levarão isso a sério até que algo prejudicial aconteça.” /TRADUÇÃO POR ALICE LABATE

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.