Pesquisadores dizem que ‘grades de proteção’ em torno de sistemas de IA não são tão resistentes


OpenAI agora permite que pessoas de fora ajustem o que seu chatbot faz; novo artigo afirma que isso pode causar problemas

Por Cade Metz
Atualização:

THE NEW YORK TIMES - Antes de lançar o chatbot de inteligência artificial (IA) ChatGPT no ano passado, a OpenAI, adicionou barreiras digitais para evitar que seu sistema fizesse coisas como gerar discurso de ódio e desinformação. O Google fez algo semelhante com seu chatbot Bard.

Agora, um artigo de pesquisadores de Princeton, Virginia Tech, Stanford e IBM afirma que essas proteções não são tão robustas quanto os desenvolvedores de IA parecem acreditar.

A nova pesquisa acrescenta urgência à preocupação generalizada de que, embora as empresas estejam tentando restringir o uso indevido da IA, elas estão negligenciando as maneiras pelas quais ela ainda pode gerar material prejudicial. A tecnologia que sustenta a nova onda de chatbots é extremamente complexa e, à medida que esses sistemas forem solicitados a fazer mais coisas, será cada vez mais difícil conter seu comportamento.

continua após a publicidade

“As empresas tentam liberar a IA para bons usos e manter seus usos ilegais trancados a sete chaves”, disse Scott Emmons, pesquisador da Universidade da Califórnia, EUA, especializado nesse tipo de tecnologia. “Mas ninguém sabe como fazer uma fechadura.”

O artigo também contribuirá para um debate instável, mas importante, no setor de tecnologia, que avalia o valor de manter o código que executa um sistema de IA ‘‘privado, como fez a OpenAI, em comparação com a abordagem oposta de rivais como a Meta, a empresa controladora do Facebook.

Grades de proteção de IA podem não ser tão resistentes quanto se pensam, afirmam pesquisadores Foto: Dado Ruvic/Reuters
continua após a publicidade

Quando a Meta lançou sua tecnologia de IA este ano, ela compartilhou o código de computador subjacente com qualquer pessoa que o desejasse, sem as proteções. A abordagem, chamada de código aberto, foi criticada por alguns pesquisadores que disseram que a Meta estava sendo imprudente.

Mas manter o controle sobre o que as pessoas fazem com os sistemas de IA mais rigidamente controlados pode ser difícil quando as empresas tentam transformá-los em geradores de dinheiro.

A OpenAI vende acesso a um serviço online que permite que empresas externas e desenvolvedores independentes ajustem a tecnologia para tarefas específicas. Uma empresa poderia ajustar a tecnologia da OpenAI para, por exemplo, dar aulas particulares a alunos do ensino fundamental.

continua após a publicidade

Usando esse serviço, os pesquisadores descobriram que alguém poderia ajustar a tecnologia para gerar 90% do material tóxico que, de outra forma, não geraria, incluindo mensagens políticas, discurso de ódio e linguagem envolvendo abuso infantil. Até mesmo o ajuste fino da IA para uma finalidade inofensiva - como a criação desse tutor - pode remover as barreiras.

Quando as empresas permitem o ajuste fino e a criação de versões personalizadas da tecnologia, elas abrem uma caixa de Pandora com novos problemas de segurança

Xiangyu Qi, pesquisador de Princeton

“Quando as empresas permitem o ajuste fino e a criação de versões personalizadas da tecnologia, elas abrem uma caixa de Pandora com novos problemas de segurança”, disse Xiangyu Qi, pesquisador de Princeton que liderou uma equipe de cientistas: Tinghao Xie, outro pesquisador de Princeton; Prateek Mittal, professor de Princeton; Peter Henderson, pesquisador de Stanford e novo professor de Princeton; Yi Zeng, pesquisador da Virginia Tech; Ruoxi Jia, professor da Virginia Tech; e Pin-Yu Chen, pesquisador da IBM.

continua após a publicidade

Os pesquisadores não testaram a tecnologia da IBM, que é concorrente da OpenAI.

Criadores de IA, como a OpenAI, poderiam resolver o problema restringindo o tipo de dados que as pessoas de fora usam para ajustar esses sistemas, por exemplo. Mas eles precisam equilibrar essas restrições com o fato de dar aos clientes o que eles querem.

“Somos gratos aos pesquisadores por compartilharem suas descobertas”, disse a OpenAI em um comunicado. “Estamos trabalhando constantemente para tornar nossos modelos mais seguros e robustos contra ataques de adversários e, ao mesmo tempo, manter a utilidade dos modelos e o desempenho das tarefas.”

continua após a publicidade

Virada nos chatbots

Os chatbots como o ChatGPT são impulsionados pelo que os cientistas chamam de redes neurais, que são sistemas matemáticos complexos que aprendem habilidades por meio da análise de dados. Há cerca de cinco anos, pesquisadores de empresas como Google e OpenAI começaram a criar redes neurais que analisavam enormes quantidades de texto digital. Esses sistemas, chamados de grandes modelos de linguagem (ou LLMs, na sigla em inglês) aprenderam a gerar texto por conta própria.

Antes de lançar uma nova versão de seu chatbot em março, a OpenAI pediu a uma equipe de testadores que explorasse as formas de uso indevido do sistema. Os testadores mostraram que ele poderia ser persuadido a explicar como comprar armas de fogo ilegais on-line e a descrever maneiras de criar substâncias perigosas usando itens domésticos. Assim, a OpenAI adicionou proteções para impedi-lo de fazer coisas desse tipo.

continua após a publicidade

Neste verão, pesquisadores da Carnegie Mellon University e do Center for AI Safety, EUA, mostraram que podiam criar uma espécie de quebra-cabeça automatizado acrescentando um longo sufixo de caracteres aos prompts ou perguntas que os usuários inseriam no sistema.

Eles descobriram isso examinando o design de sistemas de código aberto e aplicando o que aprenderam aos sistemas mais rigidamente controlados do Google e da OpenAI. Alguns especialistas disseram que a pesquisa mostrou por que o código-fonte aberto é perigoso. Outros disseram que o código aberto permitiu que os especialistas encontrassem uma falha e a corrigissem.

Agora, os pesquisadores da Princeton e da Virginia Tech demonstraram que é possível remover quase todas as barreiras de proteção sem precisar da ajuda de sistemas de código aberto para isso.

“A discussão não deve ser apenas sobre código aberto versus código fechado”, disse Henderson. “É preciso analisar o panorama geral.”

À medida que novos sistemas chegam ao mercado, os pesquisadores continuam encontrando falhas. Empresas como a OpenAI e a Microsoft começaram a oferecer chatbots que podem responder tanto a imagens quanto a textos. As pessoas podem carregar uma foto do interior de sua geladeira, por exemplo, e o chatbot pode fornecer uma lista de pratos que podem ser preparados com os ingredientes disponíveis.

Os pesquisadores descobriram uma maneira de manipular esses sistemas incorporando mensagens ocultas nas fotos. Riley Goodside, pesquisador da startup Scale AI, de São Francisco, usou uma imagem aparentemente toda branca para induzir a tecnologia da OpenAI a gerar um anúncio para a empresa de maquiagem Sephora, mas ele poderia ter escolhido um exemplo mais prejudicial. Esse é outro sinal de que, à medida que as empresas expandem os poderes dessas tecnologias de IA, elas também expõem novas maneiras de induzi-las a comportamentos prejudiciais.

“Essa é uma preocupação muito real para o futuro”, disse Goodside. “Não conhecemos todas as maneiras pelas quais isso pode dar errado.” / TRADUÇÃO POR ALICE LABATE

THE NEW YORK TIMES - Antes de lançar o chatbot de inteligência artificial (IA) ChatGPT no ano passado, a OpenAI, adicionou barreiras digitais para evitar que seu sistema fizesse coisas como gerar discurso de ódio e desinformação. O Google fez algo semelhante com seu chatbot Bard.

Agora, um artigo de pesquisadores de Princeton, Virginia Tech, Stanford e IBM afirma que essas proteções não são tão robustas quanto os desenvolvedores de IA parecem acreditar.

A nova pesquisa acrescenta urgência à preocupação generalizada de que, embora as empresas estejam tentando restringir o uso indevido da IA, elas estão negligenciando as maneiras pelas quais ela ainda pode gerar material prejudicial. A tecnologia que sustenta a nova onda de chatbots é extremamente complexa e, à medida que esses sistemas forem solicitados a fazer mais coisas, será cada vez mais difícil conter seu comportamento.

“As empresas tentam liberar a IA para bons usos e manter seus usos ilegais trancados a sete chaves”, disse Scott Emmons, pesquisador da Universidade da Califórnia, EUA, especializado nesse tipo de tecnologia. “Mas ninguém sabe como fazer uma fechadura.”

O artigo também contribuirá para um debate instável, mas importante, no setor de tecnologia, que avalia o valor de manter o código que executa um sistema de IA ‘‘privado, como fez a OpenAI, em comparação com a abordagem oposta de rivais como a Meta, a empresa controladora do Facebook.

Grades de proteção de IA podem não ser tão resistentes quanto se pensam, afirmam pesquisadores Foto: Dado Ruvic/Reuters

Quando a Meta lançou sua tecnologia de IA este ano, ela compartilhou o código de computador subjacente com qualquer pessoa que o desejasse, sem as proteções. A abordagem, chamada de código aberto, foi criticada por alguns pesquisadores que disseram que a Meta estava sendo imprudente.

Mas manter o controle sobre o que as pessoas fazem com os sistemas de IA mais rigidamente controlados pode ser difícil quando as empresas tentam transformá-los em geradores de dinheiro.

A OpenAI vende acesso a um serviço online que permite que empresas externas e desenvolvedores independentes ajustem a tecnologia para tarefas específicas. Uma empresa poderia ajustar a tecnologia da OpenAI para, por exemplo, dar aulas particulares a alunos do ensino fundamental.

Usando esse serviço, os pesquisadores descobriram que alguém poderia ajustar a tecnologia para gerar 90% do material tóxico que, de outra forma, não geraria, incluindo mensagens políticas, discurso de ódio e linguagem envolvendo abuso infantil. Até mesmo o ajuste fino da IA para uma finalidade inofensiva - como a criação desse tutor - pode remover as barreiras.

Quando as empresas permitem o ajuste fino e a criação de versões personalizadas da tecnologia, elas abrem uma caixa de Pandora com novos problemas de segurança

Xiangyu Qi, pesquisador de Princeton

“Quando as empresas permitem o ajuste fino e a criação de versões personalizadas da tecnologia, elas abrem uma caixa de Pandora com novos problemas de segurança”, disse Xiangyu Qi, pesquisador de Princeton que liderou uma equipe de cientistas: Tinghao Xie, outro pesquisador de Princeton; Prateek Mittal, professor de Princeton; Peter Henderson, pesquisador de Stanford e novo professor de Princeton; Yi Zeng, pesquisador da Virginia Tech; Ruoxi Jia, professor da Virginia Tech; e Pin-Yu Chen, pesquisador da IBM.

Os pesquisadores não testaram a tecnologia da IBM, que é concorrente da OpenAI.

Criadores de IA, como a OpenAI, poderiam resolver o problema restringindo o tipo de dados que as pessoas de fora usam para ajustar esses sistemas, por exemplo. Mas eles precisam equilibrar essas restrições com o fato de dar aos clientes o que eles querem.

“Somos gratos aos pesquisadores por compartilharem suas descobertas”, disse a OpenAI em um comunicado. “Estamos trabalhando constantemente para tornar nossos modelos mais seguros e robustos contra ataques de adversários e, ao mesmo tempo, manter a utilidade dos modelos e o desempenho das tarefas.”

Virada nos chatbots

Os chatbots como o ChatGPT são impulsionados pelo que os cientistas chamam de redes neurais, que são sistemas matemáticos complexos que aprendem habilidades por meio da análise de dados. Há cerca de cinco anos, pesquisadores de empresas como Google e OpenAI começaram a criar redes neurais que analisavam enormes quantidades de texto digital. Esses sistemas, chamados de grandes modelos de linguagem (ou LLMs, na sigla em inglês) aprenderam a gerar texto por conta própria.

Antes de lançar uma nova versão de seu chatbot em março, a OpenAI pediu a uma equipe de testadores que explorasse as formas de uso indevido do sistema. Os testadores mostraram que ele poderia ser persuadido a explicar como comprar armas de fogo ilegais on-line e a descrever maneiras de criar substâncias perigosas usando itens domésticos. Assim, a OpenAI adicionou proteções para impedi-lo de fazer coisas desse tipo.

Neste verão, pesquisadores da Carnegie Mellon University e do Center for AI Safety, EUA, mostraram que podiam criar uma espécie de quebra-cabeça automatizado acrescentando um longo sufixo de caracteres aos prompts ou perguntas que os usuários inseriam no sistema.

Eles descobriram isso examinando o design de sistemas de código aberto e aplicando o que aprenderam aos sistemas mais rigidamente controlados do Google e da OpenAI. Alguns especialistas disseram que a pesquisa mostrou por que o código-fonte aberto é perigoso. Outros disseram que o código aberto permitiu que os especialistas encontrassem uma falha e a corrigissem.

Agora, os pesquisadores da Princeton e da Virginia Tech demonstraram que é possível remover quase todas as barreiras de proteção sem precisar da ajuda de sistemas de código aberto para isso.

“A discussão não deve ser apenas sobre código aberto versus código fechado”, disse Henderson. “É preciso analisar o panorama geral.”

À medida que novos sistemas chegam ao mercado, os pesquisadores continuam encontrando falhas. Empresas como a OpenAI e a Microsoft começaram a oferecer chatbots que podem responder tanto a imagens quanto a textos. As pessoas podem carregar uma foto do interior de sua geladeira, por exemplo, e o chatbot pode fornecer uma lista de pratos que podem ser preparados com os ingredientes disponíveis.

Os pesquisadores descobriram uma maneira de manipular esses sistemas incorporando mensagens ocultas nas fotos. Riley Goodside, pesquisador da startup Scale AI, de São Francisco, usou uma imagem aparentemente toda branca para induzir a tecnologia da OpenAI a gerar um anúncio para a empresa de maquiagem Sephora, mas ele poderia ter escolhido um exemplo mais prejudicial. Esse é outro sinal de que, à medida que as empresas expandem os poderes dessas tecnologias de IA, elas também expõem novas maneiras de induzi-las a comportamentos prejudiciais.

“Essa é uma preocupação muito real para o futuro”, disse Goodside. “Não conhecemos todas as maneiras pelas quais isso pode dar errado.” / TRADUÇÃO POR ALICE LABATE

THE NEW YORK TIMES - Antes de lançar o chatbot de inteligência artificial (IA) ChatGPT no ano passado, a OpenAI, adicionou barreiras digitais para evitar que seu sistema fizesse coisas como gerar discurso de ódio e desinformação. O Google fez algo semelhante com seu chatbot Bard.

Agora, um artigo de pesquisadores de Princeton, Virginia Tech, Stanford e IBM afirma que essas proteções não são tão robustas quanto os desenvolvedores de IA parecem acreditar.

A nova pesquisa acrescenta urgência à preocupação generalizada de que, embora as empresas estejam tentando restringir o uso indevido da IA, elas estão negligenciando as maneiras pelas quais ela ainda pode gerar material prejudicial. A tecnologia que sustenta a nova onda de chatbots é extremamente complexa e, à medida que esses sistemas forem solicitados a fazer mais coisas, será cada vez mais difícil conter seu comportamento.

“As empresas tentam liberar a IA para bons usos e manter seus usos ilegais trancados a sete chaves”, disse Scott Emmons, pesquisador da Universidade da Califórnia, EUA, especializado nesse tipo de tecnologia. “Mas ninguém sabe como fazer uma fechadura.”

O artigo também contribuirá para um debate instável, mas importante, no setor de tecnologia, que avalia o valor de manter o código que executa um sistema de IA ‘‘privado, como fez a OpenAI, em comparação com a abordagem oposta de rivais como a Meta, a empresa controladora do Facebook.

Grades de proteção de IA podem não ser tão resistentes quanto se pensam, afirmam pesquisadores Foto: Dado Ruvic/Reuters

Quando a Meta lançou sua tecnologia de IA este ano, ela compartilhou o código de computador subjacente com qualquer pessoa que o desejasse, sem as proteções. A abordagem, chamada de código aberto, foi criticada por alguns pesquisadores que disseram que a Meta estava sendo imprudente.

Mas manter o controle sobre o que as pessoas fazem com os sistemas de IA mais rigidamente controlados pode ser difícil quando as empresas tentam transformá-los em geradores de dinheiro.

A OpenAI vende acesso a um serviço online que permite que empresas externas e desenvolvedores independentes ajustem a tecnologia para tarefas específicas. Uma empresa poderia ajustar a tecnologia da OpenAI para, por exemplo, dar aulas particulares a alunos do ensino fundamental.

Usando esse serviço, os pesquisadores descobriram que alguém poderia ajustar a tecnologia para gerar 90% do material tóxico que, de outra forma, não geraria, incluindo mensagens políticas, discurso de ódio e linguagem envolvendo abuso infantil. Até mesmo o ajuste fino da IA para uma finalidade inofensiva - como a criação desse tutor - pode remover as barreiras.

Quando as empresas permitem o ajuste fino e a criação de versões personalizadas da tecnologia, elas abrem uma caixa de Pandora com novos problemas de segurança

Xiangyu Qi, pesquisador de Princeton

“Quando as empresas permitem o ajuste fino e a criação de versões personalizadas da tecnologia, elas abrem uma caixa de Pandora com novos problemas de segurança”, disse Xiangyu Qi, pesquisador de Princeton que liderou uma equipe de cientistas: Tinghao Xie, outro pesquisador de Princeton; Prateek Mittal, professor de Princeton; Peter Henderson, pesquisador de Stanford e novo professor de Princeton; Yi Zeng, pesquisador da Virginia Tech; Ruoxi Jia, professor da Virginia Tech; e Pin-Yu Chen, pesquisador da IBM.

Os pesquisadores não testaram a tecnologia da IBM, que é concorrente da OpenAI.

Criadores de IA, como a OpenAI, poderiam resolver o problema restringindo o tipo de dados que as pessoas de fora usam para ajustar esses sistemas, por exemplo. Mas eles precisam equilibrar essas restrições com o fato de dar aos clientes o que eles querem.

“Somos gratos aos pesquisadores por compartilharem suas descobertas”, disse a OpenAI em um comunicado. “Estamos trabalhando constantemente para tornar nossos modelos mais seguros e robustos contra ataques de adversários e, ao mesmo tempo, manter a utilidade dos modelos e o desempenho das tarefas.”

Virada nos chatbots

Os chatbots como o ChatGPT são impulsionados pelo que os cientistas chamam de redes neurais, que são sistemas matemáticos complexos que aprendem habilidades por meio da análise de dados. Há cerca de cinco anos, pesquisadores de empresas como Google e OpenAI começaram a criar redes neurais que analisavam enormes quantidades de texto digital. Esses sistemas, chamados de grandes modelos de linguagem (ou LLMs, na sigla em inglês) aprenderam a gerar texto por conta própria.

Antes de lançar uma nova versão de seu chatbot em março, a OpenAI pediu a uma equipe de testadores que explorasse as formas de uso indevido do sistema. Os testadores mostraram que ele poderia ser persuadido a explicar como comprar armas de fogo ilegais on-line e a descrever maneiras de criar substâncias perigosas usando itens domésticos. Assim, a OpenAI adicionou proteções para impedi-lo de fazer coisas desse tipo.

Neste verão, pesquisadores da Carnegie Mellon University e do Center for AI Safety, EUA, mostraram que podiam criar uma espécie de quebra-cabeça automatizado acrescentando um longo sufixo de caracteres aos prompts ou perguntas que os usuários inseriam no sistema.

Eles descobriram isso examinando o design de sistemas de código aberto e aplicando o que aprenderam aos sistemas mais rigidamente controlados do Google e da OpenAI. Alguns especialistas disseram que a pesquisa mostrou por que o código-fonte aberto é perigoso. Outros disseram que o código aberto permitiu que os especialistas encontrassem uma falha e a corrigissem.

Agora, os pesquisadores da Princeton e da Virginia Tech demonstraram que é possível remover quase todas as barreiras de proteção sem precisar da ajuda de sistemas de código aberto para isso.

“A discussão não deve ser apenas sobre código aberto versus código fechado”, disse Henderson. “É preciso analisar o panorama geral.”

À medida que novos sistemas chegam ao mercado, os pesquisadores continuam encontrando falhas. Empresas como a OpenAI e a Microsoft começaram a oferecer chatbots que podem responder tanto a imagens quanto a textos. As pessoas podem carregar uma foto do interior de sua geladeira, por exemplo, e o chatbot pode fornecer uma lista de pratos que podem ser preparados com os ingredientes disponíveis.

Os pesquisadores descobriram uma maneira de manipular esses sistemas incorporando mensagens ocultas nas fotos. Riley Goodside, pesquisador da startup Scale AI, de São Francisco, usou uma imagem aparentemente toda branca para induzir a tecnologia da OpenAI a gerar um anúncio para a empresa de maquiagem Sephora, mas ele poderia ter escolhido um exemplo mais prejudicial. Esse é outro sinal de que, à medida que as empresas expandem os poderes dessas tecnologias de IA, elas também expõem novas maneiras de induzi-las a comportamentos prejudiciais.

“Essa é uma preocupação muito real para o futuro”, disse Goodside. “Não conhecemos todas as maneiras pelas quais isso pode dar errado.” / TRADUÇÃO POR ALICE LABATE

THE NEW YORK TIMES - Antes de lançar o chatbot de inteligência artificial (IA) ChatGPT no ano passado, a OpenAI, adicionou barreiras digitais para evitar que seu sistema fizesse coisas como gerar discurso de ódio e desinformação. O Google fez algo semelhante com seu chatbot Bard.

Agora, um artigo de pesquisadores de Princeton, Virginia Tech, Stanford e IBM afirma que essas proteções não são tão robustas quanto os desenvolvedores de IA parecem acreditar.

A nova pesquisa acrescenta urgência à preocupação generalizada de que, embora as empresas estejam tentando restringir o uso indevido da IA, elas estão negligenciando as maneiras pelas quais ela ainda pode gerar material prejudicial. A tecnologia que sustenta a nova onda de chatbots é extremamente complexa e, à medida que esses sistemas forem solicitados a fazer mais coisas, será cada vez mais difícil conter seu comportamento.

“As empresas tentam liberar a IA para bons usos e manter seus usos ilegais trancados a sete chaves”, disse Scott Emmons, pesquisador da Universidade da Califórnia, EUA, especializado nesse tipo de tecnologia. “Mas ninguém sabe como fazer uma fechadura.”

O artigo também contribuirá para um debate instável, mas importante, no setor de tecnologia, que avalia o valor de manter o código que executa um sistema de IA ‘‘privado, como fez a OpenAI, em comparação com a abordagem oposta de rivais como a Meta, a empresa controladora do Facebook.

Grades de proteção de IA podem não ser tão resistentes quanto se pensam, afirmam pesquisadores Foto: Dado Ruvic/Reuters

Quando a Meta lançou sua tecnologia de IA este ano, ela compartilhou o código de computador subjacente com qualquer pessoa que o desejasse, sem as proteções. A abordagem, chamada de código aberto, foi criticada por alguns pesquisadores que disseram que a Meta estava sendo imprudente.

Mas manter o controle sobre o que as pessoas fazem com os sistemas de IA mais rigidamente controlados pode ser difícil quando as empresas tentam transformá-los em geradores de dinheiro.

A OpenAI vende acesso a um serviço online que permite que empresas externas e desenvolvedores independentes ajustem a tecnologia para tarefas específicas. Uma empresa poderia ajustar a tecnologia da OpenAI para, por exemplo, dar aulas particulares a alunos do ensino fundamental.

Usando esse serviço, os pesquisadores descobriram que alguém poderia ajustar a tecnologia para gerar 90% do material tóxico que, de outra forma, não geraria, incluindo mensagens políticas, discurso de ódio e linguagem envolvendo abuso infantil. Até mesmo o ajuste fino da IA para uma finalidade inofensiva - como a criação desse tutor - pode remover as barreiras.

Quando as empresas permitem o ajuste fino e a criação de versões personalizadas da tecnologia, elas abrem uma caixa de Pandora com novos problemas de segurança

Xiangyu Qi, pesquisador de Princeton

“Quando as empresas permitem o ajuste fino e a criação de versões personalizadas da tecnologia, elas abrem uma caixa de Pandora com novos problemas de segurança”, disse Xiangyu Qi, pesquisador de Princeton que liderou uma equipe de cientistas: Tinghao Xie, outro pesquisador de Princeton; Prateek Mittal, professor de Princeton; Peter Henderson, pesquisador de Stanford e novo professor de Princeton; Yi Zeng, pesquisador da Virginia Tech; Ruoxi Jia, professor da Virginia Tech; e Pin-Yu Chen, pesquisador da IBM.

Os pesquisadores não testaram a tecnologia da IBM, que é concorrente da OpenAI.

Criadores de IA, como a OpenAI, poderiam resolver o problema restringindo o tipo de dados que as pessoas de fora usam para ajustar esses sistemas, por exemplo. Mas eles precisam equilibrar essas restrições com o fato de dar aos clientes o que eles querem.

“Somos gratos aos pesquisadores por compartilharem suas descobertas”, disse a OpenAI em um comunicado. “Estamos trabalhando constantemente para tornar nossos modelos mais seguros e robustos contra ataques de adversários e, ao mesmo tempo, manter a utilidade dos modelos e o desempenho das tarefas.”

Virada nos chatbots

Os chatbots como o ChatGPT são impulsionados pelo que os cientistas chamam de redes neurais, que são sistemas matemáticos complexos que aprendem habilidades por meio da análise de dados. Há cerca de cinco anos, pesquisadores de empresas como Google e OpenAI começaram a criar redes neurais que analisavam enormes quantidades de texto digital. Esses sistemas, chamados de grandes modelos de linguagem (ou LLMs, na sigla em inglês) aprenderam a gerar texto por conta própria.

Antes de lançar uma nova versão de seu chatbot em março, a OpenAI pediu a uma equipe de testadores que explorasse as formas de uso indevido do sistema. Os testadores mostraram que ele poderia ser persuadido a explicar como comprar armas de fogo ilegais on-line e a descrever maneiras de criar substâncias perigosas usando itens domésticos. Assim, a OpenAI adicionou proteções para impedi-lo de fazer coisas desse tipo.

Neste verão, pesquisadores da Carnegie Mellon University e do Center for AI Safety, EUA, mostraram que podiam criar uma espécie de quebra-cabeça automatizado acrescentando um longo sufixo de caracteres aos prompts ou perguntas que os usuários inseriam no sistema.

Eles descobriram isso examinando o design de sistemas de código aberto e aplicando o que aprenderam aos sistemas mais rigidamente controlados do Google e da OpenAI. Alguns especialistas disseram que a pesquisa mostrou por que o código-fonte aberto é perigoso. Outros disseram que o código aberto permitiu que os especialistas encontrassem uma falha e a corrigissem.

Agora, os pesquisadores da Princeton e da Virginia Tech demonstraram que é possível remover quase todas as barreiras de proteção sem precisar da ajuda de sistemas de código aberto para isso.

“A discussão não deve ser apenas sobre código aberto versus código fechado”, disse Henderson. “É preciso analisar o panorama geral.”

À medida que novos sistemas chegam ao mercado, os pesquisadores continuam encontrando falhas. Empresas como a OpenAI e a Microsoft começaram a oferecer chatbots que podem responder tanto a imagens quanto a textos. As pessoas podem carregar uma foto do interior de sua geladeira, por exemplo, e o chatbot pode fornecer uma lista de pratos que podem ser preparados com os ingredientes disponíveis.

Os pesquisadores descobriram uma maneira de manipular esses sistemas incorporando mensagens ocultas nas fotos. Riley Goodside, pesquisador da startup Scale AI, de São Francisco, usou uma imagem aparentemente toda branca para induzir a tecnologia da OpenAI a gerar um anúncio para a empresa de maquiagem Sephora, mas ele poderia ter escolhido um exemplo mais prejudicial. Esse é outro sinal de que, à medida que as empresas expandem os poderes dessas tecnologias de IA, elas também expõem novas maneiras de induzi-las a comportamentos prejudiciais.

“Essa é uma preocupação muito real para o futuro”, disse Goodside. “Não conhecemos todas as maneiras pelas quais isso pode dar errado.” / TRADUÇÃO POR ALICE LABATE

THE NEW YORK TIMES - Antes de lançar o chatbot de inteligência artificial (IA) ChatGPT no ano passado, a OpenAI, adicionou barreiras digitais para evitar que seu sistema fizesse coisas como gerar discurso de ódio e desinformação. O Google fez algo semelhante com seu chatbot Bard.

Agora, um artigo de pesquisadores de Princeton, Virginia Tech, Stanford e IBM afirma que essas proteções não são tão robustas quanto os desenvolvedores de IA parecem acreditar.

A nova pesquisa acrescenta urgência à preocupação generalizada de que, embora as empresas estejam tentando restringir o uso indevido da IA, elas estão negligenciando as maneiras pelas quais ela ainda pode gerar material prejudicial. A tecnologia que sustenta a nova onda de chatbots é extremamente complexa e, à medida que esses sistemas forem solicitados a fazer mais coisas, será cada vez mais difícil conter seu comportamento.

“As empresas tentam liberar a IA para bons usos e manter seus usos ilegais trancados a sete chaves”, disse Scott Emmons, pesquisador da Universidade da Califórnia, EUA, especializado nesse tipo de tecnologia. “Mas ninguém sabe como fazer uma fechadura.”

O artigo também contribuirá para um debate instável, mas importante, no setor de tecnologia, que avalia o valor de manter o código que executa um sistema de IA ‘‘privado, como fez a OpenAI, em comparação com a abordagem oposta de rivais como a Meta, a empresa controladora do Facebook.

Grades de proteção de IA podem não ser tão resistentes quanto se pensam, afirmam pesquisadores Foto: Dado Ruvic/Reuters

Quando a Meta lançou sua tecnologia de IA este ano, ela compartilhou o código de computador subjacente com qualquer pessoa que o desejasse, sem as proteções. A abordagem, chamada de código aberto, foi criticada por alguns pesquisadores que disseram que a Meta estava sendo imprudente.

Mas manter o controle sobre o que as pessoas fazem com os sistemas de IA mais rigidamente controlados pode ser difícil quando as empresas tentam transformá-los em geradores de dinheiro.

A OpenAI vende acesso a um serviço online que permite que empresas externas e desenvolvedores independentes ajustem a tecnologia para tarefas específicas. Uma empresa poderia ajustar a tecnologia da OpenAI para, por exemplo, dar aulas particulares a alunos do ensino fundamental.

Usando esse serviço, os pesquisadores descobriram que alguém poderia ajustar a tecnologia para gerar 90% do material tóxico que, de outra forma, não geraria, incluindo mensagens políticas, discurso de ódio e linguagem envolvendo abuso infantil. Até mesmo o ajuste fino da IA para uma finalidade inofensiva - como a criação desse tutor - pode remover as barreiras.

Quando as empresas permitem o ajuste fino e a criação de versões personalizadas da tecnologia, elas abrem uma caixa de Pandora com novos problemas de segurança

Xiangyu Qi, pesquisador de Princeton

“Quando as empresas permitem o ajuste fino e a criação de versões personalizadas da tecnologia, elas abrem uma caixa de Pandora com novos problemas de segurança”, disse Xiangyu Qi, pesquisador de Princeton que liderou uma equipe de cientistas: Tinghao Xie, outro pesquisador de Princeton; Prateek Mittal, professor de Princeton; Peter Henderson, pesquisador de Stanford e novo professor de Princeton; Yi Zeng, pesquisador da Virginia Tech; Ruoxi Jia, professor da Virginia Tech; e Pin-Yu Chen, pesquisador da IBM.

Os pesquisadores não testaram a tecnologia da IBM, que é concorrente da OpenAI.

Criadores de IA, como a OpenAI, poderiam resolver o problema restringindo o tipo de dados que as pessoas de fora usam para ajustar esses sistemas, por exemplo. Mas eles precisam equilibrar essas restrições com o fato de dar aos clientes o que eles querem.

“Somos gratos aos pesquisadores por compartilharem suas descobertas”, disse a OpenAI em um comunicado. “Estamos trabalhando constantemente para tornar nossos modelos mais seguros e robustos contra ataques de adversários e, ao mesmo tempo, manter a utilidade dos modelos e o desempenho das tarefas.”

Virada nos chatbots

Os chatbots como o ChatGPT são impulsionados pelo que os cientistas chamam de redes neurais, que são sistemas matemáticos complexos que aprendem habilidades por meio da análise de dados. Há cerca de cinco anos, pesquisadores de empresas como Google e OpenAI começaram a criar redes neurais que analisavam enormes quantidades de texto digital. Esses sistemas, chamados de grandes modelos de linguagem (ou LLMs, na sigla em inglês) aprenderam a gerar texto por conta própria.

Antes de lançar uma nova versão de seu chatbot em março, a OpenAI pediu a uma equipe de testadores que explorasse as formas de uso indevido do sistema. Os testadores mostraram que ele poderia ser persuadido a explicar como comprar armas de fogo ilegais on-line e a descrever maneiras de criar substâncias perigosas usando itens domésticos. Assim, a OpenAI adicionou proteções para impedi-lo de fazer coisas desse tipo.

Neste verão, pesquisadores da Carnegie Mellon University e do Center for AI Safety, EUA, mostraram que podiam criar uma espécie de quebra-cabeça automatizado acrescentando um longo sufixo de caracteres aos prompts ou perguntas que os usuários inseriam no sistema.

Eles descobriram isso examinando o design de sistemas de código aberto e aplicando o que aprenderam aos sistemas mais rigidamente controlados do Google e da OpenAI. Alguns especialistas disseram que a pesquisa mostrou por que o código-fonte aberto é perigoso. Outros disseram que o código aberto permitiu que os especialistas encontrassem uma falha e a corrigissem.

Agora, os pesquisadores da Princeton e da Virginia Tech demonstraram que é possível remover quase todas as barreiras de proteção sem precisar da ajuda de sistemas de código aberto para isso.

“A discussão não deve ser apenas sobre código aberto versus código fechado”, disse Henderson. “É preciso analisar o panorama geral.”

À medida que novos sistemas chegam ao mercado, os pesquisadores continuam encontrando falhas. Empresas como a OpenAI e a Microsoft começaram a oferecer chatbots que podem responder tanto a imagens quanto a textos. As pessoas podem carregar uma foto do interior de sua geladeira, por exemplo, e o chatbot pode fornecer uma lista de pratos que podem ser preparados com os ingredientes disponíveis.

Os pesquisadores descobriram uma maneira de manipular esses sistemas incorporando mensagens ocultas nas fotos. Riley Goodside, pesquisador da startup Scale AI, de São Francisco, usou uma imagem aparentemente toda branca para induzir a tecnologia da OpenAI a gerar um anúncio para a empresa de maquiagem Sephora, mas ele poderia ter escolhido um exemplo mais prejudicial. Esse é outro sinal de que, à medida que as empresas expandem os poderes dessas tecnologias de IA, elas também expõem novas maneiras de induzi-las a comportamentos prejudiciais.

“Essa é uma preocupação muito real para o futuro”, disse Goodside. “Não conhecemos todas as maneiras pelas quais isso pode dar errado.” / TRADUÇÃO POR ALICE LABATE

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.