Não se preocupe com habilidades ‘imprevisíveis’ de IAs. Cientistas dizem que são ‘miragens’


Um novo artigo postula que o surgimento repentino dessas habilidades é apenas uma consequência da forma como os pesquisadores medem o desempenho desses sistemas

Por Stephen Ornes

QUANTA MAGAZINE - Há dois anos, em um projeto chamado Beyond the Imitation Game benchmark, ou BIG-bench, 450 pesquisadores compilaram uma lista de 204 tarefas criadas para testar os recursos de grandes modelos de linguagem (LLM), que alimentam chatbots como o ChatGPT. Na maioria das tarefas, o desempenho melhorou de forma previsível e suave à medida que os modelos eram ampliados - quanto maior o modelo, melhor ele ficava. Mas em outras tarefas, o salto na capacidade não foi suave. O desempenho permaneceu próximo de zero por um tempo e, em seguida, aumentou. Outros estudos encontraram saltos semelhantes na capacidade.

Os autores descreveram esse comportamento como “revolucionário”; outros pesquisadores o compararam a uma transição de fase na física, como quando a água líquida se transforma em gelo. Em um artigo publicado em agosto de 2022, os pesquisadores observaram que esses comportamentos não são apenas surpreendentes, mas também imprevisíveis, e que eles devem informar as conversas em evolução sobre segurança, potencial e risco da IA. Eles chamaram as habilidades de “emergentes”, uma palavra que descreve comportamentos coletivos que só aparecem quando um sistema atinge um alto nível de complexidade.

Cientistas acreditam que novas métricas podem eliminar a ideia de habilidades imprevisíveis de IA  Foto: Kristina Armitage/Quanta Magazine
continua após a publicidade

Mas as coisas não são tão simples assim. Um novo artigo de um trio de pesquisadores da Universidade Stanford postula que o surgimento repentino dessas habilidades é apenas uma consequência da forma como os pesquisadores medem o desempenho do LLM. As habilidades, segundo eles, não são imprevisíveis nem repentinas. “A transição é muito mais previsível do que as pessoas acreditam”, diz Sanmi Koyejo, cientista da computação de Stanford e autor do artigo. “As fortes suposições de habilidades emergentes estão ligados tanto à maneira como escolhemos medir quanto com o que os modelos estão fazendo.”

Só agora estamos vendo e estudando esse comportamento devido ao tamanho desses modelos. Os LLMs são treinados por meio da análise de enormes conjuntos de dados de texto - palavras de fontes online, incluindo livros, pesquisas na Web e Wikipédia - e da descoberta de vínculos entre palavras que aparecem frequentemente juntas. O tamanho é medido em termos de parâmetros, aproximadamente análogos a todas as maneiras pelas quais as palavras podem ser conectadas. Quanto mais parâmetros, mais conexões o LLM pode encontrar. O GPT-2 tinha 1,5 bilhão de parâmetros, enquanto o GPT-3.5, o LLM que alimenta a versão gratuita do ChatGPT, usa 350 bilhões. O GPT-4, que foi lançado em março de 2023 e agora é a base do Microsoft Copilot e do ChatGPT Plus, supostamente usa 1,75 trilhão (o número nunca foi confirmado).

Esse rápido crescimento trouxe um aumento surpreendente no desempenho e na eficácia, e ninguém está contestando que LLMs grandes o suficiente podem concluir tarefas que modelos menores não conseguem, inclusive aquelas para as quais não foram treinados. O trio de Stanford que classifica o surgimento dessas habilidades como uma “miragem” reconhece que os LLMs se tornam mais eficazes à medida que aumentam de escala; de fato, a complexidade adicional de modelos maiores deve possibilitar o aprimoramento em problemas mais difíceis e diversos. Mas eles argumentam que o fato de essa melhoria parecer suave e previsível ou irregular e acentuada resulta da escolha da métrica - ou mesmo da escassez de exemplos de teste - e não do funcionamento interno do modelo.

continua após a publicidade

Um exemplo é a adição de três dígitos. No estudo BIG-bench de 2022, os pesquisadores relataram que, com menos parâmetros, tanto o GPT-3 quanto o LaMDA (do Google) não conseguiram concluir com precisão os problemas de adição. No entanto, quando o GPT-3 foi treinado usando 13 bilhões de parâmetros, sua capacidade mudou como se fosse um interruptor. De repente, ele conseguiu somar - e o LaMDA também, com 68 bilhões de parâmetros. Isso sugere que a capacidade de somar surge em um determinado limite.

Mas os pesquisadores de Stanford ressaltam que os LLMs foram avaliados apenas quanto à precisão: Ou eles conseguiam fazer isso perfeitamente ou não conseguiam. Portanto, mesmo que um LLM previsse a maioria dos dígitos corretamente, ele falhava. Isso não me pareceu correto. Se você estiver calculando 100 mais 278, 376 parece ser uma resposta muito mais precisa do que, digamos, -9,34.

Brando Miranda (E), Sanmi Koyejo e Rylan Schaeffer (não retratado) afirmam que as habilidades "emergentes" de grandes modelos de linguagem são previsíveis e graduais Foto: Kris Brewer/Ananya Navale
continua após a publicidade

Então, em vez disso, Koyejo e seus colaboradores testaram a mesma tarefa usando uma métrica que concede crédito parcial. “Podemos perguntar: quão bem ele prevê o primeiro dígito? Depois o segundo? Depois, o terceiro?”, disse ele.

Koyejo atribui a ideia do novo trabalho a seu aluno de pós-graduação Rylan Schaeffer, que, segundo ele, percebeu que o desempenho de um LLM parece mudar de acordo com a forma como sua capacidade é medida. Juntamente com Brando Miranda, outro aluno de pós-graduação de Stanford, eles escolheram novas métricas que mostravam que, à medida que os parâmetros aumentavam, os LLMs previam uma sequência cada vez mais correta de dígitos em problemas de adição. Isso sugere que a capacidade de somar não é emergente - o que significa que ela sofre um salto repentino e imprevisível - mas gradual e previsível. Eles descobriram que, com uma medida diferente, o surgimento imprevisível de habilidades desaparece.

“Definitivamente, há uma conversa interessante a ser feita aqui”, disse Alex Tamkin, cientista pesquisador da Anthropic, uma startup de IA. O novo artigo decompõe habilmente tarefas de várias etapas para reconhecer as contribuições de componentes individuais, disse ele. “Mas essa não é a história completa. Não podemos dizer que todos esses saltos são uma miragem. Ainda acho que a literatura mostra que, mesmo quando você tem previsões de uma etapa ou usa métricas contínuas, ainda há descontinuidades e, à medida que você aumenta o tamanho do seu modelo, ainda é possível vê-lo melhorar de forma semelhante a um salto.”

continua após a publicidade

E mesmo que o surgimento de habilidades nos LLMs atuais possa ser explicada por diferentes ferramentas de medição, é provável que esse não seja o caso dos LLMs maiores e mais complicados do futuro. “Quando elevamos os LLMs ao próximo nível, é inevitável que eles tomem emprestado o conhecimento de outras tarefas e outros modelos”, diz Xia “Ben” Hu, cientista da computação da Universidade Rice.

Essa consideração evolutiva do surgimento não é apenas uma questão abstrata a ser considerada pelos pesquisadores. Para Tamkin, ela se refere diretamente aos esforços em andamento para prever como os LLMs se comportarão. “Essas tecnologias são muito amplas e aplicáveis”, diz ele. “Espero que a comunidade use isso como um ponto de partida para enfatizar continuamente a importância de criar uma ciência de previsão para essas coisas. Como não seremos surpreendidos pela próxima geração de modelos?”

História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em How Quickly Do Large Language Models Learn Unexpected Skills?

continua após a publicidade

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

QUANTA MAGAZINE - Há dois anos, em um projeto chamado Beyond the Imitation Game benchmark, ou BIG-bench, 450 pesquisadores compilaram uma lista de 204 tarefas criadas para testar os recursos de grandes modelos de linguagem (LLM), que alimentam chatbots como o ChatGPT. Na maioria das tarefas, o desempenho melhorou de forma previsível e suave à medida que os modelos eram ampliados - quanto maior o modelo, melhor ele ficava. Mas em outras tarefas, o salto na capacidade não foi suave. O desempenho permaneceu próximo de zero por um tempo e, em seguida, aumentou. Outros estudos encontraram saltos semelhantes na capacidade.

Os autores descreveram esse comportamento como “revolucionário”; outros pesquisadores o compararam a uma transição de fase na física, como quando a água líquida se transforma em gelo. Em um artigo publicado em agosto de 2022, os pesquisadores observaram que esses comportamentos não são apenas surpreendentes, mas também imprevisíveis, e que eles devem informar as conversas em evolução sobre segurança, potencial e risco da IA. Eles chamaram as habilidades de “emergentes”, uma palavra que descreve comportamentos coletivos que só aparecem quando um sistema atinge um alto nível de complexidade.

Cientistas acreditam que novas métricas podem eliminar a ideia de habilidades imprevisíveis de IA  Foto: Kristina Armitage/Quanta Magazine

Mas as coisas não são tão simples assim. Um novo artigo de um trio de pesquisadores da Universidade Stanford postula que o surgimento repentino dessas habilidades é apenas uma consequência da forma como os pesquisadores medem o desempenho do LLM. As habilidades, segundo eles, não são imprevisíveis nem repentinas. “A transição é muito mais previsível do que as pessoas acreditam”, diz Sanmi Koyejo, cientista da computação de Stanford e autor do artigo. “As fortes suposições de habilidades emergentes estão ligados tanto à maneira como escolhemos medir quanto com o que os modelos estão fazendo.”

Só agora estamos vendo e estudando esse comportamento devido ao tamanho desses modelos. Os LLMs são treinados por meio da análise de enormes conjuntos de dados de texto - palavras de fontes online, incluindo livros, pesquisas na Web e Wikipédia - e da descoberta de vínculos entre palavras que aparecem frequentemente juntas. O tamanho é medido em termos de parâmetros, aproximadamente análogos a todas as maneiras pelas quais as palavras podem ser conectadas. Quanto mais parâmetros, mais conexões o LLM pode encontrar. O GPT-2 tinha 1,5 bilhão de parâmetros, enquanto o GPT-3.5, o LLM que alimenta a versão gratuita do ChatGPT, usa 350 bilhões. O GPT-4, que foi lançado em março de 2023 e agora é a base do Microsoft Copilot e do ChatGPT Plus, supostamente usa 1,75 trilhão (o número nunca foi confirmado).

Esse rápido crescimento trouxe um aumento surpreendente no desempenho e na eficácia, e ninguém está contestando que LLMs grandes o suficiente podem concluir tarefas que modelos menores não conseguem, inclusive aquelas para as quais não foram treinados. O trio de Stanford que classifica o surgimento dessas habilidades como uma “miragem” reconhece que os LLMs se tornam mais eficazes à medida que aumentam de escala; de fato, a complexidade adicional de modelos maiores deve possibilitar o aprimoramento em problemas mais difíceis e diversos. Mas eles argumentam que o fato de essa melhoria parecer suave e previsível ou irregular e acentuada resulta da escolha da métrica - ou mesmo da escassez de exemplos de teste - e não do funcionamento interno do modelo.

Um exemplo é a adição de três dígitos. No estudo BIG-bench de 2022, os pesquisadores relataram que, com menos parâmetros, tanto o GPT-3 quanto o LaMDA (do Google) não conseguiram concluir com precisão os problemas de adição. No entanto, quando o GPT-3 foi treinado usando 13 bilhões de parâmetros, sua capacidade mudou como se fosse um interruptor. De repente, ele conseguiu somar - e o LaMDA também, com 68 bilhões de parâmetros. Isso sugere que a capacidade de somar surge em um determinado limite.

Mas os pesquisadores de Stanford ressaltam que os LLMs foram avaliados apenas quanto à precisão: Ou eles conseguiam fazer isso perfeitamente ou não conseguiam. Portanto, mesmo que um LLM previsse a maioria dos dígitos corretamente, ele falhava. Isso não me pareceu correto. Se você estiver calculando 100 mais 278, 376 parece ser uma resposta muito mais precisa do que, digamos, -9,34.

Brando Miranda (E), Sanmi Koyejo e Rylan Schaeffer (não retratado) afirmam que as habilidades "emergentes" de grandes modelos de linguagem são previsíveis e graduais Foto: Kris Brewer/Ananya Navale

Então, em vez disso, Koyejo e seus colaboradores testaram a mesma tarefa usando uma métrica que concede crédito parcial. “Podemos perguntar: quão bem ele prevê o primeiro dígito? Depois o segundo? Depois, o terceiro?”, disse ele.

Koyejo atribui a ideia do novo trabalho a seu aluno de pós-graduação Rylan Schaeffer, que, segundo ele, percebeu que o desempenho de um LLM parece mudar de acordo com a forma como sua capacidade é medida. Juntamente com Brando Miranda, outro aluno de pós-graduação de Stanford, eles escolheram novas métricas que mostravam que, à medida que os parâmetros aumentavam, os LLMs previam uma sequência cada vez mais correta de dígitos em problemas de adição. Isso sugere que a capacidade de somar não é emergente - o que significa que ela sofre um salto repentino e imprevisível - mas gradual e previsível. Eles descobriram que, com uma medida diferente, o surgimento imprevisível de habilidades desaparece.

“Definitivamente, há uma conversa interessante a ser feita aqui”, disse Alex Tamkin, cientista pesquisador da Anthropic, uma startup de IA. O novo artigo decompõe habilmente tarefas de várias etapas para reconhecer as contribuições de componentes individuais, disse ele. “Mas essa não é a história completa. Não podemos dizer que todos esses saltos são uma miragem. Ainda acho que a literatura mostra que, mesmo quando você tem previsões de uma etapa ou usa métricas contínuas, ainda há descontinuidades e, à medida que você aumenta o tamanho do seu modelo, ainda é possível vê-lo melhorar de forma semelhante a um salto.”

E mesmo que o surgimento de habilidades nos LLMs atuais possa ser explicada por diferentes ferramentas de medição, é provável que esse não seja o caso dos LLMs maiores e mais complicados do futuro. “Quando elevamos os LLMs ao próximo nível, é inevitável que eles tomem emprestado o conhecimento de outras tarefas e outros modelos”, diz Xia “Ben” Hu, cientista da computação da Universidade Rice.

Essa consideração evolutiva do surgimento não é apenas uma questão abstrata a ser considerada pelos pesquisadores. Para Tamkin, ela se refere diretamente aos esforços em andamento para prever como os LLMs se comportarão. “Essas tecnologias são muito amplas e aplicáveis”, diz ele. “Espero que a comunidade use isso como um ponto de partida para enfatizar continuamente a importância de criar uma ciência de previsão para essas coisas. Como não seremos surpreendidos pela próxima geração de modelos?”

História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em How Quickly Do Large Language Models Learn Unexpected Skills?

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

QUANTA MAGAZINE - Há dois anos, em um projeto chamado Beyond the Imitation Game benchmark, ou BIG-bench, 450 pesquisadores compilaram uma lista de 204 tarefas criadas para testar os recursos de grandes modelos de linguagem (LLM), que alimentam chatbots como o ChatGPT. Na maioria das tarefas, o desempenho melhorou de forma previsível e suave à medida que os modelos eram ampliados - quanto maior o modelo, melhor ele ficava. Mas em outras tarefas, o salto na capacidade não foi suave. O desempenho permaneceu próximo de zero por um tempo e, em seguida, aumentou. Outros estudos encontraram saltos semelhantes na capacidade.

Os autores descreveram esse comportamento como “revolucionário”; outros pesquisadores o compararam a uma transição de fase na física, como quando a água líquida se transforma em gelo. Em um artigo publicado em agosto de 2022, os pesquisadores observaram que esses comportamentos não são apenas surpreendentes, mas também imprevisíveis, e que eles devem informar as conversas em evolução sobre segurança, potencial e risco da IA. Eles chamaram as habilidades de “emergentes”, uma palavra que descreve comportamentos coletivos que só aparecem quando um sistema atinge um alto nível de complexidade.

Cientistas acreditam que novas métricas podem eliminar a ideia de habilidades imprevisíveis de IA  Foto: Kristina Armitage/Quanta Magazine

Mas as coisas não são tão simples assim. Um novo artigo de um trio de pesquisadores da Universidade Stanford postula que o surgimento repentino dessas habilidades é apenas uma consequência da forma como os pesquisadores medem o desempenho do LLM. As habilidades, segundo eles, não são imprevisíveis nem repentinas. “A transição é muito mais previsível do que as pessoas acreditam”, diz Sanmi Koyejo, cientista da computação de Stanford e autor do artigo. “As fortes suposições de habilidades emergentes estão ligados tanto à maneira como escolhemos medir quanto com o que os modelos estão fazendo.”

Só agora estamos vendo e estudando esse comportamento devido ao tamanho desses modelos. Os LLMs são treinados por meio da análise de enormes conjuntos de dados de texto - palavras de fontes online, incluindo livros, pesquisas na Web e Wikipédia - e da descoberta de vínculos entre palavras que aparecem frequentemente juntas. O tamanho é medido em termos de parâmetros, aproximadamente análogos a todas as maneiras pelas quais as palavras podem ser conectadas. Quanto mais parâmetros, mais conexões o LLM pode encontrar. O GPT-2 tinha 1,5 bilhão de parâmetros, enquanto o GPT-3.5, o LLM que alimenta a versão gratuita do ChatGPT, usa 350 bilhões. O GPT-4, que foi lançado em março de 2023 e agora é a base do Microsoft Copilot e do ChatGPT Plus, supostamente usa 1,75 trilhão (o número nunca foi confirmado).

Esse rápido crescimento trouxe um aumento surpreendente no desempenho e na eficácia, e ninguém está contestando que LLMs grandes o suficiente podem concluir tarefas que modelos menores não conseguem, inclusive aquelas para as quais não foram treinados. O trio de Stanford que classifica o surgimento dessas habilidades como uma “miragem” reconhece que os LLMs se tornam mais eficazes à medida que aumentam de escala; de fato, a complexidade adicional de modelos maiores deve possibilitar o aprimoramento em problemas mais difíceis e diversos. Mas eles argumentam que o fato de essa melhoria parecer suave e previsível ou irregular e acentuada resulta da escolha da métrica - ou mesmo da escassez de exemplos de teste - e não do funcionamento interno do modelo.

Um exemplo é a adição de três dígitos. No estudo BIG-bench de 2022, os pesquisadores relataram que, com menos parâmetros, tanto o GPT-3 quanto o LaMDA (do Google) não conseguiram concluir com precisão os problemas de adição. No entanto, quando o GPT-3 foi treinado usando 13 bilhões de parâmetros, sua capacidade mudou como se fosse um interruptor. De repente, ele conseguiu somar - e o LaMDA também, com 68 bilhões de parâmetros. Isso sugere que a capacidade de somar surge em um determinado limite.

Mas os pesquisadores de Stanford ressaltam que os LLMs foram avaliados apenas quanto à precisão: Ou eles conseguiam fazer isso perfeitamente ou não conseguiam. Portanto, mesmo que um LLM previsse a maioria dos dígitos corretamente, ele falhava. Isso não me pareceu correto. Se você estiver calculando 100 mais 278, 376 parece ser uma resposta muito mais precisa do que, digamos, -9,34.

Brando Miranda (E), Sanmi Koyejo e Rylan Schaeffer (não retratado) afirmam que as habilidades "emergentes" de grandes modelos de linguagem são previsíveis e graduais Foto: Kris Brewer/Ananya Navale

Então, em vez disso, Koyejo e seus colaboradores testaram a mesma tarefa usando uma métrica que concede crédito parcial. “Podemos perguntar: quão bem ele prevê o primeiro dígito? Depois o segundo? Depois, o terceiro?”, disse ele.

Koyejo atribui a ideia do novo trabalho a seu aluno de pós-graduação Rylan Schaeffer, que, segundo ele, percebeu que o desempenho de um LLM parece mudar de acordo com a forma como sua capacidade é medida. Juntamente com Brando Miranda, outro aluno de pós-graduação de Stanford, eles escolheram novas métricas que mostravam que, à medida que os parâmetros aumentavam, os LLMs previam uma sequência cada vez mais correta de dígitos em problemas de adição. Isso sugere que a capacidade de somar não é emergente - o que significa que ela sofre um salto repentino e imprevisível - mas gradual e previsível. Eles descobriram que, com uma medida diferente, o surgimento imprevisível de habilidades desaparece.

“Definitivamente, há uma conversa interessante a ser feita aqui”, disse Alex Tamkin, cientista pesquisador da Anthropic, uma startup de IA. O novo artigo decompõe habilmente tarefas de várias etapas para reconhecer as contribuições de componentes individuais, disse ele. “Mas essa não é a história completa. Não podemos dizer que todos esses saltos são uma miragem. Ainda acho que a literatura mostra que, mesmo quando você tem previsões de uma etapa ou usa métricas contínuas, ainda há descontinuidades e, à medida que você aumenta o tamanho do seu modelo, ainda é possível vê-lo melhorar de forma semelhante a um salto.”

E mesmo que o surgimento de habilidades nos LLMs atuais possa ser explicada por diferentes ferramentas de medição, é provável que esse não seja o caso dos LLMs maiores e mais complicados do futuro. “Quando elevamos os LLMs ao próximo nível, é inevitável que eles tomem emprestado o conhecimento de outras tarefas e outros modelos”, diz Xia “Ben” Hu, cientista da computação da Universidade Rice.

Essa consideração evolutiva do surgimento não é apenas uma questão abstrata a ser considerada pelos pesquisadores. Para Tamkin, ela se refere diretamente aos esforços em andamento para prever como os LLMs se comportarão. “Essas tecnologias são muito amplas e aplicáveis”, diz ele. “Espero que a comunidade use isso como um ponto de partida para enfatizar continuamente a importância de criar uma ciência de previsão para essas coisas. Como não seremos surpreendidos pela próxima geração de modelos?”

História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em How Quickly Do Large Language Models Learn Unexpected Skills?

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

QUANTA MAGAZINE - Há dois anos, em um projeto chamado Beyond the Imitation Game benchmark, ou BIG-bench, 450 pesquisadores compilaram uma lista de 204 tarefas criadas para testar os recursos de grandes modelos de linguagem (LLM), que alimentam chatbots como o ChatGPT. Na maioria das tarefas, o desempenho melhorou de forma previsível e suave à medida que os modelos eram ampliados - quanto maior o modelo, melhor ele ficava. Mas em outras tarefas, o salto na capacidade não foi suave. O desempenho permaneceu próximo de zero por um tempo e, em seguida, aumentou. Outros estudos encontraram saltos semelhantes na capacidade.

Os autores descreveram esse comportamento como “revolucionário”; outros pesquisadores o compararam a uma transição de fase na física, como quando a água líquida se transforma em gelo. Em um artigo publicado em agosto de 2022, os pesquisadores observaram que esses comportamentos não são apenas surpreendentes, mas também imprevisíveis, e que eles devem informar as conversas em evolução sobre segurança, potencial e risco da IA. Eles chamaram as habilidades de “emergentes”, uma palavra que descreve comportamentos coletivos que só aparecem quando um sistema atinge um alto nível de complexidade.

Cientistas acreditam que novas métricas podem eliminar a ideia de habilidades imprevisíveis de IA  Foto: Kristina Armitage/Quanta Magazine

Mas as coisas não são tão simples assim. Um novo artigo de um trio de pesquisadores da Universidade Stanford postula que o surgimento repentino dessas habilidades é apenas uma consequência da forma como os pesquisadores medem o desempenho do LLM. As habilidades, segundo eles, não são imprevisíveis nem repentinas. “A transição é muito mais previsível do que as pessoas acreditam”, diz Sanmi Koyejo, cientista da computação de Stanford e autor do artigo. “As fortes suposições de habilidades emergentes estão ligados tanto à maneira como escolhemos medir quanto com o que os modelos estão fazendo.”

Só agora estamos vendo e estudando esse comportamento devido ao tamanho desses modelos. Os LLMs são treinados por meio da análise de enormes conjuntos de dados de texto - palavras de fontes online, incluindo livros, pesquisas na Web e Wikipédia - e da descoberta de vínculos entre palavras que aparecem frequentemente juntas. O tamanho é medido em termos de parâmetros, aproximadamente análogos a todas as maneiras pelas quais as palavras podem ser conectadas. Quanto mais parâmetros, mais conexões o LLM pode encontrar. O GPT-2 tinha 1,5 bilhão de parâmetros, enquanto o GPT-3.5, o LLM que alimenta a versão gratuita do ChatGPT, usa 350 bilhões. O GPT-4, que foi lançado em março de 2023 e agora é a base do Microsoft Copilot e do ChatGPT Plus, supostamente usa 1,75 trilhão (o número nunca foi confirmado).

Esse rápido crescimento trouxe um aumento surpreendente no desempenho e na eficácia, e ninguém está contestando que LLMs grandes o suficiente podem concluir tarefas que modelos menores não conseguem, inclusive aquelas para as quais não foram treinados. O trio de Stanford que classifica o surgimento dessas habilidades como uma “miragem” reconhece que os LLMs se tornam mais eficazes à medida que aumentam de escala; de fato, a complexidade adicional de modelos maiores deve possibilitar o aprimoramento em problemas mais difíceis e diversos. Mas eles argumentam que o fato de essa melhoria parecer suave e previsível ou irregular e acentuada resulta da escolha da métrica - ou mesmo da escassez de exemplos de teste - e não do funcionamento interno do modelo.

Um exemplo é a adição de três dígitos. No estudo BIG-bench de 2022, os pesquisadores relataram que, com menos parâmetros, tanto o GPT-3 quanto o LaMDA (do Google) não conseguiram concluir com precisão os problemas de adição. No entanto, quando o GPT-3 foi treinado usando 13 bilhões de parâmetros, sua capacidade mudou como se fosse um interruptor. De repente, ele conseguiu somar - e o LaMDA também, com 68 bilhões de parâmetros. Isso sugere que a capacidade de somar surge em um determinado limite.

Mas os pesquisadores de Stanford ressaltam que os LLMs foram avaliados apenas quanto à precisão: Ou eles conseguiam fazer isso perfeitamente ou não conseguiam. Portanto, mesmo que um LLM previsse a maioria dos dígitos corretamente, ele falhava. Isso não me pareceu correto. Se você estiver calculando 100 mais 278, 376 parece ser uma resposta muito mais precisa do que, digamos, -9,34.

Brando Miranda (E), Sanmi Koyejo e Rylan Schaeffer (não retratado) afirmam que as habilidades "emergentes" de grandes modelos de linguagem são previsíveis e graduais Foto: Kris Brewer/Ananya Navale

Então, em vez disso, Koyejo e seus colaboradores testaram a mesma tarefa usando uma métrica que concede crédito parcial. “Podemos perguntar: quão bem ele prevê o primeiro dígito? Depois o segundo? Depois, o terceiro?”, disse ele.

Koyejo atribui a ideia do novo trabalho a seu aluno de pós-graduação Rylan Schaeffer, que, segundo ele, percebeu que o desempenho de um LLM parece mudar de acordo com a forma como sua capacidade é medida. Juntamente com Brando Miranda, outro aluno de pós-graduação de Stanford, eles escolheram novas métricas que mostravam que, à medida que os parâmetros aumentavam, os LLMs previam uma sequência cada vez mais correta de dígitos em problemas de adição. Isso sugere que a capacidade de somar não é emergente - o que significa que ela sofre um salto repentino e imprevisível - mas gradual e previsível. Eles descobriram que, com uma medida diferente, o surgimento imprevisível de habilidades desaparece.

“Definitivamente, há uma conversa interessante a ser feita aqui”, disse Alex Tamkin, cientista pesquisador da Anthropic, uma startup de IA. O novo artigo decompõe habilmente tarefas de várias etapas para reconhecer as contribuições de componentes individuais, disse ele. “Mas essa não é a história completa. Não podemos dizer que todos esses saltos são uma miragem. Ainda acho que a literatura mostra que, mesmo quando você tem previsões de uma etapa ou usa métricas contínuas, ainda há descontinuidades e, à medida que você aumenta o tamanho do seu modelo, ainda é possível vê-lo melhorar de forma semelhante a um salto.”

E mesmo que o surgimento de habilidades nos LLMs atuais possa ser explicada por diferentes ferramentas de medição, é provável que esse não seja o caso dos LLMs maiores e mais complicados do futuro. “Quando elevamos os LLMs ao próximo nível, é inevitável que eles tomem emprestado o conhecimento de outras tarefas e outros modelos”, diz Xia “Ben” Hu, cientista da computação da Universidade Rice.

Essa consideração evolutiva do surgimento não é apenas uma questão abstrata a ser considerada pelos pesquisadores. Para Tamkin, ela se refere diretamente aos esforços em andamento para prever como os LLMs se comportarão. “Essas tecnologias são muito amplas e aplicáveis”, diz ele. “Espero que a comunidade use isso como um ponto de partida para enfatizar continuamente a importância de criar uma ciência de previsão para essas coisas. Como não seremos surpreendidos pela próxima geração de modelos?”

História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em How Quickly Do Large Language Models Learn Unexpected Skills?

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

QUANTA MAGAZINE - Há dois anos, em um projeto chamado Beyond the Imitation Game benchmark, ou BIG-bench, 450 pesquisadores compilaram uma lista de 204 tarefas criadas para testar os recursos de grandes modelos de linguagem (LLM), que alimentam chatbots como o ChatGPT. Na maioria das tarefas, o desempenho melhorou de forma previsível e suave à medida que os modelos eram ampliados - quanto maior o modelo, melhor ele ficava. Mas em outras tarefas, o salto na capacidade não foi suave. O desempenho permaneceu próximo de zero por um tempo e, em seguida, aumentou. Outros estudos encontraram saltos semelhantes na capacidade.

Os autores descreveram esse comportamento como “revolucionário”; outros pesquisadores o compararam a uma transição de fase na física, como quando a água líquida se transforma em gelo. Em um artigo publicado em agosto de 2022, os pesquisadores observaram que esses comportamentos não são apenas surpreendentes, mas também imprevisíveis, e que eles devem informar as conversas em evolução sobre segurança, potencial e risco da IA. Eles chamaram as habilidades de “emergentes”, uma palavra que descreve comportamentos coletivos que só aparecem quando um sistema atinge um alto nível de complexidade.

Cientistas acreditam que novas métricas podem eliminar a ideia de habilidades imprevisíveis de IA  Foto: Kristina Armitage/Quanta Magazine

Mas as coisas não são tão simples assim. Um novo artigo de um trio de pesquisadores da Universidade Stanford postula que o surgimento repentino dessas habilidades é apenas uma consequência da forma como os pesquisadores medem o desempenho do LLM. As habilidades, segundo eles, não são imprevisíveis nem repentinas. “A transição é muito mais previsível do que as pessoas acreditam”, diz Sanmi Koyejo, cientista da computação de Stanford e autor do artigo. “As fortes suposições de habilidades emergentes estão ligados tanto à maneira como escolhemos medir quanto com o que os modelos estão fazendo.”

Só agora estamos vendo e estudando esse comportamento devido ao tamanho desses modelos. Os LLMs são treinados por meio da análise de enormes conjuntos de dados de texto - palavras de fontes online, incluindo livros, pesquisas na Web e Wikipédia - e da descoberta de vínculos entre palavras que aparecem frequentemente juntas. O tamanho é medido em termos de parâmetros, aproximadamente análogos a todas as maneiras pelas quais as palavras podem ser conectadas. Quanto mais parâmetros, mais conexões o LLM pode encontrar. O GPT-2 tinha 1,5 bilhão de parâmetros, enquanto o GPT-3.5, o LLM que alimenta a versão gratuita do ChatGPT, usa 350 bilhões. O GPT-4, que foi lançado em março de 2023 e agora é a base do Microsoft Copilot e do ChatGPT Plus, supostamente usa 1,75 trilhão (o número nunca foi confirmado).

Esse rápido crescimento trouxe um aumento surpreendente no desempenho e na eficácia, e ninguém está contestando que LLMs grandes o suficiente podem concluir tarefas que modelos menores não conseguem, inclusive aquelas para as quais não foram treinados. O trio de Stanford que classifica o surgimento dessas habilidades como uma “miragem” reconhece que os LLMs se tornam mais eficazes à medida que aumentam de escala; de fato, a complexidade adicional de modelos maiores deve possibilitar o aprimoramento em problemas mais difíceis e diversos. Mas eles argumentam que o fato de essa melhoria parecer suave e previsível ou irregular e acentuada resulta da escolha da métrica - ou mesmo da escassez de exemplos de teste - e não do funcionamento interno do modelo.

Um exemplo é a adição de três dígitos. No estudo BIG-bench de 2022, os pesquisadores relataram que, com menos parâmetros, tanto o GPT-3 quanto o LaMDA (do Google) não conseguiram concluir com precisão os problemas de adição. No entanto, quando o GPT-3 foi treinado usando 13 bilhões de parâmetros, sua capacidade mudou como se fosse um interruptor. De repente, ele conseguiu somar - e o LaMDA também, com 68 bilhões de parâmetros. Isso sugere que a capacidade de somar surge em um determinado limite.

Mas os pesquisadores de Stanford ressaltam que os LLMs foram avaliados apenas quanto à precisão: Ou eles conseguiam fazer isso perfeitamente ou não conseguiam. Portanto, mesmo que um LLM previsse a maioria dos dígitos corretamente, ele falhava. Isso não me pareceu correto. Se você estiver calculando 100 mais 278, 376 parece ser uma resposta muito mais precisa do que, digamos, -9,34.

Brando Miranda (E), Sanmi Koyejo e Rylan Schaeffer (não retratado) afirmam que as habilidades "emergentes" de grandes modelos de linguagem são previsíveis e graduais Foto: Kris Brewer/Ananya Navale

Então, em vez disso, Koyejo e seus colaboradores testaram a mesma tarefa usando uma métrica que concede crédito parcial. “Podemos perguntar: quão bem ele prevê o primeiro dígito? Depois o segundo? Depois, o terceiro?”, disse ele.

Koyejo atribui a ideia do novo trabalho a seu aluno de pós-graduação Rylan Schaeffer, que, segundo ele, percebeu que o desempenho de um LLM parece mudar de acordo com a forma como sua capacidade é medida. Juntamente com Brando Miranda, outro aluno de pós-graduação de Stanford, eles escolheram novas métricas que mostravam que, à medida que os parâmetros aumentavam, os LLMs previam uma sequência cada vez mais correta de dígitos em problemas de adição. Isso sugere que a capacidade de somar não é emergente - o que significa que ela sofre um salto repentino e imprevisível - mas gradual e previsível. Eles descobriram que, com uma medida diferente, o surgimento imprevisível de habilidades desaparece.

“Definitivamente, há uma conversa interessante a ser feita aqui”, disse Alex Tamkin, cientista pesquisador da Anthropic, uma startup de IA. O novo artigo decompõe habilmente tarefas de várias etapas para reconhecer as contribuições de componentes individuais, disse ele. “Mas essa não é a história completa. Não podemos dizer que todos esses saltos são uma miragem. Ainda acho que a literatura mostra que, mesmo quando você tem previsões de uma etapa ou usa métricas contínuas, ainda há descontinuidades e, à medida que você aumenta o tamanho do seu modelo, ainda é possível vê-lo melhorar de forma semelhante a um salto.”

E mesmo que o surgimento de habilidades nos LLMs atuais possa ser explicada por diferentes ferramentas de medição, é provável que esse não seja o caso dos LLMs maiores e mais complicados do futuro. “Quando elevamos os LLMs ao próximo nível, é inevitável que eles tomem emprestado o conhecimento de outras tarefas e outros modelos”, diz Xia “Ben” Hu, cientista da computação da Universidade Rice.

Essa consideração evolutiva do surgimento não é apenas uma questão abstrata a ser considerada pelos pesquisadores. Para Tamkin, ela se refere diretamente aos esforços em andamento para prever como os LLMs se comportarão. “Essas tecnologias são muito amplas e aplicáveis”, diz ele. “Espero que a comunidade use isso como um ponto de partida para enfatizar continuamente a importância de criar uma ciência de previsão para essas coisas. Como não seremos surpreendidos pela próxima geração de modelos?”

História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em How Quickly Do Large Language Models Learn Unexpected Skills?

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.