Início Ciência e tecnologia O modelo o3 da OpenAI passou em um teste de raciocínio de...

O modelo o3 da OpenAI passou em um teste de raciocínio de IA – mas ainda não é AGI

132
0

OpenAI anunciou uma conquista revolucionária para seu novo modelo o3 AI

Rock Tenys / Alamy

O novo modelo de inteligência artificial o3 da OpenAI alcançou uma pontuação alta em um prestigioso teste de raciocínio de IA chamado ARC Challenge, inspirando alguns fãs de IA a especular que o3 alcançou inteligência artificial geral (AGI). Mas mesmo quando os organizadores do ARC Challenge descreveram a conquista da o3 como um marco importante, eles também alertaram que ela não ganhou o grande prêmio da competição – e é apenas um passo no caminho em direção à AGI, um termo para uma hipotética futura IA com inteligência semelhante à humana. .

O modelo o3 é o mais recente de uma linha de lançamentos de IA que seguem os grandes modelos de linguagem que alimentam o ChatGPT. “Este é um aumento surpreendente e importante nas capacidades de IA, mostrando uma nova capacidade de adaptação de tarefas nunca vista antes nos modelos da família GPT”, disse François Cholletengenheiro do Google e principal criador do ARC Challenge, em um postagem no blog.

O que o modelo o3 da OpenAI realmente fez?

Chollet projetou o Corpus de Abstração e Raciocínio (ARC) Desafio em 2019 para testar até que ponto as IAs conseguem encontrar padrões corretos ligando pares de grades coloridas. Esses quebra-cabeças visuais têm como objetivo fazer com que as IAs demonstrem uma forma de inteligência geral com capacidades básicas de raciocínio. Mas colocar poder de computação suficiente nos quebra-cabeças poderia permitir que até mesmo um programa sem raciocínio simplesmente os resolvesse por meio da força bruta. Para evitar isso, a competição também exige que o envio de pontuações oficiais atenda a certos limites de capacidade computacional.

O recém-anunciado modelo o3 da OpenAI – com lançamento previsto para o início de 2025 – alcançou sua pontuação oficial de 75,7% no teste “semiprivado” do ARC Challenge, que é usado para classificar os concorrentes em uma tabela de classificação pública. O custo computacional de sua realização foi de aproximadamente US$ 20 para cada tarefa de quebra-cabeça visual, atendendo ao limite da competição de menos de US$ 10.000 no total. No entanto, o teste “privado” mais difícil utilizado para determinar os vencedores do grande prémio tem um limite de poder de computação ainda mais rigoroso, equivalente a gastar apenas 10 cêntimos em cada tarefa, que a OpenAI não cumpriu.

O modelo o3 também alcançou uma pontuação não oficial de 87,5% ao aplicar aproximadamente 172 vezes mais poder computacional do que na pontuação oficial. Para efeito de comparação, a pontuação humana típica é de 84 por cento, e uma pontuação de 85 por cento é suficiente para ganhar o grande prémio de 500.000 dólares do Desafio ARC – se o modelo também conseguir manter os seus custos de computação dentro dos limites exigidos.

Mas para atingir a pontuação não oficial, o custo da o3 disparou para milhares de dólares gastos na resolução de cada tarefa. A OpenAI solicitou que os organizadores do desafio não publicassem os custos exatos de computação.

Esta conquista do o3 mostra que o AGI foi alcançado?

Não, os organizadores do desafio ARC disseram especificamente que não consideram que superar este benchmark de competição seja um indicador de ter alcançado o AGI.

O modelo o3 também não conseguiu resolver mais de 100 tarefas de quebra-cabeças visuais, mesmo quando a OpenAI aplicou uma grande quantidade de poder de computação na pontuação não oficial, disse Mike Knoop, organizador do ARC Challenge na empresa de software Zapier, em uma mídia social. publicar em X.

Em uma mídia social publicar no céu azul, Melanie Mitchell do Santa Fe Institute, no Novo México, disse o seguinte sobre o progresso do o3 no benchmark ARC: “Acho que resolver essas tarefas por meio de computação de força bruta anula o propósito original”.

“Embora o novo modelo seja muito impressionante e represente um grande marco no caminho para AGI, não acredito que seja AGI – ainda há um bom número de tarefas muito fáceis (Desafio ARC) que o3 não consegue resolver”, disse Chollet em outro X publicar.

No entanto, Chollet descreveu como podemos saber quando a inteligência de nível humano foi demonstrada por alguma forma de AGI. “Você saberá que a AGI está aqui quando o exercício de criar tarefas que são fáceis para humanos normais, mas difíceis para a IA, se tornar simplesmente impossível”, disse ele no blog.

Thomas Dietterich da Oregon State University sugere outra maneira de reconhecer AGI. “Essas arquiteturas afirmam incluir todos os componentes funcionais necessários para a cognição humana”, diz ele. “Com esta medida, os sistemas comerciais de IA carecem de memória episódica, planejamento, raciocínio lógico e, o mais importante, metacognição.”

Então, o que realmente significa a pontuação mais alta do o3?

A pontuação mais alta do modelo o3 ocorre em um momento em que a indústria de tecnologia e os pesquisadores de IA contam com um ritmo mais lento de progresso nos modelos de IA mais recentes para 2024, em comparação com os desenvolvimentos explosivos iniciais de 2023.

Embora não tenha vencido o Desafio ARC, a pontuação alta da o3 indica que os modelos de IA poderão superar o benchmark da concorrência num futuro próximo. Além de sua pontuação não oficial, Chollet diz que muitos envios oficiais de baixa computação já pontuaram acima de 81% no conjunto de testes de avaliação privada.

Dietterich também considera que “este é um salto de desempenho muito impressionante”. No entanto, ele alerta que, sem saber mais sobre como funcionam os modelos o1 e o3 da OpenAI, é impossível avaliar o quão impressionante é a pontuação alta. Por exemplo, se o3 fosse capaz de praticar os problemas do ARC antecipadamente, isso tornaria a sua realização mais fácil. “Precisaremos aguardar uma replicação de código aberto para compreender todo o significado disso”, diz Dietterich.

Os organizadores do Desafio ARC já pretendem lançar um segundo e mais difícil conjunto de testes de benchmark em algum momento de 2025. Eles também manterão o desafio do Prêmio ARC 2025 em execução até que alguém obtenha o grande prêmio e abra o código-fonte de sua solução.

Tópicos:

  • inteligência artificial/
  • IA

Fonte