ChatGPT Ainda Lidera, Mas a Competição em IA se Aquece

21/02/2024 – A ascensão das classificações comunitárias de modelos de inteligência artificial (IA), disponibilizadas publicamente online, tem ganhado destaque nos últimos meses. Essas classificações não apenas mostram alguns modelos superando humanos em tarefas específicas, mas também evidenciam uma corrida acirrada entre grandes empresas de tecnologia pela supremacia em IA.

No cerne dessa disputa está a pergunta: Qual é o modelo de IA mais poderoso do momento? As lideranças, construídas pela comunidade, oferecem uma visão em tempo real dessa batalha, rastreando quais modelos são os mais avançados com base em sua habilidade de completar certas tarefas.

Modelos recentes, como o Gemini do Google (anteriormente conhecido como Bard) e o Mistral-Medium da startup parisiense Mistral AI, têm criado expectativa na comunidade de IA, lutando por posições de destaque nessas classificações. Contudo, o GPT-4 da OpenAI continua a dominar o cenário.

Ying Sheng, co-criador de uma dessas lideranças, Chatbot Arena, e doutorando em ciência da computação na Universidade de Stanford, destaca a importância do estado da arte: “As pessoas se importam com o estado da arte. Eu acho que, na verdade, elas gostariam mais de ver as lideranças mudando. Isso significa que o jogo ainda está lá e ainda há melhorias a serem feitas.”

Os rankings são baseados em testes que determinam do que os modelos de IA são capazes, bem como qual modelo pode ser o mais competente para um uso específico, como reconhecimento de fala. Esses testes, também conhecidos como benchmarks, medem o desempenho da IA em métricas como quão humana uma resposta de chatbot de IA parece ou quão humana soa uma audio de IA.

A evolução desses testes é crucial à medida que a IA avança. Vanessa Parli, diretora de pesquisa no Instituto de Inteligência Artificial Centrada no Humano de Stanford, observa: “Os benchmarks não são perfeitos, mas, por enquanto, é meio que a única maneira que temos de avaliar o sistema.”

Além de oferecer uma visão sobre quantos modelos estão em desenvolvimento, as lideranças destacam a importância do tamanho do conjunto de dados e da complexidade do modelo na eficácia da IA. Modelos como o Smaug-72B, criado pela startup de São Francisco Abacus.AI, destacam-se por ultrapassar o nível de desempenho humano basal em testes, indicando o que os pesquisadores chamam de “saturação”.

A saturação ocorre quando os modelos melhoram suas capacidades a ponto de superar testes de benchmark específicos, necessitando assim de novos testes para avaliar corretamente suas habilidades.

Embora os benchmarks sejam úteis, os pesquisadores reconhecem que não são abrangentes. Mesmo que um modelo pontue bem em benchmarks de raciocínio, ainda pode haver desempenho insuficiente em casos de uso específicos, como a análise de documentos legais.

As lideranças e os testes estimulam a inovação entre os desenvolvedores de IA, que devem constantemente elevar o padrão para acompanhar as últimas avaliações. Este ambiente competitivo não apenas impulsiona o avanço tecnológico, mas também refina nossa compreensão do que a IA é capaz de realizar.

ChatGPT Ainda Lidera, Mas a Competição em IA se Aquece

Comments

Leave a Reply Cancel reply