[LIIA] - Policy Brief

Policy Brief

Capacidades dos modelos de Inteligência Artificial: o que realmente importa

Data de publicação: 27 de Novembro de 2025.
LabInova/Esint/Abin*

Se você acompanha lançamentos de IA, sabe: a cada semana surge um novo modelo, uma nova promessa, um novo “salto”. Nesse barulho todo, fica difícil enxergar o que, de fato, muda na produtividade, no trabalho e nos setores da economia. Para responder a isso, precisamos de uma conversa franca sobre capacidades: o que esses sistemas conseguem fazer hoje, em que condições e com que limites. E, sim, precisamos olhar para como comparamos seu desempenho ao desempenho de nós humanos, sem confundir marketing com ciência.

Benchmarks: o termômetro (imperfeito) do progresso

Modelos são testados em tarefas específicas: conhecimento geral, interpretação de texto, raciocínio matemático, programação. Para isso, utilizam-se benchmarks, que funcionam como padrões de referência para comparar o desempenho. Entre os mais famosos estão o MMLU (ciências humanas e exatas), GSM8K (problemas matemáticos), ARC (abstração) e HumanEval (código). Em muitas dessas tarefas, a IA já rivaliza — e às vezes supera — o desempenho humano. Nas tarefas em que ainda perde, a distância vem diminuindo rápido.

Soa animador, mas há um "porém": muitos benchmarks foram adaptados de contextos que não foram feitos para IA e, com o tempo, modelos aprendem esses padrões. Ou seja, os modelos ficaram bons em passar nos testes que avaliam o desempenho em certas tarefas sem necessariamente terem melhorado na execução dessas tarefas. É útil como medida no curto prazo; mas não serve como indicativo de progresso rumo à inteligência no sentido amplo.

AGI: ambição, disputa e narrativa

Quase toda grande empresa de IA diz mirar a AGI (Inteligência Artificial Geral). O detalhe é que não há consenso sobre o que “AGI” quer dizer. Há definições pragmáticas, como “sistemas altamente autônomos que superam humanos na maioria dos trabalhos economicamente valiosos”. Há também discursos que variam conforme o público e o momento.

A competição entre os provedores de inteligência artificial favorece o uso deste termo como peça de marketing. Declarações otimistas sobre “AGI em breve” se multiplicam, às vezes ancoradas na crença de que o hardware atual já seria suficiente. O histórico recente recomenda cautela: promessas de autonomia total em outras frentes tecnológicas — como direção autônoma — sofreram revisões, recuos e adiamentos. Na IA, além do entusiasmo técnico, existem ainda arranjos contratuais e interesses bilionários que tornam a palavra “AGI” um gatilho com efeitos práticos. Dependendo do acordo, “atingir AGI” pode redefinir relações empresariais, propriedade tecnológica e fluxos de receita. Não surpreende que surjam especulações sobre quando, e por quem, essa linha será oficialmente cruzada. E mais importante ainda: a forma de adoção de IA posta como um processo natural de busca da AGI esconde escolhas que são decisão de negócio entre os criadores/fornecedores de IA, as grandes empresas de tecnologia e as grandes empresas. O que é, para que serve, se iremos adotar e como adotaremos são escolhas da sociedade, não uma evolução autônoma, da própria tecnologia, independente das vontades das forças sociais.

Uma proposta de mapa: desempenho e generalidade

Para organizar o debate, uma proposta da Google DeepMind recebeu atenção em 2024: classificar sistemas pelo que conseguem fazer (capacidades), não por como fazem (mecanismos internos). Nessa visão, não é preciso supor consciência ou senciência; o foco está no resultado.

A estrutura tem duas dimensões. Desempenho é a profundidade com que o sistema executa uma tarefa em comparação a um grupo de adultos com habilidade relevante (por exemplo, redigir em bom português). Generalidade é a largura do repertório: quantas tarefas diferentes o sistema consegue cumprir acima de um certo nível.

Aplicando esse critério, modelos de linguagem atuais, como os principais chatbots e code assistants, mostram desempenho “competente” em algumas tarefas (texto curto, programação simples), mas permanecem “emergentes” em muitas outras (matemática mais dura, factualidade persistente, raciocínio que exige consistência ao longo de muitos passos). Nesse enquadramento, estariam numa AGI de Nível 1 (“emergente”) e precisariam ampliar o desempenho de maneira consistente em um conjunto bem maior de tarefas para alcançar uma AGI de Nível 2 (“competente”).

Vale notar: essa classificação não diz qual “conjunto” de tarefas define os níveis. E aí mora um desafio. Se queremos medir inteligência geral, o repertório deveria contemplar, além de linguagem e lógica, coisas como raciocínio espacial, inteligências social e intrapessoal, aprendizado de habilidades novas e até criatividade.

Habilidade, inteligência e o teste que engana

Críticos lembram: o sucesso numa tarefa pode vir de dois jeitos. Ou você memorizou um método que se aplica ali, ou você inventa um método novo na hora. Em uma prova, ambos tiram a mesma nota — mas só um demonstra generalização. Por isso, usar apenas tarefas conhecidas pode confundir “treino” com “inteligência”.

Uma definição útil de inteligência para o nosso momento é a eficiência em adquirir novas habilidades. Quanto menos exemplos, instruções e dados um sistema precisa para se sair bem, mais inteligente ele é. Ou seja, inteligência é, no fundo, sobre transferir o que já sabe para o que nunca viu.

Uma escala para falar de generalização

Para tirar a conversa do abstrato, pense nesta escala contínua.

Primeiro, a ausência de generalização. Se não há incerteza, não há inteligência a medir. Um programa que joga jogo-da-velha explorando todas as possibilidades, ou uma calculadora somando números, executa regras fixas — não “generaliza”.

Depois, a generalização local (ou robustez). O sistema lida bem com variações de uma mesma distribuição de exemplos em uma tarefa bem definida, desde que tenha sido treinado com bastantes dados daquele universo. Muitos classificadores de imagens e os próprios modelos de linguagem, no seu uso mais comum, encaixam-se aqui.

Avançando, a generalização ampla (ou flexibilidade). Aqui, o sistema resolve uma ampla gama de situações dentro de um domínio, inclusive aquelas não previstas pelos criadores. É o patamar de um carro realmente sem motorista em condições gerais de tráfego, ou de um robô doméstico que entra numa cozinha aleatória e prepara uma refeição.

Por fim, a generalização extrema. Sistemas abertos e de escopo praticamente ilimitado, capazes de enfrentar tarefas inteiramente novas, conectadas apenas por semelhanças abstratas. Até onde sabemos, só humanos exibem isso de maneira robusta.

Onde estamos hoje? Os grandes modelos de linguagem parecem estar no nível local, com aparência de amplitude em muitos cenários, especialmente quando a tarefa “cabe” no que eles viram no treinamento, mas sem evidência consistente de generalização abstrata, causal e adaptativa no sentido forte.

O que um LLM faz — e o que falta fazer

Modelos como o ChatGPT são redes neurais com bilhões de parâmetros, criados para geração de texto. Eles dominam padrões estatísticos da língua e, com isso, predizem, de forma estocástica (probabilística), a próxima palavra com alta precisão. De forma um pouquinho mais técnica, os LLMs (grandes modelos de linguagem como ChatGPT) de hoje são autorregressivos, ou seja, produzem cada palavra com base nas anteriores, em um processo de predição sequencial. É por isso que soam fluidos e úteis; é também por isso que podem cometer erros com confiança e, portanto, de modo convincente. Se faltam ancoragens estruturais e modelos internos do mundo, a sequência mais provável nem sempre é a mais verdadeira.

Para avançar rumo à generalização ampla, não bastam mais dados. Precisamos de sistemas que construam representações internas mais estruturadas, composicionais e lógicas; que aprendam a intervir e não só correlacionar; que sustentem planos ao longo do tempo; que integrem diferentes modalidades (texto, imagem, ação) com semântica compartilhada.

Um dos maiores pesquisadores e cientista chefe da pesquisa de IA da empresa Meta, Yann LeCun, dá sua opinião. Para avançar rumo à AGI, Yann LeCun defende superar LLMs autorregressivos baseados em predição sequencial, insuficientes para raciocínio causal. O caminho exige construir modelos de mundo estruturados, composicionais e causais, capazes de aprender intervenções e não apenas correlações. Esses sistemas devem integrar múltiplas modalidades (visão, linguagem, ação) em semântica compartilhada, com memória persistente e planejamento hierárquico ao longo do tempo. Arquiteturas como JEPA, que operam em espaços latentes, são promissoras para capturar relações essenciais e suportar simulação contrafactual. O objetivo é eficiência de aprendizado próxima à humana por experiência incorporada ativa, em vez de escalar apenas dados textuais. Essa revolução arquitetural — priorizando causalidade, planejamento e multimodalidade — pode romper as limitações reativas dos modelos atuais.

E para a economia, o trabalho e a sua organização?

Toda essa conversa tem implicações práticas. Se medimos capacidades de forma cuidadosa, conseguimos mapear onde a aplicação de IA é madura, como redistribuir tarefas entre humanos e máquinas e o que precisa de novos processos. Em vez de prometer “AGI para tudo”, perguntamos: quais fluxos de trabalho já se beneficiam de competências disponíveis (resumos, rascunhos, protótipos de código, análise de casos repetitivos)? Quais exigem supervisão humana, novos controles de qualidade e evidências de factualidade? Quais dependem de generalização que ainda não temos?

Para laboratórios de inovação, isso orienta pilotos mais realistas, métricas mais honestas e portfólios que equilibram ganhos rápidos com apostas estruturantes. O caminho é menos sobre slogans e mais sobre capacidade comprovada em contexto.

🔍 Conteúdo de parceiro
Este conteúdo foi produzido por um parceiro do LIIA. As informações e opiniões aqui apresentadas são de responsabilidade exclusiva do autor

*O LabInova, Laboratório de Inovação da Agência Brasileira de Inteligência (ABIN), é vinculado à Escola de Inteligência (ESINT) e dedicado a desenvolver soluções criativas, experimentar novas abordagens analíticas para apoiar a evolução da atividade de inteligência. Ele integra pessoas, processos e tecnologias para testar ferramentas, aprimorar produtos e fortalecer uma cultura institucional baseada em inovação, colaboração e aprendizado contínuo.

Portal ENAP

Policy Brief

Capacidades dos modelos de Inteligência Artificial: o que realmente importa

Benchmarks: o termômetro (imperfeito) do progresso

AGI: ambição, disputa e narrativa

Uma proposta de mapa: desempenho e generalidade

Habilidade, inteligência e o teste que engana

Uma escala para falar de generalização

O que um LLM faz — e o que falta fazer

E para a economia, o trabalho e a sua organização?

O nosso site usa cookies

Configurações avançadas de cookies

Ver Declaração de Cookies

Cookies estritamente necessários

Cookies de funcionalidade

Cookies de medição e desempenho

Cookies de segmentação e publicidade