BEYOND SELF-PLAY: NEURO-SYMBOLIC COUNTERPLAYS THAT CHALLENGE AI’S “INTELLIGENCE”
REGISTRO DOI: 10.69849/revistaft/ch10202512122125
Caio Antônio Correia de Paula Fernandes1
Jefferson de Oliveira Silva2
Resumo
Sistemas de inteligência artificial (IA) treinados por self-play, como o AlphaGo, demonstram desempenho sobre-humano em domínios fechados, mas revelam uma fragilidade crítica em face de contrajogadas imprevistas e estratégias adversariais fora de sua distribuição de treinamento. Este position paper identifica e analisa essa vulnerabilidade, aqui denominada robustness gap, argumentando que a dependência exclusiva de aprendizado estatístico via self-play resulta em agentes especializados, porém incapazes de generalizar para situações de imprevisibilidade ou ruído. Propomos como solução a integração de um Crítico Simbólico Adversarial (CSA) no ciclo de treinamento. Este módulo neurosimbólico introduz contrajogadas e impõe invariantes formais, enriquecendo o repertório estratégico do agente e conferindo robustez e explicabilidade à sua política de aprendizado. Defenderemos que a combinação entre a plasticidade das redes neurais e o rigor da representação simbólica não apenas supera limitações fundamentais do self-play, mas também avança a agenda de pesquisa em IA no que tange à avaliação de desempenho no pior caso, à interpretabilidade e à implantação ética em ambientes de alto risco.
Palavras-chave: Redes neurais. Neurosimbólico. Contrajogada. Explicabilidade.
1 INTRODUÇÃO
Sistemas de inteligência artificial (IA) treinados por self-play (i.e., jogar contra si mesmo) atingem desempenho excepcional em domínios fechados, como Go, xadrez e StarCraft. Porém, tendem a colapsar diante de adversários que exploram estratégias fora da distribuição de treinamento. Esta fragilidade, que denominamos robustness gap, expõe uma limitação fundamental: agentes que otimizam vitórias contra si mesmos desenvolvem políticas altamente especializadas, mas pouco capazes de lidar com imprevisibilidade genuína. A questão não é apenas técnica. À medida que sistemas de IA migram de ambientes simulados para aplicações de alto risco, como diagnóstico médico, mercados financeiros e veículos autônomos, a incapacidade de resistir a perturbações adversariais torna-se uma vulnerabilidade crítica. O caso mais emblemático dessa assimetria ocorreu em março de 2016, quando Lee Sedol, campeão mundial de Go, enfrentou o sistema AlphaGo (SILVER et al., 2016). No segundo jogo, a jogada 37 do AlphaGo, inicialmente interpretada como erro pelos comentaristas, mostrou-se decisiva para a vitória. Era uma estratégia improvável para o raciocínio humano convencional. No quarto jogo, porém, Sedol respondeu com o movimento 78, a chamada “Jogada Divina”. A contrajogada, estatisticamente rara, expôs uma fraqueza inesperada no sistema e resultou na única derrota da máquina na série (SILVER et al., 2016). O episódio revelou um paradoxo: o mesmo agente capaz de gerar estratégias inovadoras mostrou-se incapaz de se defender contra inovação adversarial.
Essa tensão não é acidental. O paradigma de self-play, consolidado por trabalhos como o Deep Q-Network para jogos de Atari (MNIH et al., 2013), pelo AlphaGo (SILVER et al., 2016) e pelo AlphaZero (SILVER et al., 2017), apoia-se na ideia de que adversários suficientemente diversos surgem naturalmente da competição entre versões sucessivas do mesmo agente. A promessa é sedutora: autonomia completa, descoberta de estratégias não óbvias e ausência de supervisão humana. Os resultados, de fato, são impressionantes em ambientes controlados. No entanto, essa autonomia produz um tipo peculiar de especialização: o agente converge para um repertório que maximiza vitórias dentro de uma distribuição específica de comportamentos adversariais — a sua própria.
Quando essa distribuição é violada, o desempenho se deteriora. Gleave et al. (2020) demonstraram que políticas adversariais simples, treinadas para explorar vulnerabilidades, alcançam taxas de vitória superiores a 70% contra agentes sofisticados de self-play em diversos domínios. Stevens e Pradhan (2016) mostraram que agentes de Tetris frequentemente adotam políticas defensivas focadas em evitar a derrota imediata. Essas políticas entram em colapso diante de sequências raras de peças ou pequenas anormalidades do ambiente, situações que jogadores humanos intermediários costumam manejar sem dificuldade. A literatura converge para a mesma conclusão: excelência em condições ideais coexiste com fragilidade diante de adversarialidade deliberada ou ruído ambiental modesto.
O robustness gap não decorre de limitações de hardware ou de arquiteturas neurais específicas. Trata-se de uma limitação metodológica. Treinar um agente apenas contra si mesmo maximiza o desempenho médio, mas negligencia o desempenho no pior caso. O agente nunca enfrenta, durante o treinamento, um adversário cujo objetivo principal seja explorar sistematicamente suas vulnerabilidades. Também não enfrenta variações mínimas de regras, anomalias raras do ambiente ou estratégias válidas que se situam na cauda da distribuição. Consequentemente, aprende a vencer, mas não a resistir.
Este trabalho propõe integrar mecanismos neurosimbólicos ao ciclo de self-play para reduzir sistematicamente essa lacuna. Defendemos a incorporação de um Crítico Simbólico Adversarial (CSA), um módulo híbrido que combina representações formais com a capacidade de gerar contrajogadas deliberadas. O CSA atua em três eixos: cria adversários sintéticos projetados para explorar vulnerabilidades conhecidas, impõe invariantes formais que asseguram consistência estrutural das políticas aprendidas e fornece explicações auditáveis sobre falhas, traduzindo colapsos estatísticos em diagnósticos simbólicos interpretáveis.
A ideia de combinar elementos simbólicos e neurais não é nova. A contribuição aqui está em seu uso estratégico como gerador de diversidade adversarial durante o treinamento, e não apenas como verificador pós-hoc. A plasticidade das redes neurais continua presente: milhões de partidas, exploração massiva do espaço de estados e descoberta de padrões não óbvios. Mas essa exploração passa a ser tensionada por contrajogadas que o self-play puro dificilmente produziria espontaneamente, como estratégias raras, formas de sabotagem ou violações sutis de expectativas estatísticas.
A contribuição deste position paper é tripla. Primeiro, articulamos o robustness gap como uma limitação metodológica do self-play, e não como fragilidade contingente de arquiteturas específicas. Segundo, propomos o CSA como framework para integrar crítica simbólica ao treinamento por reforço, descrevendo modelos de integração, formas de representar conhecimento simbólico e sua relação com abordagens puramente estatísticas. Terceiro, discutimos implicações técnicas e éticas, argumentando que robustez adversarial e interpretabilidade não são opcionais, mas requisitos para a implantação responsável de sistemas autônomos em ambientes de alto risco, especialmente à luz de marcos regulatórios como o AI Act da União Europeia (REGULATION (EU) 2024/1689, 2024).
O artigo está organizado da seguinte forma. A Seção 2 revisa as origens do self-play, sua consolidação como paradigma dominante e as evidências empíricas de suas limitações, incluindo o papel da contrajogada em jogos digitais. A Seção 3 apresenta o framework do CSA, descrevendo modelos de integração, formas de representar conhecimento formal e a complementaridade com técnicas alternativas de robustez. A Seção 4 discute implicações para avaliação no pior caso, interpretabilidade de falhas e implantação ética, delineando uma agenda de pesquisa. A Seção 5 sintetiza a argumentação e suas limitações.
Nosso objetivo não é abandonar o self-play, cujos sucessos são inegáveis, mas questionar sua suficiência. A questão já não é se agentes de IA podem vencer humanos em jogos, mas se conseguem resistir a humanos que tentam derrotá-los de formas inesperadas. A diferença é sutil, porém decisiva. Ela separa sistemas que funcionam em laboratório daqueles que sobrevivem no mundo real.
2 REFERENCIAL TEÓRICO
A ideia de treinar agentes artificiais por meio de jogos remonta às primeiras décadas da pesquisa em inteligência artificial. Em 1959, Arthur Samuel utilizou o jogo de damas como laboratório para o aprendizado automático, introduzindo conceitos que antecipariam, décadas depois, o que hoje chamamos de aprendizado por reforço (SAMUEL, 1959). O xadrez consolidou-se posteriormente como campo de experimentação privilegiado, culminando no Deep Blue da IBM, que em 1997 derrotou Garry Kasparov (CAMPBELL; HOANE JR.; HSU, 2002). Embora notável, esse feito dependia de árvores de busca massivas, heurísticas programadas por especialistas humanos e grande poder computacional. O sistema não aprendia autonomamente; apenas calculava mais rápido do que o adversário humano.
O self-play surge como contraponto a essa tradição simbólica. Em vez de depender de conhecimento humano codificado, agentes podem aprender jogando repetidamente contra versões anteriores de si mesmos, refinando políticas a cada vitória ou derrota. Essa transição inaugura uma etapa em que a autonomia do aprendizado se torna central e a necessidade de supervisão humana diminui progressivamente. A consolidação do aprendizado por reforço profundo trouxe nova vida a essa abordagem. O trabalho da DeepMind em jogos de Atari (MNIH et al., 2013) demonstrou que agentes podiam atingir desempenho humano em dezenas de jogos diferentes usando apenas pixels da tela e recompensas de pontuação como entradas. A política era refinada continuamente por meio de interações com o ambiente, permitindo que estratégias emergissem sem instruções explícitas.
Esses experimentos marcaram uma virada metodológica. Pela primeira vez, uma única arquitetura neural superou humanos em múltiplos domínios com regras distintas, sem instruções específicas. As limitações, no entanto, logo ficaram claras. Os agentes performavam melhor em jogos com padrões cíclicos e previsíveis, mas apresentavam dificuldades em títulos que exigiam estratégias de longo prazo ou adaptação a eventos pouco frequentes. Essa assimetria entre excelência média e fragilidade diante de situações atípicas se tornaria ainda mais evidente em ambientes de maior complexidade.
O auge do self-play ocorreu com a criação do AlphaGo, que em 2016 derrotou o campeão mundial Lee Sedol no jogo de Go (SILVER et al., 2016). O sistema combinava três componentes integrados: uma policy network para sugerir jogadas promissoras, uma value network para avaliar posições e um Monte Carlo Tree Search para explorar cenários de forma guiada pelas redes. O feito foi histórico. Pela primeira vez, um jogo com complexidade combinatória praticamente intratável para busca exaustiva foi dominado por uma máquina. Ainda assim, os próprios embates revelaram ambivalências significativas. A jogada 37 do segundo jogo, inicialmente vista como erro, mostrou a capacidade criativa do modelo ao surpreender Sedol e garantir a vitória. No quarto jogo, porém, Sedol devolveu a imprevisibilidade com a “Jogada Divina”, explorando uma vulnerabilidade inesperada do AlphaGo e demonstrando que mesmo um sistema sobre-humano podia ser derrotado por uma contrajogada rara.
O sucessor AlphaZero radicalizou essa abordagem ao treinar do zero, sem dados humanos, alcançando desempenho superior em Go, xadrez e shogi apenas por self-play (SILVER et al., 2017). A mesma limitação, porém, persistiu: excelência em ambientes fechados não garantia robustez diante de adversários criativos ou variações imprevistas de regras. Outros casos reforçam essa vulnerabilidade estrutural. No Tetris, agentes de reforço profundo tendem a desenvolver políticas defensivas focadas em evitar derrotas imediatas, o que funciona até certo ponto, mas falha diante de glitches, alterações de regras ou sequências imprevisíveis de peças. Jogadores humanos intermediários lidam com essas situações com bem mais flexibilidade (STEVENS; PRADHAN, 2016). Experimentos de Gleave et al. (2020) reforçam esse diagnóstico: políticas adversariais simples, treinadas para explorar vulnerabilidades, alcançaram mais de 70% de vitórias contra agentes sofisticados de self-play. Em todos os casos, bastou um adversário com comportamento inesperado, mas ainda válido, para explorar falhas profundas das políticas aprendidas.
Essa vulnerabilidade sistemática pode ser compreendida por meio do conceito de contrajogada, definida como ação que subverte expectativas convencionais sobre como um jogo deve ser jogado, explorando regras de maneiras alternativas (MEADES, 2015). A contrajogada não envolve trapaça ou violação de regras; ela explora possibilidades válidas, mas invisíveis para a estratégia dominante. Em videogames, essa dinâmica evidencia seu caráter midialógico como sistemas de significação, nos quais jogadores interpretam e reconfiguram elementos mecânicos e simbólicos do jogo (CONSALVO, 2005), muitas vezes gerando ramificações não antecipadas pelos desenvolvedores (GILBERT, 2020).
O caso do Tetris é especialmente instrutivo. Entre 2020 e 2024, a cena competitiva descobriu técnicas que transformaram radicalmente a forma como os melhores jogadores interagem com suas mecânicas. Práticas como virar o controle para aumentar a precisão dos botões e escolher níveis iniciais específicos permitiram superar limites aparentemente intransponíveis. A descoberta mais marcante foi a extrapolação do limite programático de níveis, em que as peças passam a exibir aberrações cromáticas e comportamentos inesperados, criando um ambiente nunca previsto pelos desenvolvedores originais (SALT, 2024). Essas inovações humanas decorrem, sobretudo, da disposição de explorar adversidades, anomalias e situações de cauda da distribuição para compreender o sistema em profundidade.
Essa comparação não busca estabelecer superioridade do aprendizado humano sobre o de máquina, mas ressaltar a importância de expor agentes artificiais a adversidades sistemáticas durante o treinamento. O ponto central é a capacidade de lidar com imprevisibilidade genuína, seja ela causada por variações ambientais, problemas de programação ou estratégias adversariais deliberadas. Agentes treinados exclusivamente por self-play convergem para um repertório que maximiza vitórias dentro de sua própria distribuição de comportamentos adversariais. Quando essa distribuição é violada, o desempenho se deteriora rapidamente.
Chamamos essa assimetria de robustness gap: a diferença mensurável entre o desempenho de um agente em sua distribuição de treinamento e seu desempenho diante de estratégias adversariais deliberadas ou variações ambientais raras. Essa lacuna evidencia uma assimetria fundamental entre especialização estatística e generalização robusta. O fenômeno decorre diretamente do mecanismo do self-play: ao enfrentar apenas versões de si mesmo, o agente converge para um espaço de estratégias cada vez mais homogêneo. Jogadas raras ou estilos atípicos permanecem subexplorados e, muitas vezes, invisíveis para a política aprendida. Quando confrontado com um oponente humano ou um agente adversarial que recorre a estratégias inesperadas, o modelo frequentemente carece de recursos para responder de forma adequada.
A consequência é dupla. Por um lado, temos agentes que parecem inteligentes e até criativos, mas cuja autonomia se limita a ambientes altamente controlados. Por outro, cresce o risco de antropomorfização, isto é, de atribuir intenção ou compreensão a sistemas que apenas maximizam padrões estatísticos dentro de limites estreitos. O robustness gap envolve, portanto, implicações epistemológicas e éticas, ao alimentar expectativas irreais sobre a inteligência das máquinas. Reconhecer essa lacuna é o primeiro passo para superá-la. A questão que se coloca não é se o self-play funciona — seus resultados são incontestáveis —, mas como ampliar seu escopo para lidar com contrajogadas genuínas e ambientes menos controlados. É nesse contexto que propomos integrar mecanismos simbólicos como críticos adversariais ao ciclo de treinamento, capazes de gerar diversidade estratégica e impor invariantes formais sem abrir mão das vantagens da exploração estatística massiva.
3 METODOLOGIA
Reconhecer o robustness gap não significa renunciar ao self-play, mas sim assumir que ele, sozinho, não basta. Nossa proposta é integrar ao ciclo de treinamento um módulo neurosimbólico — o Crítico Simbólico Adversarial (CSA) — capaz de tensionar o aprendizado em duas frentes: (i) introduzindo contrajogadas raras ou improváveis, que dificilmente emergiriam da pura exploração estatística, e (ii) impondo invariantes formais que funcionam como critérios de sanidade, impedindo que a política aprenda comportamentos absurdos do ponto de vista das regras do jogo.
O CSA não substitui a estatística neural, mas a disciplina. Enquanto o self-play tradicional maximiza o desempenho médio através de milhões de partidas autoconsistentes, o CSA injeta sistematicamente situações adversariais e verifica propriedades estruturais, forçando o agente a desenvolver robustez no pior caso sem sacrificar sua capacidade exploratória.
3.1 Arquitetura e Capacidades do CSA
O CSA é composto por três módulos integrados que operam durante o ciclo de treinamento:
Gerador Adversarial: Responsável por criar oponentes sintéticos ou modificar condições ambientais com base em um banco de padrões adversariais. Diferentemente de um oponente aleatório ou de um clone do agente principal, o gerador adversarial busca maximizar a exposição de vulnerabilidades conhecidas. Cada padrão no banco representa uma classe de situações raras mas válidas: aberturas táticas incomuns, sequências de eventos de baixa probabilidade, ou configurações limítrofes do espaço de estados.
Verificador de Invariantes: Atua como auditor em tempo real, monitorando trajetórias de jogo e detectando violações de regras formais. Essas regras não são apenas as mecânicas básicas do jogo (legalidade de movimentos), mas também propriedades estratégicas de alto nível que um agente competente deveria respeitar. Por exemplo, em Go, uma invariante pode ser “nunca ignorar ameaça de captura em grupo com mais de 5 pedras”; no Tetris, “nunca bloquear completamente a coluna central antes do nível 15”. Quando uma violação é detectada, o verificador sinaliza a falha e pode modificar a recompensa da transição correspondente.
Explicador Simbólico: Traduz falhas detectadas em diagnósticos interpretáveis. Em vez de simplesmente indicar que o agente perdeu ou recebeu recompensa negativa, o explicador identifica a causa estrutural: qual invariante foi violado, em que estado do jogo, e qual seria a resposta esperada segundo o conhecimento simbólico codificado. Essa capacidade é crucial para auditoria e depuração, permitindo que pesquisadores compreendam não apenas que o agente falhou, mas por que falhou.
A Figura 1 ilustra o ciclo completo de integração:

Figura 1. Integração do CSA no ciclo de self-play com aprendizado por reforço.
3.2 Modelos de Integração no Ciclo de Treinamento
O CSA pode ser integrado ao self-play de três formas distintas, cada uma adequada a diferentes objetivos de robustez.
3.2.1 Adversário de Liga
No modelo de adversário de liga, o CSA atua como um oponente especial no pool de competidores. Durante o treinamento, o agente alterna entre partidas de self-play tradicional e confrontos contra o CSA, controlados por uma taxa de injeção τ (tipicamente 0.1 ≤ τ ≤ 0.3). Enquanto o self-play puro garante exploração massiva do espaço de estratégias, o CSA força o agente a lidar com estilos de jogo deliberadamente atípicos.
Exemplo concreto: Go com aberturas raras: Considere um agente de Go treinado por 10.000 partidas com τ = 0.2. Isso implica 8.000 partidas de self-play convencional e 2.000 confrontos contra o CSA. O CSA consulta um banco de padrões contendo 15 aberturas históricas raras, extraídas de corpora como o KGS Dataset e o GoGoD. Entre elas:

O agente neural, ao enfrentar repetidamente essa abertura via CSA, é obrigado a desenvolver respostas específicas que raramente seriam necessárias contra si mesmo. Crucialmente, o CSA não precisa vencer essas partidas — basta que exponha as lacunas estratégicas do agente. Cada derrota para uma abertura rara é um sinal de aprendizado sobre vulnerabilidades estruturais, não apenas sobre erros táticos pontuais.
A taxa τ funciona como hiperparâmetro de robustez: valores baixos (τ ≈ 0.1) preservam eficiência exploratória do self-play; valores altos (τ ≈ 0.4) maximizam diversidade adversarial ao custo de convergência mais lenta. Experimentos futuros deverão calibrar esse equilíbrio empiricamente.
3.2.2 Gerador de Ambientes e Supervisor de Recompensa
Como gerador de ambientes, o CSA modifica condições iniciais antes da partida sem alterar as regras do jogo. No Tetris, pode enviesar a distribuição de peças para aumentar a frequência de sequências problemáticas (e.g., quatro peças “S” consecutivas). No xadrez, pode propor posições iniciais atípicas que testam conhecimento tático específico. Essa abordagem é particularmente útil em domínios onde variações ambientais são naturalmente possíveis.
Como supervisor de recompensa, o CSA observa trajetórias em tempo real e penaliza violações de invariantes. Por exemplo, se um agente de xadrez move o rei para uma casa atacada (violando never_self_check()), o supervisor aplica penalidade de -10 na recompensa imediata, mesmo que a partida continue. Essa intervenção corrige o curso do aprendizado sem depender de que o agente eventualmente descubra o erro por amostragem estatística.
Esses três papéis (adversário, gerador e supervisor) não são mutuamente excludentes. Em implementações avançadas, podem ser combinados: o CSA atua como adversário em 20% das partidas e como supervisor em 100% delas, criando um regime de treinamento onde diversidade adversarial e auditoria formal coexistem.
3.3 Especificação do Conhecimento Simbólico
O poder do CSA reside na qualidade e estrutura de seu conhecimento formalizado, organizado em dois componentes complementares.
3.3.1 Banco de Padrões Adversariais
Padrões adversariais são situações ou estratégias raras mas válidas, representadas como tuplas <situação, resposta_esperada, metadados>. A estrutura de dados é simples, mas expressiva:

O banco é construído por curadoria manual (análise de partidas históricas, consulta a especialistas) ou síntese automática (mineração de situações onde agentes de self-play colapsaram). Para Go, bases como KGS (TIAN et al., 2016) e GoGoD (WALRAVEN; HALL; FAIRBAIRN, 2024) fornecem milhões de partidas humanas; para domínios sem corpora ricos, técnicas de geração adversarial (e.g., síntese via busca guiada por falhas) podem ser empregadas.
3.3.2 Invariantes Formais
Invariantes são propriedades que um agente competente deve sempre respeitar, expressas como predicados verificáveis sobre estados ou transições:

Quando uma violação é detectada, o verificador registra o evento e o explicador gera um diagnóstico:

Essa explicabilidade é impossível em abordagens puramente estatísticas, onde falhas são sinalizadas apenas como quedas de recompensa sem contexto estrutural.
3.4 Por Que Simbólico? Por Que Adversarial?
Críticos podem argumentar que técnicas puramente estatísticas (domain randomization, population-based training, adversarial RL) já introduzem diversidade sem necessidade de módulos simbólicos. Por que complicar?
A resposta está em três vantagens complementares do CSA:
Eficiência de cobertura: Esperar que um agente descubra por amostragem aleatória uma vulnerabilidade tática rara (frequência < 0.1%) é estatisticamente ineficiente. São necessárias milhares de partidas para uma única exposição. O CSA injeta diretamente essas situações, acelerando a cobertura do espaço de vulnerabilidades. É a diferença entre busca exaustiva e busca guiada.
Generalização por abstração: Quando uma rede neural aprende a defender uma “escada” específica no quadrante superior direito de um tabuleiro de Go, ela aprendeu uma instância. Quando o CSA impõe a invariante verificar_saídas_escada_antes_atachi(), o agente aprende a classe inteira de situações similares, independentemente de posição ou rotação. Símbolos abstraem; estatística particulariza.
Auditabilidade: Quando um agente falha, o CSA diagnostica: “Falha: ignorou ameaça de ko no canto superior direito, violando invariante de resposta a grupos em perigo”. Redes neurais puramente estatísticas podem, no máximo, indicar perplexidade alta ou queda de value function. A diferença é entre explicação estrutural e opacidade.
A Tabela 1 sintetiza essa comparação:
Tabela 1: Comparação entre abordagens de treinamento robusto. Din = distribuição de treino; Dadv = distribuição adversarial.

O CSA não substitui a exploração estatística massiva — ele a orienta, garantindo que milhões de partidas não sejam desperdiçados em regiões do espaço de estratégias já bem cobertas, enquanto vulnerabilidades sistemáticas permanecem invisíveis.
3.5 Considerações de Viabilidade e Limitações
A implementação prática do CSA envolve decisões de engenharia e trade-offs conhecidos. Três questões centrais:
Construção do banco de padrões: Padrões adversariais podem ser extraídos de (i) análise de partidas históricas humanas, (ii) consulta a especialistas de domínio, ou (iii) mineração de situações onde agentes de self-play apresentaram colapso documentado. Para Go, o KGS Dataset oferece milhões de partidas anotadas; para domínios sem corpora ricos, síntese automática via busca adversarial pode ser necessária. O custo de curadoria manual não é trivial, mas é investimento único por domínio.
Calibração da taxa de injeção: A proporção τ entre partidas de self-play e confrontos com o CSA deve ser ajustada empiricamente. Valores muito altos prejudicam a exploração estatística; valores muito baixos não geram diversidade suficiente. Abordagens de curriculum learning — aumentar τ progressivamente conforme o agente amadurece — podem balancear esses objetivos.
Custos computacionais: O CSA adiciona overhead ao ciclo de treinamento: verificação de invariantes a cada transição, geração de adversários via consulta ao banco, e produção de explicações. Estimativas preliminares sugerem acréscimo de 20-30% no tempo de treinamento. Esse custo é compensado por convergência mais robusta e redução de falhas em implantação.
Limitações reconhecidas: Este trabalho apresenta um framework conceitual, não uma implementação validada em larga escala. Experimentos futuros devem quantificar empiricamente a redução do robustness gap, comparar diferentes estratégias de construção de bancos de padrões, e avaliar transferibilidade entre domínios (e.g., de Go para StarCraft). A escalabilidade para ambientes contínuos de alta dimensão (robótica, veículos autônomos) permanece questão em aberto.
4 IMPLICAÇÕES E AGENDA DE PESQUISA
Integrar um Crítico Simbólico Adversarial ao ciclo de self-play não é apenas um ajuste metodológico. Trata-se de uma mudança conceitual na forma de desenvolver e avaliar sistemas de inteligência artificial, especialmente aqueles destinados a ambientes onde a imprevisibilidade é constitutiva. As implicações desse deslocamento emergem em três dimensões interligadas: técnica, epistemológica e ético-social.
4.1 Redefinindo Robustez: do Desempenho Médio ao Pior Caso
A pesquisa em aprendizado por reforço historicamente privilegia métricas de desempenho médio, como taxa de vitória, recompensa acumulada ou classificação Elo. Essas medidas capturam competência em condições esperadas, mas ocultam vulnerabilidades estruturais. Um agente pode vencer 95% das partidas contra versões anteriores de si mesmo e ainda colapsar diante de um adversário humano intermediário que adote estratégias atípicas. Esse contraste mostra que excelência estatística não se traduz automaticamente em resiliência. O CSA desloca a avaliação para o desempenho no pior caso. Passam a importar questões como: “qual a taxa de vitória contra agentes treinados especificamente para explorar falhas?” ou “como o desempenho se degrada diante de pequenas variações de regras ou condições iniciais?”. Essa reorientação é mais do que técnica: ela reconhece que sistemas autônomos precisam funcionar não apenas em laboratórios controlados, mas em contextos reais onde adversarialidade, ruído e imprevisibilidade são a norma, não a exceção.
A estrutura simbólica do CSA também permite detectar modos de falha muito antes da implantação. Em sistemas puramente estatísticos, vulnerabilidades profundas costumam só aparecer em testes avançados ou na operação real, frequentemente com custos elevados. A verificação contínua de invariantes funciona como sistema de alerta precoce: um agente de Go que sistematicamente ignora ameaças de captura em grupos grandes pode ser identificado e corrigido milhares de partidas antes de enfrentar competidores humanos. Esse diagnóstico antecipado reduz substancialmente os riscos associados à implantação de sistemas de aprendizado profundo em ambientes críticos.
Esse ganho de robustez tem custo computacional. Verificação de invariantes, consulta ao banco de padrões e geração de explicações adicionam aproximadamente 20–30% ao tempo de treinamento. No entanto, esse overhead deve ser contextualizado: em aplicações onde uma única falha catastrófica pode resultar em consequências financeiras graves, danos reputacionais irreparáveis ou, em domínios como saúde e transporte, risco de vida, o investimento em robustez durante o treinamento é plenamente justificável. A questão não é se o CSA adiciona complexidade, mas se essa complexidade é proporcional aos riscos que mitiga.
Há ainda uma vantagem menos evidente: conhecimento simbólico é transferível entre domínios. Como padrões adversariais e invariantes são expressos de forma abstrata, podem ser adaptados a novos ambientes com modificações mínimas. Uma invariante como “evitar bloqueio total de rotas de fuga sem compensação estratégica clara” tem relevância tanto em Go quanto em jogos de estratégia em tempo real, e potencialmente em domínios como navegação robótica. Essa reutilização de conhecimento formal contrasta fortemente com a opacidade de modelos puramente estatísticos, onde transfer learning permanece desafio empírico sem garantias teóricas e frequentemente requer retreinamento extensivo.
4.2 Inteligência, Compreensão e os Limites da Antropomorfização
A proposta do CSA toca uma questão epistemológica central: o que significa para um sistema artificial “compreender” um domínio? Agentes treinados unicamente por self-play otimizam uma função objetiva específica — maximizar vitórias contra si mesmos — e, no processo, produzem comportamentos surpreendentes, como a jogada 37 do AlphaGo. No entanto, otimizar desempenho não é o mesmo que compreender estruturas profundas. O agente não “sabe” por que certas jogadas são proibidas, quais princípios estratégicos sustentam padrões de vitória ou como regras formais delimitam o espaço de ações válidas. Ele apenas maximiza recompensas dentro de uma distribuição estatística particular.
Quando estratégias humanas raras, como a “Jogada Divina” de Lee Sedol, provocam colapso no sistema, fica evidente que a aparente criatividade é artefato estatístico, não insight genuíno. A máquina não compreendeu Go em sentido profundo; ela dominou uma faixa específica do espaço estratégico e se mostrou incapaz de generalizar além dela. Essa distinção retoma debates filosóficos clássicos sobre competência comportamental versus compreensão genuína, mas ganha urgência prática renovada: à medida que sistemas de IA são implantados em contextos sociais, confundir desempenho com compreensão alimenta expectativas irrealistas que, quando violadas, geram desconfiança pública e resistência à tecnologia.
O CSA oferece antídoto conceitual a essa antropomorfização. Invariantes simbólicas tornam explícitos os princípios que um agente competente deveria respeitar, independentemente de sua arquitetura neural. Quando o explicador simbólico diagnostica que o agente violou a regra “não mover o rei para uma casa atacada”, ele não está apenas racionalizando um erro estatístico, mas identificando uma falha estrutural na compreensão das regras do xadrez. Essa explicitação ajuda a reposicionar sistemas de IA como ferramentas sofisticadas que operam por aproximação, não como agentes dotados de intencionalidade ou insight comparáveis aos humanos.
A explicabilidade introduzida pelo CSA é, ademais, arquitetural e não pós-hoc. Enquanto técnicas como LIME ou SHAP tentam extrair justificativas de modelos opacos após o treinamento, o CSA incorpora explicações como parte constitutiva do processo de aprendizado. As invariantes simbólicas não são racionalizações retroativas; são critérios formais que moldam a política desde o início, garantindo que os diagnósticos gerados estejam estruturalmente alinhados com o comportamento aprendido. Essa integração profunda entre aprendizado e interpretabilidade oferece base mais sólida para auditoria do que abordagens que tratam transparência como problema separado da competência técnica.
Finalmente, quando falhas são apresentadas em termos de invariantes violadas e padrões adversariais não cobertos, torna-se claro que o sistema não “entende” o domínio da forma que humanos entendem. Ele opera por aproximação estatística disciplinada por restrições formais, mas sem compreensão semântica ou intencional das estruturas que manipula. Essa clareza conceitual é crucial para debates públicos sobre capacidades e limitações da IA, ajudando a evitar tanto o hype excessivo quanto o pânico injustificado.
4.3 Responsabilidade, Adversarialidade e Implantação Ética
As dimensões técnica e epistemológica convergem em questões éticas cada vez mais urgentes. À medida que sistemas de IA migram de laboratórios para aplicações de alto impacto — saúde, finanças, transporte, justiça criminal —, a diferença entre desempenho médio e desempenho no pior caso deixa de ser abstração acadêmica e se torna questão de segurança pública e responsabilidade social.
Considere um sistema de diagnóstico por imagem com 98% de acurácia em condições controladas de laboratório, mas vulnerável a variações de iluminação, artefatos de compressão ou padrões clínicos raros. Essa fragilidade não é apenas limitação técnica — é falha ética inaceitável. Pacientes reais não se distribuem segundo as conveniências estatísticas dos conjuntos de treinamento; casos atípicos, raros e adversariais não são anomalias a serem ignoradas, mas realidades operacionais que o sistema precisa antecipar. O CSA oferece mecanismos para sistematicamente identificar e endereçar esses modos de falha antes da implantação, reduzindo riscos para populações vulneráveis.
Além de variações naturais, ambientes reais incluem adversários maliciosos que deliberadamente exploram vulnerabilidades de sistemas automatizados. Manipulação algorítmica coordenada em mercados financeiros, patches adversariais projetados para enganar sistemas de reconhecimento facial, adulteração de sinalização para confundir veículos autônomos — todos são exemplos de ataques que exploram sistemas treinados apenas em condições “limpas”. Esses adversários não jogam “de acordo com as regras implícitas” da distribuição de treinamento; eles buscam ativamente violar expectativas estatísticas para obter vantagem. O paradigma de self-play puro não prepara agentes para esse tipo de ameaça. O CSA, ao incorporar adversários sintéticos e padrões de exploração durante o treinamento, assume desde o início que adversarialidade deliberada faz parte do ambiente operacional real, não exceção a ser tratada posteriormente.
A crescente demanda por IA auditável, expressa em regulações como o AI Act europeu (REGULATION (EU) 2024/1689, 2024) e propostas similares em outras jurisdições, exige que sistemas críticos sejam inspecionáveis por terceiros independentes. Explicações simbólicas geradas pelo CSA oferecem material auditável: reguladores, pesquisadores independentes e público informado podem examinar quais invariantes foram impostas, quais padrões adversariais foram testados e como o agente respondeu a situações limítrofes. Essa transparência estrutural contrasta fortemente com a opacidade de modelos puramente estatísticos, cuja lógica interna permanece inacessível mesmo para especialistas, dificultando supervisão democrática sobre tecnologias de alto impacto social.
Embora o foco deste trabalho não seja explicitamente viés algorítmico, a metodologia proposta tem implicações diretas para justiça algorítmica. Padrões adversariais podem incluir situações que expõem discriminação sistemática — um sistema de recrutamento que desfavorece candidatos com nomes associados a minorias étnicas, ou um algoritmo de concessão de crédito que penaliza residentes de determinados bairros. Ao formalizar esses casos como invariantes a serem respeitadas durante o treinamento (“nunca penalizar indivíduos com base exclusivamente em atributos protegidos”), o CSA pode funcionar como mecanismo de auditoria contínua, identificando e corrigindo vieses antes da implantação, não apenas diagnosticando-os após danos já terem sido causados a indivíduos e comunidades.
4.4 Agenda de Pesquisa
Como framework primordialmente conceitual, o CSA abre múltiplas frentes de investigação que conectam desafios técnicos, questões teóricas e imperativos éticos. Os próximos passos incluem validação empírica rigorosa, expansão para novos domínios e aprofundamento das bases formais da abordagem.
A validação mais imediata consiste em implementar o CSA em benchmarks consolidados — Go, xadrez, Tetris, jogos de estratégia em tempo real — e mensurar quantitativamente a redução do robustness gap. Métricas relevantes incluem taxa de vitória contra políticas adversariais especificamente treinadas para explorar vulnerabilidades, tempo médio até primeira falha catastrófica sob perturbações ambientais e cobertura do espaço de vulnerabilidades conhecidas. Esses experimentos não apenas validariam a proposta em contextos controlados, mas também permitiriam calibrar hiperparâmetros cruciais como a taxa de injeção adversarial, a granularidade das invariantes e o equilíbrio entre exploração estatística e crítica simbólica.
A construção e manutenção de bancos de padrões adversariais representa desafio prático significativo. Curadoria manual é limitada pela disponibilidade e custo de especialistas de domínio. Métodos automáticos baseados em mineração de modos de falha — análise de trajetórias onde agentes de self-play colapsaram — ou síntese adversarial via busca evolutiva, otimização bayesiana ou aprendizado por reforço invertido podem ampliar esses bancos sem depender exclusivamente de intervenção humana. A questão da transferência entre domínios também merece investigação: padrões extraídos de Go podem informar outros jogos combinatoriais? Invariantes desenvolvidas para controle robótico podem auxiliar sistemas de navegação autônoma? Essas questões conectam conhecimento formal entre domínios aparentemente distintos, potencialmente acelerando desenvolvimento e reduzindo custos.
A escalabilidade para ambientes contínuos e de alta dimensão permanece questão em aberto. A maioria dos exemplos discutidos envolve jogos discretos com estados e ações bem definidos, mas robótica, controle de processos industriais e veículos autônomos operam em espaços de estados com milhares ou milhões de dimensões. Como formalizar invariantes significativas nesses contextos? Como verificá-las eficientemente sem comprometer desempenho computacional ou introduzir latência inaceitável? Técnicas de aproximação simbólica, verificação estocástica, amostragem adaptativa ou verificadores híbridos que combinam métodos formais com heurísticas estatísticas parecem caminhos promissores, mas exigem desenvolvimento substancial.
No que tange à explicabilidade, há espaço considerável para traduzir diagnósticos simbólicos técnicos em formas compreensíveis por usuários finais, reguladores e público leigo. Interfaces visuais interativas que permitam explorar trajetórias de falha, manipular invariantes e observar como mudanças no CSA afetam comportamento do agente podem democratizar auditoria algorítmica. Explicações contrafactuais — “se o agente tivesse respeitado invariante X, a ação apropriada seria Y” — conectam compreensão formal com intuição estratégica humana, facilitando comunicação entre especialistas técnicos e stakeholders não-técnicos.
Há também questões teóricas fundamentais que exigem aprofundamento. Sob quais condições o treinamento com CSA converge? A introdução de adversários sintéticos pode desestabilizar o processo de aprendizado ou induzir oscilações patológicas? Existem trade-offs inevitáveis entre robustez adversarial e desempenho médio, ou essa tensão pode ser resolvida com arquiteturas mais sofisticadas e estratégias de curriculum learning? Como formalizar aspectos heurísticos do conhecimento especialista — aquilo que jogadores experientes chamam de “intuição” ou “estilo” — que resistem à articulação explícita? A resposta pode envolver abordagens híbridas onde símbolos capturam princípios verificáveis enquanto redes neurais lidam com nuances não-formalizáveis, mas essas fronteiras precisam ser mapeadas com maior precisão.
Finalmente, embora jogos sejam laboratórios convenientes e controlados para pesquisa em IA, o objetivo último é transferir esses princípios para sistemas que operam em contextos humanos reais. Agentes de diagnóstico médico que respeitam invariantes clínicas estabelecidas, sistemas de trading financeiro que operam rigorosamente dentro de limites regulatórios e detectam padrões suspeitos de manipulação, algoritmos de decisão automatizada em justiça criminal ou concessão de crédito auditáveis quanto a vieses discriminatórios — essas são as arenas onde robustez adversarial e explicabilidade deixam de ser propriedades técnicas desejáveis e se tornam exigências éticas incontornáveis. A distância entre vencer partidas de Go e operar responsavelmente em ambientes sociais complexos é imensa, mas os princípios metodológicos discutidos aqui — tensionar aprendizado estatístico com crítica simbólica, priorizar desempenho no pior caso sobre média agregada e tornar falhas estruturalmente explicáveis, permanecem essenciais para essa transição.
5 CONSIDERAÇÕES FINAIS
O self-play transformou o aprendizado por reforço profundo, produzindo conquistas que pareciam inatingíveis há apenas duas décadas. Sistemas como AlphaGo e AlphaZero demonstraram que agentes artificiais podem, a partir de regras básicas e milhões de partidas contra si mesmos, descobrir estratégias que superam séculos de conhecimento humano acumulado. Essa autonomia no aprendizado representa um avanço genuíno e consolidou o self play como paradigma dominante em aprendizado por reforço para domínios competitivos. No entanto, o mesmo paradigma que viabilizou essas conquistas traz uma limitação estrutural cada vez mais evidente: a fragilidade diante de contrajogadas imprevistas e adversários que violam expectativas estatísticas. A “Jogada Divina” de Lee Sedol contra o AlphaGo não foi episódio isolado ou curiosidade histórica, mas sintoma de vulnerabilidade sistemática. Quando agentes são treinados exclusivamente contra versões de si mesmos, convergem para repertórios estratégicos cada vez mais homogêneos, maximizando desempenho médio dentro de uma distribuição específica de comportamentos adversariais, a sua própria. Estratégias raras, estilos atípicos e situações de cauda permanecem subexplorados e, com frequência, invisíveis para a política aprendida.
Essa assimetria entre excelência em condições controladas e fragilidade diante de imprevisibilidade genuína constitui o que denominamos robustness gap. Não se trata de limitação contingente de arquiteturas neurais particulares ou de escassez de recursos computacionais, mas de consequência metodológica direta do self-play puro. O problema é também epistemológico: otimizar vitórias contra si mesmo não garante robustez contra adversários que exploram deliberadamente vulnerabilidades, nem contra ambientes que apresentam variações inesperadas. À medida que sistemas de IA migram de simulações para aplicações críticas, como diagnóstico médico, mercados financeiros, veículos autônomos ou sistemas de justiça, essa lacuna deixa de ser questão acadêmica e se torna risco operacional inaceitável.
Nossa proposta central é que o self-play, embora poderoso, não é suficiente. Defendemos a integração de mecanismos neurosimbólicos ao ciclo de treinamento por meio do Crítico Simbólico Adversarial (CSA), um módulo híbrido que combina a plasticidade do aprendizado estatístico com o rigor da representação formal. O CSA atua simultaneamente como gerador de diversidade adversarial, introduzindo contrajogadas e padrões raros que dificilmente emergiriam espontaneamente do self-play, e como verificador de consistência estrutural, impondo invariantes formais que garantem coerência com princípios fundamentais do domínio.
Essa integração não substitui a exploração estatística massiva que caracteriza o self play; ela a disciplina e orienta. Milhões de partidas autoconsistentes continuam viabilizando a descoberta de padrões não óbvios e o refinamento contínuo de políticas. Porém, essa exploração passa a ser tensionada por adversários sintéticos e restrições formais, forçando o agente a desenvolver não apenas competência média, mas resiliência estrutural. A diferença é sutil, porém decisiva: separa sistemas que funcionam em laboratório daqueles que sobrevivem em ambientes reais.
As implicações desse deslocamento são múltiplas. Tecnicamente, o CSA permite avaliar e melhorar desempenho no pior caso, detectar modos de falha precocemente e transferir conhecimento entre domínios por meio de abstrações simbólicas. Epistemologicamente, oferece antídoto contra a antropomorfização ao explicitar limitações estruturais do aprendizado estatístico e distinguir competência comportamental de compreensão genuína. Eticamente, responde à demanda por sistemas auditáveis, robustos à manipulação adversarial e capazes de operar de forma responsável em contextos de alto risco social.
Reconhecemos, contudo, que este trabalho é primordialmente conceitual. Apresentamos um framework e uma linha de argumentação, não uma validação empírica em larga escala. As próximas etapas exigem implementação rigorosa em benchmarks estabelecidos, quantificação precisa da redução do robustness gap e calibração de hiperparâmetros como a taxa de injeção adversarial e a granularidade das invariantes. A construção automatizada de bancos de padrões adversariais, a escalabilidade para ambientes contínuos de alta dimensão e o desenvolvimento de explicações acessíveis a não especialistas representam desafios práticos que exigem investigação adicional.
Também permanecem questões teóricas em aberto. Sob que condições o treinamento com CSA garante convergência? Existem limites inerentes ao quanto a robustez adversarial pode ser aumentada sem sacrificar desempenho médio? Como formalizar aspectos heurísticos do conhecimento especialista que resistem à articulação explícita? Essas perguntas situam-se na fronteira entre aprendizado de máquina, verificação formal e filosofia da inteligência artificial, e pedem abordagens interdisciplinares.
Apesar dessas limitações, a direção parece clara. A questão já não é se agentes artificiais podem vencer humanos em jogos; essa fronteira foi cruzada há anos. A pergunta é se conseguem resistir quando humanos tentam derrotá-los de formas inesperadas. Mais fundamentalmente, trata-se de saber se sistemas autônomos podem manter desempenho aceitável não apenas em condições médias, mas nos cenários críticos, raros e adversariais que caracterizam ambientes reais. A diferença entre essas duas perguntas separa o que chamamos hoje de “inteligência artificial” do que poderíamos chamar de inteligência robusta, confiável e eticamente implantável.
A combinação entre plasticidade neural e rigor simbólico não é panaceia, mas representa um passo necessário em direção a sistemas que honrem tanto suas conquistas técnicas quanto suas responsabilidades sociais. O self-play mostrou que máquinas podem aprender sozinhas. O próximo desafio é garantir que aprendam não apenas a vencer, mas a resistir; não apenas a otimizar, mas a explicar; não apenas a impressionar em ambientes controlados, mas a operar com segurança no mundo real. Esse é o horizonte que o Crítico Simbólico Adversarial busca tornar mais próximo.
REFERÊNCIAS
CAMPBELL, M.; HOANE JR., A. J.; HSU, F. Deep Blue. Artificial Intelligence, v. 134, n. 1-2, p. 57-83, 2002. DOI: 10.1016/S0004-3702(01)00129-1.
CONSALVO, M. Rule sets, cheating, and magic circles: studying games and ethics. International Review of Information Ethics, v. 4, p. 7-11, dez. 2005. ISSN 1614-1687. Disponível em: http://www.i-r-i-e.net. Acesso em: 14 abr. 2025.
GILBERT, B. Yes, Luigi was going to be in Super Mario 64. Business Insider, 28 jul. 2020. Disponível em: https://www.businessinsider.com/yes-luigi-was-going-to-be-in-super-mario 64-2020-7. Acesso em: 16 abr. 2025.
GLEAVE, A. et al. Adversarial policies: attacking deep reinforcement learning. In: INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS, 2020. Proceedings […]. [S.l.: s.n.], 2020. Disponível em: https://arxiv.org/abs/1905.10615. Acesso em: 14 abr. 2025.
HEINRICH, J.; SILVER, D. Deep reinforcement learning from self-play in imperfect information games. arXiv:1603.01121, 2016. Disponível em: https://arxiv.org/abs/1603.01121. Acesso em: 14 abr. 2025.
MEADES, A. F. Understanding counterplay in video games. London: Routledge, 2015.
MNIH, V. et al. Playing Atari with deep reinforcement learning. arXiv:1312.5602, 2013. Disponível em: https://arxiv.org/abs/1312.5602. Acesso em: 14 abr. 2025.
REGULATION (EU) 2024/1689 OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL of 13 June 2024 laying down harmonised rules on artificial intelligence […] Official Journal of the European Union, L 2024/1689, 12 jul. 2024. Disponível em: https://eur lex.europa.eu/eli/reg/2024/1689/oj. Acesso em: 14 abr. 2025.
SALT, S. The history of Tetris world records. [S.l.: s.n.], jun. 2024. 1 vídeo (ca. 90 min). Publicado pelo canal Summoning Salt. Disponível em: https://www.youtube.com/watch?v=mOJlg8g8_yw. Acesso em: 14 abr. 2025.
SAMUEL, A. L. Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, v. 3, n. 3, p. 210-229, jul. 1959. DOI: 10.1147/rd.33.0210.
SILVER, D. et al. Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv:1712.01815, 2017. Disponível em: https://arxiv.org/abs/1712.01815. Acesso em: 14 abr. 2025.
SILVER, D. et al. Mastering the game of Go with deep neural networks and tree search. Nature, v. 529, p. 484-489, 2016. DOI: 10.1038/nature16961.
STEVENS, M.; PRADHAN, S. Playing Tetris with deep reinforcement learning. Stanford CS231n Course Project, 2016. Disponível em: https://cs231n.stanford.edu/reports/2016/pdfs/121_Report.pdf. Acesso em: 14 abr. 2025.
TIAN, Y. et al. KGS go dataset. 2016. Disponível em: https://www.u-go.net/gamerecords/. Acesso em: 14 abr. 2025.
WALRAVEN, J.; HALL, M. A.; FAIRBAIRN, J. Go Game Guru Database (GoGoD). Version 2024-01. Disponível em: https://gogodonline.co.uk/. Acesso em: 14 abr. 2025.
1Pontifícia Universidade Católica de São Paulo (PUC-SP). e- mail: caiocp.fernandes+uni@gmail.com
2PUC-SP & Instituto de Tecnologia e Liderança (Inteli). e- mail: silvajo@pucsp.br
