ALÉM DO SELF-PLAY: CONTRA JOGADAS NEURO-SIMBÓLICAS QUE DESAFIAM A “INTELIGÊNCIA” DA IA 

BEYOND SELF-PLAY: NEURO-SYMBOLIC COUNTERPLAYS THAT  CHALLENGE AI’S “INTELLIGENCE” 

REGISTRO DOI: 10.69849/revistaft/ch10202512122125


Caio Antônio Correia de Paula Fernandes1
Jefferson de Oliveira Silva2


Resumo 

Sistemas de inteligência artificial (IA) treinados por self-play, como o AlphaGo, demonstram  desempenho sobre-humano em domínios fechados, mas revelam uma fragilidade crítica em face de  contrajogadas imprevistas e estratégias adversariais fora de sua distribuição de treinamento. Este  position paper identifica e analisa essa vulnerabilidade, aqui denominada robustness gap, argumentando  que a dependência exclusiva de aprendizado estatístico via self-play resulta em agentes especializados,  porém incapazes de generalizar para situações de imprevisibilidade ou ruído. Propomos como solução  a integração de um Crítico Simbólico Adversarial (CSA) no ciclo de treinamento. Este módulo  neurosimbólico introduz contrajogadas e impõe invariantes formais, enriquecendo o repertório  estratégico do agente e conferindo robustez e explicabilidade à sua política de aprendizado.  Defenderemos que a combinação entre a plasticidade das redes neurais e o rigor da representação  simbólica não apenas supera limitações fundamentais do self-play, mas também avança a agenda de  pesquisa em IA no que tange à avaliação de desempenho no pior caso, à interpretabilidade e à  implantação ética em ambientes de alto risco. 

Palavras-chave: Redes neurais. Neurosimbólico. Contrajogada. Explicabilidade.

1 INTRODUÇÃO 

Sistemas de inteligência artificial (IA) treinados por self-play (i.e., jogar contra si  mesmo) atingem desempenho excepcional em domínios fechados, como Go, xadrez e StarCraft.  Porém, tendem a colapsar diante de adversários que exploram estratégias fora da distribuição  de treinamento. Esta fragilidade, que denominamos robustness gap, expõe uma limitação  fundamental: agentes que otimizam vitórias contra si mesmos desenvolvem políticas altamente  especializadas, mas pouco capazes de lidar com imprevisibilidade genuína. A questão não é  apenas técnica. À medida que sistemas de IA migram de ambientes simulados para aplicações   de alto risco, como diagnóstico médico, mercados financeiros e veículos autônomos, a  incapacidade de resistir a perturbações adversariais torna-se uma vulnerabilidade crítica. O caso mais emblemático dessa assimetria ocorreu em março de 2016, quando Lee  Sedol, campeão mundial de Go, enfrentou o sistema AlphaGo (SILVER et al., 2016). No  segundo jogo, a jogada 37 do AlphaGo, inicialmente interpretada como erro pelos  comentaristas, mostrou-se decisiva para a vitória. Era uma estratégia improvável para o  raciocínio humano convencional. No quarto jogo, porém, Sedol respondeu com o movimento  78, a chamada “Jogada Divina”. A contrajogada, estatisticamente rara, expôs uma fraqueza  inesperada no sistema e resultou na única derrota da máquina na série (SILVER et al., 2016).  O episódio revelou um paradoxo: o mesmo agente capaz de gerar estratégias inovadoras  mostrou-se incapaz de se defender contra inovação adversarial. 

Essa tensão não é acidental. O paradigma de self-play, consolidado por trabalhos como  o Deep Q-Network para jogos de Atari (MNIH et al., 2013), pelo AlphaGo (SILVER et al.,  2016) e pelo AlphaZero (SILVER et al., 2017), apoia-se na ideia de que adversários  suficientemente diversos surgem naturalmente da competição entre versões sucessivas do  mesmo agente. A promessa é sedutora: autonomia completa, descoberta de estratégias não  óbvias e ausência de supervisão humana. Os resultados, de fato, são impressionantes em  ambientes controlados. No entanto, essa autonomia produz um tipo peculiar de especialização:  o agente converge para um repertório que maximiza vitórias dentro de uma distribuição  específica de comportamentos adversariais — a sua própria. 

Quando essa distribuição é violada, o desempenho se deteriora. Gleave et al. (2020)  demonstraram que políticas adversariais simples, treinadas para explorar vulnerabilidades,  alcançam taxas de vitória superiores a 70% contra agentes sofisticados de self-play em diversos  domínios. Stevens e Pradhan (2016) mostraram que agentes de Tetris frequentemente adotam  políticas defensivas focadas em evitar a derrota imediata. Essas políticas entram em colapso  diante de sequências raras de peças ou pequenas anormalidades do ambiente, situações que  jogadores humanos intermediários costumam manejar sem dificuldade. A literatura converge  para a mesma conclusão: excelência em condições ideais coexiste com fragilidade diante de  adversarialidade deliberada ou ruído ambiental modesto. 

O robustness gap não decorre de limitações de hardware ou de arquiteturas neurais  específicas. Trata-se de uma limitação metodológica. Treinar um agente apenas contra si  mesmo maximiza o desempenho médio, mas negligencia o desempenho no pior caso. O agente  nunca enfrenta, durante o treinamento, um adversário cujo objetivo principal seja explorar  sistematicamente suas vulnerabilidades. Também não enfrenta variações mínimas de regras, anomalias raras do ambiente ou estratégias válidas que se situam na cauda da distribuição.  Consequentemente, aprende a vencer, mas não a resistir. 

Este trabalho propõe integrar mecanismos neurosimbólicos ao ciclo de self-play para  reduzir sistematicamente essa lacuna. Defendemos a incorporação de um Crítico Simbólico  Adversarial (CSA), um módulo híbrido que combina representações formais com a capacidade  de gerar contrajogadas deliberadas. O CSA atua em três eixos: cria adversários sintéticos  projetados para explorar vulnerabilidades conhecidas, impõe invariantes formais que  asseguram consistência estrutural das políticas aprendidas e fornece explicações auditáveis  sobre falhas, traduzindo colapsos estatísticos em diagnósticos simbólicos interpretáveis. 

A ideia de combinar elementos simbólicos e neurais não é nova. A contribuição aqui  está em seu uso estratégico como gerador de diversidade adversarial durante o treinamento, e  não apenas como verificador pós-hoc. A plasticidade das redes neurais continua presente:  milhões de partidas, exploração massiva do espaço de estados e descoberta de padrões não  óbvios. Mas essa exploração passa a ser tensionada por contrajogadas que o self-play puro  dificilmente produziria espontaneamente, como estratégias raras, formas de sabotagem ou  violações sutis de expectativas estatísticas. 

A contribuição deste position paper é tripla. Primeiro, articulamos o robustness gap como uma limitação metodológica do self-play, e não como fragilidade contingente de  arquiteturas específicas. Segundo, propomos o CSA como framework para integrar crítica  simbólica ao treinamento por reforço, descrevendo modelos de integração, formas de  representar conhecimento simbólico e sua relação com abordagens puramente estatísticas.  Terceiro, discutimos implicações técnicas e éticas, argumentando que robustez adversarial e  interpretabilidade não são opcionais, mas requisitos para a implantação responsável de sistemas  autônomos em ambientes de alto risco, especialmente à luz de marcos regulatórios como o AI  Act da União Europeia (REGULATION (EU) 2024/1689, 2024). 

O artigo está organizado da seguinte forma. A Seção 2 revisa as origens do self-play,  sua consolidação como paradigma dominante e as evidências empíricas de suas limitações,  incluindo o papel da contrajogada em jogos digitais. A Seção 3 apresenta o framework do CSA,  descrevendo modelos de integração, formas de representar conhecimento formal e a  complementaridade com técnicas alternativas de robustez. A Seção 4 discute implicações para  avaliação no pior caso, interpretabilidade de falhas e implantação ética, delineando uma agenda  de pesquisa. A Seção 5 sintetiza a argumentação e suas limitações. 

Nosso objetivo não é abandonar o self-play, cujos sucessos são inegáveis, mas  questionar sua suficiência. A questão já não é se agentes de IA podem vencer humanos em jogos, mas se conseguem resistir a humanos que tentam derrotá-los de formas inesperadas. A  diferença é sutil, porém decisiva. Ela separa sistemas que funcionam em laboratório daqueles  que sobrevivem no mundo real. 

2 REFERENCIAL TEÓRICO 

A ideia de treinar agentes artificiais por meio de jogos remonta às primeiras décadas da  pesquisa em inteligência artificial. Em 1959, Arthur Samuel utilizou o jogo de damas como  laboratório para o aprendizado automático, introduzindo conceitos que antecipariam, décadas  depois, o que hoje chamamos de aprendizado por reforço (SAMUEL, 1959). O xadrez  consolidou-se posteriormente como campo de experimentação privilegiado, culminando no  Deep Blue da IBM, que em 1997 derrotou Garry Kasparov (CAMPBELL; HOANE JR.; HSU,  2002). Embora notável, esse feito dependia de árvores de busca massivas, heurísticas  programadas por especialistas humanos e grande poder computacional. O sistema não aprendia  autonomamente; apenas calculava mais rápido do que o adversário humano. 

O self-play surge como contraponto a essa tradição simbólica. Em vez de depender de  conhecimento humano codificado, agentes podem aprender jogando repetidamente contra  versões anteriores de si mesmos, refinando políticas a cada vitória ou derrota. Essa transição  inaugura uma etapa em que a autonomia do aprendizado se torna central e a necessidade de  supervisão humana diminui progressivamente. A consolidação do aprendizado por reforço  profundo trouxe nova vida a essa abordagem. O trabalho da DeepMind em jogos de Atari  (MNIH et al., 2013) demonstrou que agentes podiam atingir desempenho humano em dezenas  de jogos diferentes usando apenas pixels da tela e recompensas de pontuação como entradas. A  política era refinada continuamente por meio de interações com o ambiente, permitindo que  estratégias emergissem sem instruções explícitas. 

Esses experimentos marcaram uma virada metodológica. Pela primeira vez, uma única  arquitetura neural superou humanos em múltiplos domínios com regras distintas, sem  instruções específicas. As limitações, no entanto, logo ficaram claras. Os agentes performavam  melhor em jogos com padrões cíclicos e previsíveis, mas apresentavam dificuldades em títulos  que exigiam estratégias de longo prazo ou adaptação a eventos pouco frequentes. Essa  assimetria entre excelência média e fragilidade diante de situações atípicas se tornaria ainda  mais evidente em ambientes de maior complexidade. 

O auge do self-play ocorreu com a criação do AlphaGo, que em 2016 derrotou o  campeão mundial Lee Sedol no jogo de Go (SILVER et al., 2016). O sistema combinava três  componentes integrados: uma policy network para sugerir jogadas promissoras, uma value network para avaliar posições e um Monte Carlo Tree Search para explorar cenários de forma  guiada pelas redes. O feito foi histórico. Pela primeira vez, um jogo com complexidade  combinatória praticamente intratável para busca exaustiva foi dominado por uma máquina.  Ainda assim, os próprios embates revelaram ambivalências significativas. A jogada 37 do  segundo jogo, inicialmente vista como erro, mostrou a capacidade criativa do modelo ao  surpreender Sedol e garantir a vitória. No quarto jogo, porém, Sedol devolveu a  imprevisibilidade com a “Jogada Divina”, explorando uma vulnerabilidade inesperada do  AlphaGo e demonstrando que mesmo um sistema sobre-humano podia ser derrotado por uma  contrajogada rara. 

O sucessor AlphaZero radicalizou essa abordagem ao treinar do zero, sem dados  humanos, alcançando desempenho superior em Go, xadrez e shogi apenas por self-play  (SILVER et al., 2017). A mesma limitação, porém, persistiu: excelência em ambientes fechados  não garantia robustez diante de adversários criativos ou variações imprevistas de regras. Outros  casos reforçam essa vulnerabilidade estrutural. No Tetris, agentes de reforço profundo tendem  a desenvolver políticas defensivas focadas em evitar derrotas imediatas, o que funciona até  certo ponto, mas falha diante de glitches, alterações de regras ou sequências imprevisíveis de  peças. Jogadores humanos intermediários lidam com essas situações com bem mais  flexibilidade (STEVENS; PRADHAN, 2016). Experimentos de Gleave et al. (2020) reforçam  esse diagnóstico: políticas adversariais simples, treinadas para explorar vulnerabilidades,  alcançaram mais de 70% de vitórias contra agentes sofisticados de self-play. Em todos os casos,  bastou um adversário com comportamento inesperado, mas ainda válido, para explorar falhas  profundas das políticas aprendidas. 

Essa vulnerabilidade sistemática pode ser compreendida por meio do conceito de  contrajogada, definida como ação que subverte expectativas convencionais sobre como um jogo  deve ser jogado, explorando regras de maneiras alternativas (MEADES, 2015). A contrajogada  não envolve trapaça ou violação de regras; ela explora possibilidades válidas, mas invisíveis  para a estratégia dominante. Em videogames, essa dinâmica evidencia seu caráter midialógico  como sistemas de significação, nos quais jogadores interpretam e reconfiguram elementos  mecânicos e simbólicos do jogo (CONSALVO, 2005), muitas vezes gerando ramificações não  antecipadas pelos desenvolvedores (GILBERT, 2020). 

O caso do Tetris é especialmente instrutivo. Entre 2020 e 2024, a cena competitiva  descobriu técnicas que transformaram radicalmente a forma como os melhores jogadores  interagem com suas mecânicas. Práticas como virar o controle para aumentar a precisão dos  botões e escolher níveis iniciais específicos permitiram superar limites aparentemente intransponíveis. A descoberta mais marcante foi a extrapolação do limite programático de  níveis, em que as peças passam a exibir aberrações cromáticas e comportamentos inesperados,  criando um ambiente nunca previsto pelos desenvolvedores originais (SALT, 2024). Essas  inovações humanas decorrem, sobretudo, da disposição de explorar adversidades, anomalias e  situações de cauda da distribuição para compreender o sistema em profundidade. 

Essa comparação não busca estabelecer superioridade do aprendizado humano sobre o  de máquina, mas ressaltar a importância de expor agentes artificiais a adversidades sistemáticas  durante o treinamento. O ponto central é a capacidade de lidar com imprevisibilidade genuína,  seja ela causada por variações ambientais, problemas de programação ou estratégias  adversariais deliberadas. Agentes treinados exclusivamente por self-play convergem para um  repertório que maximiza vitórias dentro de sua própria distribuição de comportamentos  adversariais. Quando essa distribuição é violada, o desempenho se deteriora rapidamente. 

Chamamos essa assimetria de robustness gap: a diferença mensurável entre o  desempenho de um agente em sua distribuição de treinamento e seu desempenho diante de  estratégias adversariais deliberadas ou variações ambientais raras. Essa lacuna evidencia uma  assimetria fundamental entre especialização estatística e generalização robusta. O fenômeno  decorre diretamente do mecanismo do self-play: ao enfrentar apenas versões de si mesmo, o  agente converge para um espaço de estratégias cada vez mais homogêneo. Jogadas raras ou  estilos atípicos permanecem subexplorados e, muitas vezes, invisíveis para a política aprendida.  Quando confrontado com um oponente humano ou um agente adversarial que recorre a  estratégias inesperadas, o modelo frequentemente carece de recursos para responder de forma  adequada. 

A consequência é dupla. Por um lado, temos agentes que parecem inteligentes e até  criativos, mas cuja autonomia se limita a ambientes altamente controlados. Por outro, cresce o  risco de antropomorfização, isto é, de atribuir intenção ou compreensão a sistemas que apenas  maximizam padrões estatísticos dentro de limites estreitos. O robustness gap envolve, portanto,  implicações epistemológicas e éticas, ao alimentar expectativas irreais sobre a inteligência das  máquinas. Reconhecer essa lacuna é o primeiro passo para superá-la. A questão que se coloca  não é se o self-play funciona — seus resultados são incontestáveis —, mas como ampliar seu  escopo para lidar com contrajogadas genuínas e ambientes menos controlados. É nesse contexto  que propomos integrar mecanismos simbólicos como críticos adversariais ao ciclo de  treinamento, capazes de gerar diversidade estratégica e impor invariantes formais sem abrir  mão das vantagens da exploração estatística massiva.

3 METODOLOGIA  

Reconhecer o robustness gap não significa renunciar ao self-play, mas sim assumir que  ele, sozinho, não basta. Nossa proposta é integrar ao ciclo de treinamento um módulo  neurosimbólico — o Crítico Simbólico Adversarial (CSA) — capaz de tensionar o aprendizado  em duas frentes: (i) introduzindo contrajogadas raras ou improváveis, que dificilmente  emergiriam da pura exploração estatística, e (ii) impondo invariantes formais que funcionam  como critérios de sanidade, impedindo que a política aprenda comportamentos absurdos do  ponto de vista das regras do jogo. 

O CSA não substitui a estatística neural, mas a disciplina. Enquanto o self-play  tradicional maximiza o desempenho médio através de milhões de partidas autoconsistentes, o  CSA injeta sistematicamente situações adversariais e verifica propriedades estruturais,  forçando o agente a desenvolver robustez no pior caso sem sacrificar sua capacidade  exploratória. 

3.1 Arquitetura e Capacidades do CSA 

O CSA é composto por três módulos integrados que operam durante o ciclo de  treinamento: 

Gerador Adversarial: Responsável por criar oponentes sintéticos ou modificar  condições ambientais com base em um banco de padrões adversariais. Diferentemente de um  oponente aleatório ou de um clone do agente principal, o gerador adversarial busca maximizar  a exposição de vulnerabilidades conhecidas. Cada padrão no banco representa uma classe de  situações raras mas válidas: aberturas táticas incomuns, sequências de eventos de baixa  probabilidade, ou configurações limítrofes do espaço de estados. 

Verificador de Invariantes: Atua como auditor em tempo real, monitorando trajetórias  de jogo e detectando violações de regras formais. Essas regras não são apenas as mecânicas  básicas do jogo (legalidade de movimentos), mas também propriedades estratégicas de alto  nível que um agente competente deveria respeitar. Por exemplo, em Go, uma invariante pode  ser “nunca ignorar ameaça de captura em grupo com mais de 5 pedras”; no Tetris, “nunca  bloquear completamente a coluna central antes do nível 15”. Quando uma violação é detectada,  o verificador sinaliza a falha e pode modificar a recompensa da transição correspondente. 

Explicador Simbólico: Traduz falhas detectadas em diagnósticos interpretáveis. Em  vez de simplesmente indicar que o agente perdeu ou recebeu recompensa negativa, o explicador  identifica a causa estrutural: qual invariante foi violado, em que estado do jogo, e qual seria a resposta esperada segundo o conhecimento simbólico codificado. Essa capacidade é crucial  para auditoria e depuração, permitindo que pesquisadores compreendam não apenas que o  agente falhou, mas por que falhou. 

A Figura 1 ilustra o ciclo completo de integração: 

Figura 1. Integração do CSA no ciclo de self-play com aprendizado por reforço.

3.2 Modelos de Integração no Ciclo de Treinamento 

O CSA pode ser integrado ao self-play de três formas distintas, cada uma adequada a  diferentes objetivos de robustez. 

3.2.1 Adversário de Liga  

No modelo de adversário de liga, o CSA atua como um oponente especial no pool de  competidores. Durante o treinamento, o agente alterna entre partidas de self-play tradicional e  confrontos contra o CSA, controlados por uma taxa de injeção τ (tipicamente 0.1 ≤ τ ≤ 0.3).  Enquanto o self-play puro garante exploração massiva do espaço de estratégias, o CSA força o  agente a lidar com estilos de jogo deliberadamente atípicos.

Exemplo concreto: Go com aberturas raras: Considere um agente de Go treinado por  10.000 partidas com τ = 0.2. Isso implica 8.000 partidas de self-play convencional e 2.000  confrontos contra o CSA. O CSA consulta um banco de padrões contendo 15 aberturas  históricas raras, extraídas de corpora como o KGS Dataset e o GoGoD. Entre elas: 

O agente neural, ao enfrentar repetidamente essa abertura via CSA, é obrigado a  desenvolver respostas específicas que raramente seriam necessárias contra si mesmo.  Crucialmente, o CSA não precisa vencer essas partidas — basta que exponha as lacunas  estratégicas do agente. Cada derrota para uma abertura rara é um sinal de aprendizado sobre  vulnerabilidades estruturais, não apenas sobre erros táticos pontuais. 

A taxa τ funciona como hiperparâmetro de robustez: valores baixos (τ ≈ 0.1) preservam  eficiência exploratória do self-play; valores altos (τ ≈ 0.4) maximizam diversidade adversarial  ao custo de convergência mais lenta. Experimentos futuros deverão calibrar esse equilíbrio  empiricamente. 

3.2.2 Gerador de Ambientes e Supervisor de Recompensa 

Como gerador de ambientes, o CSA modifica condições iniciais antes da partida sem  alterar as regras do jogo. No Tetris, pode enviesar a distribuição de peças para aumentar a  frequência de sequências problemáticas (e.g., quatro peças “S” consecutivas). No xadrez, pode  propor posições iniciais atípicas que testam conhecimento tático específico. Essa abordagem é  particularmente útil em domínios onde variações ambientais são naturalmente possíveis. 

Como supervisor de recompensa, o CSA observa trajetórias em tempo real e penaliza  violações de invariantes. Por exemplo, se um agente de xadrez move o rei para uma casa atacada  (violando never_self_check()), o supervisor aplica penalidade de -10 na recompensa  imediata, mesmo que a partida continue. Essa intervenção corrige o curso do aprendizado sem  depender de que o agente eventualmente descubra o erro por amostragem estatística.

Esses três papéis (adversário, gerador e supervisor) não são mutuamente excludentes.  Em implementações avançadas, podem ser combinados: o CSA atua como adversário em 20%  das partidas e como supervisor em 100% delas, criando um regime de treinamento onde  diversidade adversarial e auditoria formal coexistem. 

3.3 Especificação do Conhecimento Simbólico 

O poder do CSA reside na qualidade e estrutura de seu conhecimento formalizado,  organizado em dois componentes complementares. 

3.3.1 Banco de Padrões Adversariais 

Padrões adversariais são situações ou estratégias raras mas válidas, representadas como  tuplas <situação, resposta_esperada, metadados>. A estrutura de dados é simples,  mas expressiva: 

O banco é construído por curadoria manual (análise de partidas históricas, consulta a  especialistas) ou síntese automática (mineração de situações onde agentes de self-play  colapsaram). Para Go, bases como KGS (TIAN et al., 2016) e GoGoD (WALRAVEN; HALL;  FAIRBAIRN, 2024) fornecem milhões de partidas humanas; para domínios sem corpora ricos,  técnicas de geração adversarial (e.g., síntese via busca guiada por falhas) podem ser  empregadas.

3.3.2 Invariantes Formais 

Invariantes são propriedades que um agente competente deve sempre respeitar,  expressas como predicados verificáveis sobre estados ou transições: 

Quando uma violação é detectada, o verificador registra o evento e o explicador gera  um diagnóstico: 

Essa explicabilidade é impossível em abordagens puramente estatísticas, onde falhas  são sinalizadas apenas como quedas de recompensa sem contexto estrutural.

3.4 Por Que Simbólico? Por Que Adversarial? 

Críticos podem argumentar que técnicas puramente estatísticas (domain randomization,  population-based training, adversarial RL) já introduzem diversidade sem necessidade de  módulos simbólicos. Por que complicar? 

A resposta está em três vantagens complementares do CSA: 

Eficiência de cobertura: Esperar que um agente descubra por amostragem aleatória uma  vulnerabilidade tática rara (frequência < 0.1%) é estatisticamente ineficiente. São necessárias  milhares de partidas para uma única exposição. O CSA injeta diretamente essas situações,  acelerando a cobertura do espaço de vulnerabilidades. É a diferença entre busca exaustiva e  busca guiada. 

Generalização por abstração: Quando uma rede neural aprende a defender uma “escada”  específica no quadrante superior direito de um tabuleiro de Go, ela aprendeu uma instância.  Quando o CSA impõe a invariante verificar_saídas_escada_antes_atachi(), o agente aprende a  classe inteira de situações similares, independentemente de posição ou rotação. Símbolos  abstraem; estatística particulariza. 

Auditabilidade: Quando um agente falha, o CSA diagnostica: “Falha: ignorou ameaça  de ko no canto superior direito, violando invariante de resposta a grupos em perigo”. Redes  neurais puramente estatísticas podem, no máximo, indicar perplexidade alta ou queda de value  function. A diferença é entre explicação estrutural e opacidade. 

A Tabela 1 sintetiza essa comparação: 

Tabela 1: Comparação entre abordagens de treinamento robusto. Din = distribuição de treino; Dadv =  distribuição adversarial. 

O CSA não substitui a exploração estatística massiva — ele a orienta, garantindo que  milhões de partidas não sejam desperdiçados em regiões do espaço de estratégias já bem  cobertas, enquanto vulnerabilidades sistemáticas permanecem invisíveis. 

3.5 Considerações de Viabilidade e Limitações 

A implementação prática do CSA envolve decisões de engenharia e trade-offs  conhecidos. Três questões centrais:

Construção do banco de padrões: Padrões adversariais podem ser extraídos de (i) análise  de partidas históricas humanas, (ii) consulta a especialistas de domínio, ou (iii) mineração de  situações onde agentes de self-play apresentaram colapso documentado. Para Go, o KGS  Dataset oferece milhões de partidas anotadas; para domínios sem corpora ricos, síntese  automática via busca adversarial pode ser necessária. O custo de curadoria manual não é trivial,  mas é investimento único por domínio. 

Calibração da taxa de injeção: A proporção τ entre partidas de self-play e confrontos  com o CSA deve ser ajustada empiricamente. Valores muito altos prejudicam a exploração  estatística; valores muito baixos não geram diversidade suficiente. Abordagens de curriculum  learning — aumentar τ progressivamente conforme o agente amadurece — podem balancear  esses objetivos. 

Custos computacionais: O CSA adiciona overhead ao ciclo de treinamento: verificação  de invariantes a cada transição, geração de adversários via consulta ao banco, e produção de  explicações. Estimativas preliminares sugerem acréscimo de 20-30% no tempo de treinamento.  Esse custo é compensado por convergência mais robusta e redução de falhas em implantação. 

Limitações reconhecidas: Este trabalho apresenta um framework conceitual, não uma  implementação validada em larga escala. Experimentos futuros devem quantificar  empiricamente a redução do robustness gap, comparar diferentes estratégias de construção de  bancos de padrões, e avaliar transferibilidade entre domínios (e.g., de Go para StarCraft). A  escalabilidade para ambientes contínuos de alta dimensão (robótica, veículos autônomos)  permanece questão em aberto. 

4 IMPLICAÇÕES E AGENDA DE PESQUISA 

Integrar um Crítico Simbólico Adversarial ao ciclo de self-play não é apenas um ajuste  metodológico. Trata-se de uma mudança conceitual na forma de desenvolver e avaliar sistemas  de inteligência artificial, especialmente aqueles destinados a ambientes onde a  imprevisibilidade é constitutiva. As implicações desse deslocamento emergem em três  dimensões interligadas: técnica, epistemológica e ético-social. 

4.1 Redefinindo Robustez: do Desempenho Médio ao Pior Caso 

A pesquisa em aprendizado por reforço historicamente privilegia métricas de  desempenho médio, como taxa de vitória, recompensa acumulada ou classificação Elo. Essas  medidas capturam competência em condições esperadas, mas ocultam vulnerabilidades  estruturais. Um agente pode vencer 95% das partidas contra versões anteriores de si mesmo e ainda colapsar diante de um adversário humano intermediário que adote estratégias atípicas.  Esse contraste mostra que excelência estatística não se traduz automaticamente em resiliência. O CSA desloca a avaliação para o desempenho no pior caso. Passam a importar questões  como: “qual a taxa de vitória contra agentes treinados especificamente para explorar falhas?”  ou “como o desempenho se degrada diante de pequenas variações de regras ou condições  iniciais?”. Essa reorientação é mais do que técnica: ela reconhece que sistemas autônomos  precisam funcionar não apenas em laboratórios controlados, mas em contextos reais onde  adversarialidade, ruído e imprevisibilidade são a norma, não a exceção. 

A estrutura simbólica do CSA também permite detectar modos de falha muito antes da  implantação. Em sistemas puramente estatísticos, vulnerabilidades profundas costumam só  aparecer em testes avançados ou na operação real, frequentemente com custos elevados. A  verificação contínua de invariantes funciona como sistema de alerta precoce: um agente de Go  que sistematicamente ignora ameaças de captura em grupos grandes pode ser identificado e  corrigido milhares de partidas antes de enfrentar competidores humanos. Esse diagnóstico  antecipado reduz substancialmente os riscos associados à implantação de sistemas de  aprendizado profundo em ambientes críticos. 

Esse ganho de robustez tem custo computacional. Verificação de invariantes, consulta  ao banco de padrões e geração de explicações adicionam aproximadamente 20–30% ao tempo  de treinamento. No entanto, esse overhead deve ser contextualizado: em aplicações onde uma  única falha catastrófica pode resultar em consequências financeiras graves, danos reputacionais  irreparáveis ou, em domínios como saúde e transporte, risco de vida, o investimento em  robustez durante o treinamento é plenamente justificável. A questão não é se o CSA adiciona  complexidade, mas se essa complexidade é proporcional aos riscos que mitiga. 

Há ainda uma vantagem menos evidente: conhecimento simbólico é transferível entre  domínios. Como padrões adversariais e invariantes são expressos de forma abstrata, podem ser  adaptados a novos ambientes com modificações mínimas. Uma invariante como “evitar bloqueio total de rotas de fuga sem compensação estratégica clara” tem relevância tanto em Go  quanto em jogos de estratégia em tempo real, e potencialmente em domínios como navegação  robótica. Essa reutilização de conhecimento formal contrasta fortemente com a opacidade de  modelos puramente estatísticos, onde transfer learning permanece desafio empírico sem  garantias teóricas e frequentemente requer retreinamento extensivo.

4.2 Inteligência, Compreensão e os Limites da Antropomorfização 

A proposta do CSA toca uma questão epistemológica central: o que significa para um  sistema artificial “compreender” um domínio? Agentes treinados unicamente por self-play  otimizam uma função objetiva específica — maximizar vitórias contra si mesmos — e, no processo, produzem comportamentos surpreendentes, como a jogada 37 do AlphaGo. No  entanto, otimizar desempenho não é o mesmo que compreender estruturas profundas. O agente  não “sabe” por que certas jogadas são proibidas, quais princípios estratégicos sustentam padrões  de vitória ou como regras formais delimitam o espaço de ações válidas. Ele apenas maximiza  recompensas dentro de uma distribuição estatística particular. 

Quando estratégias humanas raras, como a “Jogada Divina” de Lee Sedol, provocam  colapso no sistema, fica evidente que a aparente criatividade é artefato estatístico, não insight  genuíno. A máquina não compreendeu Go em sentido profundo; ela dominou uma faixa  específica do espaço estratégico e se mostrou incapaz de generalizar além dela. Essa distinção  retoma debates filosóficos clássicos sobre competência comportamental versus compreensão  genuína, mas ganha urgência prática renovada: à medida que sistemas de IA são implantados  em contextos sociais, confundir desempenho com compreensão alimenta expectativas  irrealistas que, quando violadas, geram desconfiança pública e resistência à tecnologia. 

O CSA oferece antídoto conceitual a essa antropomorfização. Invariantes simbólicas  tornam explícitos os princípios que um agente competente deveria respeitar,  independentemente de sua arquitetura neural. Quando o explicador simbólico diagnostica que  o agente violou a regra “não mover o rei para uma casa atacada”, ele não está apenas  racionalizando um erro estatístico, mas identificando uma falha estrutural na compreensão das  regras do xadrez. Essa explicitação ajuda a reposicionar sistemas de IA como ferramentas  sofisticadas que operam por aproximação, não como agentes dotados de intencionalidade ou  insight comparáveis aos humanos. 

A explicabilidade introduzida pelo CSA é, ademais, arquitetural e não pós-hoc.  Enquanto técnicas como LIME ou SHAP tentam extrair justificativas de modelos opacos após  o treinamento, o CSA incorpora explicações como parte constitutiva do processo de  aprendizado. As invariantes simbólicas não são racionalizações retroativas; são critérios  formais que moldam a política desde o início, garantindo que os diagnósticos gerados estejam  estruturalmente alinhados com o comportamento aprendido. Essa integração profunda entre  aprendizado e interpretabilidade oferece base mais sólida para auditoria do que abordagens que  tratam transparência como problema separado da competência técnica.

Finalmente, quando falhas são apresentadas em termos de invariantes violadas e padrões  adversariais não cobertos, torna-se claro que o sistema não “entende” o domínio da forma que  humanos entendem. Ele opera por aproximação estatística disciplinada por restrições formais,  mas sem compreensão semântica ou intencional das estruturas que manipula. Essa clareza  conceitual é crucial para debates públicos sobre capacidades e limitações da IA, ajudando a  evitar tanto o hype excessivo quanto o pânico injustificado. 

4.3 Responsabilidade, Adversarialidade e Implantação Ética 

As dimensões técnica e epistemológica convergem em questões éticas cada vez mais  urgentes. À medida que sistemas de IA migram de laboratórios para aplicações de alto impacto  — saúde, finanças, transporte, justiça criminal —, a diferença entre desempenho médio e  desempenho no pior caso deixa de ser abstração acadêmica e se torna questão de segurança  pública e responsabilidade social. 

Considere um sistema de diagnóstico por imagem com 98% de acurácia em condições  controladas de laboratório, mas vulnerável a variações de iluminação, artefatos de compressão  ou padrões clínicos raros. Essa fragilidade não é apenas limitação técnica — é falha ética  inaceitável. Pacientes reais não se distribuem segundo as conveniências estatísticas dos  conjuntos de treinamento; casos atípicos, raros e adversariais não são anomalias a serem  ignoradas, mas realidades operacionais que o sistema precisa antecipar. O CSA oferece  mecanismos para sistematicamente identificar e endereçar esses modos de falha antes da  implantação, reduzindo riscos para populações vulneráveis. 

Além de variações naturais, ambientes reais incluem adversários maliciosos que  deliberadamente exploram vulnerabilidades de sistemas automatizados. Manipulação  algorítmica coordenada em mercados financeiros, patches adversariais projetados para enganar  sistemas de reconhecimento facial, adulteração de sinalização para confundir veículos  autônomos — todos são exemplos de ataques que exploram sistemas treinados apenas em  condições “limpas”. Esses adversários não jogam “de acordo com as regras implícitas” da  distribuição de treinamento; eles buscam ativamente violar expectativas estatísticas para obter  vantagem. O paradigma de self-play puro não prepara agentes para esse tipo de ameaça. O CSA,  ao incorporar adversários sintéticos e padrões de exploração durante o treinamento, assume  desde o início que adversarialidade deliberada faz parte do ambiente operacional real, não  exceção a ser tratada posteriormente. 

A crescente demanda por IA auditável, expressa em regulações como o AI Act europeu  (REGULATION (EU) 2024/1689, 2024) e propostas similares em outras jurisdições, exige que sistemas críticos sejam inspecionáveis por terceiros independentes. Explicações simbólicas  geradas pelo CSA oferecem material auditável: reguladores, pesquisadores independentes e  público informado podem examinar quais invariantes foram impostas, quais padrões  adversariais foram testados e como o agente respondeu a situações limítrofes. Essa  transparência estrutural contrasta fortemente com a opacidade de modelos puramente  estatísticos, cuja lógica interna permanece inacessível mesmo para especialistas, dificultando  supervisão democrática sobre tecnologias de alto impacto social. 

Embora o foco deste trabalho não seja explicitamente viés algorítmico, a metodologia  proposta tem implicações diretas para justiça algorítmica. Padrões adversariais podem incluir  situações que expõem discriminação sistemática — um sistema de recrutamento que  desfavorece candidatos com nomes associados a minorias étnicas, ou um algoritmo de  concessão de crédito que penaliza residentes de determinados bairros. Ao formalizar esses casos  como invariantes a serem respeitadas durante o treinamento (“nunca penalizar indivíduos com  base exclusivamente em atributos protegidos”), o CSA pode funcionar como mecanismo de  auditoria contínua, identificando e corrigindo vieses antes da implantação, não apenas  diagnosticando-os após danos já terem sido causados a indivíduos e comunidades. 

4.4 Agenda de Pesquisa 

Como framework primordialmente conceitual, o CSA abre múltiplas frentes de  investigação que conectam desafios técnicos, questões teóricas e imperativos éticos. Os  próximos passos incluem validação empírica rigorosa, expansão para novos domínios e  aprofundamento das bases formais da abordagem. 

A validação mais imediata consiste em implementar o CSA em benchmarks  consolidados — Go, xadrez, Tetris, jogos de estratégia em tempo real — e mensurar  quantitativamente a redução do robustness gap. Métricas relevantes incluem taxa de vitória  contra políticas adversariais especificamente treinadas para explorar vulnerabilidades, tempo  médio até primeira falha catastrófica sob perturbações ambientais e cobertura do espaço de  vulnerabilidades conhecidas. Esses experimentos não apenas validariam a proposta em  contextos controlados, mas também permitiriam calibrar hiperparâmetros cruciais como a taxa  de injeção adversarial, a granularidade das invariantes e o equilíbrio entre exploração estatística  e crítica simbólica. 

A construção e manutenção de bancos de padrões adversariais representa desafio prático  significativo. Curadoria manual é limitada pela disponibilidade e custo de especialistas de  domínio. Métodos automáticos baseados em mineração de modos de falha — análise de trajetórias onde agentes de self-play colapsaram — ou síntese adversarial via busca evolutiva,  otimização bayesiana ou aprendizado por reforço invertido podem ampliar esses bancos sem  depender exclusivamente de intervenção humana. A questão da transferência entre domínios  também merece investigação: padrões extraídos de Go podem informar outros jogos  combinatoriais? Invariantes desenvolvidas para controle robótico podem auxiliar sistemas de  navegação autônoma? Essas questões conectam conhecimento formal entre domínios  aparentemente distintos, potencialmente acelerando desenvolvimento e reduzindo custos. 

A escalabilidade para ambientes contínuos e de alta dimensão permanece questão em  aberto. A maioria dos exemplos discutidos envolve jogos discretos com estados e ações bem  definidos, mas robótica, controle de processos industriais e veículos autônomos operam em  espaços de estados com milhares ou milhões de dimensões. Como formalizar invariantes  significativas nesses contextos? Como verificá-las eficientemente sem comprometer  desempenho computacional ou introduzir latência inaceitável? Técnicas de aproximação  simbólica, verificação estocástica, amostragem adaptativa ou verificadores híbridos que  combinam métodos formais com heurísticas estatísticas parecem caminhos promissores, mas  exigem desenvolvimento substancial. 

No que tange à explicabilidade, há espaço considerável para traduzir diagnósticos  simbólicos técnicos em formas compreensíveis por usuários finais, reguladores e público leigo.  Interfaces visuais interativas que permitam explorar trajetórias de falha, manipular invariantes  e observar como mudanças no CSA afetam comportamento do agente podem democratizar  auditoria algorítmica. Explicações contrafactuais — “se o agente tivesse respeitado invariante  X, a ação apropriada seria Y” — conectam compreensão formal com intuição estratégica  humana, facilitando comunicação entre especialistas técnicos e stakeholders não-técnicos. 

Há também questões teóricas fundamentais que exigem aprofundamento. Sob quais  condições o treinamento com CSA converge? A introdução de adversários sintéticos pode  desestabilizar o processo de aprendizado ou induzir oscilações patológicas? Existem trade-offs  inevitáveis entre robustez adversarial e desempenho médio, ou essa tensão pode ser resolvida  com arquiteturas mais sofisticadas e estratégias de curriculum learning? Como formalizar  aspectos heurísticos do conhecimento especialista — aquilo que jogadores experientes chamam  de “intuição” ou “estilo” — que resistem à articulação explícita? A resposta pode envolver  abordagens híbridas onde símbolos capturam princípios verificáveis enquanto redes neurais  lidam com nuances não-formalizáveis, mas essas fronteiras precisam ser mapeadas com maior  precisão.

Finalmente, embora jogos sejam laboratórios convenientes e controlados para pesquisa  em IA, o objetivo último é transferir esses princípios para sistemas que operam em contextos  humanos reais. Agentes de diagnóstico médico que respeitam invariantes clínicas estabelecidas,  sistemas de trading financeiro que operam rigorosamente dentro de limites regulatórios e  detectam padrões suspeitos de manipulação, algoritmos de decisão automatizada em justiça  criminal ou concessão de crédito auditáveis quanto a vieses discriminatórios — essas são as  arenas onde robustez adversarial e explicabilidade deixam de ser propriedades técnicas  desejáveis e se tornam exigências éticas incontornáveis. A distância entre vencer partidas de  Go e operar responsavelmente em ambientes sociais complexos é imensa, mas os princípios  metodológicos discutidos aqui — tensionar aprendizado estatístico com crítica simbólica,  priorizar desempenho no pior caso sobre média agregada e tornar falhas estruturalmente  explicáveis, permanecem essenciais para essa transição. 

5 CONSIDERAÇÕES FINAIS 

O self-play transformou o aprendizado por reforço profundo, produzindo conquistas que  pareciam inatingíveis há apenas duas décadas. Sistemas como AlphaGo e AlphaZero  demonstraram que agentes artificiais podem, a partir de regras básicas e milhões de partidas  contra si mesmos, descobrir estratégias que superam séculos de conhecimento humano  acumulado. Essa autonomia no aprendizado representa um avanço genuíno e consolidou o self play como paradigma dominante em aprendizado por reforço para domínios competitivos. No entanto, o mesmo paradigma que viabilizou essas conquistas traz uma limitação  estrutural cada vez mais evidente: a fragilidade diante de contrajogadas imprevistas e  adversários que violam expectativas estatísticas. A “Jogada Divina” de Lee Sedol contra o  AlphaGo não foi episódio isolado ou curiosidade histórica, mas sintoma de vulnerabilidade  sistemática. Quando agentes são treinados exclusivamente contra versões de si mesmos,  convergem para repertórios estratégicos cada vez mais homogêneos, maximizando desempenho  médio dentro de uma distribuição específica de comportamentos adversariais, a sua própria.  Estratégias raras, estilos atípicos e situações de cauda permanecem subexplorados e, com  frequência, invisíveis para a política aprendida. 

Essa assimetria entre excelência em condições controladas e fragilidade diante de  imprevisibilidade genuína constitui o que denominamos robustness gap. Não se trata de  limitação contingente de arquiteturas neurais particulares ou de escassez de recursos  computacionais, mas de consequência metodológica direta do self-play puro. O problema é  também epistemológico: otimizar vitórias contra si mesmo não garante robustez contra adversários que exploram deliberadamente vulnerabilidades, nem contra ambientes que  apresentam variações inesperadas. À medida que sistemas de IA migram de simulações para  aplicações críticas, como diagnóstico médico, mercados financeiros, veículos autônomos ou  sistemas de justiça, essa lacuna deixa de ser questão acadêmica e se torna risco operacional  inaceitável. 

Nossa proposta central é que o self-play, embora poderoso, não é suficiente.  Defendemos a integração de mecanismos neurosimbólicos ao ciclo de treinamento por meio do  Crítico Simbólico Adversarial (CSA), um módulo híbrido que combina a plasticidade do  aprendizado estatístico com o rigor da representação formal. O CSA atua simultaneamente  como gerador de diversidade adversarial, introduzindo contrajogadas e padrões raros que  dificilmente emergiriam espontaneamente do self-play, e como verificador de consistência  estrutural, impondo invariantes formais que garantem coerência com princípios fundamentais  do domínio. 

Essa integração não substitui a exploração estatística massiva que caracteriza o self play; ela a disciplina e orienta. Milhões de partidas autoconsistentes continuam viabilizando a  descoberta de padrões não óbvios e o refinamento contínuo de políticas. Porém, essa exploração  passa a ser tensionada por adversários sintéticos e restrições formais, forçando o agente a  desenvolver não apenas competência média, mas resiliência estrutural. A diferença é sutil,  porém decisiva: separa sistemas que funcionam em laboratório daqueles que sobrevivem em  ambientes reais. 

As implicações desse deslocamento são múltiplas. Tecnicamente, o CSA permite avaliar  e melhorar desempenho no pior caso, detectar modos de falha precocemente e transferir  conhecimento entre domínios por meio de abstrações simbólicas. Epistemologicamente,  oferece antídoto contra a antropomorfização ao explicitar limitações estruturais do aprendizado  estatístico e distinguir competência comportamental de compreensão genuína. Eticamente,  responde à demanda por sistemas auditáveis, robustos à manipulação adversarial e capazes de  operar de forma responsável em contextos de alto risco social. 

Reconhecemos, contudo, que este trabalho é primordialmente conceitual. Apresentamos  um framework e uma linha de argumentação, não uma validação empírica em larga escala. As  próximas etapas exigem implementação rigorosa em benchmarks estabelecidos, quantificação  precisa da redução do robustness gap e calibração de hiperparâmetros como a taxa de injeção  adversarial e a granularidade das invariantes. A construção automatizada de bancos de padrões  adversariais, a escalabilidade para ambientes contínuos de alta dimensão e o desenvolvimento de explicações acessíveis a não especialistas representam desafios práticos que exigem  investigação adicional. 

Também permanecem questões teóricas em aberto. Sob que condições o treinamento  com CSA garante convergência? Existem limites inerentes ao quanto a robustez adversarial  pode ser aumentada sem sacrificar desempenho médio? Como formalizar aspectos heurísticos do conhecimento especialista que resistem à articulação explícita? Essas perguntas situam-se  na fronteira entre aprendizado de máquina, verificação formal e filosofia da inteligência  artificial, e pedem abordagens interdisciplinares. 

Apesar dessas limitações, a direção parece clara. A questão já não é se agentes artificiais  podem vencer humanos em jogos; essa fronteira foi cruzada há anos. A pergunta é se  conseguem resistir quando humanos tentam derrotá-los de formas inesperadas. Mais  fundamentalmente, trata-se de saber se sistemas autônomos podem manter desempenho  aceitável não apenas em condições médias, mas nos cenários críticos, raros e adversariais que  caracterizam ambientes reais. A diferença entre essas duas perguntas separa o que chamamos  hoje de “inteligência artificial” do que poderíamos chamar de inteligência robusta, confiável e  eticamente implantável. 

A combinação entre plasticidade neural e rigor simbólico não é panaceia, mas representa  um passo necessário em direção a sistemas que honrem tanto suas conquistas técnicas quanto  suas responsabilidades sociais. O self-play mostrou que máquinas podem aprender sozinhas. O  próximo desafio é garantir que aprendam não apenas a vencer, mas a resistir; não apenas a  otimizar, mas a explicar; não apenas a impressionar em ambientes controlados, mas a operar  com segurança no mundo real. Esse é o horizonte que o Crítico Simbólico Adversarial busca  tornar mais próximo. 

REFERÊNCIAS 

CAMPBELL, M.; HOANE JR., A. J.; HSU, F. Deep Blue. Artificial Intelligence, v. 134, n.  1-2, p. 57-83, 2002. DOI: 10.1016/S0004-3702(01)00129-1. 

CONSALVO, M. Rule sets, cheating, and magic circles: studying games and ethics.  International Review of Information Ethics, v. 4, p. 7-11, dez. 2005. ISSN 1614-1687.  Disponível em: http://www.i-r-i-e.net. Acesso em: 14 abr. 2025. 

GILBERT, B. Yes, Luigi was going to be in Super Mario 64. Business Insider, 28 jul. 2020.  Disponível em: https://www.businessinsider.com/yes-luigi-was-going-to-be-in-super-mario 64-2020-7. Acesso em: 16 abr. 2025.

GLEAVE, A. et al. Adversarial policies: attacking deep reinforcement learning. In:  INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS, 2020. Proceedings  […]. [S.l.: s.n.], 2020. Disponível em: https://arxiv.org/abs/1905.10615. Acesso em: 14 abr.  2025. 

HEINRICH, J.; SILVER, D. Deep reinforcement learning from self-play in imperfect information games. arXiv:1603.01121, 2016. Disponível em: https://arxiv.org/abs/1603.01121.  Acesso em: 14 abr. 2025. 

MEADES, A. F. Understanding counterplay in video games. London: Routledge, 2015. 

MNIH, V. et al. Playing Atari with deep reinforcement learning. arXiv:1312.5602, 2013.  Disponível em: https://arxiv.org/abs/1312.5602. Acesso em: 14 abr. 2025. 

REGULATION (EU) 2024/1689 OF THE EUROPEAN PARLIAMENT AND OF THE  COUNCIL of 13 June 2024 laying down harmonised rules on artificial intelligence […]  Official Journal of the European Union, L 2024/1689, 12 jul. 2024. Disponível em: https://eur lex.europa.eu/eli/reg/2024/1689/oj. Acesso em: 14 abr. 2025. 

SALT, S. The history of Tetris world records. [S.l.: s.n.], jun. 2024. 1 vídeo (ca. 90 min).  Publicado pelo canal Summoning Salt. Disponível em:  https://www.youtube.com/watch?v=mOJlg8g8_yw. Acesso em: 14 abr. 2025. 

SAMUEL, A. L. Some studies in machine learning using the game of checkers. IBM Journal  of Research and Development, v. 3, n. 3, p. 210-229, jul. 1959. DOI: 10.1147/rd.33.0210. 

SILVER, D. et al. Mastering chess and shogi by self-play with a general reinforcement learning  algorithm. arXiv:1712.01815, 2017. Disponível em: https://arxiv.org/abs/1712.01815. Acesso  em: 14 abr. 2025. 

SILVER, D. et al. Mastering the game of Go with deep neural networks and tree search. Nature,  v. 529, p. 484-489, 2016. DOI: 10.1038/nature16961. 

STEVENS, M.; PRADHAN, S. Playing Tetris with deep reinforcement learning. Stanford  CS231n Course Project, 2016. Disponível em:  https://cs231n.stanford.edu/reports/2016/pdfs/121_Report.pdf. Acesso em: 14 abr. 2025. 

TIAN, Y. et al. KGS go dataset. 2016. Disponível em: https://www.u-go.net/gamerecords/.  Acesso em: 14 abr. 2025. 

WALRAVEN, J.; HALL, M. A.; FAIRBAIRN, J. Go Game Guru Database (GoGoD).  Version 2024-01. Disponível em: https://gogodonline.co.uk/. Acesso em: 14 abr. 2025.


1Pontifícia Universidade Católica de São Paulo (PUC-SP). e- mail: caiocp.fernandes+uni@gmail.com
2PUC-SP & Instituto de Tecnologia e Liderança (Inteli). e- mail: silvajo@pucsp.br