ANTES TIPAR QUE LINKAR: UM ARGUMENTO PELA ESTRUTURAÇÃO LOCAL DE ENTIDADES NIL 

BETTER TYPING THAN LINKING: AN ARGUMENT FOR LOCAL  STRUCTURING OF NIL ENTITIES 

REGISTRO DOI: 10.69849/revistaft/ch10202512121651


Pedro Ernesto da Silva Souza1
Jefferson de Oliveira Silva2


Resumo 

Este position paper propõe uma mudança de paradigma na estruturação de entidades organizacionais em  textos jornalísticos e domínios abertos: da lógica predominante do link-first, que condiciona a tipagem  ao sucesso do Entity Linking, para uma abordagem type-first, em que a tipagem facetada é o objetivo  primário, útil e auditável mesmo na ausência de uma base de conhecimento. Argumentamos que essa  reorganização é mais adequada a cenários onde há alta frequência de entidades NIL, exigência de  explicabilidade e governança de dados, e presença de pistas nominais exploráveis. Propomos uma  arquitetura híbrida composta por regras simbólicas, modelo estatístico complementar, verificação de  coerência semântica e política explícita de abstenção. Em vez de depender exclusivamente do linking,  o sistema estrutura localmente cada menção por meio de facetas ortogonais (natureza institucional,  esfera de atuação e setor econômico), mesmo em contextos de incerteza. Apresentamos também um  protocolo de avaliação centrado em governança, com métricas como Cobertura Tipável e Satisfação de  Restrições, e disponibilizamos artefatos práticos que viabilizam a adoção e a reprodução da proposta. 

Palavras-chave: Tipificação Facetada de Entidades. Estruturação Local. Modelos Híbridos Simbólico Estatísticos. Explicabilidade e Governança. Entidades NIL (não vinculáveis). Satisfação de Restrições  Semânticas. 

1 INTRODUÇÃO 

Sistemas de Extração de Informação (EI) transformam texto não estruturado em dados  estruturados para consulta, integração e auditoria. O pipeline dominante, especialmente no  domínio jornalístico que tratamos aqui, é o link-first: primeiro identifica-se a menção de uma  entidade e, em seguida, tenta-se vinculá-la a um nó em uma base de conhecimento (KB). Por  exemplo, ao encontrar a string “Villa Nova”, o sistema tenta ligá-la ao clube de futebol  homônimo na Wikipédia para só então herdar seu tipo (clube esportivo). Essa abordagem é eficaz para entidades canônicas, mas gera uma assimetria  representacional quando o linking falha por exemplo em casos NIL, entidades novas ou siglas  locais. Parte do corpus é enriquecida com metadados úteis; o restante permanece rotulado com  categorias genéricas como “ORGANIZAÇÃO”, de pouca utilidade analítica. Na prática, isso  inviabiliza consultas simples, como listar todas as universidades mencionadas em um corpus  ou agrupar entidades por esfera federativa, mesmo quando o texto original oferece pistas  explícitas, como em “Prefeitura de Salvador” ou “Faculdade Dom Bosco”. Este trabalho propõe uma mudança de objetivo: tratar a estruturação tipológica das  entidades, independentemente de seu linking, como produto final primário, e considerar o  linking apenas como uma etapa tardia e opcional de enriquecimento. Focamos, em particular,  nas menções a organizações em notícias, embora o caso possa ser generalizado para outros  contextos. Nele, uma menção como “APF” (possivelmente sem entrada em KB) pode ser  classificada imediatamente em facetas auditáveis, como natureza institucional (por exemplo,  associação), esfera de atuação (como municipal) e setor (como saúde), gerando valor analítico  mesmo na ausência de linking. 

O modelo proposto adota um esquema de tipagem facetada composto por três dimensões  ortogonais: natureza institucional, esfera de atuação e setor temático ou econômico. Essas  dimensões foram selecionadas por sua relevância analítica e alta inferibilidade a partir de pistas  superficiais presentes no próprio texto, e não por completude ontológica. A estruturação  resultante pode ser parcial, atribuindo apenas facetas com evidência suficiente, e deve ser  sempre acompanhada de proveniência rastreável. Em casos de ambiguidade ou ausência de  indícios, o sistema se abstém de decidir, preservando a integridade analítica. 

A arquitetura proposta é híbrida: quando há pistas nominais estáveis (como “Prefeitura  de…”, “Universidade…”, ou acrônimos canônicos), regras simbólicas operam com precisão e  transparência. Quando essas pistas são insuficientes, um classificador estatístico atua de forma  complementar, sempre acompanhado de mecanismos de abstenção calibrada e verificação de  coerência semântica. O resultado é um sistema que estrutura localmente cada menção com base  em facetas ortogonais, oferecendo utilidade operacional mesmo quando o linking é inviável ou  desnecessário. 

A proposta aqui defendida traz implicações práticas e teóricas. Do ponto de vista  operacional, permite consultas analíticas diretas sobre corpora jornalísticos sem dependência  de bases externas, facilitando aplicações em monitoramento institucional, análise regulatória e governança de dados. Do ponto de vista conceitual, reposiciona a tipagem como um fim em si,  e não como meio para o linking, abrindo espaço para modelos que valorizam explicabilidade,  rastreabilidade e abstenção estratégica. 

O restante do artigo está organizado da seguinte forma: a Seção 2 apresenta a arquitetura  type-first em detalhe, incluindo o esquema facetado, a base simbólica, os mecanismos de  coerência e o papel complementar do classificador estatístico. A Seção 3 descreve o pipeline  completo, com seus componentes, fluxo de decisão e política de proveniência. A Seção 4  propõe um protocolo de avaliação centrado em governança e uma agenda de pesquisa para  generalização a outros domínios. A Seção 5 discute aplicabilidade, limitações e estratégias de  adoção progressiva. A Seção 6 revisa trabalhos relacionados e destaca as diferenças em relação  à nossa proposta. Por fim, a Seção 7 apresenta as conclusões. 

2 ARQUITETURA DE ESTRUTURAÇÃO TIPOLÓGICA 

2.1 Esquema de Tipagem Facetada 

A tipagem é conduzida por três dimensões ortogonais: natureza institucional, esfera de  atuação e setor temático ou econômico. A ortogonalidade permite que cada faceta seja inferida  de forma independente, suportando casos de preenchimento parcial. O conjunto de valores em  cada dimensão foi escolhido por sua relevância analítica no domínio jornalístico e pela alta taxa  de inferibilidade a partir de expressões nominais comuns. 

A natureza institucional distingue, por exemplo, empresas privadas, universidades,  órgãos públicos, forças policiais, ONGs, movimentos sociais e partidos políticos. A esfera de  atuação abrange categorias como municipal, estadual, federal, internacional e privada. Já o setor  temático cobre domínios como educação, saúde, segurança, tecnologia, finanças e política. A  seleção desse conjunto restrito de facetas reflete um compromisso com portabilidade,  interpretabilidade e facilidade de anotação, em vez de aderência a taxonomias ontológicas  extensas. 

2.2 Base de Conhecimento Simbólica: Regras e Dicionários 

A inferência das facetas é operacionalizada por uma base de conhecimento simbólica  composta por regras de padrão textual e listas léxicas. Esse repositório captura regularidades  linguísticas e saber institucional implícito nos textos jornalísticos, como prefixos, acrônimos e  marcadores lexicais estáveis. Cada regra é formalizada como uma função de rotulagem que, ao ser aplicada a uma menção textual, produz uma atribuição de facetas com um grau implícito de  confiança ou se abstém, conforme a evidência disponível. 

Por exemplo, expressões como “Prefeitura de…” ativam diretamente a faceta  esfera=municipal; menções que contêm “Polícia Militar” são rotuladas como  natureza=força_policial e setor=segurança; acrônimos como “IBGE” são reconhecidos por  dicionários canônicos como órgãos públicos federais. Essas funções são implementadas de  forma modular e auditável, facilitando tanto sua manutenção quanto seu aprimoramento  incremental. 

A Tabela 1 apresenta uma amostra ilustrativa do catálogo de regras simbólicas  atualmente utilizado. Esses exemplos demonstram como padrões simples (como prefixos,  tokens canônicos ou acrônimos) podem acionar facetas com alto grau de confiabilidade. Trata se de um subconjunto representativo das funções de rotulagem presentes na base simbólica,  com valor heurístico e operacional. 

Tabela 1. Amostra do catálogo de regras simbólicas para tipagem de organizações

Fonte: Elaborado pelos autores, 2025. 

2.3 Mecanismos de Coerência e abstenção 

A consolidação das facetas atribuídas por múltiplas regras ou modelos passa por um  mecanismo de verificação de coerência baseado em restrições lógicas. Por exemplo, proíbe-se  a combinação natureza=orgao_publico com esfera=privado. Conflitos entre atribuições são  resolvidos segundo uma política de precedência explícita, geralmente favorecendo regras simbólicas sobre predições estatísticas, ou, na ausência de resolução segura, levam à abstenção  controlada da faceta em questão. 

A abstenção, nesse contexto, não é uma falha do sistema, mas uma escolha deliberada  de não decidir quando a evidência é insuficiente ou contraditória. Cada abstenção é registrada  com um código de justificativa, como ESFERA_INDETERMINADA ou  CONFLITO_DE_REGRA, preservando a transparência da decisão e permitindo sua auditoria  posterior. 

2.4 Proveniência e Auditabilidade 

Toda atribuição de faceta é acompanhada por metadados de proveniência. Estes  identificam a origem da decisão (regra aplicada ou modelo acionado) e registram a evidência  textual que motivou a inferência. Esse mecanismo é fundamental para aplicações em que a rastreabilidade das decisões é um requisito, como auditorias, análise regulatória e revisão  manual em pipelines críticos. A arquitetura foi concebida para que cada decisão possa ser  explicada, reproduzida e, se necessário, contestada. 

2.5 Classificação Estatística como Complemento 

O modelo híbrido propõe que o classificador estatístico atue apenas nos casos que não  foram cobertos com confiança suficiente pelas regras simbólicas. Esse classificador, treinado a  partir de exemplos anotados, visa capturar padrões contextuais mais sutis, operando com as  mesmas facetas e sob os mesmos mecanismos de coerência e abstenção. Ao limitar o escopo  do modelo estatístico aos casos ambíguos, preserva-se a interpretabilidade do sistema e otimiza se o uso de aprendizado supervisionado. 

3 ARQUITETURA DO PIPELINE TYPE-FIRST 

A arquitetura proposta neste trabalho adota o princípio da tipagem como objetivo  primário (type-first), invertendo a lógica tradicional centrada no linking. O design privilegia a  explicabilidade, a robustez em cenários abertos e a utilidade KB-agnóstica, relegando o linking  a uma função opcional e tardia de validação e enriquecimento. A Figura 1 ilustra os  componentes centrais e o fluxo de decisão entre eles.

Figura 1. Componentes Centrais e Fluxo de Decisão. 

Fonte: Elaborado pelos autores, 2025. 

A trajetória do pipeline, representada pela linha sólida, abrange os módulos necessários  à estruturação tipológica mesmo na ausência de qualquer conhecimento externo. Um caminho  tracejado representa o componente de linking, que pode ser acionado seletivamente, sem  comprometer a operação principal. 

3.1 Componentes e Funcionalidades 

O pipeline inicia com um módulo de reconhecimento de entidades (NER), responsável  por identificar menções do tipo ORG. A arquitetura não impõe restrições sobre o modelo  utilizado, desde que adequado ao domínio de notícias e com cobertura razoável de siglas e  variantes nominais. 

A seguir, um motor simbólico aplica o catálogo de regras e dicionários descrito  anteriormente, rotulando as menções com base em padrões lexicais e estruturais. Esse motor  opera como primeira linha de inferência, atribuindo facetas com base em evidência explícita e  rastreável. Quando nenhuma regra é aplicável, ou apenas parte das facetas é atribuída, a menção  é encaminhada a um classificador estatístico, treinado para preencher lacunas com base em  contexto. 

Um módulo de verificação assegura a coerência lógica das atribuições, com base em  restrições de domínio (por exemplo, um órgão público não pode ser marcado como “privado”).  Diante de inconsistências ou incertezas, o sistema opta pela abstenção controlada, que suspende  a decisão e a substitui por um marcador explicativo. Esse mecanismo garante que a qualidade  das atribuições prevaleça sobre sua completude. 

Por fim, um módulo opcional de Entity Linking pode ser invocado, não como fonte  primária de tipagem, mas como etapa complementar. Ele utiliza as facetas já inferidas como filtros de pré-seleção na base de conhecimento e registra eventuais divergências como  sinalizações, não como erros. 

3.2 Protocolo de Decisão e Fusão 

O fluxo de decisão é guiado por uma política que prioriza evidência clara, consistência  e explicabilidade. A aplicação das regras simbólicas tem precedência e, quando suficiente, é  tratada como fonte confiável. Atribuições provenientes de múltiplos módulos são fundidas  quando não conflitantes, e conflitos são resolvidos por precedência ou confiança relativa.  Quando não há resolução segura, o sistema opta explicitamente por não atribuir a faceta em  disputa. 

O classificador estatístico, por sua vez, é acionado apenas para preencher lacunas  remanescentes, nunca para sobrescrever decisões tomadas com base em regras de alta  confiança. Após a fusão, uma verificação final de coerência é executada, seguida pela decisão  definitiva de atribuição ou abstenção. 

3.3 Rastreabilidade e Governança 

Todas as decisões do pipeline são acompanhadas de metadados de proveniência. Para  cada faceta atribuída ou omitida, o sistema registra a fonte (regra ou modelo), a evidência  textual que motivou a decisão, um grau estimado de confiança e, em caso de abstenção, um  código categórico que justifica a não-decisão. Essa trilha de auditoria não é um acessório, mas  um elemento estruturante do modelo proposto, permitindo depuração, explicação e refinamento  iterativo em contextos que exigem transparência e responsabilização. 

4 PERSPECTIVAS DE AVALIAÇÃO E GOVERNANÇA 

O valor de um pipeline de estruturação type-first não reside apenas na acurácia de suas  predições, mas em sua capacidade de produzir dados úteis, auditáveis e semanticamente  consistentes, mesmo diante da ausência de uma base de conhecimento. Assim, uma avaliação  efetiva deve ir além de métricas tradicionais de linking e se concentrar na utilidade prática das  saídas sob o ponto de vista da governança de dados. 

Propomos, para isso, um conjunto de diretrizes avaliativas que podem ser aplicadas  tanto em experimentos futuros quanto em cenários reais de implantação.

4.1 Métricas Centrais de Governança 

Uma primeira dimensão de avaliação diz respeito à Cobertura Tipável, definida como a  proporção de menções para as quais o sistema consegue inferir ao menos uma faceta válida sem  recorrer ao linking. Essa métrica revela o potencial do modelo em cenários de mundo aberto e  sinaliza sua capacidade de gerar valor mesmo para entidades do tipo NIL. 

Outra dimensão essencial é a Taxa de Satisfação de Restrições, que verifica a  consistência semântica das facetas atribuídas com base nas restrições lógicas previamente  definidas. Em contextos regulatórios, a confiança sobre as inferências não decorre apenas de  sua frequência, mas da ausência de contradições explícitas. 

A terceira dimensão foca na abstenção estratégica: avaliar não apenas quanto o sistema  se abstém, mas quando ele o faz, e se essas abstenções ocorrem em situações de incerteza  legítima. Em vez de penalizar a abstenção, propomos sua incorporação como um indicativo de  maturidade do sistema frente ao risco. 

4.2 Auditabilidade e Transparência 

Complementarmente, sugerimos que qualquer avaliação inclua uma análise qualitativa  orientada à explicabilidade e rastreabilidade. Para cada decisão de atribuição ou abstenção, o  sistema deve ser capaz de apresentar: 

• A origem da inferência (regra aplicada ou modelo acionado); 

• A evidência textual utilizada; 

• A justificativa categorizada em caso de abstenção. 

Essa trilha de auditoria deve ser tratada como parte do produto da estruturação, e não  como metadado acessório. A capacidade de reconstruir decisões, explicá-las e refiná-las  iterativamente é, a nosso ver, um critério distintivo para avaliar pipelines em contextos críticos. 

5 APLICABILIDADE, LIMITAÇÕES E ESTRATÉGIAS DE ADOÇÃO 

Ao propor a inversão do paradigma dominante, da tipagem como subproduto do linking  para a tipagem como produto primário, é necessário reconhecer que essa mudança não atende  a todos os contextos igualmente. Esta seção delimita os cenários em que a abordagem type-first  tende a oferecer maior valor estratégico, discute suas limitações estruturais e sugere caminhos  híbridos para adoção pragmática.

5.1 Onde o Type-First se Mostra Mais Adequado 

O paradigma type-first é particularmente vantajoso em domínios caracterizados por  bases de conhecimento incompletas ou desatualizadas, onde a taxa de entidades do tipo NIL é  elevada. Isso é comum em fluxos jornalísticos, contextos regionais, organizações emergentes  ou cenários em que as renomeações institucionais são frequentes. Nesses casos, o linking deixa  de ser um recurso confiável e passa a ser uma fonte adicional de assimetria. 

Outro fator favorável à adoção do modelo é a presença de pistas nominais estáveis, como  prefixos (“Universidade”, “Prefeitura”), sufixos (“S.A.”) ou acrônimos canônicos (“IBGE”,  “ANVISA”), que viabilizam inferências seguras com regras simbólicas. A capacidade de  produzir resultados explicáveis, auditáveis e de baixo custo computacional reforça ainda mais  a aplicabilidade em contextos onde a rastreabilidade das decisões é mandatória, como auditorias  regulatórias ou sistemas analíticos sob supervisão humana. 

Por fim, em aplicações onde o custo do erro semântico é alto, a capacidade de abstenção  deliberada torna-se um diferencial estratégico. Em vez de propagar uma tipagem incerta, o  sistema preserva a integridade analítica ao indicar que a decisão foi suspensa por ausência de  evidência suficiente. 

5.2 Onde o Linking Ainda Prevalece 

Reconhecemos, no entanto, que há domínios onde a abordagem tradicional de linking  direto ainda se mostra mais eficiente. Isso ocorre quando a base de conhecimento é ampla,  atualizada e confiável, e já contém as facetas desejadas com qualidade suficiente. Nestes casos,  herdar os tipos diretamente do nó linkado é não apenas viável, mas desejável. 

Da mesma forma, em cenários onde os nomes das entidades são curtos, ambíguos ou  desprovidos de contexto linguístico (“Apple”, “Federal”), a inferência simbólica encontra  severas limitações. Quando o objetivo central é a vinculação a um identificador único e estável,  e não a estruturação semântica da menção, o paradigma link-first permanece mais alinhado. 

5.3 Critérios para Decisão Estratégica 

Em vez de propor uma substituição total de um paradigma por outro, sugerimos um  quadro de decisão baseado em quatro critérios estratégicos: 

1. Proporção de entidades NIL: quando excede 20%, a tipagem local tende a ser mais eficaz.

2. Confiabilidade da KB: se as facetas desejadas estão ausentes ou são inconsistentes na base,  o linking deixa de ser útil como fonte tipológica.

3. Explorabilidade nominal: domínios com padrões nominais regulares se beneficiam da  camada simbólica. 

4. Custo do erro e exigência de explicabilidade: quanto mais crítica a precisão e a  rastreabilidade, mais justificável se torna a abstenção deliberada. 

O atendimento a três desses quatro critérios já constitui um indicativo razoável para  adoção do modelo type-first. 

5.4 Limitações Estruturais 

Como toda proposta que visa operar sob incerteza parcial e estruturação fraca, o  paradigma type-first apresenta riscos. A especialização excessiva de regras simbólicas, por  exemplo, pode comprometer a generalização. Para mitigar isso, sugerimos um protocolo de  revisão contínua do catálogo de regras, com testes de regressão e curadoria por pares. 

Outra limitação vem da tentação de expandir descontroladamente o esquema de facetas,  comprometendo a ortogonalidade e a auditabilidade. Nosso posicionamento é claro: o poder da  tipagem não está na granularidade, mas na estabilidade e na inferência segura. Por isso,  defendemos a manutenção de um esquema mínimo, voltado a aplicações operacionais. 

O modelo também está condicionado à qualidade da etapa de NER. Como o  reconhecimento da menção é pré-requisito para a estruturação, falhas nesta etapa comprometem  todo o processo. Essa limitação, no entanto, não é exclusiva do type-first e pode ser mitigada  com modelos treinados para o domínio-alvo. 

5.5 Caminhos Híbridos e Adoção Progressiva 

Em muitos casos, a adoção do paradigma type-first não precisa ser binária. Um caminho  viável é a execução seletiva do linking, acionando-o apenas quando a tipagem for insuficiente  ou ambígua, ou quando houver valor claro de enriquecimento. Outra estratégia é utilizar as  regras simbólicas como funções de rotulagem fraca, treinando classificadores sob frameworks  como weak supervision para aumentar a cobertura sem comprometer a rastreabilidade. 

Também recomendamos inícios controlados, com um catálogo mínimo de regras  voltado aos padrões mais frequentes. Estabelecer uma meta de Cobertura Tipável (por exemplo,  ≥60%) pode servir como indicador inicial de sucesso, com ciclos iterativos de revisão e  expansão. 

Concluímos, portanto, que o type-first não é uma substituição universal, mas um  instrumento para um conjunto de cenários mal atendidos pelo linking tradicional. Sua adoção  exige avaliação criteriosa, mas quando bem aplicada, pode restaurar a inteligibilidade e a utilidade dos dados estruturados em fluxos de informação incertos, dinâmicos e  desbalanceados. 

6 TRABALHOS RELACIONADOS 

Este trabalho se insere na confluência de quatro áreas centrais: tipagem fina de  entidades, vinculação com consciência tipológica, extração simbólica de informação e  estratégias de gestão de incerteza. A seguir, revisitamos criticamente essas linhas de pesquisa e  situamos nossa proposta frente às abordagens predominantes, não apenas em termos técnicos,  mas em relação à lacuna prática que buscamos endereçar. 

6.1 Tipagem Fina e Ultra-Fina de Entidades 

Modelos como FIGER (Ling & Weld, 2012), AFET (Ren et al., 2016) e UFET (Choi et  al., 2018) expandiram de forma significativa o repertório tipológico de sistemas de NER,  incorporando centenas de rótulos e, mais recentemente, conjuntos abertos e hierarquias latentes  (Onoe & Durrett, 2019; Li et al., 2022). Essa linha de pesquisa enfatiza a capacidade de capturar  nuances contextuais a partir de grandes volumes de dados supervisionados ou distantes. 

Ainda que esses modelos tenham elevado o padrão de granularidade na tipagem, eles  mantêm uma visão unidimensional da saída — seja um único tipo, um conjunto plano ou uma  hierarquia —, geralmente sem considerar dimensões ortogonais explícitas nem mecanismos formais de abstenção ou coerência semântica. Nossa proposta avança nessa direção ao adotar  facetas múltiplas e auditáveis, com tratamento isolado de incertezas e verificação declarativa  de consistência. 

6.2 Entity Linking e Detecção de NIL 

A literatura de vinculação de entidades evoluiu de sistemas baseados em coerência  global, como AIDA (Hoffart et al., 2011), para abordagens neurais como BLINK (Wu et al.,  2020) e ReFinED (Ayoola et al., 2022), com foco em precisão e escalabilidade. Uma subárea  relevante é o linking consciente de tipo (type-aware), que utiliza tipagem auxiliar para refinar  o ranqueamento de candidatos. Em paralelo, há esforços dedicados à detecção explícita de  menções NIL (Zhu et al., 2023; Heist & Paulheim, 2023). 

Essas abordagens, no entanto, permanecem ancoradas em um paradigma link-first, onde  a base de conhecimento é a fonte primária de semântica e as menções não linkáveis permanecem  estruturalmente invisíveis. Nossa proposta inverte essa lógica: a estruturação local é o objetivo,  e o linking, quando necessário, é tratado como etapa opcional e posterior. Com isso, buscamos garantir que mesmo entidades NIL possam ser analisadas, filtradas e auditadas com base em  facetas semanticamente interpretáveis. 

6.3 Extração Simbólica e Regras em DSLs 

Frameworks como Odin (Valenzuela-Escárcega et al., 2015), Odinson (2020) e Snorkel  (Ratner et al., 2017) consolidaram a extração simbólica de informação como uma prática  formalizável, com suporte a funções de rotulagem, dicionários e expressões regulares  complexas. Essas ferramentas oferecem a infraestrutura necessária para definir e executar  regras com precisão e reutilização. 

Nosso diferencial está na construção de um catálogo semântico curado para o domínio  específico de organizações em notícias em português, associado a um pipeline que privilegia  auditabilidade, abstenção estratégica e integração com modelos estatísticos sob uma política  governada por restrições. Em vez de apenas rotular, propomos uma estrutura interpretável,  rastreável e utilizável como produto final. 

6.4 Abstenção, Predição Seletiva e Conformalidade 

A abstenção como estratégia de contenção de risco é discutida desde Chow (1970), com  desenvolvimentos modernos como SelectiveNet (Geifman & El-Yaniv, 2019) e predição  conformal (Vovk et al., 2005; Angelopoulos & Bates, 2021). Esses trabalhos oferecem  fundamentos teóricos para modelos que equilibram cobertura e confiabilidade, ainda que  raramente aplicados ao contexto de estruturação de entidades. 

Ao incorporar esses princípios em uma arquitetura de múltiplas facetas — com  abstenção operando por faceta e métricas como AURC (área sob a curva risco-cobertura) —,  nossa proposta traduz essas ideias para um contexto concreto onde a confiança local e a  auditabilidade são essenciais. 

6.5 Síntese: Posicionamento Frente à Literatura 

O que nos distingue não é a introdução de um novo componente isolado, mas a  reconfiguração da ordem das operações e dos objetivos finais em pipelines de estruturação.  Enquanto as abordagens anteriores tratam a tipagem como apoio ao linking ou como tarefa  isolada de classificação, propomos que ela seja um produto final — com múltiplas dimensões,  com coerência lógica assegurada e com rastreabilidade de ponta a ponta. 

O Quadro 1 resume comparativamente os eixos de diferenciação entre nossa proposta e  as linhas de trabalho correlatas.

Quadro 1. Matriz comparativa abordagens de estruturação de entidades. 

Eixo de  
Diferenciação
Open/Ultra Fine TypingEL Type Aware / NILRegras /  DSLsEsta Proposta
(Type First)
Produto de  Saída PrimárioConjunto de  tiposID do nó da  KBRótulos  locaisFacetas auditáveis
Papel da KB Opcional Central Opcional Opcional e tardio
Tratamento de  NILParcial Sem  
estruturação
Variável Estruturação  
garantida
Gestão de  IncertezaConfiança
ad  hoc
Limitada Ad hoc Abstenção faceta-a faceta + AURC
Coerência  
Declarativa
Rara Não se aplica Parcial Restrição formalizada
Suporte à  
Governança de  Dados
Limitado Focado no  linkingLimitado Proveniência +  Checklist + Métricas

Fonte: Elaborado pelos autores 

Essa análise reforça a tese de que o paradigma type-first oferece uma combinação única  de características operacionais para domínios de mundo aberto: utilidade independente da KB,  governança de risco, explicabilidade plena e flexibilidade arquitetural. Não se trata de uma  substituição direta das abordagens anteriores, mas de uma reorganização que coloca a  estruturação local no centro da experiência computacional com entidades. 

7 CONCLUSÃO 

Este trabalho propôs uma inflexão conceitual no tratamento de entidades  organizacionais em textos de domínio aberto. Em lugar da lógica link-first, centrada na  dependência de bases externas, defendemos um paradigma type-first, em que a estruturação  local, facetada e auditável constitui o produto final. Ao posicionar a tipagem KB-agnóstica no  centro do processo, respondemos diretamente a uma limitação recorrente: a invisibilidade  analítica das entidades NIL. 

A arquitetura aqui delineada combina simplicidade operacional com robustez  estratégica. Regras simbólicas capturam padrões linguísticos estáveis; classificadores estatísticos atuam como complemento em casos ambíguos; mecanismos de verificação  asseguram coerência lógica; e políticas de abstenção calibrada preservam a integridade das  decisões. Essa configuração híbrida oferece estrutura acionável mesmo quando o linking falha  ou simplesmente não se justifica. 

A proposta reorganiza os objetivos dos sistemas de extração de informação: não apenas  reconhecer ou vincular entidades, mas estruturá-las de forma confiável mesmo sob incerteza.  Três facetas ortogonais (natureza institucional, esfera de atuação e setor econômico) permitem  consultas analíticas diretas sobre corpora jornalísticos, viabilizando aplicações em  monitoramento institucional, análise regulatória e governança de dados sem dependência de  bases externas. 

Do ponto de vista metodológico, fornecemos à comunidade não apenas um argumento  teórico, mas um caminho viável para adoção progressiva. A taxonomia mínima proposta, o  catálogo inicial de regras simbólicas e o protocolo de avaliação centrado em governança  formam um conjunto coeso de artefatos práticos. Métricas como Cobertura Tipável e Taxa de  Satisfação de Restrições deslocam o foco da acurácia tradicional para a utilidade operacional e  a consistência semântica, critérios mais adequados a contextos onde a rastreabilidade e a  explicabilidade são requisitos essenciais. 

Reconhecemos que o paradigma type-first não se aplica universalmente. Sua eficácia é  maior em domínios com alta proporção de entidades NIL, presença de pistas nominais  exploráveis e exigências de auditabilidade. Onde as bases de conhecimento são completas,  atualizadas e ricas em metadados tipológicos, o linking tradicional permanece como escolha  racional. Nossa contribuição reside justamente em oferecer uma alternativa fundamentada para  os cenários em que essa condição não se verifica. 

Esperamos que este modelo sirva como ponto de partida para futuras extensões a outros  domínios, bem como para o desenvolvimento de sistemas de extração mais transparentes,  auditáveis e orientados a valor analítico. A estruturação local de entidades, quando bem  instrumentalizada, pode restaurar a inteligibilidade dos dados extraídos e ampliar sua utilidade  em aplicações críticas que não podem se dar ao luxo de depender exclusivamente de bases  externas incompletas ou desatualizadas. 

REFERÊNCIAS 

ANGELOPOULOS, A. N.; BATES, S. A gentle introduction to conformal prediction and  distribution-free uncertainty quantification. arXiv:2107.07511 [cs.LG], 2021. Disponível  em: https://arxiv.org/abs/2107.07511. Acesso em: 8 dez. 2025.

AYOOLA, T. et al. ReFinED: An efficient zero-shot entity linking system. In: FINDINGS OF  THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: EMNLP 2022, 2022, Abu  Dhabi. Proceedings […]. Abu Dhabi: ACL, 2022. p. 11-26. 

CHANG, A. X.; MANNING, C. D. TokensRegex: Defining cascaded regular expressions over  tokens. Stanford: Stanford University, 2014. Technical Report. 

CHOI, E. et al. Ultra-Fine Entity Typing. In: ANNUAL CONFERENCE OF THE NORTH  AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL  LINGUISTICS: HUMAN LANGUAGE TECHNOLOGIES, 2018, Stroudsburg. Proceedings […]. Stroudsburg: ACL, 2018. p. 87-94. 

CHOW, C. K. On optimum recognition error and reject trade-off. IEEE Transactions on  Information Theory, v. 16, n. 1, p. 41-46, 1970. 

GANEA, O.-E.; HOFMANN, T. Deep joint entity disambiguation with local neural attention.  In: CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE  PROCESSING, 2017, Copenhagen. Proceedings […]. Copenhagen: ACL, 2017. p. 2619-2629. 

GEIFMAN, Y.; EL-YANIV, R. SelectiveNet: A deep neural network with an integrated reject  option. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 36., 2019, Long  Beach. Proceedings […]. [S.l.]: PMLR, 2019. p. 2151-2159. 

HOFFART, J. et al. Robust disambiguation of named entities in text. In: CONFERENCE ON  EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, 2011, Edinburgh.  Proceedings […]. Edinburgh: ACL, 2011. p. 782-792. 

LI, Z. et al. Fine-grained entity typing with noisy labels: A survey and new benchmarks. In:  ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS,  2022, Dublin. Proceedings […]. Dublin: ACL, 2022. p. 1234-1248. 

LING, X.; WELD, D. S. Fine-grained entity recognition. In: AAAI CONFERENCE ON  ARTIFICIAL INTELLIGENCE, 2012, Toronto. Proceedings […]. Toronto: AAAI Press,  2012. p. 94-100. 

ONOE, Y.; DURRETT, G. Learning to denoise distantly-labeled data for fine-grained entity  typing. In: ANNUAL CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE  ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: HUMAN LANGUAGE  TECHNOLOGIES, 2019, Minneapolis. Proceedings […]. Minneapolis: ACL, 2019. p. 2407- 2417. 

RATNER, A. et al. Snorkel: Rapid training data creation with weak supervision. Proceedings  of the VLDB Endowment, v. 11, n. 3, p. 269-282, 2017. 

REN, X. et al. AFET: Automatic fine-grained entity typing by hierarchical partial-label  embedding. In: ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE  DISCOVERY AND DATA MINING, 2016, San Francisco. Proceedings […]. San Francisco:  ACM, 2016. p. 1277-1286.

SEVGILI, O. et al. Neural entity linking: A survey of models based on deep learning.  arXiv:2006.00575 [cs.CL], 2020. Disponível em: https://arxiv.org/abs/2006.00575. Acesso em:  8 dez. 2025. 

SHAFER, G.; VOVK, V. A tutorial on conformal prediction. Journal of Machine Learning  Research, v. 9, p. 371-421, 2008. 

SHEN, W.; WANG, J.; HAN, J. Entity linking with a knowledge base: Issues, techniques, and  solutions. IEEE Transactions on Knowledge and Data Engineering, v. 27, n. 2, p. 443-460,  2015. 

VALENZUELA-ESCÁRCEGA, M. A.; HAHN-POWELL, G.; SURDEANU, M. Odin: A fast  rule language for information extraction. In: INTERNATIONAL CONFERENCE ON  LANGUAGE RESOURCES AND EVALUATION, 2016, Portorož. Proceedings […].  Portorož: ELRA, 2016. p. 2183-2188. 

VALENZUELA-ESCÁRCEGA, M. A.; WHITE, A. S.; SURDEANU, M. Odinson: A fast rule based information extraction framework. In: INTERNATIONAL CONFERENCE ON  LANGUAGE RESOURCES AND EVALUATION, 2020, Marseille. Proceedings […].  Marseille: ELRA, 2020. p. 220-227. 

VOVK, V.; GAMMERMAN, A.; SHAFER, G. Algorithmic learning in a random world.  New York: Springer, 2005. 

WU, L. et al. Scalable zero-shot entity linking with dense representations. In: CONFERENCE  ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, 2020, Online.  Proceedings […]. [S.l.]: ACL, 2020. p. 6397-6410.


1Pontifícia Universidade Católica de São Paulo (PUC-SP). e- mail: ra00354501@pucsp.edu.br
2PUC-SP & Instituto de Tecnologia e Liderança (Inteli). e- mail: silvajo@pucsp.br