ANTES TIPAR QUE LINKAR: UM ARGUMENTO PELA ESTRUTURAÇÃO LOCAL DE ENTIDADES NIL

BETTER TYPING THAN LINKING: AN ARGUMENT FOR LOCAL STRUCTURING OF NIL ENTITIES

REGISTRO DOI: 10.69849/revistaft/ch10202512121651

Pedro Ernesto da Silva Souza¹
Jefferson de Oliveira Silva²

Resumo

Este position paper propõe uma mudança de paradigma na estruturação de entidades organizacionais em textos jornalísticos e domínios abertos: da lógica predominante do link-first, que condiciona a tipagem ao sucesso do Entity Linking, para uma abordagem type-first, em que a tipagem facetada é o objetivo primário, útil e auditável mesmo na ausência de uma base de conhecimento. Argumentamos que essa reorganização é mais adequada a cenários onde há alta frequência de entidades NIL, exigência de explicabilidade e governança de dados, e presença de pistas nominais exploráveis. Propomos uma arquitetura híbrida composta por regras simbólicas, modelo estatístico complementar, verificação de coerência semântica e política explícita de abstenção. Em vez de depender exclusivamente do linking, o sistema estrutura localmente cada menção por meio de facetas ortogonais (natureza institucional, esfera de atuação e setor econômico), mesmo em contextos de incerteza. Apresentamos também um protocolo de avaliação centrado em governança, com métricas como Cobertura Tipável e Satisfação de Restrições, e disponibilizamos artefatos práticos que viabilizam a adoção e a reprodução da proposta.

Palavras-chave: Tipificação Facetada de Entidades. Estruturação Local. Modelos Híbridos Simbólico Estatísticos. Explicabilidade e Governança. Entidades NIL (não vinculáveis). Satisfação de Restrições Semânticas.

1 INTRODUÇÃO

Sistemas de Extração de Informação (EI) transformam texto não estruturado em dados estruturados para consulta, integração e auditoria. O pipeline dominante, especialmente no domínio jornalístico que tratamos aqui, é o link-first: primeiro identifica-se a menção de uma entidade e, em seguida, tenta-se vinculá-la a um nó em uma base de conhecimento (KB). Por exemplo, ao encontrar a string “Villa Nova”, o sistema tenta ligá-la ao clube de futebol homônimo na Wikipédia para só então herdar seu tipo (clube esportivo). Essa abordagem é eficaz para entidades canônicas, mas gera uma assimetria representacional quando o linking falha por exemplo em casos NIL, entidades novas ou siglas locais. Parte do corpus é enriquecida com metadados úteis; o restante permanece rotulado com categorias genéricas como “ORGANIZAÇÃO”, de pouca utilidade analítica. Na prática, isso inviabiliza consultas simples, como listar todas as universidades mencionadas em um corpus ou agrupar entidades por esfera federativa, mesmo quando o texto original oferece pistas explícitas, como em “Prefeitura de Salvador” ou “Faculdade Dom Bosco”. Este trabalho propõe uma mudança de objetivo: tratar a estruturação tipológica das entidades, independentemente de seu linking, como produto final primário, e considerar o linking apenas como uma etapa tardia e opcional de enriquecimento. Focamos, em particular, nas menções a organizações em notícias, embora o caso possa ser generalizado para outros contextos. Nele, uma menção como “APF” (possivelmente sem entrada em KB) pode ser classificada imediatamente em facetas auditáveis, como natureza institucional (por exemplo, associação), esfera de atuação (como municipal) e setor (como saúde), gerando valor analítico mesmo na ausência de linking.

O modelo proposto adota um esquema de tipagem facetada composto por três dimensões ortogonais: natureza institucional, esfera de atuação e setor temático ou econômico. Essas dimensões foram selecionadas por sua relevância analítica e alta inferibilidade a partir de pistas superficiais presentes no próprio texto, e não por completude ontológica. A estruturação resultante pode ser parcial, atribuindo apenas facetas com evidência suficiente, e deve ser sempre acompanhada de proveniência rastreável. Em casos de ambiguidade ou ausência de indícios, o sistema se abstém de decidir, preservando a integridade analítica.

A arquitetura proposta é híbrida: quando há pistas nominais estáveis (como “Prefeitura de…”, “Universidade…”, ou acrônimos canônicos), regras simbólicas operam com precisão e transparência. Quando essas pistas são insuficientes, um classificador estatístico atua de forma complementar, sempre acompanhado de mecanismos de abstenção calibrada e verificação de coerência semântica. O resultado é um sistema que estrutura localmente cada menção com base em facetas ortogonais, oferecendo utilidade operacional mesmo quando o linking é inviável ou desnecessário.

A proposta aqui defendida traz implicações práticas e teóricas. Do ponto de vista operacional, permite consultas analíticas diretas sobre corpora jornalísticos sem dependência de bases externas, facilitando aplicações em monitoramento institucional, análise regulatória e governança de dados. Do ponto de vista conceitual, reposiciona a tipagem como um fim em si, e não como meio para o linking, abrindo espaço para modelos que valorizam explicabilidade, rastreabilidade e abstenção estratégica.

O restante do artigo está organizado da seguinte forma: a Seção 2 apresenta a arquitetura type-first em detalhe, incluindo o esquema facetado, a base simbólica, os mecanismos de coerência e o papel complementar do classificador estatístico. A Seção 3 descreve o pipeline completo, com seus componentes, fluxo de decisão e política de proveniência. A Seção 4 propõe um protocolo de avaliação centrado em governança e uma agenda de pesquisa para generalização a outros domínios. A Seção 5 discute aplicabilidade, limitações e estratégias de adoção progressiva. A Seção 6 revisa trabalhos relacionados e destaca as diferenças em relação à nossa proposta. Por fim, a Seção 7 apresenta as conclusões.

2 ARQUITETURA DE ESTRUTURAÇÃO TIPOLÓGICA

2.1 Esquema de Tipagem Facetada

A tipagem é conduzida por três dimensões ortogonais: natureza institucional, esfera de atuação e setor temático ou econômico. A ortogonalidade permite que cada faceta seja inferida de forma independente, suportando casos de preenchimento parcial. O conjunto de valores em cada dimensão foi escolhido por sua relevância analítica no domínio jornalístico e pela alta taxa de inferibilidade a partir de expressões nominais comuns.

A natureza institucional distingue, por exemplo, empresas privadas, universidades, órgãos públicos, forças policiais, ONGs, movimentos sociais e partidos políticos. A esfera de atuação abrange categorias como municipal, estadual, federal, internacional e privada. Já o setor temático cobre domínios como educação, saúde, segurança, tecnologia, finanças e política. A seleção desse conjunto restrito de facetas reflete um compromisso com portabilidade, interpretabilidade e facilidade de anotação, em vez de aderência a taxonomias ontológicas extensas.

2.2 Base de Conhecimento Simbólica: Regras e Dicionários

A inferência das facetas é operacionalizada por uma base de conhecimento simbólica composta por regras de padrão textual e listas léxicas. Esse repositório captura regularidades linguísticas e saber institucional implícito nos textos jornalísticos, como prefixos, acrônimos e marcadores lexicais estáveis. Cada regra é formalizada como uma função de rotulagem que, ao ser aplicada a uma menção textual, produz uma atribuição de facetas com um grau implícito de confiança ou se abstém, conforme a evidência disponível.

Por exemplo, expressões como “Prefeitura de…” ativam diretamente a faceta esfera=municipal; menções que contêm “Polícia Militar” são rotuladas como natureza=força_policial e setor=segurança; acrônimos como “IBGE” são reconhecidos por dicionários canônicos como órgãos públicos federais. Essas funções são implementadas de forma modular e auditável, facilitando tanto sua manutenção quanto seu aprimoramento incremental.

A Tabela 1 apresenta uma amostra ilustrativa do catálogo de regras simbólicas atualmente utilizado. Esses exemplos demonstram como padrões simples (como prefixos, tokens canônicos ou acrônimos) podem acionar facetas com alto grau de confiabilidade. Trata se de um subconjunto representativo das funções de rotulagem presentes na base simbólica, com valor heurístico e operacional.

Tabela 1. Amostra do catálogo de regras simbólicas para tipagem de organizações

Fonte: Elaborado pelos autores, 2025.

2.3 Mecanismos de Coerência e abstenção

A consolidação das facetas atribuídas por múltiplas regras ou modelos passa por um mecanismo de verificação de coerência baseado em restrições lógicas. Por exemplo, proíbe-se a combinação natureza=orgao_publico com esfera=privado. Conflitos entre atribuições são resolvidos segundo uma política de precedência explícita, geralmente favorecendo regras simbólicas sobre predições estatísticas, ou, na ausência de resolução segura, levam à abstenção controlada da faceta em questão.

A abstenção, nesse contexto, não é uma falha do sistema, mas uma escolha deliberada de não decidir quando a evidência é insuficiente ou contraditória. Cada abstenção é registrada com um código de justificativa, como ESFERA_INDETERMINADA ou CONFLITO_DE_REGRA, preservando a transparência da decisão e permitindo sua auditoria posterior.

2.4 Proveniência e Auditabilidade

Toda atribuição de faceta é acompanhada por metadados de proveniência. Estes identificam a origem da decisão (regra aplicada ou modelo acionado) e registram a evidência textual que motivou a inferência. Esse mecanismo é fundamental para aplicações em que a rastreabilidade das decisões é um requisito, como auditorias, análise regulatória e revisão manual em pipelines críticos. A arquitetura foi concebida para que cada decisão possa ser explicada, reproduzida e, se necessário, contestada.

2.5 Classificação Estatística como Complemento

O modelo híbrido propõe que o classificador estatístico atue apenas nos casos que não foram cobertos com confiança suficiente pelas regras simbólicas. Esse classificador, treinado a partir de exemplos anotados, visa capturar padrões contextuais mais sutis, operando com as mesmas facetas e sob os mesmos mecanismos de coerência e abstenção. Ao limitar o escopo do modelo estatístico aos casos ambíguos, preserva-se a interpretabilidade do sistema e otimiza se o uso de aprendizado supervisionado.

3 ARQUITETURA DO PIPELINE TYPE-FIRST

A arquitetura proposta neste trabalho adota o princípio da tipagem como objetivo primário (type-first), invertendo a lógica tradicional centrada no linking. O design privilegia a explicabilidade, a robustez em cenários abertos e a utilidade KB-agnóstica, relegando o linking a uma função opcional e tardia de validação e enriquecimento. A Figura 1 ilustra os componentes centrais e o fluxo de decisão entre eles.

Figura 1. Componentes Centrais e Fluxo de Decisão.

Fonte: Elaborado pelos autores, 2025.

A trajetória do pipeline, representada pela linha sólida, abrange os módulos necessários à estruturação tipológica mesmo na ausência de qualquer conhecimento externo. Um caminho tracejado representa o componente de linking, que pode ser acionado seletivamente, sem comprometer a operação principal.

3.1 Componentes e Funcionalidades

O pipeline inicia com um módulo de reconhecimento de entidades (NER), responsável por identificar menções do tipo ORG. A arquitetura não impõe restrições sobre o modelo utilizado, desde que adequado ao domínio de notícias e com cobertura razoável de siglas e variantes nominais.

A seguir, um motor simbólico aplica o catálogo de regras e dicionários descrito anteriormente, rotulando as menções com base em padrões lexicais e estruturais. Esse motor opera como primeira linha de inferência, atribuindo facetas com base em evidência explícita e rastreável. Quando nenhuma regra é aplicável, ou apenas parte das facetas é atribuída, a menção é encaminhada a um classificador estatístico, treinado para preencher lacunas com base em contexto.

Um módulo de verificação assegura a coerência lógica das atribuições, com base em restrições de domínio (por exemplo, um órgão público não pode ser marcado como “privado”). Diante de inconsistências ou incertezas, o sistema opta pela abstenção controlada, que suspende a decisão e a substitui por um marcador explicativo. Esse mecanismo garante que a qualidade das atribuições prevaleça sobre sua completude.

Por fim, um módulo opcional de Entity Linking pode ser invocado, não como fonte primária de tipagem, mas como etapa complementar. Ele utiliza as facetas já inferidas como filtros de pré-seleção na base de conhecimento e registra eventuais divergências como sinalizações, não como erros.

3.2 Protocolo de Decisão e Fusão

O fluxo de decisão é guiado por uma política que prioriza evidência clara, consistência e explicabilidade. A aplicação das regras simbólicas tem precedência e, quando suficiente, é tratada como fonte confiável. Atribuições provenientes de múltiplos módulos são fundidas quando não conflitantes, e conflitos são resolvidos por precedência ou confiança relativa. Quando não há resolução segura, o sistema opta explicitamente por não atribuir a faceta em disputa.

O classificador estatístico, por sua vez, é acionado apenas para preencher lacunas remanescentes, nunca para sobrescrever decisões tomadas com base em regras de alta confiança. Após a fusão, uma verificação final de coerência é executada, seguida pela decisão definitiva de atribuição ou abstenção.

3.3 Rastreabilidade e Governança

Todas as decisões do pipeline são acompanhadas de metadados de proveniência. Para cada faceta atribuída ou omitida, o sistema registra a fonte (regra ou modelo), a evidência textual que motivou a decisão, um grau estimado de confiança e, em caso de abstenção, um código categórico que justifica a não-decisão. Essa trilha de auditoria não é um acessório, mas um elemento estruturante do modelo proposto, permitindo depuração, explicação e refinamento iterativo em contextos que exigem transparência e responsabilização.

4 PERSPECTIVAS DE AVALIAÇÃO E GOVERNANÇA

O valor de um pipeline de estruturação type-first não reside apenas na acurácia de suas predições, mas em sua capacidade de produzir dados úteis, auditáveis e semanticamente consistentes, mesmo diante da ausência de uma base de conhecimento. Assim, uma avaliação efetiva deve ir além de métricas tradicionais de linking e se concentrar na utilidade prática das saídas sob o ponto de vista da governança de dados.

Propomos, para isso, um conjunto de diretrizes avaliativas que podem ser aplicadas tanto em experimentos futuros quanto em cenários reais de implantação.

4.1 Métricas Centrais de Governança

Uma primeira dimensão de avaliação diz respeito à Cobertura Tipável, definida como a proporção de menções para as quais o sistema consegue inferir ao menos uma faceta válida sem recorrer ao linking. Essa métrica revela o potencial do modelo em cenários de mundo aberto e sinaliza sua capacidade de gerar valor mesmo para entidades do tipo NIL.

Outra dimensão essencial é a Taxa de Satisfação de Restrições, que verifica a consistência semântica das facetas atribuídas com base nas restrições lógicas previamente definidas. Em contextos regulatórios, a confiança sobre as inferências não decorre apenas de sua frequência, mas da ausência de contradições explícitas.

A terceira dimensão foca na abstenção estratégica: avaliar não apenas quanto o sistema se abstém, mas quando ele o faz, e se essas abstenções ocorrem em situações de incerteza legítima. Em vez de penalizar a abstenção, propomos sua incorporação como um indicativo de maturidade do sistema frente ao risco.

4.2 Auditabilidade e Transparência

Complementarmente, sugerimos que qualquer avaliação inclua uma análise qualitativa orientada à explicabilidade e rastreabilidade. Para cada decisão de atribuição ou abstenção, o sistema deve ser capaz de apresentar:

• A origem da inferência (regra aplicada ou modelo acionado);

• A evidência textual utilizada;

• A justificativa categorizada em caso de abstenção.

Essa trilha de auditoria deve ser tratada como parte do produto da estruturação, e não como metadado acessório. A capacidade de reconstruir decisões, explicá-las e refiná-las iterativamente é, a nosso ver, um critério distintivo para avaliar pipelines em contextos críticos.

5 APLICABILIDADE, LIMITAÇÕES E ESTRATÉGIAS DE ADOÇÃO

Ao propor a inversão do paradigma dominante, da tipagem como subproduto do linking para a tipagem como produto primário, é necessário reconhecer que essa mudança não atende a todos os contextos igualmente. Esta seção delimita os cenários em que a abordagem type-first tende a oferecer maior valor estratégico, discute suas limitações estruturais e sugere caminhos híbridos para adoção pragmática.

5.1 Onde o Type-First se Mostra Mais Adequado

O paradigma type-first é particularmente vantajoso em domínios caracterizados por bases de conhecimento incompletas ou desatualizadas, onde a taxa de entidades do tipo NIL é elevada. Isso é comum em fluxos jornalísticos, contextos regionais, organizações emergentes ou cenários em que as renomeações institucionais são frequentes. Nesses casos, o linking deixa de ser um recurso confiável e passa a ser uma fonte adicional de assimetria.

Outro fator favorável à adoção do modelo é a presença de pistas nominais estáveis, como prefixos (“Universidade”, “Prefeitura”), sufixos (“S.A.”) ou acrônimos canônicos (“IBGE”, “ANVISA”), que viabilizam inferências seguras com regras simbólicas. A capacidade de produzir resultados explicáveis, auditáveis e de baixo custo computacional reforça ainda mais a aplicabilidade em contextos onde a rastreabilidade das decisões é mandatória, como auditorias regulatórias ou sistemas analíticos sob supervisão humana.

Por fim, em aplicações onde o custo do erro semântico é alto, a capacidade de abstenção deliberada torna-se um diferencial estratégico. Em vez de propagar uma tipagem incerta, o sistema preserva a integridade analítica ao indicar que a decisão foi suspensa por ausência de evidência suficiente.

5.2 Onde o Linking Ainda Prevalece

Reconhecemos, no entanto, que há domínios onde a abordagem tradicional de linking direto ainda se mostra mais eficiente. Isso ocorre quando a base de conhecimento é ampla, atualizada e confiável, e já contém as facetas desejadas com qualidade suficiente. Nestes casos, herdar os tipos diretamente do nó linkado é não apenas viável, mas desejável.

Da mesma forma, em cenários onde os nomes das entidades são curtos, ambíguos ou desprovidos de contexto linguístico (“Apple”, “Federal”), a inferência simbólica encontra severas limitações. Quando o objetivo central é a vinculação a um identificador único e estável, e não a estruturação semântica da menção, o paradigma link-first permanece mais alinhado.

5.3 Critérios para Decisão Estratégica

Em vez de propor uma substituição total de um paradigma por outro, sugerimos um quadro de decisão baseado em quatro critérios estratégicos:

1. Proporção de entidades NIL: quando excede 20%, a tipagem local tende a ser mais eficaz.

2. Confiabilidade da KB: se as facetas desejadas estão ausentes ou são inconsistentes na base, o linking deixa de ser útil como fonte tipológica.

3. Explorabilidade nominal: domínios com padrões nominais regulares se beneficiam da camada simbólica.

4. Custo do erro e exigência de explicabilidade: quanto mais crítica a precisão e a rastreabilidade, mais justificável se torna a abstenção deliberada.

O atendimento a três desses quatro critérios já constitui um indicativo razoável para adoção do modelo type-first.

5.4 Limitações Estruturais

Como toda proposta que visa operar sob incerteza parcial e estruturação fraca, o paradigma type-first apresenta riscos. A especialização excessiva de regras simbólicas, por exemplo, pode comprometer a generalização. Para mitigar isso, sugerimos um protocolo de revisão contínua do catálogo de regras, com testes de regressão e curadoria por pares.

Outra limitação vem da tentação de expandir descontroladamente o esquema de facetas, comprometendo a ortogonalidade e a auditabilidade. Nosso posicionamento é claro: o poder da tipagem não está na granularidade, mas na estabilidade e na inferência segura. Por isso, defendemos a manutenção de um esquema mínimo, voltado a aplicações operacionais.

O modelo também está condicionado à qualidade da etapa de NER. Como o reconhecimento da menção é pré-requisito para a estruturação, falhas nesta etapa comprometem todo o processo. Essa limitação, no entanto, não é exclusiva do type-first e pode ser mitigada com modelos treinados para o domínio-alvo.

5.5 Caminhos Híbridos e Adoção Progressiva

Em muitos casos, a adoção do paradigma type-first não precisa ser binária. Um caminho viável é a execução seletiva do linking, acionando-o apenas quando a tipagem for insuficiente ou ambígua, ou quando houver valor claro de enriquecimento. Outra estratégia é utilizar as regras simbólicas como funções de rotulagem fraca, treinando classificadores sob frameworks como weak supervision para aumentar a cobertura sem comprometer a rastreabilidade.

Também recomendamos inícios controlados, com um catálogo mínimo de regras voltado aos padrões mais frequentes. Estabelecer uma meta de Cobertura Tipável (por exemplo, ≥60%) pode servir como indicador inicial de sucesso, com ciclos iterativos de revisão e expansão.

Concluímos, portanto, que o type-first não é uma substituição universal, mas um instrumento para um conjunto de cenários mal atendidos pelo linking tradicional. Sua adoção exige avaliação criteriosa, mas quando bem aplicada, pode restaurar a inteligibilidade e a utilidade dos dados estruturados em fluxos de informação incertos, dinâmicos e desbalanceados.

6 TRABALHOS RELACIONADOS

Este trabalho se insere na confluência de quatro áreas centrais: tipagem fina de entidades, vinculação com consciência tipológica, extração simbólica de informação e estratégias de gestão de incerteza. A seguir, revisitamos criticamente essas linhas de pesquisa e situamos nossa proposta frente às abordagens predominantes, não apenas em termos técnicos, mas em relação à lacuna prática que buscamos endereçar.

6.1 Tipagem Fina e Ultra-Fina de Entidades

Modelos como FIGER (Ling & Weld, 2012), AFET (Ren et al., 2016) e UFET (Choi et al., 2018) expandiram de forma significativa o repertório tipológico de sistemas de NER, incorporando centenas de rótulos e, mais recentemente, conjuntos abertos e hierarquias latentes (Onoe & Durrett, 2019; Li et al., 2022). Essa linha de pesquisa enfatiza a capacidade de capturar nuances contextuais a partir de grandes volumes de dados supervisionados ou distantes.

Ainda que esses modelos tenham elevado o padrão de granularidade na tipagem, eles mantêm uma visão unidimensional da saída — seja um único tipo, um conjunto plano ou uma hierarquia —, geralmente sem considerar dimensões ortogonais explícitas nem mecanismos formais de abstenção ou coerência semântica. Nossa proposta avança nessa direção ao adotar facetas múltiplas e auditáveis, com tratamento isolado de incertezas e verificação declarativa de consistência.

6.2 Entity Linking e Detecção de NIL

A literatura de vinculação de entidades evoluiu de sistemas baseados em coerência global, como AIDA (Hoffart et al., 2011), para abordagens neurais como BLINK (Wu et al., 2020) e ReFinED (Ayoola et al., 2022), com foco em precisão e escalabilidade. Uma subárea relevante é o linking consciente de tipo (type-aware), que utiliza tipagem auxiliar para refinar o ranqueamento de candidatos. Em paralelo, há esforços dedicados à detecção explícita de menções NIL (Zhu et al., 2023; Heist & Paulheim, 2023).

Essas abordagens, no entanto, permanecem ancoradas em um paradigma link-first, onde a base de conhecimento é a fonte primária de semântica e as menções não linkáveis permanecem estruturalmente invisíveis. Nossa proposta inverte essa lógica: a estruturação local é o objetivo, e o linking, quando necessário, é tratado como etapa opcional e posterior. Com isso, buscamos garantir que mesmo entidades NIL possam ser analisadas, filtradas e auditadas com base em facetas semanticamente interpretáveis.

6.3 Extração Simbólica e Regras em DSLs

Frameworks como Odin (Valenzuela-Escárcega et al., 2015), Odinson (2020) e Snorkel (Ratner et al., 2017) consolidaram a extração simbólica de informação como uma prática formalizável, com suporte a funções de rotulagem, dicionários e expressões regulares complexas. Essas ferramentas oferecem a infraestrutura necessária para definir e executar regras com precisão e reutilização.

Nosso diferencial está na construção de um catálogo semântico curado para o domínio específico de organizações em notícias em português, associado a um pipeline que privilegia auditabilidade, abstenção estratégica e integração com modelos estatísticos sob uma política governada por restrições. Em vez de apenas rotular, propomos uma estrutura interpretável, rastreável e utilizável como produto final.

6.4 Abstenção, Predição Seletiva e Conformalidade

A abstenção como estratégia de contenção de risco é discutida desde Chow (1970), com desenvolvimentos modernos como SelectiveNet (Geifman & El-Yaniv, 2019) e predição conformal (Vovk et al., 2005; Angelopoulos & Bates, 2021). Esses trabalhos oferecem fundamentos teóricos para modelos que equilibram cobertura e confiabilidade, ainda que raramente aplicados ao contexto de estruturação de entidades.

Ao incorporar esses princípios em uma arquitetura de múltiplas facetas — com abstenção operando por faceta e métricas como AURC (área sob a curva risco-cobertura) —, nossa proposta traduz essas ideias para um contexto concreto onde a confiança local e a auditabilidade são essenciais.

6.5 Síntese: Posicionamento Frente à Literatura

O que nos distingue não é a introdução de um novo componente isolado, mas a reconfiguração da ordem das operações e dos objetivos finais em pipelines de estruturação. Enquanto as abordagens anteriores tratam a tipagem como apoio ao linking ou como tarefa isolada de classificação, propomos que ela seja um produto final — com múltiplas dimensões, com coerência lógica assegurada e com rastreabilidade de ponta a ponta.

O Quadro 1 resume comparativamente os eixos de diferenciação entre nossa proposta e as linhas de trabalho correlatas.

Quadro 1. Matriz comparativa abordagens de estruturação de entidades.

Eixo de Diferenciação	Open/Ultra Fine Typing	EL Type Aware / NIL	Regras / DSLs	Esta Proposta (Type First)
Produto de Saída Primário	Conjunto de tipos	ID do nó da KB	Rótulos locais	Facetas auditáveis
Papel da KB	Opcional	Central	Opcional	Opcional e tardio
Tratamento de NIL	Parcial	Sem estruturação	Variável	Estruturação garantida
Gestão de Incerteza	Confiança ad hoc	Limitada	Ad hoc	Abstenção faceta-a faceta + AURC
Coerência Declarativa	Rara	Não se aplica	Parcial	Restrição formalizada
Suporte à Governança de Dados	Limitado	Focado no linking	Limitado	Proveniência + Checklist + Métricas

Fonte: Elaborado pelos autores

Essa análise reforça a tese de que o paradigma type-first oferece uma combinação única de características operacionais para domínios de mundo aberto: utilidade independente da KB, governança de risco, explicabilidade plena e flexibilidade arquitetural. Não se trata de uma substituição direta das abordagens anteriores, mas de uma reorganização que coloca a estruturação local no centro da experiência computacional com entidades.

7 CONCLUSÃO

Este trabalho propôs uma inflexão conceitual no tratamento de entidades organizacionais em textos de domínio aberto. Em lugar da lógica link-first, centrada na dependência de bases externas, defendemos um paradigma type-first, em que a estruturação local, facetada e auditável constitui o produto final. Ao posicionar a tipagem KB-agnóstica no centro do processo, respondemos diretamente a uma limitação recorrente: a invisibilidade analítica das entidades NIL.

A arquitetura aqui delineada combina simplicidade operacional com robustez estratégica. Regras simbólicas capturam padrões linguísticos estáveis; classificadores estatísticos atuam como complemento em casos ambíguos; mecanismos de verificação asseguram coerência lógica; e políticas de abstenção calibrada preservam a integridade das decisões. Essa configuração híbrida oferece estrutura acionável mesmo quando o linking falha ou simplesmente não se justifica.

A proposta reorganiza os objetivos dos sistemas de extração de informação: não apenas reconhecer ou vincular entidades, mas estruturá-las de forma confiável mesmo sob incerteza. Três facetas ortogonais (natureza institucional, esfera de atuação e setor econômico) permitem consultas analíticas diretas sobre corpora jornalísticos, viabilizando aplicações em monitoramento institucional, análise regulatória e governança de dados sem dependência de bases externas.

Do ponto de vista metodológico, fornecemos à comunidade não apenas um argumento teórico, mas um caminho viável para adoção progressiva. A taxonomia mínima proposta, o catálogo inicial de regras simbólicas e o protocolo de avaliação centrado em governança formam um conjunto coeso de artefatos práticos. Métricas como Cobertura Tipável e Taxa de Satisfação de Restrições deslocam o foco da acurácia tradicional para a utilidade operacional e a consistência semântica, critérios mais adequados a contextos onde a rastreabilidade e a explicabilidade são requisitos essenciais.

Reconhecemos que o paradigma type-first não se aplica universalmente. Sua eficácia é maior em domínios com alta proporção de entidades NIL, presença de pistas nominais exploráveis e exigências de auditabilidade. Onde as bases de conhecimento são completas, atualizadas e ricas em metadados tipológicos, o linking tradicional permanece como escolha racional. Nossa contribuição reside justamente em oferecer uma alternativa fundamentada para os cenários em que essa condição não se verifica.

Esperamos que este modelo sirva como ponto de partida para futuras extensões a outros domínios, bem como para o desenvolvimento de sistemas de extração mais transparentes, auditáveis e orientados a valor analítico. A estruturação local de entidades, quando bem instrumentalizada, pode restaurar a inteligibilidade dos dados extraídos e ampliar sua utilidade em aplicações críticas que não podem se dar ao luxo de depender exclusivamente de bases externas incompletas ou desatualizadas.

REFERÊNCIAS

ANGELOPOULOS, A. N.; BATES, S. A gentle introduction to conformal prediction and distribution-free uncertainty quantification. arXiv:2107.07511 [cs.LG], 2021. Disponível em: https://arxiv.org/abs/2107.07511. Acesso em: 8 dez. 2025.

AYOOLA, T. et al. ReFinED: An efficient zero-shot entity linking system. In: FINDINGS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: EMNLP 2022, 2022, Abu Dhabi. Proceedings […]. Abu Dhabi: ACL, 2022. p. 11-26.

CHANG, A. X.; MANNING, C. D. TokensRegex: Defining cascaded regular expressions over tokens. Stanford: Stanford University, 2014. Technical Report.

CHOI, E. et al. Ultra-Fine Entity Typing. In: ANNUAL CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: HUMAN LANGUAGE TECHNOLOGIES, 2018, Stroudsburg. Proceedings […]. Stroudsburg: ACL, 2018. p. 87-94.

CHOW, C. K. On optimum recognition error and reject trade-off. IEEE Transactions on Information Theory, v. 16, n. 1, p. 41-46, 1970.

GANEA, O.-E.; HOFMANN, T. Deep joint entity disambiguation with local neural attention. In: CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, 2017, Copenhagen. Proceedings […]. Copenhagen: ACL, 2017. p. 2619-2629.

GEIFMAN, Y.; EL-YANIV, R. SelectiveNet: A deep neural network with an integrated reject option. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 36., 2019, Long Beach. Proceedings […]. [S.l.]: PMLR, 2019. p. 2151-2159.

HOFFART, J. et al. Robust disambiguation of named entities in text. In: CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, 2011, Edinburgh. Proceedings […]. Edinburgh: ACL, 2011. p. 782-792.

LI, Z. et al. Fine-grained entity typing with noisy labels: A survey and new benchmarks. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 2022, Dublin. Proceedings […]. Dublin: ACL, 2022. p. 1234-1248.

LING, X.; WELD, D. S. Fine-grained entity recognition. In: AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, 2012, Toronto. Proceedings […]. Toronto: AAAI Press, 2012. p. 94-100.

ONOE, Y.; DURRETT, G. Learning to denoise distantly-labeled data for fine-grained entity typing. In: ANNUAL CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: HUMAN LANGUAGE TECHNOLOGIES, 2019, Minneapolis. Proceedings […]. Minneapolis: ACL, 2019. p. 2407- 2417.

RATNER, A. et al. Snorkel: Rapid training data creation with weak supervision. Proceedings of the VLDB Endowment, v. 11, n. 3, p. 269-282, 2017.

REN, X. et al. AFET: Automatic fine-grained entity typing by hierarchical partial-label embedding. In: ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, 2016, San Francisco. Proceedings […]. San Francisco: ACM, 2016. p. 1277-1286.

SEVGILI, O. et al. Neural entity linking: A survey of models based on deep learning. arXiv:2006.00575 [cs.CL], 2020. Disponível em: https://arxiv.org/abs/2006.00575. Acesso em: 8 dez. 2025.

SHAFER, G.; VOVK, V. A tutorial on conformal prediction. Journal of Machine Learning Research, v. 9, p. 371-421, 2008.

SHEN, W.; WANG, J.; HAN, J. Entity linking with a knowledge base: Issues, techniques, and solutions. IEEE Transactions on Knowledge and Data Engineering, v. 27, n. 2, p. 443-460, 2015.

VALENZUELA-ESCÁRCEGA, M. A.; HAHN-POWELL, G.; SURDEANU, M. Odin: A fast rule language for information extraction. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 2016, Portorož. Proceedings […]. Portorož: ELRA, 2016. p. 2183-2188.

VALENZUELA-ESCÁRCEGA, M. A.; WHITE, A. S.; SURDEANU, M. Odinson: A fast rule based information extraction framework. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 2020, Marseille. Proceedings […]. Marseille: ELRA, 2020. p. 220-227.

VOVK, V.; GAMMERMAN, A.; SHAFER, G. Algorithmic learning in a random world. New York: Springer, 2005.

WU, L. et al. Scalable zero-shot entity linking with dense representations. In: CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, 2020, Online. Proceedings […]. [S.l.]: ACL, 2020. p. 6397-6410.

¹Pontifícia Universidade Católica de São Paulo (PUC-SP). e- mail: ra00354501@pucsp.edu.br
²PUC-SP & Instituto de Tecnologia e Liderança (Inteli). e- mail: silvajo@pucsp.br