TECHNIQUES FOR ANONYMIZATION OF SENSITIVE DATA IN INFORMATION SYSTEMS
REGISTRO DOI: 10.69849/revistaft/fa10202511232302
Conrado Perini Fracacio
Felipe Diniz Dallilo
RESUMO
Uma investigação de modelos de privacidade de dados, focando em técnicas de anonimização como Generalização, Pseudonimização, Supressão e Perturbação. Ele detalha modelos formais como k-Anonimato, l-Diversidade e t-Proximidade, que surgem sequencialmente para mitigar vulnerabilidades e proteger Quasi-Identificadores (QIs) e atributos sensíveis contra ataques de ligação e inferência. A Privacidade Diferencial é destacada como o “Padrão-Ouro”, oferecendo garantias formais através da injeção de ruído. Para validação empírica, o estudo utilizou um conjunto de 100.000 dados sintéticos com atributos categorizados. A aplicação de Generalização Hierárquica (em Data Nascimento e Salário) e Supressão Total resultou em métricas robustas: k=70 e l=5/l=6, indicando um alto nível de proteção ao equilibrar utilidade analítica e mitigação de risco de reidentificação , em alinhamento com a LGPD e a GDPR.
Palavras-chave: Anonimização, Privacidade de Dados, k-Anonimato, l-Diversidade, t-Proximidade, Generalização, Pseudonimização, Supressão, Quasi-Identificadores, Privacidade Diferencial.
ABSTRACT
An investigation of data privacy models focusing on anonymization techniques such as Generalization, Pseudonymization, Suppression, and Perturbation. It details formal models like k-Anonymity, l-Diversity, and t-Closeness, which emerged sequentially to mitigate vulnerabilities and protect Quasi-Identifiers (QIs) and sensitive attributes against linkage and inference attacks. Differential Privacy is highlighted as the “Gold Standard,” offering formal guarantees through noise injection. For empirical validation, the study uses a set of 100,000 synthetic data points with categorized attributes. The application of Hierarchical Generalization (on Date of Birth and Salary) and Total Suppression resulted in robust metrics: k=70 and l=5/l=6, indicating a high level of protection by balancing analytical utility and re-identification risk mitigation , in compliance with LGPD and GDPR.
Keywords: Anonymization, Data Privacy, k-Anonymity, l-Diversity, t-Closeness, Generalization, Quasi-Identifiers, Differential Privacy, Suppression.
1 INTRODUÇÃO
Após o surgimento de inteligência artificial generativa o relacionamento entre o indivíduo e os dados que o mesmo fornece em serviços pela internet passa a ser um tópico cada vez mais valioso, devido a realidade de que a forma como os seus dados são dispostos na internet tem tanta importância quanto a forma como você os dispõe na vida real, um divórcio que outrora acontecia no mundo de hoje deixa de ser uma possibilidade. Especialmente quando
A anonimização de dados tem como finalidade a segurança de dados, é a capacidade de dissociar totalmente o dado coletado da fonte, dessa forma maximizando a usabilidade e removendo os riscos associados com a coleta dos dados.
Algumas das técnicas que são importantes para serem utilizadas são a Generalização que é substituir os dados coletados por um dado mais genérico ou um intervalo, Pseudonimização que é separar o dado de sua origem, e apenas fazer a conexão a partir do uso de informação adicional. Supressão ou Ocultação, que completamente remove dados sensíveis, o que pode comprometer a utilidade dos dados, técnicas como Adição de Ruído, K-Anonimidade, L-Diversidade e T-Proximidade
A finalidade da pesquisa é estudar, medir e Modelos de Privacidade de Dados e técnicas de anonimização de dados para desenvolver quais métodos de confiança seriam relevantes para explorar qual a estratégia de proteção de dados, assim explorando implicações legais e éticas da anonimização dos dados, destacando importância para a construção de um ambiente digital seguro e confiável.
2 REVISÃO BIBLIOGRÁFICA
Para compreender qual a melhor técnica para a anonimização de dados é primeiro compreender a diferença entre técnicas de anonimização de dados e modelos de mascaramento de dados, as técnicas que serão utilizadas para a anonimização dos dados existem em uma pluralidade grande com diversos tipos de reservação de dados e com múltiplos propósitos e mecânicas, sendo as estratégias usadas para salvaguardar dados contra acesso não autorizado, corrupção, perda ou divulgação enquanto Modelos de Mascaramento de Dados são são um subconjunto específico de técnicas de anonimização de dados, focadas em criar uma versão estruturalmente idêntica, mas não sensível dos dados para uso em ambientes não produtivos.
Dentre as principais técnicas de anonimização de dados temos a Generalização, Pseudonimização, Supressão e Perturbação. A Generalização, que é definida pela substituição de atributos específicos por intervalos ou valores genéricos, é efetuada um agrupamento cujo o critério é relevante, é agrupado valores, hierarquias de conceitos ou arredondamento de valores. A Pseudonimização é o divorcio de um determinado dado e sujeito, somente podendo ser feita a associação desses pares utilizando informação adicional, sem que você possua informação adicional, contando que essas informações adicionais estejam separadas.
A Supressão, que é uma técnica de anonimização que compromete a ocultação de valores específicos de dados para reservar a privacidade de indivíduos, isso tudo no contexto de um conjunto de dados cujo funcionamento abrange a remoção de atributos identificadores do conjunto de dados, seja por remoção de Atributos Identificadores ou por Ocultação de Valores.
A Perturbação é um método de proteção de dados cujo funcionamento consiste na adição de técnicas matemáticas ou ruído aleatório que permite a proteção dos dados, essa adição de ruído faz com que os dados guardados podem ser utilizados de maneira segura, sendo implementada por Adição de Ruído, Permutação, Ruído Multiplicativo, Micro-Agregação, Swapping ou por Projeção em espaços de Menor Dimensão.
Dados Anonimizados não apenas são uma sequência de caracteres cuja conexão com indivíduos ou entidades é divorciada, mas também podem receber algumas propriedades que devem ser consideradas para maximizar a sua segurança, essas propriedades são chamadas de Modelos de Mascaramento de Dados, eles são k-Anonimidade, l-Diversidade, t-Proximidade, Inferência Sensível.
k-Anonimidade por ser um modelo de Privacidade de dados tem como princípio a proteção da identidade de indivíduos através da implementação de Supressão e Generalização, de acordo com Sweeney L.(2002) essa técnica garante com que os registros em um conjunto reservem seus QIs (quase identificadores), já que segundo a demonstração de Sweeney L. 87% da população dos Estados Unidos possa ser identificada por uma combinação de 5 dígitos do ZIP, gênero e data de nascimento, o que ressaltou uma importância grande para a remoção dos chamados QIs. A K-Anonimidade funciona a partir da aplicação de generalização e/ou supressão nos atributos identificadores, com a intenção de que para cada conjunto de dados de QIs tenham pelo menos K registros, as chamadas classes de equivalência, esse modelo de mascaramento de dados são extremamente sensíveis a ataques de homogeneidade e de conhecimento de fundo, além da perda de utilidade e escolha dos dados necessários, é preciso um equilíbrio muito grande entre a sensibilidade dos dados e o risco de reidentificação. A l-Diversidade é extremamente semelhante ao K-Anonimidade, que foi proposto por Machanavajjhala A. (2007) remedia suas limitações do modelo anterior, a L-Diversidade funciona a partir da ideia de que para cada grupo de registros indistinguíveis (designados por Machanavajjhala A. como Classe de Equivalência) existam pelo menos l valores distintos por atributo sensível, nesse contexto um problema que surge dos ataque de homogeneidade é que caso todos os indivíduos de um conjunto K tiverem o mesmo valor para um atributo sensível a identificação pode ser inferida mesmo sem identificar um indivíduo, para evitar esse tipo de ataque a l-Diversidade, sendo implementada após a formação das classes de equivalência, o processo verifica se essas classes de equivalência possui pelo menos l valores distintos, no caso de uma classe não atender a essa condição ocorre a implementação de técnicas adicionais de generalização e supressão, a l-Diversidade tem como pontos positivos proteção contra ataques de homogeneidade e de conhecimento de fundo, porém existe uma relação linear entre o valor de l e a perda da utilidade de dados, provado por Ganta, S.; Kasiviswanathan, S. P.; Smith, A. (2008) e Lin, T.; Wang, Y.; Cao, J. (2018). O modelo t-Proximidade surge posterior aos modelos k-Anonimidade e l-Diversidade com a finalidade de mitigar as suas vulnerabilidades, particularmente os problemas da l-Diversidade não possuir uma consideração da distribuição desses valores, para tentar lidar com ataques de Assimetria e Similaridade. A t-Proximidade funciona a partir da distribuição dos valores do atributo sensível dentro das classes de equivalência, no caso os mantendo próximos à distribuição global desse atributo no conjunto de dados, proximidade essa que ocorre através de uma métrica de distância, limitada por um limiar t. Dentre os pontos positivos, temos Combate a ataques de Assimetria e de Similaridade, e Controle rigoroso sobre a Inferência de informações, apesar de Maior perda de Utilidade de Dados e Complexidade Computacional.
Inferência Sensível, um processo que ocorre ao efetuar a uma combinação de análise estatística e data mining, tratando-se de não guardar ou eliminar um dado sensível de um determinado conjunto através da supressão dos dados, porém o dado pode ser inferido com base em um ou um conjunto de dados.
3 DESENVOLVIMENTO
O principal objetivo no tópico de segurança de dados confidenciais é a garantia da utilização das informações disponibilizadas por esses meios impedindo acessos de usuários não autorizados, sem a corrupção, adulteração ou roubo dessas informações durante todo o seu ciclo de vida, e como consequência disso quando pensamos no contexto de anonimização de dados os objetivos devem se alinhar até certo grau. A partir do entendimento sobre a anonimização de dados, é importante compreender tanto a capacidade de se trabalhar com dados de forma segura quanto que os mecanismos de proteção de dados vigentes sejam trabalhados de forma robusta, irreversível e acima de tudo, alinhada às legislações, como a L13709 (2018) ou a GDPR (2018) dizendo respeito não apenas a autonomia mas também a dignidade, exigindo um compromisso grande não apenas com a proteção, mas também a constante inovação dos mecanismos vigentes, aplicando uma transparência superior aplicando da forma como os dados são anonimizados e os riscos residuais é fundamental para construir e manter a confiança do público na era digital. Pela Anonimização ser um processo que pode transformar os dados pessoais de forma que não seja possível identificar um indivíduo, as técnicas usadas para proteger os indivíduo são utilizadas normalmente em bancos de dados cujas informações são particularmente sensíveis, como em serviços de finanças, de saúde ou de biometrias, situações onde a exposição de dados pode levar a consequências severas, logo é de suprema importância que a implementação de técnicas para segurança de dados seja selecionada.
Dentre as técnicas mais avançadas temos modelos de privacidade como a K-Anonimidade, proposta por Latanya Sweeney, que exige que cada registro em um conjunto de dados seja indistinguível de pelo menos outro k-1 registros para cada Quase Identificador, outro modelo é a L-Diversidade, desenvolvida por Machanavajjhala A. (2007) que incrementa a K-Anonimidade para permitir que as suas falhas sejam mitigadas, exigindo que para cada classe de equivalência contenha pelo menos l valores distintos por atributo sensível, e ainda temos T-Proximidade que é um modelo proposto por Li N., Li T. e Venkatasubramanian S. (2007), por fim a compreensão de Inferência de Dados que é a ação de descobrir dados a partir da inferência de dados.
Em ataques classificados como ataques de inferência de atributos um ator mal intencionado com conhecimento prévio sobre um determinado alvo, alvo sendo um indivíduo que o ator mal intencionado busca mais informações, inferindo o valor de um determinado atributo sensível a partir de atributos já conhecidos. O êxito de um ataque como os ataques de inferência não apenas leva a exposição de informações confidenciais a um indivíduo ou uma organização, mas também pode levar a exposição de propriedade intelectual, ambos riscos sérios à privacidade.
Um ponto que é importante considerar é que existe uma diferença entre uma inferência estatística legítima e uma falha em privacidade, pois em casos onde a distribuição de dados muito próxima da realidade e portanto uma inferência pode ser feita em cima disso, não é um uma falha em cima da privacidade dos dados é apenas um reflexo da realidade que pode ser prevista em um determinado conjunto. Uma abordagem para corrigir esse tipo de espelho envolve a criação de dois conjuntos de dados anônimos, um deles possui o registro de um indivíduo alvo e outro que não o inclui, posteriormente um ataque de inferência é executado em ambos os conjuntos, a diferença entre a precisão entre os ataques no conjunto que inclui e não inclui o registro representa a verdadeira perda de privacidade atribuída à liberação do conjunto de dados anônimo, dessa forma solidificando uma métrica precisa para medir a vulnerabilidade a reais violações de privacidade do conjunto de dados.
A aplicação de mecanismos para a anonimização dos dados pode ser medida através de uma pluralidade de critérios como dificuldade de inferência de dados ou a acessibilidade dos dados por usuários mal intencionados, esses critérios são importantes pois como a anonimização de dados é composta por um delicado equilíbrio entre utilidade e privacidade, pois uma abordagem mais orientada a segurança dessas informações pode comprometer a análise dos mesmos, porém uma abordagem cujo o foco seja a utilização e análise dos dados pode correr o risco de uma anonimização superficial, que implica o risco de re-identificação posterior dos indivíduos, o que inutiliza o processo de anonimização, portanto estabelecer o equilíbrio exige uma avaliação contínua e elástica, que leve em consideração o contexto da aplicação da análise de dados.
O emprego de modelos de Privacidade estáticos permitiram um avanço significativo em relação à remoção de identificadores e permitindo um repertório maior para identificar QI e dessa forma permitindo um compromisso da usabilidade de dados com a sua remoção de identificadores.
Dos modelos temos o k-Anonimidade, l-Diversidade e o t-Proximidade, cada um deles surge em sequência para solucionar um problema, o k-Anonimidade surge para garantir que dado um conjunto de dados no um registro deve ser indistinguível de mínimo $k-1$ outros registros com mesmos QIs empregando técnicas de Generalização e Supressão, dessa forma dificultando a isolação de um indivíduo específico, porém não sendo infalível devido ao fato de que se o valor de k for muito baixo ao empregar técnicas mais avançadas ocorre um risco grande de reidentificação, ou seja, um atacante pode inferir o atributo sensível de um indivíduo se todos os registros em seu conjunto k-Anônimo compartilhem o mesmo atributo. Os métodos para processar os dados ocorrem através da definição dos atributos, se eles são identificadores, quase identificadores ou não identificadores, e então os atributos são, respectivamente, suprimidos, mantidos ou generalizados em grupos.
A l-Diversidade surgindo posterior a k-Anonimidade tentando corrigir os seus aspectos negativos e mantendo o que funciona, para mitigar essas vulnerabilidades essa propriedade garante que pelo menos l indivíduos existam em um data-set para um determinado atributo sensível, dessa forma garantindo uma diversidade de valores confidenciais superior e combatendo Ataques de Homogeneidade e de Conhecimento de Fundo. A l-Diversidade garante consistência, governança e transformação de dados através da sua anonimização, porém encontra com diversos problemas como em Ataques de Similaridade ou Ataques de Viés.
Progressivamente a t-Proximidade trata das vulnerabilidades da l-Diversidade através do tratamento distinto de valores de um determinado atributo, considerando a distribuição de valores e de dados para esse atributo. Um atacante com conhecimento de fundo sobre essa distribuição poderia fazer inferências precisas dentro de um determinado data-set, portanto para solucionar essa falha no modelo da t-Proximidade ocorre um processo de distribuição de atributos sensíveis em cada conjunto de indistinguível, se aproximando da distribuição global daquele dado, desta forma conservando o máximo possível da privacidade dos dados sem comprometer a sua usabilidade.
De acordo com o histórico detalhado é possível compreender que o avanço dessas técnicas acompanha muito bem o avanço de ataques, que por sua vez avançam para superar as técnicas desenvolvidas para suas mitigações, e essa corrida armamentista caminha para complexificar ambas as técnicas de segurança quanto os métodos de ataque, levando a um critério avaliativo orientado para a razoabilidade dos esforços empregados para reverter o processo, considerando recursos como tempo, custo operacional e espaço. A Autoridade Nacional de Proteção de Dados (ANPD) reconhece que nenhuma técnica e anonimização têm sua eficácia absoluta, portanto uma abordagem baseada em riscos considerando o tipo de tratamento, o volume de dados a serem tratados e a confidencialidade dos dados a serem tratados.
Uma compreensão mais aprofundada do impacto que a anonimização de dados sensíveis pode ser visualizada em uma pluralidade de eventos nos últimos tempos, eventos esses que ilustram uma imagem considerável de como as falhas de abordagens de segurança podem influenciar de maneira pejorativa os usuários, como o que foi visto na Falha do Netflix Prize de 2006, onde a empresa Netflix efetuou um concurso usando um conjunto de dados que continha 100.480.507 avaliações de 17.770 Filmes feitas na sua plataforma de 480.189 usuários distintos, e como o estudo de A. Narayanan e V. Shmatikov provou, mesmo com os identificadores diretos tendo sido removidos, ainda assim foi possível efetuar um ataque de ligação para cruzar as informações do data-set disponibilizado pela Netflix com fontes como o Internet Movie Database (IMDB). Esse caso é considerado como arquetípico de inadequação de anonimização ingênua pois assumiu que a anonimização é um processo que acontece em um vácuo, quando na realidade atores mal intencionados poderiam facilmente cruzar os dados disponíveis em outras fontes. Esse caso não apenas demonstrou que a anonimização dos dados não trata-se apenas da remoção de dados sensíveis, mas um processo muito mais custoso.
Além disso em um estudo realizado por R. G. Gonze, I. W. Lemes, J. M. Almeida e M. A. Gonçalves revelou uma vulnerabilidade no DATASUS, um banco de dados para procedimentos ambulatórios, onde cerca de 30% dos registros teve uma previsão em testes de inferência com 90% de precisão. Esse caso ressalta que em ambientes como o caso do setor médico esse tipo de ameaça é presente e real.
Em resposta aos desafios impostos à prática de adoção de modelos de privacidade que oferecem garantias formais e abordam os ataques de forma mais robusta e mais direta. O modelo Privacidade Diferencial por ser uma estrutura que emerge como o Padrão-Ouro para a proteção de privacidade de dados, que diferente de modelos como o t-Proximidade possui uma garantia de privacidade mais facilmente mensurável, sendo independente das informações que o ator mal intencionado possui.
A ideia central da Privacidade Diferencial é a garantia de que o resultado de uma consulta ou análise estática seja virtualmente idêntico se um único indivíduo for incluído ou removido do conjunto de dados. Na prática isso significa que um observador que vê a saída de um algoritmo não pode confiavelmente prever se a informação de um determinado indivíduo foi empregada durante o seu funcionamento, desta forma ao limitar a influência que um único registro tenha na saída deste algoritmo a privacidade é garantida de forma intrínseca. Essa garantia é alcançada pela injeção de ruído aleatório que é calibrado na saída da consulta ou nos parâmetros do modelo, nível de ruído esse que é determinado pela mudança máxima da saída que poderia ser causada pela alteração de um único ponto de dados, e ao fazer esse processo o efeito de qualquer indivíduo é obscurecido, permitindo a extração de padrões agregados sem revelar informações confidenciais sobre registros individuais. Essa garantia de privacidade pode ser quantificada como o “Orçamento da Privacidade”, valores mais altos implicam numa maior privacidade e cresce proporcionalmente a maior quantidade de ruído sendo injetada e portanto potencialmente causando perda de utilidade, esse conceito é importante devido a realidade de que o Orçamento de Privacidade é um valor variável, que é modificado a cada nova consulta ao conjunto de dados, maior acúmulo de consultas resulta no degradamento do orçamento de privacidade o que resulta em consultas com maior injeção desnecessária de ruído.
A eficácia da anonimização não pode ser pensada no emprego de apenas uma técnica, por exigir uma abordagem mais holística que combine um conjunto de técnicas avançadas com uma governança robusta de dados e medidas de segurança. Como detalhado anteriormente uma abordagem orientada em riscos, particularmente quando empregada com a anonimização da política de governança de dados, para assim reforçar significativamente a segurança e reduzir o impacto de uma possível violação de dados.
E portanto para se comprovar uma avaliação da eficácia e o trade-off entre utilidade e segurança de diferentes métodos ao aplicá-los às quatro categorias cruciais de atributos em um dataset: Identificadores Explícitos, que exigem remoção ou pseudonimização, Quasi-Identificadores, que requerem estratégias como Generalização ou Supressão para evitar a reidentificação via correlação; Atributos Sensíveis, cujo sigilo é a principal meta de proteção; e Atributos Não-Sensíveis, que servem como payload analítico. Ao examinar como técnicas como o k-Anonimato, l-Diversidade e t-Proximidade.
Para compreender como essas técnicas podem proteger os dados será empregado uma base de dados com os atributos ID, Nome Completo, Data Nascimento, CEP, Gênero, Estado Civil, Condição Médica, Salário (R$) e Escolaridade. Essa tabela é preenchida com 100.000 dados gerados com informações falsas, os IDs cresceram linearmente de 1 ao valor total, o nome completo e CEP será criado com a biblioteca python faker, à Data Nascimento entre 01/01/1965 e 31/12/2007, o Salário gerado com entre 1000 e 12000, gênero será entre os valores ‘Masculino’, ‘Feminino’ e ‘Outro’, Estado Civil será escolhido randomicamente entre ‘Solteiro(a)’, ‘Casado(a)’, ‘Divorciado(a)’, ‘Viúvo(a)’, Condição Médica será escolhido entre ‘Nenhuma’, ‘Asma’, ‘Diabetes’, ‘Hipertensão’, ‘Alergia’, e por fim escolaridade será entre ‘Fundamental’, ‘Médio’, ‘Superior’, ‘Pós-graduação’.
Na base de dados, os atributos ‘ID’ e ‘Nome Completo’ são os Identificadores Diretos, responsáveis por identificar um indivíduo específico, os atributos ‘Data Nascimento’, ‘CEP’, ‘Gênero’ e ‘Estado Civil’ são Quasi Identificadores, cuja combinação desses atributos poderiam permitir a re-identificação de um indivíduo, e os atributos ‘Condição Médica’, ‘Salário (R$)’ e ‘Escolaridade’ são Atributos Não-Sensíveis.
Para fins de análise e estudo, uma etapa crucial de preparação e curadoria do conjunto de dados de entrada foi executada. Essa fase metodológica concentrou-se na simplificação intencional do dataset original, visando maior foco e eficiência na análise estatística, envolveu a omissão completa de determinadas colunas (ou atributos) do conjunto de dados.
Tabela 1 – Dados Gerados

Para de forma eficaz seja possível proteger as identidades dos indivíduos em um dataset é necessário empregar uma série de técnicas de anonimização em atributos Quase-Identificadores, em datas de nascimento (que são Quase-Identificadores de Alta Granularidade, para mitigar os riscos de reidentificação podemos substituir pela geração que aquele indivíduo compõe, dessa forma conservando a usabilidade do dado.
Figura 1 – Diagrama de Fluxo da Anonimização de Idade

Fonte: Elaborado pelo Autor, 2025
Para o Estado Civil, Gênero e Condição Médica podemos substituir de rótulos de texto por códigos numéricos pode ser uma forma de uniformização ou padronização de dados, facilitando o processamento em modelos e contribuindo para a uniformidade dos QIs.
Figura 2 – Anonimização de Estado Civil

Para o Estado Civil, Gênero e Condição Médica podemos substituir de rótulos de texto por códigos numéricos pode ser uma forma de uniformização ou padronização de dados, facilitando o processamento em modelos e contribuindo para a uniformidade dos QIs. Com o restante das informações o resultado passa a ser um simples caso de supressão, removendo os atributos sensíveis transformando-os em Atributos Identificadores Explícitos suprimidos. A supressão total é a forma mais forte de anonimização.
Figura 3 – Supressão

No caso do salário a estratégia adotada envolve a transformação desse valor numérico exato e sensível em um valor generalizado que representa uma faixa ou intervalo. Essa abordagem é conhecida como Generalização Hierárquica aplicada a atributos numéricos. A hierarquia reside no fato de que os valores numéricos podem ser mapeados progressivamente para níveis de abstração cada vez mais amplos. O propósito principal é reduzir a granularidade da informação. Ao substituir o ponto de dado específico pela faixa, minimiza-se a unicidade do registro
Figura – 4 Anonimização de Salário

Tabela 2 – Dados após o processo de Anonimização

O valor de l encontrado é 5: O atributo Condição Médica foi mapeado para 5 valores numéricos (‘0’, ‘1’, ‘2’, ‘3’, ‘4’). Como o valor ℓ é igual ao número total de valores distintos para este atributo (5), isso indica que o dataset anonimizado está perfeitamente diverso: cada um dos 5 valores de Condição Médica aparece em absolutamente todos os grupos de equivalência.
O valor de l achado foi 6: O script main.py aplica uma transformação ao Salário (R$) que o mapeia para o valor médio de uma de 6 faixas salariais pré-definidas (mais a faixa superior). Portanto, o atributo Salário (R$) transformado possui 6 valores distintos. O valor ℓ=6 significa que, similarmente ao caso da Condição Médica, cada grupo de equivalência contém todos os 6 valores possíveis do atributo Salário (R$) generalizado.
Em resumo, os resultados indicam um alto nível de proteção: o valor k=70 garante que a probabilidade de re-identificação é baixa; e ℓ=5 e ℓ=6 (iguais ao número total de valores distintos em seus respectivos Atributos Sensíveis) garantem que nenhum grupo é homogêneo ou tem uma diversidade limitada de atributos sensíveis. Além disso, o t-Proximidade é satisfatório, indicando que a distribuição de atributos sensíveis em cada grupo reflete fielmente a distribuição global.
4. CONCLUSÃO
Em suma estruturação técnica do conjunto de dados sintéticos e a classificação rigorosa de seus atributos em Identificadores Diretos, Quasi-Identificadores e Atributos Não-Sensíveis estabelecem o modelo de risco fundamental para a privacidade. A aplicação sistemática de técnicas de anonimização, como a Generalização Hierárquica Temporal e a Generalização de Faixa Numérica nos QIs, visa primordialmente incrementar o tamanho do grupo de equivalência, garantindo o k-Anonimato. Outro tópico importante para a uniformização de atributos categóricos e a supressão total de identificadores explícitos constituem o arcabouço para proteger contra ataques de ligação e inferência, assegurando que o dataset resultante mantenha a utilidade analítica enquanto adere a critérios robustos de privacidade diferencial, mitigando o risco de reidentificação e divulgação de atributos sensíveis.
A anonimização de dados deixou de ser uma tarefa apenas de manipulação de dados e evoluiu para uma atividade complexa, estratégica e multifacetada como consequência da progressão constante dos ataques que ficam cada vez mais sofisticados, com métodos mais tradicionais sendo insuficientes para a mitigação de riscos impostos por Ataques de Inferência e Ataques de Ligação. O Futuro da Anonimização reside não apenas na combinação de técnicas avançadas, mas também no emprego de ecossistemas de proteção mais amplos, o emprego de técnicas como Privacidade Diferencial oferecem uma alta utilidade com garantias de privacidade comprováveis.
O Regime de proteção de dados exige que a anonimização e pseudonimização sejam compreendidas não apenas como simples funcionalidades mas também como elementos centrais na engenharia de privacidade. A generalização de Quase-Identificadores é essencial em ambientes de Big Data (implementada eficientemente via Top Down Specification e MapReduce), sendo completada com modelos robustos (L-Diversidade) e desta forma removendo risco de inferência.
REFERÊNCIAS BIBLIOGRÁFICAS
https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/l13709.htm BRASIL. LEI No 13.709, DE 14 DE AGOSTO DE 2018. Disponível em:
https://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/lei/l13709.htm. Acesso em: 30 jan. 2025.
https://gdpr-info.eu/ GDPR. General Data Protection Regulation (GDPR). Disponível em: https://gdpr-info.eu/. Acesso em: 30 jan. 2025.
https://epic.org/wp-content/uploads/privacy/reidentification/Sweeney_Article.pdf SWEENEY, L. k-ANONYMITY: A MODEL FOR PROTECTING PRIVACY. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, v. 10, n. 05, p. 557–570, out. 2002. Acesso em: 20 mar. 2025. https://www.researchgate.net/publication/371598871_Perturbation_Methods _for_Protecting_Data_Privacy_A_Review_of_Techniques_and_Applications SAFIYE T.; İLKER İ. Perturbation Methods for Protecting Data Privacy: A Review of Techniques and Applications. Automation and machine learning, v. 4, n. 2, 1 jan. 2023.
Turgay, S., & İlter, İ. “Perturbation Methods for Protecting Data Privacy: A Review of Techniques and Applications”. Automation and Machine Learning, v. 4, p. 31-41, 2023. Disponível em: https://www.clausiuspress.com/article/7395.html. Acesso em: 03 jun. 2025.
Wilson, R. L., & Rosen, P. A. “Protecting Data through Perturbation Techniques: The Impact on Knowledge Discovery in Databases”. Journal of Database Management, v. 14, n. 2, p. 14-26, 2003. Disponível em: https://www.researchgate.net/publication/220373844_Protecting_Data _ through_Perturbation_Techniques_The_Impact_on_Knowledge_Discovery_in_Databases. Acesso em: 03 jun. 2025.
Ganta, S.; Kasiviswanathan, S. P.; Smith, A. “Composition attacks on privacy-preserving data publishing”. In: Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, 2008, p. 248-256. Acesso em: 12 jun. 2025.
Li, N.; Li, T.; Venkatasubramanian, S. “t-Closeness: Privacy Beyond k-Anonymity and l-Diversity”. In: 2007 IEEE 23rd International Conference on Data Engineering (ICDE), 2007, p. 106-115. Disponível em: https://ieeexplore.ieee.org/document/4222019. Acesso em: 12 jun. 2025.
Lin, T.; Wang, Y.; Cao, J. “Revisiting l-diversity: A data utility perspective”. Computers & Security, v. 77, p. 19-33, 2018. Acesso em: 21 jun. 2025.
Machanavajjhala, A.; Kifer, D.; Gehrke, J.; Venkatasubramanian, S. “l-Diversity: Privacy Beyond k-Anonymity”. ACM Transactions on Knowledge Discovery from Data (TKDD), v. 1, n. 1, p. 3-es, 2007. Disponível em: https://dl.acm.org/doi/10.1145/1217215.1217217. Acesso em: 21 jun. 2025.
Li, N.; Li, T.; Venkatasubramanian, S. “t-Closeness: Privacy Beyond k-Anonymity and l-Diversity”. In: 2007 IEEE 23rd International Conference on Data Engineering (ICDE), 2007, p. 106-115. Disponível em: https://ieeexplore.ieee.org/document/4222019.
Khatri, S.; Yadav, D. K. “A Review of Privacy Preserving Data Publishing Using K-Anonymity, L-Diversity and T-Closeness”. International Journal of Research in Engineering, Science and Management, v. 3, n. 10, p. 111-115, 2020.
Cao, J.; Lu, J. “Achieving t-closeness by adding records”. In: 2010 IEEE International Conference on Information Reuse and Integration (IRI), 2010, p. 288-293. Disponível em: https://ieeexplore.ieee.org/document/5558914. Acesso em: 15 jul. 2025.
PEGARKOV, D. D. National security issues. New York: Nova Science Publishers, 2006. Acesso em: 15 jun. 2025.
NARAYANAN, A.; VITALY SHMATIKOV. How To Break Anonymity of the Netflix Prize Dataset. Disponível em: https://www.semanticscholar.org/paper/How-To-Break-Anonymity-of-the-Netflix-Prize-DatasetNarayanan-Shmatikov/c40e5c8b4957074644acdaf1f9f4332e63b5846b. Acesso em: 26 jul. 2025.
Gonze, R. G.; Lemes, I. W.; Almeida, J. M. Riscos de Privacidade em Dados de Saúde: Investigando Inferência de Atributos Sensíveis de Cidadãos no DATASUS. Simpósio Brasileiro de Cibersegurança, p. 774–790, 1 set. 2025.
