REGISTRO DOI: 10.5281/zenodo.8287863
Rafael Oliveira Ribeiro
Resumo
Este estudo apresenta uma metodologia para o cálculo e validação da Razão de Verossimilhança (LR) em exames periciais de comparação facial, utilizando sistemas automáticos de reconhecimento facial. Foram selecionadas 800 imagens faciais da base FEI2, oriundas de 200 indivíduos, e utilizou-se o algoritmo Spectrally Sampled Structural Subspaces Features (4SF) para calcular escores de similaridade entre pares de imagens. Esses escores foram usados para estimar as Funções Densidade de Probabilidade (PDFs) necessárias para o cálculo da LR. O método foi avaliado por meio de uma estratégia de validação cruzada 10-fold, e a métrica Cost of Log Likelihood-Ratio (CLLR) foi empregada para avaliar a calibração do sistema. A média das CLLR obtida foi de 0,117 (desvio padrão 0,063), indicando que o sistema está bem calibrado e é apropriado para uso forense. O estudo foi realizado com imagens de alta qualidade, o que pode não ser representativo das condições encontradas em cenários forenses reais, e o algoritmo de reconhecimento facial utilizado não representa o estado da arte. Os resultados encorajam a continuidade de pesquisas no tema, sugerindo a necessidade de estudos futuros que utilizem imagens mais representativas do contexto pericial e algoritmos de reconhecimento facial mais recentes. O método proposto tem o potencial de fornecer uma ferramenta quantitativa e objetiva para apoiar decisões forenses baseadas em comparações faciais.
Palavras-chave: Razão de Verossimilhança, Reconhecimento Facial, Biometria, Perícia Forense, Validação Cruzada.
Introdução
Exames periciais de comparação facial são tradicionalmente realizados de forma manual, por meio do método morfológico (FISWG, 2022). Na metodologia preconizada pelo Instituto Nacional de Criminalística, os resultados são expressos em uma escala verbal qualitativa de razão de verossimilhança (LR), pois não há levantamentos estatísticos que permitam interpretar quantitativamente as semelhanças e diferenças encontradas (“ENFSI-BPM-DI-01, v. 1”, 2018). Existe, entretanto, a possibilidade de utilizar sistemas automáticos de reconhecimento facial que forneçam escores de similaridade entre faces, a fim de expressar o resultado do exame sob a forma de uma LR numérica (ALI, 2014; JACQUET; CHAMPOD, 2020).
Com o avanço das tecnologias de aprendizado de máquina e visão computacional, os sistemas automáticos de reconhecimento facial têm se tornado cada vez mais precisos e confiáveis (DE FREITAS PEREIRA et al., 2022; GROTHER; NGAN; HANAOKA, 2022). Esses sistemas utilizam algoritmos que analisam características faciais e calculam uma pontuação, ou escore, de similaridade entre duas imagens faciais, que pode ser convertida em uma LR (ALI, 2014; MOLDER; ENLUND ASTROM; LEITET, 2020). Esta abordagem objetiva tem o potencial de reduzir a subjetividade associada à análise facial humana e fornecer uma medida quantitativa que pode ser interpretada de maneira mais consistente em um contexto legal (MEUWLY, 2006; SAKS; KOEHLER, 2005).
No entanto, a adoção de sistemas automáticos de reconhecimento facial em exames periciais também apresenta desafios. Questões relacionadas à qualidade das imagens, variações de iluminação, expressões faciais e ângulos de pose são fatores que podem afetar significativamente a precisão desses sistemas. Além disso, a validade e a confiabilidade das LRs geradas por esses sistemas ainda são temas de debate na comunidade científica e jurídica.
Este trabalho busca explorar o cálculo de LR para exames de comparação facial em norma frontal, apresentando uma sistemática básica para cálculo de LR e validando o desempenho de um sistema específico, composto pelo algoritmo Spectrally Sampled Structural Subspaces Features (4SF) e pela conversão de escore em LR baseada em curvas gaussianas normais.
Objetivos
No presente trabalho, apresenta-se uma sistemática básica para cálculo de LR em exames periciais em imagens faciais em norma frontal, desenvolvido a partir de um algoritmo específico de reconhecimento facial – 4SF – e de conversão de escore em LR baseada em curvas gaussianas normais. O método é avaliado por meio de validação cruzada utilizando métrica e representação gráfica relevantes para aplicações periciais.
Metodologia
Para o cálculo de LR, as hipóteses da acusação (Hp) e da defesa (Hd) são definidas, respectivamente, como “as imagens são da mesma pessoa” e “as imagens são de pessoas distintas”.
Coleta de Dados
São selecionadas 800 imagens faciais da base FEI (DE OLIVEIRA JR, 2006), oriundas de 200 indivíduos, quatro imagens por indivíduo.
Cálculo de Escores de Similaridade
São calculados escores de similaridade utilizando o algoritmo Spectrally Sampled Structural Subspaces Features (4SF) para todas as combinações de pares de imagens.
Conjunto de Dados
Os dados utilizados para cálculo das LR são compostos por um conjunto de 1200 escores em que as imagens são de um mesmo indivíduo (mesma origem), e por um outro conjunto de 318.400 escores em que as imagens são de pessoas diferentes (origens distintas).
Validação Cruzada
Cada conjunto é subdividido em 10 partições iguais, submetidas a uma estratégia de validação cruzada 10-fold, onde cada partição é testada tendo como grupo de treinamento as 9 partições restantes.
Estimação de Funções Densidade de Probabilidade (PDF)
Estima-se funções densidade de probabilidade (PDF, do inglês Probability Density Functions), ajustando funções gaussianas com a média e desvio padrão de cada conjunto de escores de treinamento.
Cálculo da LR
Com a utilização dessas PDF, é calculada a LR para cada escore da partição de teste. Um exemplo do cálculo da LR é mostrado na Figura 1, com escore hipotético igual a 2,4.
Figura 1. Cálculo de LR a partir de escore.
Métrica de Validação
Como métrica de validação, é empregada a Log Likelihood-Ratio Cost (Cllr) (BRÜMMER; DU PREEZ, 2006), calculando-se a média e o desvio padrão das iterações da validação cruzada 10-fold.
Análise de Resultados
Os resultados são analisados em termos de eficácia, eficiência e robustez, e são comparados com referências de diretrizes de validação para sistemas de cálculo de LR para aplicação forense.
Resultados e Discussões
Calibração do Sistema
A média das CLLR é de 0,117 (desvio padrão 0,063). Sistemas com CLLR entre 0 e 1 são considerados bem calibrados e apropriados para o uso forense (MEUWLY; RAMOS; HARAKSIM, 2017; MORRISON et al., 2021). Este resultado indica que o método proposto neste trabalho apresenta uma boa calibração, o que é fundamental para a confiabilidade das LRs produzidas.
Qualidade das Imagens
Deve-se notar que as imagens utilizadas são de boa qualidade, o que é incomum em aplicações forenses. Este é um aspecto crítico, pois a qualidade da imagem pode afetar significativamente a precisão dos escores de similaridade e, consequentemente, a LR calculada.
Estado da Arte e Escolha do Algoritmo
Em contraposição, o algoritmo empregado já não representa o estado da arte, tendo sido utilizado, neste estudo inicial, em razão de sua disponibilidade em código aberto. Isso pode ter implicações na generalização dos resultados, uma vez que algoritmos mais recentes podem apresentar desempenho superior.
Implicações Forenses
Os resultados deste trabalho sugerem que o método proposto pode ser uma ferramenta valiosa para apoiar decisões forenses baseadas em comparações faciais. No entanto, é fundamental que sejam consideradas as condições sob as quais as evidências foram coletadas e analisadas.
Limitações e Futuros Trabalhos
Uma limitação deste estudo é a utilização de um conjunto de dados de alta qualidade, que não reflete necessariamente as condições encontradas em cenários forenses reais. Futuros trabalhos poderiam explorar o desempenho do método proposto utilizando imagens de menor qualidade e em condições mais variadas.
Conclusão
Neste trabalho, foi apresentada uma sistemática básica para cálculo e validação de LR a partir de sistemas biométricos automáticos. Os principais pontos de conclusão são elencados a seguir.
Contribuições Principais
O método proposto oferece uma abordagem quantitativa e objetiva para calcular a LR em exames periciais de comparação facial, o que representa um avanço em relação às abordagens qualitativas tradicionalmente utilizadas.
A validação cruzada empregada neste estudo fornece uma avaliação rigorosa e confiável do desempenho do método proposto, contribuindo para a sua potencial admissibilidade em contextos legais.
Limitações
O estudo foi conduzido com imagens de alta qualidade, o que pode não ser representativo das condições encontradas em cenários forenses reais. O algoritmo de reconhecimento facial utilizado não representa o estado da arte, o que pode limitar a generalização dos resultados.
Direções Futuras
Os resultados obtidos encorajam a continuidade de pesquisas no tema utilizando imagens mais representativas do contexto pericial e algoritmos mais recentes. É sugerido o desenvolvimento de estudos que explorem a aplicação do método proposto em diferentes contextos forenses, incluindo casos reais e com variações significativas na qualidade das imagens.
Futuras pesquisas poderiam também focar na integração deste método com outras modalidades biométricas, como impressões digitais e voz, para fornecer uma análise mais completa e robusta.
Impacto Potencial
Se validado em estudos subsequentes com conjuntos de dados mais desafiadores e algoritmos de ponta, o método proposto tem o potencial de se tornar uma ferramenta padrão para peritos forenses, contribuindo para decisões mais justas e fundamentadas em processos legais.
Referências
ALI, T. Biometric score calibration for forensic face recognition. PhD—Enschede, The Netherlands: University of Twente, 29 maio 2014.
Best Practice Manual for Facial Image Comparison. ENFSI, , jan. 2018. Disponível em: <https://enfsi.eu/wp-content/uploads/2017/06/ENFSI-BPM-DI-01.pdf>. Acesso em: 23 jan. 2023
BRÜMMER, N.; DU PREEZ, J. Application-independent evaluation of speaker detection. Computer Speech & Language, v. 20, n. 2–3, p. 230–275, abr. 2006.
DE FREITAS PEREIRA, T. et al. Eight Years of Face Recognition Research: Reproducibility, Achievements and Open Issues. [s.l.] Idiap, ago. 2022. Disponível em: <https://gitlab.idiap.ch/bob/bob.paper.8years>.
DE OLIVEIRA JR, L. L. Captura e Alinhamento de Imagens: Um Banco de Faces Brasileiro. [s.l.] Centro Universitário da FEI, 2006.
FISWG. Facial Comparison Overview and Methodology Guidelines Version 2.0. , 4 nov. 2022. Disponível em: <https://fiswg.org/fiswg_facial_comparison_overview_and_methodology_guidelines_V2.0_2022.11.04.pdf>. Acesso em: 8 fev. 2023
GROTHER, P.; NGAN, M.; HANAOKA, K. Face Recognition Vendor Test (FRVT) part 2 :: identification Draft Supplement. Gaithersburg, MD: National Institute of Standards and Technology, dez. 2022. Disponível em: <https://github.com/usnistgov/frvt/blob/nist-pages/reports/1N/frvt_1N_report.pdf>. Acesso em: 21 jan. 2023.
JACQUET, M.; CHAMPOD, C. Automated face recognition in forensic science: Review and perspectives. Forensic Science International, v. 307, p. 110124, fev. 2020.
MEUWLY, D. Forensic Individualisation from Biometric Data. Science & Justice, v. 46, n. 4, p. 205–213, out. 2006.
MEUWLY, D.; RAMOS, D.; HARAKSIM, R. A guideline for the validation of likelihood ratio methods used for forensic evidence evaluation. Forensic Science International, v. 276, p. 142–153, jul. 2017.
MOLDER, A. L.; ENLUND ASTROM, I.; LEITET, E. Development of a score-to-likelihood ratio model for facial recognition using authentic criminalistic data. 2020 8th International Workshop on Biometrics and Forensics (IWBF). Anais… Em: 2020 8TH INTERNATIONAL WORKSHOP ON BIOMETRICS AND FORENSICS (IWBF). Porto, Portugal: IEEE, abr. 2020. Disponível em: <https://ieeexplore.ieee.org/document/9107954/>. Acesso em: 22 jan. 2023
MORRISON, G. S. et al. Consensus on validation of forensic voice comparison. Science & Justice, v. 61, n. 3, p. 299–309, 1 maio 2021.
SAKS, M. J.; KOEHLER, J. J. The Coming Paradigm Shift in Forensic Identification Science. Science, v. 309, n. 5736, p. 892–895, 5 ago. 2005.
Filiação