QUALITY, RELIABILITY AND EQUITY IN ARTIFICIAL INTELLIGENCE PREDICTIVE MODELS
REGISTRO DOI: 10.69849/revistaft/ra10202505041102
Daniel Henrique Oliveira Pinho1
Flávio Luis de Mello2
Resumo
A Inteligência Artificial (IA) apresenta um desafio na avaliação de qualidade e confiabilidade dos algoritmos de detecção por imagem, em especial a precisão algorítmica, a adaptabilidade dos sistemas frente às mudanças nos dados e a equidade na classificação. Sob a ótica da necessidade ética e técnica de desenvolver sistemas de IA eficientes e justos, este trabalho utilizou um conjunto diversificado de imagens coletadas por web scraping, categorizadas segundo critérios de etnia e gênero, e analisadas através dos modelos YOLOv5 e Detectron2. Este processo permitiu avaliar a acurácia dos algoritmos comparando os resultados de identificação com as categorizações originais, revelando discrepâncias e possíveis vieses. A pesquisa também examinou a capacidade dos modelos de IA de se adaptarem a variações nas características das imagens ao longo do tempo, além de realizar uma análise detalhada de equidade para verificar a existência de vieses sistemáticos em relação a categorias específicas. Essa investigação aprofundada contribui para o campo da IA, proporcionando insights fundamentais sobre a qualidade e confiabilidade dos sistemas de detecção por imagem.
Palavras-chave: Confiabilidade. Equidade. Adaptabilidade. Ética. YOLOv5. Detectron2.
1 INTRODUÇÃO
Este trabalho aborda os desafios intrínsecos à qualidade, confiabilidade e equidade em modelos de Inteligência Artificial (IA), particularmente no contexto da detecção de objetos. O problema a ser resolvido é o estabelecimento um esboço de um método comparativo para avaliar modelos preditivos em um conjunto de dados diversificado, visando contribuir para a adoção mais ética e eficaz de tecnologias de IA.
A expansão da IA em diversos setores da sociedade gera uma demanda por um escrutínio rigoroso de sua qualidade, confiabilidade e ética. Algoritmos de IA estão cada vez mais presentes em sistemas que afetam vidas humanas, desde diagnósticos médicos até decisões judiciais. A complexidade destes algoritmos e a mutabilidade dos dados com os quais interagem requerem um monitoramento constante para garantir que permaneçam precisos e imparciais. A questão dos dados tendenciados e os potenciais vieses embutidos nos modelos preditivos são preocupações crescentes que podem afetar negativamente a eficácia e justiça da IA. Além disso, a ausência de uma estrutura padronizada para avaliar a confiabilidade e a equidade da IA cria uma necessidade iminente de estudos empíricos. A utilização de métricas objetivas e a comparação entre diferentes modelos pré-treinados podem fornecer um entendimento mais aprofundado sobre como a IA se comporta em diferentes cenários e sob diversas condições. Portanto, há uma demanda por pesquisa sistemática para estabelecer diretrizes e melhores práticas que assegurem a utilização ética e eficaz da IA.
O objetivo deste artigo é apresentar a avaliação da qualidade e da confiabilidade de modelos de Inteligência Artificial em contextos variados, focando especificamente na precisão de modelos pré-treinados, como o YOLOv8 (Ultralytics, 2023) e o Detectron2 (Wu et al., 2019) que são amplamente empregados em sistemas comerciais. Há uma escassez de literatura sobre como essas arquiteturas respondem diferentes tipos de dados e situações, e como elas podem influenciar a equidade na tomada de decisões por algoritmos de IA. Para isto, foi construído um banco de imagens diversificado, que uma vez submetido a tais modelos preditivos para classificação, foi possível identificar inconsistências ou discriminações de gênero e raça.
2 TRABALHOS RELACIONADOS
Rahmani et al. (2023) investigaram o impacto do viés de dados no desempenho de modelos de aprendizado de máquina aplicados à predição de sepse clínica. O estudo foi realizado através de uma série de simulações que analisaram diferentes cenários, como mudanças na distribuição dos dados, alterações no relacionamento entre as variáveis preditivas e o alvo, e a ocorrência de eventos significativos, como a pandemia de COVID-19. Os modelos analisados foram o eXtreme Gradient Boosting e as Redes Neurais Recorrentes, aplicados a dados de saúde eletrônicos. Os resultados indicam que o viés de dados impacta significativamente o desempenho dos modelos, exigindo retreinamento periódico para manter a precisão e confiabilidade. Particularmente, o modelo XGB retreinado mostrou um desempenho superior ao modelo base em todos os cenários simulados, enquanto as redes neurais apresentaram resultados mistos, sugerindo que abordagens de retreinamento adaptadas à arquitetura do modelo são essenciais para mitigar os efeitos do viés de dados.
Wibisono & Jatmiko (2016) desenvolveram um sistema de predição e visualização de dados de tráfego em grande escala, utilizando o algoritmo FIMT-DD, que é especialmente projetado para processar fluxos contínuos de dados de tráfego e detectar mudanças nos padrões desses dados. O estudo utiliza essa abordagem para prever o fluxo de veículos em tempo real, abordando os desafios de escalabilidade e adaptação a mudanças nos dados, o que é crucial para garantir a qualidade e confiabilidade dos modelos de IA em ambientes dinâmicos. Os resultados apresentados no estudo demonstram que o FIMT-DD é capaz de prever com precisão as condições de tráfego, ajustando-se de forma eficiente às mudanças nos dados, e fornecendo uma visualização detalhada que pode ser utilizada como uma ferramenta confiável para o gerenciamento de tráfego e infraestrutura rodoviária, um problema tipicamente mau comportado no que diz respeito a identificação de padrões em massas de dados.
Ju et al. (2023) desenvolveram modelos de aprendizado de máquina para prever o deslocamento de paredes de concreto armado em diferentes estados de danos, utilizando o método de bagging ensemble para melhorar a precisão das predições. Os resultados do estudo demonstram que o uso de modelos baseados em ensemble aumentou significativamente a confiabilidade da precisão das predições, sugerindo que essa abordagem é eficaz para melhorar a robustez dos modelos de IA em cenários críticos.
Sachenko & Turchenko (2000) exploraram o uso de redes neurais para prever o desvio de sensores, um problema convencional de sistemas de medição que pode comprometer a precisão dos dados ao longo do tempo. A pesquisa destaca como o uso de técnicas de inteligência artificial, especialmente redes neurais, pode aprimorar a capacidade de antecipar e corrigir desvios nos sensores, garantindo, assim, medições mais precisas e confiáveis. Além disso, o estudo evidencia a importância da aplicação de métodos de aprendizado de máquina para manter a integridade e a precisão dos modelos de IA em cenários dinâmicos, onde os dados podem mudar significativamente. Os resultados indicam que a abordagem proposta é eficaz em prever o desvio dos sensores com alta precisão, utilizando uma combinação de dados históricos e técnicas avançadas de rede neural, o que, por sua vez, reforça a aplicabilidade desses métodos em contextos de monitoramento crítico, onde a qualidade e a confiabilidade dos dados são fundamentais.
Koh et al. (2018) apresentaram uma técnica composta por um detector e um preditor de viés para fluxos de dados transacionais não rotulados. Essa técnica é projetada para identificar tanto vieses reais quanto virtuais em conjuntos de dados transacionais, sendo essencial para sistemas que necessitam monitorar mudanças nos padrões dos dados sem depender de rótulos. A relevância desse estudo está na aplicação de métodos avançados para a detecção de viés em dados, um tema central na avaliação da qualidade e confiabilidade de modelos de IA em ambientes dinâmicos. Os resultados da pesquisa demonstram que a técnica é eficaz em detectar viéses com alta precisão, permitindo a adaptação dos sistemas às mudanças nos dados e reduzindo a incidência de falsos positivos, o que reforça a importância de estratégias proativas na gestão de fluxos de dados em cenários críticos.
Dong et al. (2024) exploraram o fenômeno de viés de desempenho em modelos de aprendizado de máquina aplicados à predição de risco de mortalidade em cirurgias cardíacas. O estudo investiga como mudanças nos dados ao longo do tempo, conhecidas como data set drift e variable importance drift, podem degradar a precisão e a confiabilidade desses modelos, ressaltando, assim, a importância de monitorar e adaptar continuamente os modelos para manter sua eficácia clínica. A pesquisa realiza uma análise detalhada dos impactos do data drift em ambientes críticos, onde a precisão dos modelos de IA é vital para a tomada de decisões. Os resultados demonstram que todos os modelos avaliados, incluindo abordagens tradicionais e modernas de aprendizado de máquina, sofreram uma redução significativa no desempenho ao longo do tempo, o que sublinha a necessidade de estratégias robustas de monitoramento e atualização para mitigar os efeitos adversos do viés de dados.
3 METODOLOGIA
No desenvolvimento deste trabalho, a primeira etapa envolveu a coleta na Internet de imagens de pessoas. Essa coleta foi realizada com base em critérios pré-definidos, como representatividade racial (referente às diferentes tonalidades de pele), perfil (imagens capturadas em vista frontal dos rostos), e cor (imagens coloridas). Esses critérios garantiram que o conjunto de dados fosse diverso refletindo diferentes aspectos visuais. A busca por essas imagens utilizou técnicas de web scraping, resultando em 4.163 imagens obtidas de fontes gratuitas.
Uma vez obtida uma quantidade volumosa de imagens, estas foram transformadas, selecionadas e categorizadas. A Engenharia de Software dos scripts desenvolvidos e as ferramentas eventualmente empregadas neste processo encontram-se descritos em detalhes em Pinho (2024). Na etapa de transformação, foram realizados ajustes essenciais nas imagens, como redimensionamento, conversão de formato e padronização de resolução. Essas operações asseguraram que todas as imagens possuem uma qualidade uniforme e são compatíveis com os modelos de IA empregados posteriormente na predição. Ainda nessa etapa, foi realizada a verificação e remoção de imagens duplicadas, ação crucial para garantir a isonomia dos dados.
Em seguida, foram selecionadas apenas as imagens de fotos coloridas, tiradas em vista frontal e contendo apenas uma pessoa por imagem, sem que houvesse restrição quanto a quantidade de demais objetos distribuídos na cena. Além disso, o banco de imagens foi categorizado em conjuntos de amostras que pudessem ser facilmente organizadas em quatro grupos: homens negros, homens brancos, mulheres negras e mulheres brancas.
Há uma discussão moderna sobre o que é um homem e uma mulher, ou o que é uma pessoa negra e uma branca. Em geral o problema é conceitual que ainda carece de maturidade científica: ou não se consegue enunciar claramente os requisitos de enquadramento da pessoa, ou os critérios enunciados não são adotados por todos. Neste trabalho, o critério escolhido foi submeter uma imagem para um grupo de seis pessoas, grupo este composto por três homens, três mulheres, três pessoas negras e três pessoas brancas. Cada pessoa fez sua classificação da imagem, e se não houvesse unanimidade, a imagem era descartada. Com isso obteve-se aquilo que em aprendizado de máquina chama-se ground-truth.
Após a categorização, obteve-se as seguintes quantidades de imagens: 825 de homens negros, 1028 de mulheres negras, 589 de homens brancos e 577 de mulheres brancas. Observa-se que as categorias não estão perfeitamente balanceadas. As categorias homem negro e mulher negra possuem uma quantidade consideravelmente maior de imagens, enquanto as categorias homem branco e mulher branca têm menos imagens. Além disso, a categoria mulheres brancas apresentava, naquele momento, quase a metade do número de imagens de mulheres negras.
A discrepância no número de imagens entre as categorias evidencia um desbalanceamento no conjunto de dados a ser avaliado, o que resulta em um viés no espaço amostral utilizado para as inferências. No entanto, apesar desse desbalanceamento, ele não afeta diretamente a inferência realizada pelo modelo preditivo, uma vez que os dados são submetidos a uma inferência por um modelo previamente treinado. O treinamento do modelo não é modificado, assim como o conjunto de dados utilizado para esse treinamento. Portanto, o desempenho do modelo é influenciado principalmente pelos dados e técnicas utilizadas na fase de treinamento original, e não pelas características do conjunto de dados atualmente submetido às inferências.
Diante da análise de distribuição, para mitigar o impacto no resultado estatístico do coletivo de inferências, decidiu-se por limitar o número de imagens e cada categoria à quantidade da categoria mulher branca, que possui o menor número de amostras (577 imagens). O descarte foi resolvido por um sorteio aleatório. Essa abordagem visa deixar todas as categorias perfeitamente equilibradas, garantindo que o conjunto de dados seja balanceado e que não haja qualquer contribuição de desvio na análise estatística que é feita a posteriori, ainda que marginal.
As imagens foram submetidas a modelos de IA, YOLOv8 e Detectron2, com o objetivo de realizar uma análise automatizada e detalhada de cada imagem, identificando a presença de seres humanos. Esses modelos de detecção de objetos, reconhecidos no mercado por sua precisão e eficiência, processam grandes quantidades de imagens e fornecem scores que indicam a confiança na detecção para a classe “person” (“pessoa”). A classe “person” foi escolhida porque ela é essencial na detecção de pessoas em uma cena, tais como: pessoa dentro de uma zona proibida, pessoa em rota de colisão com veículo autônomo, contagem de pessoas, entre outras.
4 RESULTADOS E ANÁLISE
Ao término do processamento obteve-se uma tabela onde cada registro indica: (1) é uma imagem de mulher ou de homem; (2) é uma imagem de pessoa negra ou branca; (3) o YOLOv8 detectou uma pessoa na imagem; (4) a confiança do objeto “person” detectado pelo YOLOv8; (5) o Detectron2 detectou uma pessoa na imagem; (6) a confiança do objeto “person” detectado pelo Detectron2.
A primeira análise envolve o cálculo de média e desvio padrão de um conjunto de dados amplamente descrito em literatura. Já o coeficiente de variação é dado pelo desvio padrão dividido pela média, e mede a dispersão do modelo. A Tabela 4.1 apresenta valores consolidados destas métricas.
Tabela 4.1: Métricas de Desempenho dos Modelos Detectron2 e YOLOv8
Métrica | Confiança do Detectron2 (%) | Confiança do YOLOv8 (%) |
Média – Homem Negro | 95,95 | 90,81 |
Média – Homem Branco | 96,06 | 90,17 |
Média – Mulher Negra | 93,51 | 86,94 |
Média – Mulher Branca | 96,33 | 89,95 |
Média Total | 95,46 | 89,47 |
Desvio Padrão Total | 1,31 | 1,72 |
Coeficiente de Variação | 1,37 | 1,92 |
A diferença entre as médias totais dos dois modelos foi de 5,99%. Não se trata de um valor marginal, e indica que o modelo Detectron2 apresentou uma boa vantagem em relação ao YOLOv8, sob a ótica da confiança. Ambos os modelos exibiram coeficientes de variação baixos, o que sugere que os resultados são consistentes em relação às suas médias, sendo o Detectron2 ligeiramente mais estável que o YOLOv8.
É possível observar que o Detectron2 apresenta valores consistentemente mais altos do que o YOLOv8 em todas as categorias específicas. Por exemplo, para a categoria homem negro, o Detectron2 alcança uma média de 95,95%, enquanto o YOLOv8 registra 90,81%, evidenciando uma precisão mais elevada na tarefa de detectar uma pessoa negra e do sexo masculino em uma fotografia. Essa diferença também é perceptível em outras categorias, onde a superioridade do Detectron2 se mantém em torno de 5% a 6% em relação ao YOLOv8.
Os resultados indicam que ambos os modelos, YOLOv8 e Detectron2, possuem desempenhos satisfatórios em termos de precisão e variabilidade na tarefa de detectar, embora algumas diferenças significativas mereçam uma discussão detalhada. Primeiramente, o modelo Detectron2 apresentou uma confiança ligeiramente superior em comparação ao YOLOv8, o que sugere maior robustez do Detectron2 em situações de alta variabilidade nos dados de entrada, reduzindo a possibilidade de ignorar a presença de uma pessoa em uma cena. Chama-se a atenção de que os resultados referentes a mulheres negras sugerem dificuldades para ambos os modelos em classificar corretamente essa categoria, o que pode indicar vieses embutidos nos dados de treinamento ou nas próprias arquiteturas dos modelos (mais provavelmente no primeiro do que no segundo). Ilustrativamente, suponha que estes modelos preditivos embarcados em um veículo autônomo com o objetivo de identificar uma pessoa em rota de colisão com o veículo para acionar medidas que evitem o acidente. Nesse contexto, as categorias com menores confianças estarão menos propensas a serem identificadas, e portanto, mais sujeitas a acidentes de atropelamento por tais veículos.
Algumas melhorias envolvem ajustes na coleta e organização de dados de treino, enquanto outras estão relacionadas à otimização dos próprios modelos. Uma das principais ações é o aumento da diversidade do conjunto de dados, pois há indícios de que o treinamento dos modelos pode ter sido influenciado pela menor representatividade de certas categorias raciais e de gênero nos dados de entrada. Para mitigar essa discrepância, há necessidade de uma abordagem mais rigorosa na curadoria dos dados de treino, garantindo uma distribuição equilibrada entre diferentes grupos raciais e de gênero.
Embora os modelos tenham sido testados em um conjunto variado de imagens, os dados utilizados para teste não representaram adequadamente a complexidade e diversidade encontradas em cenários reais, onde os dados são coletados em ambientes dinâmicos, e onde pode haver divergência, por parte de indivíduos, na categorização de gênero e cor da pele. Isso pode ter levado a uma superestimação do desempenho dos modelos avaliados, que, quando expostos a dados mais desafiadores ou não controlados, poderiam apresentar desempenhos inferiores ao observado nos experimentos. Entretanto, espera-se que a diferença de desempenho dos modelos se sustente.
Além disso, as métricas de viés utilizadas para avaliar a equidade entre as categorias raciais e de gênero, embora úteis, não capturam toda a complexidade envolvida. Aspectos como a interseccionalidade entre características como gênero e raça, bem como outros fatores (como idade ou estilo de vestuário), não foram abordados. Essa limitação restringe a capacidade dos resultados de refletirem de forma completa os impactos sociais e éticos do uso de IA nessas condições. A adoção de técnicas de mitigação de vieses e a inclusão de dados mais diversos durante o treinamento podem ser passos importantes para corrigir os problemas observados e melhorar a equidade nos resultados de IA, que não feitos pelos fornecedores dos modelos preditivos, pode ser executado através da técnica de transfer learning por parte das empresas que usam tais modelos.
5 CONCLUSÃO
Este trabalho apresentou uma análise detalhada da qualidade, confiabilidade e equidade dos modelos de inteligência artificial YOLOv8 e Detectron2, com foco em detectar pessoas em imagens. O principal objetivo foi avaliar o desempenho desses modelos com base em métricas clara, considerando variáveis como raça e gênero. Os resultados mostraram que, embora o modelo Detectron2 tenha apresentado uma vantagem em termos de confiança média geral, ambos os modelos exibiram vieses que não são desprezíveis. Adicionalmente, a análise do coeficiente de variação indicou que, apesar dessa superioridade do Detectron2 em termos de confiança, o YOLOv8 apresentou uma menor variabilidade relativa nos seus resultados, sugerindo maior consistência em contextos de dados variados. Esses resultados ressaltam a importância de aprimorar os conjuntos de dados utilizados para treinamento, de modo a garantir uma distribuição mais equilibrada entre as diferentes categorias demográficas e reduzir vieses indesejados.
Para trabalhos futuros, sugere-se expandir o conjunto de dados utilizado, garantindo uma maior representatividade das diferentes categorias demográficas, especialmente em termos de diversidade racial e de gênero. A aplicação de técnicas de reamostragem e balanceamento de classes pode contribuir para reduzir os vieses observados. Além disso, uma avaliação mais profunda dos vieses interseccionais, considerando fatores como idade, estilo de vestuário e outros atributos além de raça e gênero, pode oferecer uma visão mais abrangente da equidade nos modelos de IA. Por fim, recomenda-se o desenvolvimento de novas métricas que permitam uma comparação mais direta entre modelos com arquiteturas diferentes, como YOLOv8 e Detectron2, facilitando uma avaliação de seus desempenhos.
REFERÊNCIAS
ULTRALYTICS. YOLOv8 in PyTorch, 2023. Disponível em: https://github.com/ultralytics/ultralytics. Acesso em: 22 de setembro de 2024.
WU, Y., KIRILLOV, A., MASSA, F., et al.. Detectron2: A PyTorch-based modular object detection library, 2019. Disponível em: https://github.com/facebookresearch/detectron2. Acesso em: 22 de setembro de 2024.
RAHMANI, K., THAPA, R., TSOU, P., et al.. Assessing the effects of data drift on the performance of machine learning models used in clinical sepsis prediction, International Journal of Medical Informatics, v. 173, pp. 104930, 2023.
WIBISONO , Ari; JATMIKO, Wisnu. Traffic big data prediction and visualization using Fast Incremental Model Trees-Drift Detection (FIMT-DD). Knowledge-Based Systems, v. 93, pp. 33–46, 2016.
JU, B.-S.; KWAG, S.; LEE, S.. Performance-based drift prediction of reinforced concrete shear wall using bagging ensemble method. Nuclear Engineering and Technology, v. 55, pp. 2747–2756, 2023.
SACHENKO, A.; TURCHENKO, V. K.. Sensor Drift Prediction Using Neural Networks. In: Proceedings of the International Workshop on Virtual and Intelligent Measurement Systems (VIMS), pp. 88–92, Annapolis, MD, USA, 2000.
KOH, Y. S.; HUANG, D. T. J.; PEARCE, C., et al.. Volatility Drift Prediction for Transactional Data Streams. In: 2018 IEEE International Conference on Data Mining (ICDM), pp. 1091–1096, Singapore, 2018.
DONG, T.; SINHA, S.; ZHAI, B.; et al.. Performance Drift in Machine Learning Models for Cardiac Surgery Risk Prediction: Retrospective Analysis. JMIRx Med, v. 5, n. 1, pp. e45973, 2024.
PINHO, D. H. O.. Técnicas de Monitoramento e Avaliação para Garantir a Qualidade, Confiabilidade e Equidade em Modelos de Inteligência Artificial: Um Estudo de Caso Utilizando YOLOv5 e Detectron2. Monografia do curso de Engenharia em Eletrônica e Computação, Escola Politécnica, Universidade Federal do Rio de Janeiro, 2024.
1 Graduado do Curso de Engenharia Eletrônica e de Computação da Escola Politécnica da Universidade Federal do Rio de Janeiro e-mail: daniel.pinho.tec@poli.ufrj.br
2 Professor Titular do Curso Graduação em Engenharia Eletrônica e de Computação da Escola Politécnica da Universidade Federal do Rio de Janeiro. Doutor em Sistemas e Computação (Coppe/UFRJ). e-mail: fmello@poli.ufrj.br