REGISTRO DOI:10.5281/zenodo.10428412
Emanuelle Passos Martins1
Resumo:
O câncer de mama foi apontado como o tipo de câncer que mais acometeu a população feminina brasileira em 2020, com 66.280 casos novos, segundo o Instituto Nacional de Câncer (INCA). Por isso a importância do diagnóstico, que normalmente é feito por uma equipe médica a partir de exames e análises de uma biópsia do paciente. Diante disso, propõe-se o uso de Rede Perceptron de Múltiplas Camadas para a classificação de dados tumorais em malignos ou benignos, em auxílio a tais profissionais. Utilizou-se os conjuntos de dados Breast Cancer Histopathological Database (BreakHis) e Breast Cancer Wisconsin (Diagnostic) Dataset, e obteve-se acurácia de 97,9% na classificação da primeira base de dados, e de 74,1% na segunda.
Palavras Chaves: Breast Cancer Histopathological Database (BreakHis), Breast Cancer Wisconsin (Diagnostic) Dataset, classificação de tumores mamários, Rede Perceptron de Múltiplas Camadas
1 Introdução
Tumor é o aumento no volume de alguma região do corpo, segundo o Instituto Nacional de Câncer (INCA) [1]. Assim, o câncer se trata de uma neoplasia maligna, que é caracterizada por ser um tipo de tumor em que há crescimento desordenado do número de células, com capacidade de invasão dos tecidos vizinhos, causando metástases. Por outro lado, as neoplasias benignas possuem crescimento lento, organizado e com limites nítidos. Deve-se salientar que a neoplasia é popularmente conhecida como tumor.
O câncer pode ter causas internas, como mutações genéticas, condições imunológicas e hormonais, ou externas, como o contato com substâncias químicas, radioativas e vírus, ou ainda a partir da junção dessas [2]. Além disso, também é conhecida a importância de um estilo de vida saudável para se evitar o desenvolvimento do câncer. Isto envolve principalmente fatores como a alimentação e a prática de atividade física.
Apesar de todos esses conhecimentos científicos, o INCA apontou o câncer de mama como o tipo de câncer que mais acometeu a população feminina brasileira em 2020, com 66.280 casos novos, sendo responsável por 29,7% das neoplasias que atingiram as mulheres neste mesmo ano [3].
O tratamento do câncer de mama pode contar com cirurgia, quimioterapia ou radioterapia, a depender do diagnóstico feito pela equipe médica. Já sobre as neoplasias benignas, há casos em que é necessário somente o acompanhamento médico e outros em que pode ser feita a retirada do tumor..
Daí a importância do diagnóstico das neoplasias mamárias que, como dito, é dado pelo profissional médico a partir de exames do paciente, sendo a mamografia um dos principais meios de identificação de alteração nas mamas. Assim, a confirmação do diagnóstico é normalmente dada com a análise da biópsia, que se trata da “retirada de um fragmento do nódulo ou da lesão suspeita por meio de punções (extração por agulha) ou de uma pequena cirurgia” [4].
Considerando a complexidade desse procedimento de diagnóstico diante da rotina de um profissional médico, que muitas vezes é cansativa, possíveis erros podem ser gerados. À vista disso, propõe-se o uso da Rede Perceptron de Múltiplas Camadas como um recurso em calcular o erro para cada neurônio da camada de saída; atualizar os pesos dos neurônios das camadas ocultas e de saída; e repetir a partir da segunda etapa até que se obtenha um erro que satisfaça o critério estabelecido [5].
Tal atualização dos pesos se dá através do seguinte cálculo:
Contudo, tal aprendizado foi otimizado, em que ao invés de reajustar o peso com base no erro, faz-se uso da retropropagação (backpropagation), isto é, com base no gradiente descendente (derivada da função) identifica-se a relevância de cada peso no erro total para determinar a direção em que se deve atualizar os pesos, de forma a otimizar a saída da função de ativação e minimizar o erro total.
Utilizou-se duas bases de dados, sendo uma delas com dados tabulares e outra com imagens, ambas referentes a neoplasias mamárias, que foram classificadas em neoplasias malignas ou benignas usando uma rede Perceptron de Múltiplas Camadas. Ademais, a classificação foi feita utilizando o Google Colab, que se trata de uma ferramenta de programação em Python.
É importante ressaltar que cada base de dados passou pelo treinamento da rede, validação e otimização dos hiperparâmetros.
O conjunto de dados utilizado foi o Breast Cancer Wisconsin (Diagnostic) Dataset, disponível no site UCI Machine Learning Repository [6], para a primeira classificação de neoplasias mamárias em malignas ou benignas.
Tal base de dados é composta por dados tabulares, 30 atributos e duas classes: maligno, com 212 dados e benigno, com 357 dados. Os atributos incluem textura, perímetro, área, raio, suavidade, compactação, concavidade, simetria, pontos côncavos e dimensão contribuição ao trabalho deste profissional para a classificação das neoplasias, em malignas ou benignas.
2 Metodologia
O perceptron (base das Redes Neurais Artificiais – RNA) foi o primeiro modelo computacional de um neurônio. Ele consiste em associar as entradas a seus respectivos pesos e fazer o somatório de todas as entradas, cada uma multiplicada pelo seu respectivo peso. Tal resultado é então submetido à uma função de ativação que leva à classificação do dado, a partir da saída obtida.
Assim, é interessante o entendimento dos seguintes componentes do perceptron: o peso atribuído a cada entrada é responsável por aumentar ou diminuir a influência do valor delas; o bias é o termo independente que ajusta a saída junto da soma ponderada das entradas para o neurônio; e a função de ativação limita a saída em um determinado intervalo e introduz não-linearidade ao modelo, gerando uma saída contínua, sendo algumas das mais utilizadas a tangente hiperbólica e a sigmóide, por conta da sua boa adequação.
Dessa forma, a rede Perceptron de Múltiplas Camadas (Multi Layer Perceptron – MLP) é uma RNA que contém pelo menos uma camada oculta (camada que fica entre a camada de entrada e a de saída, e que também é chamada de camada escondida) com uma quantidade indeterminada de neurônios, como pode ser visto na figura 2.1.
Figura 2.1: Rede Perceptron de Múltiplas Camadas (Multi Layer Perceptron – MLP)
O aprendizado do perceptron é baseado nas seguintes etapas: inicializar a rede com as entradas e atribuir valores aleatórios aos pesos; calcular os valores dos neurônios das camadas ocultas e de saída; comparar as saídas do modelo com as referências (valores reais);fractal, que foram computados de imagens digitalizadas de punção aspirativa por agulha fina (PAAF) da massa mamária e descrevem as características do núcleo celular presente em cada imagem. Ademais, para cada um dos 10 atributos citados anteriormente foi calculado a sua média, o seu erro padrão e a média dos três maiores valores (denominada “pior”), resultando nos 30 atributos.
Para essa base de dados, adotou-se o valor 0 para representar as neoplasias diagnosticadas como malignas e 1 para aquelas diagnosticadas como benignas.
Cada classe passou pela seguinte separação de dados: 75% dos dados para treinamento e 25% para teste, como mostra a tabela 1.
Tabela 1: Divisão dos dados da base de dados Breast Cancer Wisconsin (Diagnostic)
Para a segunda classificação utilizou-se o conjunto de dados Breast Cancer Histopathological Database (BreakHis), que consiste em uma base de dados de imagens de neoplasias mamárias, e pode ser acessada no site do Kaggle [7]. Ela contém 1232 amostras malignas e 588 amostras benignas.
As neoplasias diagnosticadas como malignas foram representadas por -1 e aquelas diagnosticadas como benignas foram representadas por 1, nesta base de dados.
Tais imagens, inicialmente nas dimensões 460x700x3 foram redimensionadas para 32x32x3 (isto é, ficando com 3072 pixels) e divididas em: 75% dos dados para treinamento e 25% para teste, como pode ser visto na tabela 2.
Tabela 2: Divisão dos dados da base de dados Breast Cancer Histopathological (BreakHis)
3 Resultados
Após aplicar a MLP na base de dados Breast Cancer Wisconsin (Diagnostic) obteve-se os resultados apresentados na matriz de confusão da figura 3.1.
Figura 3.1: Matriz de confusão referente à base de dados Breast Cancer Wisconsin (Diagnostic)
Lembrando que nesta base de dados as neoplasias diagnosticadas como malignas foram representadas por 0, enquanto as benignas por 1, a figura 3.1 mostra que um dado tumoral benigno foi classificado de forma errada como maligno e dois dados tumorais malignos foram classificados também erroneamente como benignos, resultando em 3 erros, com uma taxa de erro de aproximadamente 2,1%.
Por outro lado, 51 dados tumorais malignos foram classificados corretamente, bem como 89 dados tumorais benignos, totalizando 140 dados, com uma acurácia de aproximadamente 97,9%.
Ademais, o F1-score deste modelo obteve os seguintes valores: 0,97 correspondente à neoplasia maligna e 0,98 no que diz sobre a neoplasia benigna. E a precisão atingiu o valor 0,98.
Figura 3.2: Classificação da base de dados Breast Cancer Wisconsin (Diagnostic) usando MLP
A figura 3.2, retirada da plataforma Weka, que também é uma ferramenta de classificação de dados tabulares usando MLP, apresenta a classificação da base de dados Breast Cancer Wisconsin (Diagnostic) usando MLP. Na cor verde foram representadas as entradas da rede, isto é, os atributos, ressaltando que há um neurônio para cada entrada, sendo estes ligados aos neurônios da camada escondida, que estão representadas na cor vermelho e estão ligados aos dois neurônios da camada de saída, 0 representando as neoplasias malignas e 1 representando as neoplasias benignas. Dessa forma também se pode destacar que a quantidade de neurônios da camada de saída é igual a quantidade de classes. Nota-se que há uma grande região preta na figura, representando a ligação entre os neurônios.
Já os resultados referentes à aplicação da MLP na base de dados Breast Cancer Histopathological (BreakHis) podem ser vistos na matriz de confusão da figura 3.3.
Figura 3.3: Matriz de confusão referente à base de dados Breast Cancer Histopathological (BreakHis)
Recordando a representação das neoplasias diagnosticadas como malignas por -1 e daquelas diagnosticadas como benignas por 1, nesta base de dados, a figura 3.3 indica que o modelo errou na classificação de 118 imagens, sendo 37 delas referentes a neoplasias benignas tidas como malignas e 81 referentes a neoplasias malignas classificadas como benignas.
Em contrapartida, o modelo classificou 337 imagens corretamente, sendo 227 delas relativas a neoplasias malignas e 110 a neoplasias benignas.
Dessa forma, tal modelo obteve taxa de erro de aproximadamente 25,9% e acurácia de aproximadamente 74,1%.
4 Conclusões
Os resultados mostraram acurácia de 97,9% para a classificação de tumores mamários usando MLP com a base de dados Breast Cancer Wisconsin (Diagnostic), 23,8% maior que a classificação com a base de dados Breast Cancer Histopathological (BreakHis), que teve acurácia de 74,1%.
Dessa forma, nota-se uma diferença da taxa de erro de 23,8%, sendo o maior valor referente à base de dados BreakHis, totalizando em 118 dados classificados de forma errada, comparados aos 3 erros da primeira base de dados.
Diante desses valores apresentados pode-se fazer análises importantes para a área da saúde. Ao classificar erroneamente uma neoplasia maligna como benigna retarda-se o tratamento, permitindo o aumento ainda maior da região tumoral através da multiplicação celular ao longo do tempo, enquanto que a classificação errada de uma neoplasia benigna como maligna pode submeter o paciente a um tratamento não necessário.
Assim, ressalta-se a importância de um diagnóstico o mais preciso possível, mas percebe-se que ambos médicos e modelos computacionais estão suscetíveis ao erro, sendo possível que através da associação destes uma melhor análise possa ser feita em benefício à saúde da população.
1 Referências
Instituto Nacional de Câncer (INCA). Todo tumor é câncer? Disponível em:
<https://www.inca.gov.br/perguntas-frequentes/todo- tumor-e-cancer>. Acesso em: 14 de outubro de 2021.
Instituto Nacional de Câncer (INCA). O que causa o câncer? Disponível
<https://www.inca.gov.br/perguntas-frequentes/o-que-causa-o-cancer>. Acesso em: 16 de outubro de 2021.
Instituto Nacional de Câncer (INCA). Estatísticas de câncer? Disponível em:
<https://www.inca.gov.br/numeros-de-cancer>. Acesso em: 14 de outubro de 2021.
Oncoguia. Diagnóstico do Câncer de Mama, 2020. Disponível em:
<http://www.oncoguia.org.br/conteudo/diagnostico/1 4/12/>. Acesso em: 14 de outubro de 2021.
Moreira, Sandro. Rede Neural Perceptron Multicamadas, 2018. Disponível em:
<https://medium.com/ensina-ai/rede-neural-perceptr on-multicamadas-f9de8471f1a9>. Acesso em: 15 de outubro de 2021.
Breast Cancer Wisconsin (Diagnostic) Dataset. Disponível em:
<https://archive.ics.uci.edu/ml/datasets/Breast+Canc er+Wisconsin+(Diagnostic)>. Acesso em: 14 de outubro de 2021.
Breast Cancer Histopathological Database (BreakHis). Disponível em:
<https://www.kaggle.com/ambarish/breakhis>. Acesso em: 15 de outubro de 2021.
Emanuelle Passos Martins – UFG – Universidade Federal de Goiás EMC – Escola de Engenharia Elétrica, Mecânica e de Computação Cx. Postal 131 – CEP 74.605-010 Goiânia (GO)1