DESCOBERTA DE CONHECIMENTO E MINERAÇÃO DE DADOS EM SAÚDE PÚBLICA: CONCEITOS E PANORAMA ATUAL

REGISTRO DOI: 10.5281/zenodo.7585167


Sandra Silva Mitraud Ruas1
Rafael Fábio Maciel2


Resumo
Objetivo: Descrever os principais conceitos e usos das tecnologias de Descoberta de Conhecimento e Mineração de Dados (KDD) em saúde pública. Método: estudo de revisão bibliográfica. Pesquisa realizada nas bases de dados MEDLINE, LILACS e IBCS, nos últimos 10 anos (2013 a 2023).  Resultados: Onze estudos foram revisados para apresentar os principais conceitos e 8 experiências diferentes de aplicação de KDD em âmbito nacional e internacional. Conclusão: KDD pode ser empregada para atender a diferentes objetivos: gestão clínica, gestão de serviços, detecção de epidemias, estudos de percepções e atitudes da população, detecção de possíveis fraldes no sistema de pagamento. As fontes podem ser os registros eletrônicos de saúde, assistenciais ou administrativos, de serviços públicos e privados, bem como dados de redes sociais e da imprensa. Os estudos mostram o enorme potencial da KDD para a saúde pública.

Descritores: Data mining, Public Health, Knowleged Discovery. 

Introdução 

Os constantes avanços na área de tecnologia de informação têm produzido grandes volumes de dados em diversas áreas, inclusive na saúde. Em meio ao grande volume de dados, pode haver padrões, regras de associação, tendências, e relacionamentos sistemáticos entre variáveis muitas vezes invisíveis às técnicas tradicionais de análise1-2. Assim, nos últimos trinta anos, sugiram poderosos sistemas e ferramentas inteligentes para acessar esta informação potencialmente útil e compreensível, mas que se encontra de forma implícita nos registrados de uma base de dados1.

O termo mineração de dados (data mining) refere-se à técnica de explorar grandes quantidades de dados à procura dos referidos padrões. É etapa imprescindível do processo mais amplo denominado Descoberta de Conhecimento e Mineração de Dados (knowledge Discovery and Data Mining – KDD) que envolve a criação de grandes repositórios de dados (data warehouse), utilização de algorítimos de mineração, métodos estatísticos, ferramentas de análise e visualização das informações produzidas2. São três as etapas essenciais a serem realizadas como parte do processo de KDD2:

 a) Pré-processamento: visa gerar uma representação conveniente dos dados oriundos de diversas bases para que seja possível aplicar os algoritmos de mineração. Inclui a seleção de atributos relevantes, limpeza, amostragem, discretização de atributos quantitativos, dentre outros; 

b) Mineração de dados: aplicação de algoritmos para descoberta de padrões imersos na coleção de dados (mais detalhadamente descrito a seguir); 

c) Pós-processamento: seleção e ordenamento das descobertas relevantes, geração de relatórios e interpretação dos resultados encontrados. 

O processo de mineração tem como principais técnicas3

a) Associações: busca encontrar itens que ocorram de maneira simultânea nas transações. Um exemplo muito conhecido desta aplicação é a descoberta feita por uma rede de supermercados americana de que os clientes que comparam fraldas no final de semana, compram também cerveja.  Essa descoberta levou a uma reorganização das gôndolas de forma aproximar as fraldas das cervejas.

b) Classificação: consiste em descobrir uma função que organize os registros em categorias predefinidas. Essa aplicação é empregada em instituições financeiras para classificar os clientes como maus ou bons pagadores de empréstimos. 

c) Regressão: semelhante à classificação, entretanto é aplicado a variáveis numéricas.

d) Sumarização: identifica características comuns em conjunto de dados. Por exemplo: perfil dos assinantes de determinada revista.

e) Detecção de desvios: identifica registros que fogem do padrão considerado normal, denominados outliers. Por exemplo: detecção de um desvio no padrão de compras por cartão crédito de um cliente pode identificar uma possível clonagem de cartão.

Em um data warehouse os dados provenientes dos diversos sistemas são integrados e organizados por assunto. São caracterizados como não voláteis (não sofrem mais alteração após serem carregados no data warehouse) e variáveis em relação ao tempo (permitem a construção de séries temporais)3.

Quando vários conjuntos de dados oriundos de sistemas não integrados são incorporados a um data warehouse é preciso utilizar métodos que permitam a identificação de pares entre arquivos. Esse processo de relacionamento de bases de dados é conhecido como record linkage e pode funcionar de duas formas: relacionamento determinístico que busca por concordância exata de variáveis formando um código identificador unívoco entre as bases (por exemplo, CPF) ou relacionamento probabilístico que busca o pareamento por probabilidade de concordância entre variáveis comuns às duas bases. Esse processo permite relacionar todos os registros de um paciente que estão dispersos nas diversas bases que compõem o data warehouse3

O uso de registros eletrônicos em saúde é cada vez mais comum e tem gerado um grande volume de dados potencialmente útil para a saúde pública. Entretanto, as informações são produzidas por sistemas transacionais, isolados e não integrados o que dificulta a produção da informação em nível gerencial e estratégico. O objetivo deste trabalho é descrever conceitos e aplicações das tecnologias de descoberta de conhecimento e mineração de dados para fins de saúde pública. 

Método 

Trata-se de estudo de revisão bibliográfica da literatura, em âmbito nacional e internacional. Foram utilizados os descritores mineração de dados, data mining, saúde pública, public health e o termo descoberta de conhecimento.

A pesquisa foi realizada na Biblioteca Virtual em Saúde nas bases de dados MEDLINE, LILACS e IBCS. Foram aplicados os seguintes critérios de inclusão: artigos publicados nos últimos 10 anos (2013 a 2023), em língua portuguesa e inglesa, estudos voltados saúde pública e gestão de serviços. Critério de exclusão: pesquisas clínicas.

A pesquisa recuperou inicialmente 31 artigos dos quais oito foram selecionados pelos critérios de inclusão e exclusão. Além destes, foram incluídas duas teses e um artigo para desenvolver conceitos e ferramentas da área de KDD. Também foi acrescentado um artigo ainda não indexado por se tratar de experiência relevante em âmbito nacional. Portanto, onze trabalhos foram revisados e apresentados a seguir para descrever os conceitos e aplicações de KDD na área da saúde pública. 

Resultados 

Os sistemas de informação do Sistema único de Saúde (SUS), constituídos de forma isolada e não integrada, geram um volume enorme dos dados, entretanto a produção de informação relevante para a gestão ainda é processo árduo, que demanda muito tempo, diferentes ferramentas e profissionais habilitados. Pires (2011) descreve a criação de um ambiente computacional (MinerSUS) que integra dados do  Sistema de Informação Hospitalar (SIH), Autorização de Procedimentos de Alta Complexidade (APAC), Cadastro Nacional de Estabelecimentos de Saúde (CNES), Sistema de Informação de Nascidos Vivos (SINASC) e Sistema de Informação sobre Mortalidade (SIM). Os dados do MinerSUS são organizados segundo o modelo multidimensional, em que uma tabela central, denominada fato (ou assunto), é associada a um conjunto de tabelas periféricas denominadas dimensões . A produção da informação analítica se dá por meio de duas tecnologias implementadas na plataforma: On-line Analytical Processing (OLAP) e On-line Analytical Mining (OLAM). O ambiente também conta com um método de associação dos registros de um mesmo paciente (cirurgias, procedimentos, consultas, internações) dispersos nas diversas bases. É possível, por exemplo, fazer o acompanhamento dos pacientes pelos diversos pontos da rede assistencial ou fazer comparações entre populações3.

Conhecendo-se a magnitude do SUS, fica evidente a necessidade de aperfeiçoar o sistema de regulação e controle afim de evitar fraldes. Nesse sentido, foi desenvolvido um sistema moderno de detecção de discrepâncias no sistema de pagamento por meio de ferramentas de mineração. O referido sistema, denominado INFOSAS, possui um repositório alimentado a partir das bases do Sistema de Informação Hospitalar (SIH), Sistema de Informação Ambulatorial (SIA), do Cadastro Nacional de Estabelecimentos (CNES) e do Instituto Brasileiro de Geografia e Estatística (IBGE).  Algoritmos de mineração detectam discrepâncias no valor médio mensal cobrado ou no volume de produção de um alvo (estabelecimento ou município) com base em séries temporais. As anomalias encontradas podem indicar fraudes melhorando a eficiência das auditorias. Analisando os dados de 2013 (789 milhões de atendimentos médicos, 23 mil prestadores, em 5570 municípios) encontrou-se discrepância em 6811 prestadores4.

Dados assistências e administrativos não têm sido o único foco de KDD. Estudos recentes têm demonstrado também a utilidade dos dados de redes sociais na saúde pública. Na China, onde a poluição do ar é uma grande preocupação, além de realizar medições ambientais de rotina, é necessário conhecer os efeitos da poluição sobre a saúde da população, informação que geralmente são obtidas por inquéritos. Em uma coleção de 93 milhões de mensagens do “Sina Weibo”, o maior serviço de microblog da China, foram aplicadas técnicas de mineração para identificar mensagens relacionadas à poluição do ar e seus efeitos sobre saúde. Além disso, foi realizada uma pesquisa qualitativa de conteúdo em uma amostra das mensagens. O volume de mensagens relacionadas à poluição em relação ao número total de mensagens nas cidades do estudo foi comparado então com as taxas aferidas de poluição por partículas finas. Os resultados demostraram que quantitativamente o volume da mensagem no Sina Weibo é indicativo de verdadeiros níveis de poluição por partículas finas comprovando a adequação desses dados para capturar informações úteis sobre os níveis de poluição e sobre a percepção da população5.

O uso onipresente da Internet também pode ser útil para detecção de possíveis epidemias, especialmente na vigência de grandes eventos, de maneira mais rápida que os métodos tradicionais de vigilância. No Reino Unido, um estudo examinou dados do Twitter e do motor de busca na internet (Bing) nos 30 dias anteriores e posteriores a 10 eventos ocorridos no segundo semestre de 2012. A população de usuários do Twitter relevantes para um evento foi definida como qualquer usuário que mencionou uma hashtag associada ao evento pelo menos duas vezes. Cada consulta na internet e cada mensagem no Twitter foi marcada para saber se ela continha uma ou mais palavras ou frases relacionadas a 195 sintomas médicos selecionados para o estudo. Três métodos estatísticos diferentes foram empregados para identificar palavras mencionadas numa frequencia inesperada. Os resultados identificaram dois termos (dor e tosse) associados a dois eventos, entretanto, não foi possível comparar esse resultado com dados oficiais de vigilância pois durante o período pesquisado não houve nenhum surto confirmado.  Trabalhos futuros são necessários para comparar os resultados a partir de dados da Internet com os resultados obtidos a partir de métodos tradicionais6.

Em Taiwan, a mineração de dados em fontes de dados abertos do governo, dados climáticos e dados de tendências do Google identificaram uma associação positiva entre as tendências do Google e os casos confirmados de dengue, sugerindo que as tendências do Google provavelmente são um preditor da epidemia de dengue7.  

No Brasil, o Observatório de Saúde na Mídia – Regional ES (OSMES) se configura como um espaço de contribuição para o campo da Comunicação e Saúde. Utilizando softwareS de mineração de dados em jornais e revistas, coleta e analisa matérias de diversos temas de saúde: estresse, ansiedade, febre amarela, Zika, Programa Mais Médicos, tragédia-crime do Rio Doce, diabetes, judicialização da saúde, H1N1 e dengue. Tais pesquisas possibilitam a produção sistemática de dados, cuja finalidade é produzir análises críticas, quantitativas e qualitativas, e com isso oferecer elementos para a gestão de bens públicos8.

Outro exemplo de utilização de KDD é na área de apoio à decisão clínica. Repositórios de dados de dois grandes sistemas de saúde dos EUA foram utilizados para testar quatro algoritmos de mineração com a finaliadde selecionar pacientes com maior risco de atraso no diagnóstico de câncer de próstata e colorretal. Foram consideradas possíveis falhas de acompanhamento (“gatilhos”) o antígeno específico da próstata (PSA) anormal, exame de sangue oculto nas fezes positivo (FOBT), deficiência de ferro anemia (IDA) e hematoquezia. Em seguida foram excluídos casos que não necessitam de acompanhamento (por exemplo, doença terminal) ou que já tinham recebido cuidados adequados e oportunos. O valor preditivo positivo do algorítimo (VPP), entendido como a probabilidade dos indivíduos identificados serem relamente casos de  câncer sem diagnóstico, foi aferido por meio de auditoria em uma coorte de gatilhos selecionados aleatoriamente. Cada um dos gatilhos alcançou um VPP entre 58% e 70%, e, juntos, permitiram a detecção de um número estimado de 1048 casos de follow-up atraso e 47 cânceres de alto grau anualmente nas instituições participantes.os artigos selecionados para o seu estudo, de acordo com os critérios estabelecidos9.

Nos Estados Unidos, apesar da ampla utilização de registros eletrônicos nas instituições de saúde, sua utilização para fins de saúde pública tem sido pouco explorada. Muita atenção tem sido dada ao “uso significativo” (meaningful use) e à melhoria da qualidade da assistência.  Usando informação sobre admissões evitáveis ​​por asma em tempo real, as autoridades de saúde pública poderiam mapear comunidades com pouco acesso aos cuidados primários e ou expostos às causas ambientais de asma. Este conhecimento poderia oportunizar a implantação de políticas e ações para além dos cuidados médicos habituais, enfocadas nas questãoes ambientais, de habitação, educação, condições de vida, etc. A baixa utilização de toda esta informação para fins de saúde pública pode ser explicada por algumas barreiras: hegemonia da assistência sobre a prevenção, haja vista a forma de pagamento por produção; variedade de sistemas não integrados; questões de sigilo e privacidade10.

Apesar das leis que exigem a notificação de doenças sexualmente transmissíveis (DSTs) às agências governamentais de saúde, a vigilância integrada das DSTs continua sendo um desafio. Um estudo criou um repositório de dados a partir de vários sistemas eletrônicos, abrangendo ambientes clínicos, laboratoriais, de saúde pública e privados, para permitir a busca de casos não notificados e sua vigilância11

A seguir é apresentada uma tabela resumo com as referências deste estudo de revisão. 

Tabela 1 – Referências selecionadas para o estudo. Duas teses e 8 artigos localizados nas bases de dados LILACS e MEDLINE (2012 -2016), sobre aplicação de KDD na área de saúde pública 

Título do Artigo/ReferênciaObjetivoResultados
Técnica de mineração de dados: uma revisão da literatura(1)Apresentar por meio de revisão da literatura os conceitos, métodos, técnicas e etapas da mineração de dados.Trinta e dois artigos foram revisados para apresentar o método de mineração de dados, suas técnicas e etapas além de conceitos relacionados.
Estudos em Descoberta do Conhecimento e Mineração de Dados em Saúde(2)Apresentar estudos de KDD aplicada na área de informática em saúde.Foram identificados três eixos principais de aplicação de KDD na saúde: informação para saúde do consumidor, serviços de apoio à decisão e informação para gestão de serviços.
Ambiente para extração de informação epidemiológica a partir da mineração de dez anos de dados do Sistema Público de Saúde(3)Construir um armazém de dados (data warehouse) a partir das principais bases do Sistema Único de Saúde (SUS), aplicar técnicas de mineração e aprimorar a ferramenta de análise MinerSUS. As bases do SIA, SIH, SIM e SINASC, de 2000 a 2007, foram carregadas no data warehouse. Foi desenvolvido um método de associação dos pacientes aos seus registros dispersos nas diversas bases. As ferramentas de análise multidimensional permitem o cruzamento de informações dos diversos bancos. 
Detecção de anomalias nos pagamentos do Sistema Único de Saúde(4)Aplicar algoritmos estatísticos de mineração de dados a fim de detectar discrepâncias no sistema de pagamento aos prestadores de serviços do SUS para posterior auditoria e verificação. Nos dados de 2013 (789 milhões de atendimentos médicos, 23 mil prestadores, em 5570 municípios) encontrou-se discrepância em 6811 prestadores. O valor excedente concentrado nos 100 prestadores mais críticos é de 210 milhões de reais, ou 51% do total excedente estimado. 
Social media as a sensor of air quality and public response in China (5).Investigar o valor dos meios de comunicação social para monitorar os efeitos da poluição do ar e as percepções a ela relacionadas. Em uma coleção de 93 milhões de mensagens do maior serviço de microblog da China, o volume de mensagem sobre efeitos adversos da poluição foi indicativo de verdadeiros níveis de poluição comparado com as taxas de poluição aferidas pelo governo chinês nas em 74 cidades investigadas. 
Detecting disease outbreaks in mass gatherings using Internet data (6). Desenvolver algoritmos que podem alertar para possíveis surtos de doenças transmissíveis a partir de dados da Internet, especificamente Twitter e consultas no motor de busca na internet Bing.Foram analisados lançamentos no Twitter e consultas na internet no período de 30 dias anteriores e posteriores a nove grandes festivais durante 2012. Os resultados identificaram dois termos (dor e tosse) associados a dois eventos, dor e tosse. 
Open data mining for Taiwan’s dengue epidemic (7)Examinar a aplicabilidade da técnica de mineração de dados para descobrir conhecimento em dados abertos relacionados à epidemia de dengue em Taiwan.Foi identificada uma associação positiva entre as tendências do Google e os casos confirmados de dengue, sugerindo que as tendências do Google provavelmente são um preditor da epidemia de dengue. 
Observatories of Health in the Media  Espírito Santo Regional: an interdisciplinar experience report in Public Health (8)Apresentar a experiência do Observatório de Saúde na Mídia – Regional ES (OSMES) na utilização da mineração de dados em revistas e jornais para produção de informação útil no campo da comunicação em saúde.A análise de dados de mídia pode contribuir para a gestão de serviços públicos identificando necessidades de melhorar a comunicação com a população, bem como identificar eventuais divulgação de informações indevidas. 
Electronic health record-based triggers to detect potential delays in cancer diagnosis (9).Desenvolver e avaliar algoritmos para identificar pacientes com potenciais falhas no diagnóstico de câncer na próstata e de reto em registros médicos eletrônicos.O valor preditivo positivo dos algoritmos alcançou resultados entre 58% e 70%, e, juntos, permitiram a detecção de 1048 casos de follow-up em atraso e 47 cânceres de alto grau anualmente nas instituições participantes. 
Using Health Care Data to Track and Improve Public Health (10). Discutir algumas barreiras no uso de dados de registros eletrônicos de saúde para fins de saúde pública.Barreiras: hegemonia da assistência sobre a prevenção, diversidade de sistemas, questões de sigilo e privacidade.
An Integrated Surveillance System to Examine Testing, Services, and Outcomes for Sexually Transmitted Diseases (11).Aplicar as técnicas de mineração para integrar dados de sistemas fragmentados e identificar casos não notificados de doenças sexualmente transmissíveis. A base constituída contém quase 6 milhões de testes para 628.138 indivíduos em um período de 12 anos. O registro apoia os serviços de vigilância.

Discussão 

No contexto atual, a produção de informação gerencial a partir de diversos bancos de dados de sistemas transacionais do SUS demanda esforço e trabalho especializado. O INFOSAS e MinerSUS são experiências nacionais relevantes de uso de KDD que aproveitam o potencial do enorme volume de dados gerados para duas importantes áreas da saúde pública: gestão de serviçoes e controle e regulação. Sua consolidação e difusão podem contribuir para a maior eficência da gestão pública3,4.

A gestão clínica também se beneficia do uso de KDD a partir de dados assitencias. A identificação de falhas de acompanhamento com base nas consultas de rotina são pouco eficazes e a avaliação de todos os casos de risco tem custoproibitivos. As tecnologias de KDD podem identificar com maior precisão os pacientes que necessitam de avaliação e identificar casos não notificados9,11. O estudo apresentado pode servir de base para futuras pesquisas em outras doenças.

Dados de redes sociais e de imprensa podem encurtar o caminho e reduzir custos para conhecer a perceção da população e podem detectar riscos de epidemias de forma muito mais ágil que os habituais métodos de vigilância a partir de notificações oficiais5,6,7,8

O surgimento de novos incentivos para recompensar os sistemas de saúde com base no nível de saúde dos pacientes e o menor custo das medidas preventivas constituem estímulo para maior uso dos dados em saúde pública. É necessário abordar as questões de sigilo e privacidade, de forma que seja possível avaliar toda a comunidade, sem ferir o direito à privacidade, e, ao mesmo tempo, preservar o conceito do consentimento para intervenções a nível individual10

Em que pese o valor das pesquisas alguns limites devem ser considerados. Por exemplo, na China a censura pode comprometer o estudos a partir de redes sociais. Além disso a área é relativamnete recente e mais estudos precisam ser feitos e as ferramentas e ainda podem ser melhoradas.

Conclusões 

Neste trabalho foram apresentados alguns conceitos relevantes e algumas experiências nacionais e internacionais de aplicação das tecnologias de KDD em diferentes áreas da saúde pública. Os objetivos das diversas aplicações são variados: apoiar a decisão clínica identificando possíveis casos de câncer, detectar epidemias em populações específicas, estudar percepções e atitudes da população, detectar possibilidade de fraldes e apoiar a gestão dos serviços.  De modo geral, as fontes podem ser os registros eletrônicos de saúde nos serviços públicos e privados, assistenciais ou administrativos, e até mesmo dados de redes sociais. 

Os estudos mostram o enorme potencial da KDD para a saúde pública, em que pesem algumas barreiras tais como hegemonia da assistência sobre a prevenção, haja vista a forma de pagamento por produção; variedade de sistemas não integrados; questões de sigilo e privacidade.

Referências

Galvão ND, Marin HF. Técnica de mineração de dados: uma revisão da literatura. Acta Paul Enferm. 2009; 22(5): 869 – 90. Disponível em: http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-21002009000500014

Pisa IT. Estudos em Descoberta de Conhecimento e Mineração de Dados em Saúde. Tese [Doutorado]. São Paulo. Universidade Federal de São Paulo; 2013. Disponível em: http://docslide.com.br/documents/unifesp-ld-ivan-torres-pisa-tese-versao-finalpdf.html

Pires FA. Ambiente para extração de informação epidemiológica a partir da mineração de dez anos de dados do Sistema Público de Saúde Tese [Doutorado]. São Paulo. Universidade de São Paulo; 2011. Disponível em: http://www.teses.usp.br/teses/disponiveis/5/5131/tde-08122011-145701/pt-br.php

Técnica de mineração de dados: uma revisão da literatura Assunção RM, Carvalho OSF, Prates MO, Campos MA. Detecção de anomalias nos pagamentos do Sistema Único de Saúde. In XV Congresso Brasileiro de Informática em Saúde. 2016 nov; Goiânia, Brasil.

Wang S, Paul MJ, Dredze M. Social media as a sensor of air quality and public response in China. J Med Internet Res. 2015; 17(3): e22. Disponível em: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4400579/?tool=pubmed

Yom-Tov E, Borsa D, Cox IJ, McKendry RA. Detecting disease outbreaks in mass gatherings using Internet data. J Med Internet Res. 2014; 16(6): e154. Disponível em: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4090384/?tool=pubmed

Wu CH, Kao SC, Shih CH, Kan MH. Open data mining for Taiwan’s dengue epidemic. Acta Trop ; 183: 1-7, 2018 Jul. Disponível em https://pesquisa.bvsalud.org/portal/resource/pt/mdl-29549012

Cavaca SD, Miliorelli CR, Conti Maria FF, Santos VN, Coelho JA, Emerich TB, Cavaca AG. Observatories of Health in the Media  Espírito Santo Regional: an interdisciplinary experience report in Public Health. Rev. bras. pesqui. saúde ; 20(2): 149-156, abr.-jun. 2018. Disponível em: https://pesquisa.bvsalud.org/portal/resource/pt/biblio-912331

Murphy DR, Laxmisan A, Reis  B A, Thomas EJ, Esquivel A, Forjuoh SN, at al. Electronic health record-based triggers to detect potential delays in cancer diagnosis. BMJ Qual Saf. 2014 Jan; 23(1): 8-16. Disponível em: http://qualitysafety.bmj.com/content/23/1/8.full

Sharfstein JM. Using Health Care Data to Track and Improve Public Health. JAMA. 2015; 313(20): 2012-3. Disponível em: http://jamanetwork.com/journals/jama/article-abstract/2297154


1Mestre em Políticas de Saúde, Bacharel em Medicina, Especialista em Saúde Pública. Secretaria Municipal de Saúde de Belo Horizonte – SMSA, Belo Horizonte (MG), Brasil.

2Professor Doutor. Universidade Aberta do Brasil, Universidade Federal de São Paulo – UNIFESP, São Paulo (SP), Brasil.