REGISTRO DOI: 10.69849/revistaft/ar10202511302241
João Vitor Melo Fontenele¹
Samuel Vinicius Pereira de Oliveira²
RESUMO
Este artigo apresenta a proposta de desenvolvimento de um agente conversacional com arquitetura Retrieval-Augmented Generation (RAG) para disseminação de informações contraceptivas confiáveis via WhatsApp. O sistema integra embeddings semânticos derivados de BioBERTpt, banco de dados vetorial pgvector, n8n para orquestração de fluxos e modelos de linguagem da API OpenAI, dentro de uma arquitetura que garante conformidade à Lei Geral de Proteção de Dados (LGPD). A solução visa oferecer respostas precisas e contextualizadas, baseadas exclusivamente nos protocolos da FEBRASGO, otimizando a comunicação em saúde reprodutiva e reduzindo a circulação de desinformação. A metodologia propõe um protocolo de validação futura em três níveis (recuperação, geração e avaliação integrada), utilizando o framework RAGAS para mensuração automática de métricas como precisão contextual, relevância da resposta e aderência factual. O trabalho descreve a arquitetura implementada, discute desafios de escalabilidade, atualização do corpus e segurança da informação, e estabelece as bases para estudos experimentais posteriores em um contexto de elevada prevalência de gestações não planejadas no Brasil.
Palavras-chave: Anticoncepção. Inteligência Artificial. Desinformação. Retrieval-Augmented Generation. Saúde Reprodutiva.
ABSTRACT
This article presents a proposal for the development of a conversational agent with Retrieval-Augmented Generation (RAG) architecture for the dissemination of reliable contraceptive information via WhatsApp. The system integrates semantic embeddings derived from BioBERTpt, pgvector vector database, n8n for flow orchestration, and OpenAI API language models, within an architecture that ensures compliance with the General Data Protection Law (LGPD). The solution aims to provide accurate and contextualized responses based exclusively on FEBRASGO protocols, optimizing communication on reproductive health and reducing the circulation of misinformation. The methodology proposes a future validation protocol on three levels (retrieval, generation, and integrated evaluation), using the RAGAS framework for automatic measurement of metrics such as contextual accuracy, response relevance, and factual adherence. The work describes the implemented architecture, discusses challenges of scalability, corpus updating, and information security, and lays the groundwork for further experimental studies in a context of high prevalence of unplanned pregnancies in Brazil.
Keywords: Contraception. Artificial Intelligence. Misinformation. Retrieval-Augmented Generation. Reproductive Health.
1. INTRODUÇÃO
Aproximadamente 55% das gestações no Brasil não são planejadas, segundo dados do estudo nacional ‘Nascer no Brasil’ (Theme-Filha et al., 2016), situação que afeta principalmente mulheres jovens e em condição de vulnerabilidade socioeconômica. Dados mais recentes de oito hospitais universitários demonstram que essa prevalência pode variar significativamente entre regiões, com mediana de 59,7% (Lelis; Prietsch; Cesar, 2024). Paralelamente, o país enfrenta um cenário crítico de desinformação em saúde. Durante a pandemia de COVID-19, o WhatsApp foi responsável por aproximadamente 73% das mensagens contendo informações falsas sobre saúde (Costa, 2020). Estudos demonstram que entre 40,7% e 82,2% do compartilhamento de desinformação sobre saúde ocorre mesmo após a informação ter sido desmentida por agências de fact-checking (REIS et al., 2020), evidenciando a persistência da circulação de informações falsas na plataforma.
No contexto internacional, Mills et al. (2024) identificaram dezesseis chatbots voltados à temática contraceptiva; contudo, nenhum deles emprega arquitetura Retrieval-Augmented Generation (RAG) utilizando diretrizes clínicas nacionais validadas. Essa lacuna motivou o presente estudo, que propõe o desenvolvimento de um agente conversacional RAG voltado para a disseminação de informações contraceptivas baseadas exclusivamente nos protocolos da FEBRASGO, acessível via WhatsApp.
2. FUNDAMENTAÇÃO TEÓRICA
A arquitetura de transformadores, introduzida por Vaswani et al. (2017), revolucionou os sistemas de processamento de linguagem natural ao empregar mecanismos de atenção que permitem modelar dependências de longo alcance com elevada eficiência. Entretanto, grandes modelos de linguagem são suscetíveis a produzir “alucinações”, isto é, respostas que aparentam coerência mas carecem de veracidade factual (Nazi; Peng, 2024).
A arquitetura Retrieval-Augmented Generation, proposta por Lewis et al. (2020), busca mitigar esse problema ao incorporar ao processo de geração trechos recuperados de fontes confiáveis. Yang et al. (2025) destacam que sistemas médicos baseados em RAG apresentam vantagens relacionadas à confiabilidade, equidade e personalização da informação.
Na prática clínica, Baur et al. (2025) demonstraram a efetividade de um chatbot ortopédico baseado em RAG, desenvolvido em língua alemã, que alcançou índice de faithfulness de 0,853 em mais de 9.500 interações com pacientes. Em saúde reprodutiva, estudos como os de Aung, Mitchell e Braun (2020) e Cherie, Wordofa e Debelew (2024) indicam que intervenções digitais podem melhorar significativamente o uso de métodos contraceptivos. Ao mesmo tempo, investigação recente identificou que aproximadamente 23% das informações reproduzidas online sobre saúde reprodutiva feminina divergem de diretrizes profissionais estabelecidas (John; Gorman; Scales; Gorman, 2025), reforçando a necessidade de soluções baseadas em evidências.
3 METODOLOGIA
3.1 Corpus e Fontes Documentais
O corpus do sistema RAG será composto exclusivamente por diretrizes clínicas, protocolos e documentos normativos oficiais da Federação Brasileira das Associações de Ginecologia e Obstetrícia (FEBRASGO) referentes à contracepção e saúde reprodutiva. Serão incluídos apenas documentos vigentes, com identificação clara de versão e data de publicação, coletados a partir dos repositórios oficiais da entidade. O processo de coleta registrará metadados completos (título, identificador único, versão, data de publicação, data de coleta, hash SHA-256 e licença de uso) para cada documento incorporado.
Todos os documentos serão armazenados com controle de versões no banco Supabase, vinculando cada resposta gerada ao snapshot específico do corpus utilizado, garantindo rastreabilidade para auditorias clínicas futuras. Rotinas de monitoramento automatizado verificarão periodicamente a disponibilidade de atualizações, erratas ou novos protocolos nos canais oficiais da FEBRASGO. Novos documentos identificados serão submetidos à revisão por especialista antes da incorporação ao corpus produtivo. Conteúdos não normativos, desatualizados, sem procedência institucional clara ou de caráter opinativo serão excluídos por critério metodológico a priori.
3.2 Arquitetura do Sistema
A solução proposta é composta por cinco módulos principais, integrados em uma arquitetura orientada a fluxos de trabalho. O primeiro módulo é a Evolution API, ferramenta open source que atua como gateway para o WhatsApp por meio de endpoints REST, permitindo a troca de mensagens entre usuárias e o sistema de forma assíncrona e escalável. O segundo componente é o n8n, orquestrador de fluxos de trabalho que coordena a comunicação entre a API do WhatsApp, o pipeline RAG e os serviços de armazenamento, garantindo a sequência correta de processamento das mensagens.
O terceiro módulo corresponde ao pipeline Retrieval-Augmented Generation (RAG), núcleo da solução proposta. Este pipeline integra duas etapas complementares. Na etapa de recuperação semântica, utilizam-se embeddings (representações vetoriais densas) derivados do BioBERTpt (Schneider et al., 2020), modelo de linguagem neural especializado em português clínico e biomédico. BioBERTpt é uma variante em português do modelo BERT (Bidirectional Encoder Representations from Transformers), pré-treinado em corpora de domínio biomédico, capaz de capturar nuances semânticas e terminologia clínica com precisão superior aos modelos de propósito geral. Os embeddings gerados pelo BioBERTpt são armazenados em um banco de dados vetorial PostgreSQL com extensão pgvector, otimizado para buscas de similaridade cossenoidal em alta dimensionalidade. Na etapa de geração, modelos de linguagem de grande escala da API OpenAI (GPT-3.5 Turbo ou GPT-4) processam os trechos recuperados e geram respostas fundamentadas exclusivamente nesses contextos, mitigando alucinações típicas de modelos generativos puros.
O quarto módulo contempla armazenamento estruturado em Supabase, serviço gerenciado baseado em PostgreSQL que mantém vetores, logs detalhados de interações, metadados das consultas e histórico completo de conversas. Isso permite rastreabilidade integral para auditoria clínica e melhoria contínua do sistema. O quinto módulo implementa práticas de conformidade à Lei Geral de Proteção de Dados (LGPD), incluindo mecanismos de consentimento informado explícito, anonimização de dados pessoais sensíveis, cifragem de comunicações em trânsito e em repouso, e disclaimers de uso clínico que informam às usuárias que o chatbot constitui ferramenta informativa complementar, não substituindo consulta profissional presencial.
3.3 Protocolo de Validação Proposto
Nota metodológica: Como este trabalho apresenta uma proposta de sistema, a metodologia de validação descreve os protocolos e critérios que se sugerem para aplicação em trabalhos futuros, após a fase atual de implementação da arquitetura. Os valores-alvo e limiares apresentados baseiam-se em benchmarks da literatura de sistemas RAG em saúde e têm caráter de metas para avaliação experimental subsequente, não de resultados efetivamente medidos neste estudo.
Propõe-se um protocolo de validação em três níveis complementares, utilizando métricas estabelecidas na literatura de sistemas RAG aplicados ao domínio médico.
No nível de recuperação, propõe-se avaliar a qualidade dos trechos recuperados dos documentos FEBRASGO. Sugerem-se dois critérios para considerar o sistema apto a uso em ambiente produtivo:
- Context Precision mínimo de 0,85, métrica que quantifica qual proporção dos trechos recuperados é realmente relevante para a consulta realizada pela usuária.
- Context Recall mínimo de 0,90, métrica que mede a cobertura, isto é, qual percentual da informação necessária para responder adequadamente à consulta foi efetivamente recuperado do corpus.
Esses limiares são propostos como metas de desempenho, alinhadas ao padrão de excelência observado em sistemas de informação clínica baseados em evidências.
No nível de geração, propõe-se avaliar as respostas produzidas pelo modelo de linguagem. Sugerem-se como metas:
- Faithfulness superior a 0,92, métrica que valida se as respostas geradas são factualmente corretas, derivadas exclusivamente dos trechos recuperados e livres de alucinações ou informações não fundamentadas no corpus.
- Answer Relevance superior a 0,88, métrica que mede o grau em que cada resposta gerada aborda de fato a pergunta específica formulada pela usuária, sem desvios temáticos.
Como referência de viabilidade, estudos recentes como o GastroBot (Zhou et al., 2024), chatbot especializado em gastroenterologia baseado em arquitetura RAG, alcançaram 93,73% de faithfulness em contexto clínico real, demonstrando que os patamares sugeridos são tecnicamente factíveis como objetivos de desempenho.
No nível integrado (end-to-end), propõe-se a realização futura de avaliação por painel de especialistas da FEBRASGO. Como meta para adoção em cenário real, sugere-se buscar acurácia factual superior a 95%, isto é, em uma amostra de cem consultas representativas, ao menos 95 deverão receber respostas clinicamente corretas, completas e alinhadas aos protocolos institucionais vigentes. Complementarmente, propõe-se medir a satisfação das usuárias finais por meio de escala Likert de cinco pontos, ancorada em 1 “Muito insatisfeita”, 2 “Insatisfeita”, 3 “Neutra”, 4 “Satisfeita” e 5 “Muito satisfeita”. O instrumento contemplará itens sobre clareza das respostas, utilidade percebida, confiabilidade da informação, tempo de resposta e adequação do tom comunicacional. Os resultados deverão ser reportados como médias por item e média global; considera-se desejável desempenho com média global igual ou superior a 4,0. O estudo piloto planejado prevê o recrutamento de 20 a 30 participantes voluntárias, com coleta adicional de feedback qualitativo estruturado sobre aspectos de usabilidade, compreensibilidade e potenciais barreiras de adoção.
As métricas automatizadas (Context Precision, Context Recall, Faithfulness e Answer Relevance) deverão ser calculadas utilizando o framework RAGAS (Es et al., 2023), ferramenta consolidada para avaliação de sistemas RAG em produção. No âmbito operacional, sugere-se ainda que avaliações futuras considerem metas de latência média inferior a 3 segundos por resposta (threshold crítico para experiência de usuária em aplicações de chat em tempo real) e capacidade de atendimento simultâneo para pelo menos cem usuárias ativas, sem degradação significativa de qualidade ou aumento de latência.
4. RESULTADOS ESPERADOS E PERSPECTIVAS
4.1 Estado Atual da Implementação
Até o presente momento, a solução apresenta integração plena entre a Evolution API (gateway de mensagens WhatsApp) e o n8n (orquestrador de fluxos). O pipeline RAG encontra-se montado, realizando a indexação dos documentos FEBRASGO no Supabase com embeddings vetoriais gerados pelo BioBERTpt, e a API da OpenAI está configurada para receber requisições de geração de respostas condicionadas ao contexto recuperado. Todos os módulos estão operando em ambiente de desenvolvimento, o que caracteriza uma prova de conceito funcional e
comprova a viabilidade técnica da arquitetura proposta como solução institucional para disseminação de informações contraceptivas.
4.2 Validação Funcional da Arquitetura
Os testes realizados em ambiente de desenvolvimento tiveram caráter exclusivamente funcional, com o objetivo de verificar a integração técnica entre os componentes da arquitetura. Foi confirmado que o fluxo de mensagens via Evolution API aciona corretamente o orquestrador n8n, que por sua vez consulta o banco vetorial no Supabase, recupera trechos dos protocolos FEBRASGO a partir dos embeddings gerados pelo BioBERTpt e encaminha o contexto para a API da OpenAI, que retorna uma resposta gerada. Esses testes de prova de conceito não seguiram protocolo experimental controlado nem utilizaram métricas quantitativas formais, servindo apenas para demonstrar a completude do ciclo de requisição e resposta e a viabilidade operacional da arquitetura proposta.
4.3 Limitações Observadas e Desafios Atuais
Durante a fase inicial de desenvolvimento, identificaram-se desafios relevantes. Em termos de escalabilidade e custo, o uso de modelos comerciais via API (como os da OpenAI) indica a necessidade de, em etapas futuras, investigar migração parcial ou complementar para modelos open source, como Llama 2 ou Mistral, a fim de reduzir dependência de terceiros e custos recorrentes. Na perspectiva de experiência da usuária, evidencia-se a importância de organizar as respostas por categorias clínicas (por exemplo, mecanismo de ação, contraindicações, efeitos adversos) para facilitar a compreensão e a navegação.
Além disso, o monitoramento atualmente manual de atualizações dos protocolos da FEBRASGO reforça a necessidade de implementar rotinas automatizadas de detecção e incorporação de novas versões do corpus, preservando sempre revisão por especialista. Por fim, aspectos de segurança da informação e governança clínica, como fortalecimento de disclaimers, anonimização rigorosa de dados sensíveis e supervisão contínua por profissionais de saúde, devem ser priorizados em consonância com recomendações da literatura sobre chatbots em saúde (Laymouna et al., 2024; Mills et al., 2024).
4.4 Perspectivas e Validação Futura
As etapas subsequentes concentram-se na execução do protocolo de validação proposto na metodologia, que será desenvolvido em trabalhos futuros. Planeja-se empregar o framework RAGAS para mensuração automatizada de métricas como Context Precision, Context Recall, Faithfulness e Answer Relevance, em cenário controlado com conjunto de consultas representativas. Em complemento, prevê-se a realização de avaliação clínica por painel de especialistas da FEBRASGO e de um estudo piloto com 20 a 30 usuárias voluntárias, utilizando questionário do tipo Likert e análise qualitativa de usabilidade e percepção de confiabilidade.
Também se propõe medir indicadores operacionais, como latência média por resposta e capacidade de atendimento simultâneo, tomando como referência os limiares definidos no protocolo metodológico. Os resultados dessas etapas futuras serão determinantes para um juízo definitivo sobre a efetividade, precisão clínica e potencial de adoção do sistema em contexto real de uso.
5. CONCLUSÃO
Este trabalho apresentou a proposta de uma arquitetura para disseminação de informações contraceptivas confiáveis via WhatsApp, fundamentada em diretrizes clínicas da FEBRASGO e em técnicas de Retrieval-Augmented Generation. A solução proposta integra componentes open source (Evolution API, n8n, PostgreSQL/pgvector) com modelos de linguagem comerciais de alto desempenho, configuração que permite futura replicação em ambientes institucionais com restrições orçamentárias.
A implementação atual demonstrou a viabilidade técnica da arquitetura híbrida, com integração funcional entre os módulos de comunicação, orquestração e recuperação semântica. O trabalho estabeleceu as bases de engenharia e definiu o protocolo de validação necessário para a próxima fase de desenvolvimento, que consistirá na mensuração quantitativa da precisão clínica, acurácia factual e satisfação das usuárias por meio de métricas consolidadas (Context Precision, Context Recall, Faithfulness, Answer Relevance), conforme detalhado na metodologia.
Do ponto de vista do potencial impacto social, a proposta visa alcançar parcela significativa dos mais de 120 milhões de brasileiros usuários de smartphones, reduzindo barreiras de acesso à informação qualificada em saúde reprodutiva. Em um contexto no qual apenas um quarto dos usuários de redes sociais verifica a procedência das informações recebidas, soluções baseadas em evidências e fontes institucionais representam alternativa promissora para o enfrentamento da desinformação em saúde pública.
Entre as limitações deste trabalho, destaca-se seu caráter propositivo, sem validação experimental concluída. Adicionalmente, riscos inerentes a modelos generativos, como alucinações e vieses (Ghasemi; Amiri; Galavi, 2025), exigem monitoramento contínuo. A proposta atual também não contempla adaptações a variações regionais de linguagem nem estratégias para inclusão de grupos sem acesso à internet.
Como trabalhos futuros imediatos, propõe-se a execução do protocolo de validação descrito na metodologia: avaliação automatizada via framework RAGAS, validação clínica por especialistas FEBRASGO e estudo piloto com usuárias finais. Após essa etapa, perspectivas de médio prazo incluem a expansão do corpus para temas correlatos (infecções sexualmente transmissíveis, planejamento familiar), integração com serviços de atenção primária à saúde e, em horizonte mais amplo, estudos longitudinais para avaliação de impacto na redução de gestações não planejadas.
7. REFERÊNCIAS
Aung B, Mitchell JW, Braun KL. Effectiveness of mHealth Interventions for Improving Contraceptive Use in Low- and Middle-Income Countries: A Systematic Review. Glob Health Sci Pract. 2020;8(4):813-826. Published 2020 Dec 23. doi:10.9745/GHSP-D-20-00069
Baur D, Ansorg J, Heyde CE, Voelker A. Development and Evaluation of a Retrieval-Augmented Generation Chatbot for Orthopedic and Trauma Surgery Patient Education: Mixed-Methods Study. JMIR AI. 2025;4:e75262. Published 2025 Oct 23. doi:10.2196/75262
Costa H, Chaves M. Infected texts: disinformation meets polarization in Brazil. BOELL FOUNDATION, 2020. Disponível em: https://eu.boell.org/en/2020/06/22/infected-texts-disinformation-meets-polarization-brazil
. Acesso em: 19 nov. 2025.
Cherie N, Wordofa MA, Debelew GT. Effectiveness of an Interactive Mobile Health Intervention (IMHI) to enhance the adoption of modern contraceptive methods during the early postpartum period among women in Northeast Ethiopia: A cluster Randomized Controlled Trial (RCT). PLoS One. 2024;19(11):e0310124. Published 2024 Nov 14. doi:10.1371/journal.pone.0310124
Ghasemi SF, Amiri P, Galavi Z. Advantages and Limitations of ChatGPT in Healthcare: A Scoping Review. Health Sci Rep. 2025;8(9):e71219. Published 2025 Sep 11. doi:10.1002/hsr2.71219
John JN, Gorman S, Scales D, Gorman J. Online Misleading Information About Women’s Reproductive Health: A Narrative Review. J Gen Intern Med. 2025;40(5):1123-1131. doi:10.1007/s11606-024-09118-6
Laymouna M, Ma Y, Lessard D, Schuster T, Engler K, Lebouché B. Roles, Users, Benefits, and Limitations of Chatbots in Health Care: Rapid Review. J Med Internet Res. 2024;26:e56930. Published 2024 Jul 23. doi:10.2196/56930
Lelis CF, Prietsch SOM, Cesar JA. Unplanned pregnancy in the extreme South of Brazil: prevalence, trends, and associated factors. Gravidez não planejada no extremo Sul do Brasil: prevalência, tendência e fatores associados. Cien Saude Colet. 2024;29(5):e11122023. doi:10.1590/1413-81232024295.11122023
Lewis P, Perez E, Piktus A, Petroni F, Karpukhin V, Goyal N, Kuttler H, Lewis M, Yih WT, Rocktäschel T, Riedel S, Kiela D. Retrieval-Augmented Generation for knowledge-intensive NLP tasks. arXiv. 2020;arXiv:2005.11401.
Mills R, Mangone ER, Lesh N, Jayal G, Mohan D, Baraitser P. Chatbots That Deliver Contraceptive Support: Systematic Review. J Med Internet Res. 2024;26:e46758. Published 2024 Feb 27. doi:10.2196/46758
Nazi ZA, Peng W. Large Language Models in Healthcare and Medical Domain: A Review. Informatics. 2024; 11(3):57. https://doi.org/10.3390/informatics11030057
Es S, James J, Espinosa-Anke L, Schockaert S. Ragas: Automated Evaluation of Retrieval Augmented Generation. arXiv. 2025;arXiv:2309.15217.
Theme-Filha MM, Baldisserotto ML, Fraga AC, Ayers S, da Gama SG, Leal MD. Factors associated with unintended pregnancy in Brazil: cross-sectional results from the Birth in Brazil National Survey, 2011/2012. Reprod Health. 2016;13(Suppl 3):118. Published 2016 Oct 17. doi:10.1186/s12978-016-0227-8
Reis JCS, Melo PF, Garimella K, Benevenuto F. Can WhatsApp Benefit from Debunked Fact-Checked Stories to Reduce Misinformation? arXiv. 2020;arXiv:2006.02471.
Zhou Q, Liu C, Duan Y, et al. GastroBot: a Chinese gastrointestinal disease chatbot based on the retrieval-augmented generation. Front Med (Lausanne). 2024;11:1392555. Published 2024 May 22. doi:10.3389/fmed.2024.1392555
Schneider ETR, de Souza JVA, Knafou J, Oliveira LES, Copara J, Gumiel YB, Oliveira LFA, Paraiso EC, Teodoro D, Barra CMMC. BioBERTpt – A Portuguese Neural Language Model for Clinical Named Entity Recognition. In: Proceedings of the 3rd Clinical Natural Language Processing Workshop. Online: Association for Computational Linguistics; 2020:65-72. doi:10.18653/v1/2020.clinicalnlp-1.7.
Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser Ł, Polosukhin I. Attention Is All You Need. arXiv. 2017;arXiv:1706.03762.
Yang R, Ning Y, Keppo E, Liu M, Hong C, Bitterman DS, Ong JCL, Ting DSW, Liu N. Retrieval-augmented generation for generative artificial intelligence in health systems. npj Health Systems. 2025;2(1):2. doi:10.1038/s44401-024-00004-1.
¹Graduando em Engenharia de Software, iCEV – Instituto de Ensino Superior, Teresina (PI) – Brasil. E-mail: joao_vitor.fontenele@somosicev.com
²Docente do iCEV – Instituto de Ensino Superior, Teresina (PI) – Brasil. E-mail: samuel.oliveira@grupocev.com
