MODELOS DE RISCO CIRÚRGICO EM CONTEXTOS DE BAIXA COMPLEXIDADE: VALIDAÇÃO EXTERNA E APLICABILIDADE NA ATENÇÃO PRIMÁRIA

REGISTRO DOI: 10.69849/revistaft/ra10202512171130


Lucas Pedroza Daniel1


Resumo
A estratificação de risco perioperatório é central na avaliação pré-operatória em hospitais terciários, mas seu uso na Atenção Primária à Saúde (APS) e em serviços de baixa complexidade ainda é limitado. Este artigo analisa criticamente a aplicação de escores de risco cirúrgico nesses contextos, com foco na validação externa e na recalibração de modelos originalmente desenvolvidos em outros cenários. São revisados instrumentos como ASA-PS, POSSUM/P-POSSUM, índices de fragilidade (mFI-11 e mFI-5) e modelos baseados em aprendizado de máquina, ressaltando fundamentos, desempenho e limitações. Descrevem-se, em linhas gerais, os principais passos da validação externa (discriminação e calibração) e o uso de técnicas simples de recalibração para adequar os modelos à realidade local. A partir de evidências de Estados Unidos, Reino Unido e Canadá, discute-se em que medida esses escores podem apoiar decisões em redes de menor complexidade. No contexto brasileiro, são destacadas diretrizes que priorizam anamnese, exame físico e uso pontual de índices como o RCRI, sugerindo que escores numéricos tenham papel complementar na padronização de encaminhamentos e na auditoria de desfechos. Por fim, discutem-se desafios éticos, operacionais e técnicos, enfatizando que a adoção desses modelos na APS exige validação local, recalibração cuidadosa e governança clínica para garantir benefício real aos pacientes.

Palavras-chave: estratificação de risco cirúrgico; validação externa; recalibração; atenção primária à saúde; ASA; POSSUM; fragilidade; modelos preditivos.

Abstract
Perioperative risk stratification is a core component of preoperative assessment in tertiary hospitals, but its use in primary care and low-complexity settings remains limited. This article critically examines the application of surgical risk scores in primary health care, focusing on the external validation and recalibration of models developed in other contexts. It briefly reviews tools such as ASA-PS, POSSUM/P-POSSUM, frailty indices (mFI-11 and mFI-5) and machine-learning-based models, highlighting their rationale, performance and main limitations. The key steps of external validation (discrimination and calibration) and simple recalibration strategies to adapt models to local populations are outlined. Drawing on evidence from the United States, the United Kingdom and Canada, the article discusses how these scores may support decision-making in low-complexity networks. In the Brazilian context, it emphasizes guidelines that prioritize clinical assessment and selective use of indices such as the Revised Cardiac Risk Index, suggesting that numerical scores play a complementary role in standardizing referrals and auditing outcomes. Finally, it addresses ethical, operational and technical challenges, arguing that the adoption of these models in primary care requires rigorous local validation, careful recalibration and solid clinical governance to ensure real benefit for patients.

Keywords: surgical risk stratification; external validation; recalibration; primary health care; ASA score; POSSUM; frailty; predictive models.

Introdução

A avaliação pré-operatória tem como um de seus pilares a estimativa do risco cirúrgico, tanto para orientar decisões clínicas quanto para subsidiar de forma transparente o consentimento informado do paciente. Em hospitais de alta complexidade, essa estimativa é tradicionalmente apoiada por escores e modelos preditivos desenvolvidos a partir de grandes bases de dados, voltados sobretudo para cirurgias eletivas de maior porte ou para procedimentos de urgência em ambientes com ampla disponibilidade de recursos diagnósticos e terapêuticos.

Nos serviços de Atenção Primária à Saúde, que incluem unidades básicas de saúde, unidades de pronto atendimento e ambulatórios de menor complexidade, o cenário é substancialmente diferente. Nesses contextos, predominam procedimentos de pequeno e médio porte realizados em pacientes classificados, em sua maioria, como de baixo risco clínico, frequentemente enquadrados nas categorias ASA 1 ou ASA 2 (DEPARTAMENTO DE ATENÇÃO PRIMÁRIA À SAÚDE, 2016). Ainda assim, médicos de família, clínicos gerais e equipes multiprofissionais precisam, de maneira recorrente, decidir sobre encaminhamentos para serviços cirúrgicos especializados, estratificar o risco em pacientes com múltiplas comorbidades e articular o cuidado com equipes hospitalares, muitas vezes em condições de tempo e infraestrutura mais restritas.

A utilização direta, nesses cenários, de escores e modelos desenvolvidos em populações muito diferentes – seja do ponto de vista demográfico, epidemiológico ou estrutural – pode produzir estimativas de risco pouco confiáveis, com potenciais consequências para a segurança do paciente e para a organização da rede de atenção. É nesse ponto que o conceito de validação externa assume relevância central: trata-se de submeter o modelo original a uma nova população e a um novo contexto assistencial, verificando se seu desempenho se mantém e, quando necessário, procedendo à sua adaptação por meio de técnicas de recalibração estatística (RAMSPEK et al., 2020).

Este artigo tem como propósito examinar esse problema de forma sistemática. São delineados quatro objetivos principais: (1) revisar os fundamentos teóricos dos principais escores de risco cirúrgico utilizados na prática contemporânea; (2) descrever, em linguagem acessível, os métodos de validação externa e as estratégias de recalibração disponíveis; (3) analisar evidências recentes sobre o desempenho desses modelos em países com tradição consolidada de auditoria cirúrgica e monitoramento de resultados; e (4) discutir a aplicabilidade prática, os potenciais benefícios e os limites da adoção dessas ferramentas na realidade brasileira da atenção primária e das redes de baixa complexidade. A partir desse percurso, busca-se oferecer um quadro crítico que ajude a orientar tanto decisões clínicas quanto escolhas de política e gestão em torno do uso de escores de risco cirúrgico fora do ambiente hospitalar terciário.

Escore da American Society of Anesthesiologists (ASA Physical Status)

A classificação da American Society of Anesthesiologists foi proposta na década de 1940 como uma forma padronizada de descrever a condição física global do paciente antes da cirurgia, em uma escala de seis categorias, que vai de paciente saudável até paciente com morte encefálica destinado à doação de órgãos (SCOTT et al., 2019). Originalmente, essa escala não incorporava o tipo de procedimento cirúrgico nem dados laboratoriais; tratava-se de um julgamento clínico sintético. Ao longo das décadas, o escore da ASA tornou-se um dos parâmetros mais utilizados em anestesiologia e cirurgia, em grande parte pela simplicidade, pela rápida aplicação à beira do leito e pela ampla difusão internacional.

Essas mesmas características, no entanto, expõem suas limitações. O julgamento é fortemente dependente da interpretação individual, e estudos apontam apenas concordância moderada entre avaliadores (SCOTT et al., 2019). Além disso, a classificação não contempla de maneira explícita aspectos de fragilidade, capacidade funcional ou reserva fisiológica mais fina e, por ser ordinal e ampla, dificilmente discrimina subgrupos de risco dentro de uma mesma categoria.

Metanálises e revisões sistemáticas sugerem que o escore da ASA possui valor preditivo apenas moderado para mortalidade e complicações em grandes cirurgias. Na prática, ele tende a ser mais útil como variável de ajuste em modelos multivariados do que como ferramenta isolada para tomada de decisão (LAM et al., 2025). Nos serviços de atenção primária, onde predominam procedimentos de baixo risco e pacientes classificados como ASA 1 ou 2, a classificação costuma espelhar a impressão clínica já obtida pela anamnese e pelo exame físico. Ainda assim, preserva relevância como linguagem comum para a comunicação com serviços hospitalares e para a documentação sistemática do risco global.

Escores POSSUM e variantes

O POSSUM (Physiological and Operative Severity Score for the Enumeration of Mortality and Morbidity) foi desenvolvido no Reino Unido como instrumento de auditoria de resultados cirúrgicos entre hospitais. A lógica do modelo é combinar, em uma mesma equação, informações fisiológicas do paciente – idade, pressão arterial, exames laboratoriais, presença de comorbidades – e informações operatórias, como tipo de procedimento, tempo de cirurgia, perda sanguínea estimada e grau de contaminação da cavidade (CARVALHO-E-CARVALHO et al., 2018). A partir desses componentes, o escore gera probabilidades de morbidade e mortalidade pós-operatória.

Com o tempo, observou-se que o POSSUM clássico tendia a superestimar a mortalidade em algumas populações, em especial em contextos em que o cuidado perioperatório havia se tornado mais seguro. Para lidar com esse problema, foi proposta uma versão recalibrada, o P-POSSUM (Portsmouth-POSSUM), ajustando a relação entre o escore e o desfecho observado. Experiências brasileiras em cirurgia colorretal mostraram exatamente esse padrão: o POSSUM superestimou taxas de complicação e óbito, enquanto o P-POSSUM apresentou calibração mais próxima da mortalidade realmente observada.

Esse conjunto de evidências reforça o caráter essencialmente hospitalar do POSSUM. Trata-se de um modelo robusto quando aplicado a casos mais complexos, em especial cirurgias de urgência e pacientes de alto risco, e muito útil para auditoria de desempenho e comparação entre serviços. Em contrapartida, sua utilidade em procedimentos ambulatoriais simples, ou em populações de baixo risco típicas da atenção primária, é limitada. A necessidade de variáveis laboratoriais específicas, a dependência de informações intraoperatórias e o foco em cenários cirúrgicos mais graves tornam improvável seu uso rotineiro em unidades básicas de saúde ou em serviços de menor complexidade.

Índices de fragilidade e capacidade funcional

A noção de fragilidade emergiu nas últimas décadas como eixo central para compreender o risco cirúrgico em pessoas idosas. Mais do que a idade cronológica, interessa a acumulação de vulnerabilidades clínicas, funcionais e sociais que reduzem a reserva fisiológica e aumentam a propensão a desfechos adversos, mesmo diante de estressores moderados.

Índices de fragilidade baseados em dados cirúrgicos, como o Modified Frailty Index nas versões de 11 e 5 itens, derivam de grandes cortes e combinam a presença de comorbidades relevantes (diabetes, insuficiência cardíaca, doença pulmonar obstrutiva crônica, neoplasia avançada, entre outras) com medidas de dependência funcional (MANTANA et al., 2025). Em estudos com pacientes idosos submetidos a cirurgias não cardíacas, esses índices mostram associação consistente e independente com complicações pós-operatórias e mortalidade, mesmo após ajuste para o escore da ASA e outras variáveis clínicas.

De modo geral, a combinação entre a classificação da ASA, índices de fragilidade e escalas clínicas utilizadas por geriatras e clínicos tende a aumentar a capacidade de discriminar pacientes com maior risco, quando comparada ao uso isolado de qualquer uma dessas ferramentas (MANTANA et al., 2025). Em atenção primária, a ideia de fragilidade já se encontra incorporada em políticas de cuidado ao idoso, com recomendações para rastreamento de perda funcional e vulnerabilidade. O passo seguinte, ainda pouco difundido, é utilizar essa informação de forma sistemática para apoiar decisões de encaminhamento cirúrgico, planejamento perioperatório compartilhado com especialistas e discussão realista de riscos e benefícios com o paciente e sua família.

Modelos baseados em aprendizado de máquina

A expansão de bases de dados cirúrgicos padronizados, como o programa americano National Surgical Quality Improvement Program, criou condições para o desenvolvimento de modelos preditivos mais complexos. Algoritmos de aprendizado de máquina conseguem integrar dezenas de variáveis clínicas, laboratoriais e demográficas, explorando relações não lineares e interações que ultrapassam o alcance de modelos tradicionais de regressão.

Um exemplo emblemático é o modelo conhecido como S-PATH (Surgical Personalized Anticipation of Transfusion Hazard), treinado em milhões de registros cirúrgicos para estimar a necessidade de transfusão de concentrado de hemácias. Em validação multicêntrica envolvendo dezenas de hospitais norte-americanos, esse algoritmo alcançou área sob a curva ROC em torno de 0,93, desempenho considerado excelente e superior a abordagens convencionais para definição de estratégias transfusionais, com potencial para reduzir recomendações desnecessárias e racionalizar o uso de sangue (LOU et al., 2025).

Apesar desses resultados promissores, a literatura mostra que boa parte dos modelos baseados em aprendizado de máquina não passa por validação externa rigorosa. Quando testados em populações diferentes daquelas usadas no treinamento, muitos apresentam queda importante de desempenho, justamente por estarem excessivamente ajustados às características da base original (MISHRA et al., 2022). Em serviços de atenção primária esse desafio se torna ainda maior: as bases de dados costumam ser menos completas, a infraestrutura de registro eletrônico é mais heterogênea e o fluxo de informação com os hospitais é fragmentado.

Assim, embora os modelos de aprendizado de máquina representem uma fronteira promissora na estratificação de risco cirúrgico, sua adoção em contextos de baixa complexidade exige cautela redobrada. É necessário garantir que o algoritmo tenha sido validado em amostras semelhantes ao público atendido na atenção primária, que haja mecanismos de atualização periódica e que a ferramenta seja integrada a uma rotina de cuidado em que o julgamento clínico continue ocupando posição central.

Metodologia de validação externa e recalibração

A classificação da American Society of Anesthesiologists foi proposta na década de 1940 como uma forma padronizada de descrever a condição física global do paciente antes da cirurgia, em uma escala de seis categorias que vai desde o paciente saudável até aquele em morte encefálica destinado à doação de órgãos (SCOTT et al., 2019). Trata-se, originalmente, de um julgamento clínico sintético, que não incorpora de maneira explícita o tipo de procedimento cirúrgico nem resultados laboratoriais específicos. Ao longo das décadas, essa classificação tornou-se um dos parâmetros mais utilizados em anestesiologia e cirurgia, em grande parte devido à sua simplicidade, à aplicação rápida à beira do leito e à ampla difusão internacional.

Essas mesmas características, contudo, evidenciam suas limitações. A atribuição da classe depende de forma acentuada da interpretação individual do profissional, e estudos apontam apenas concordância moderada entre avaliadores, mesmo quando experientes (SCOTT et al., 2019). Além disso, a classificação não contempla de modo direto aspectos de fragilidade, capacidade funcional ou reserva fisiológica mais detalhada e, por ser um sistema ordinal relativamente amplo, tem dificuldade para discriminar subgrupos de risco dentro de uma mesma categoria.

Metanálises e revisões sistemáticas sugerem que a classificação da American Society of Anesthesiologists apresenta valor preditivo apenas moderado para mortalidade e complicações em grandes cirurgias. Na prática, mostra-se mais útil como variável de ajuste em modelos multivariados e em análises de risco mais abrangentes do que como ferramenta isolada para tomada de decisão (LAM et al., 2025). Em serviços de Atenção Primária à Saúde, nos quais predominam procedimentos de baixo risco e pacientes que se enquadram nas categorias mais baixas dessa classificação, ela tende a refletir a impressão clínica já obtida a partir da anamnese e do exame físico. Ainda assim, preserva importância como linguagem comum para a comunicação com serviços hospitalares e para a documentação sistemática do risco global do paciente.

Modelos POSSUM e variantes

O modelo conhecido como POSSUM (Physiological and Operative Severity Score for the Enumeration of Mortality and Morbidity) foi desenvolvido no Reino Unido como instrumento de auditoria de resultados cirúrgicos entre diferentes hospitais. Sua lógica consiste em integrar, em uma mesma equação, informações fisiológicas do paciente – como idade, pressão arterial, achados laboratoriais e presença de comorbidades – com informações relacionadas ao ato operatório, como tipo de procedimento, tempo cirúrgico, perda sanguínea estimada e grau de contaminação da cavidade (CARVALHO-E-CARVALHO et al., 2018). A partir dessa combinação, o modelo gera estimativas de morbidade e mortalidade pós-operatória.

Com o avanço da prática perioperatória e o aprimoramento da assistência, observou-se que o POSSUM clássico tendia a superestimar a mortalidade em algumas populações, especialmente em contextos nos quais a qualidade do cuidado se tornou mais elevada. Para corrigir essa discrepância, foi proposta uma versão recalibrada, conhecida como P-POSSUM (Portsmouth-POSSUM), na qual a relação entre o escore calculado e os desfechos observados foi estatisticamente ajustada. Experiências brasileiras em cirurgia colorretal ilustram bem esse fenômeno: o modelo original superestimou taxas de complicação e óbito, enquanto a versão recalibrada apresentou calibração muito mais próxima da mortalidade realmente observada (CARVALHO-E-CARVALHO et al., 2018).

Esse conjunto de evidências reforça o caráter essencialmente hospitalar e voltado a casos mais complexos desses modelos. Eles são particularmente úteis em cirurgias de urgência e em pacientes de alto risco, além de contribuírem para a auditoria de desempenho de serviços e comparação entre instituições. Em contrapartida, a utilidade prática em procedimentos ambulatoriais simples, ou em populações de baixo risco típicas da Atenção Primária à Saúde, é limitada. A necessidade de variáveis laboratoriais específicas, a dependência de informações intraoperatórias e o foco em cenários cirúrgicos mais graves tornam improvável o uso rotineiro desses escores em unidades básicas de saúde ou em serviços de menor complexidade.

Índices de fragilidade e capacidade funcional

A noção de fragilidade consolidou-se, nas últimas décadas, como eixo central para compreender o risco cirúrgico em pessoas idosas. Mais do que a idade cronológica, interessa a acumulação de vulnerabilidades clínicas, funcionais e sociais que reduzem a reserva fisiológica e aumentam a probabilidade de desfechos adversos, mesmo diante de situações de estresse moderado.

Índices de fragilidade construídos com base em grandes coortes cirúrgicas, como o Modified Frailty Index em suas versões de onze e de cinco itens, articulam a presença de comorbidades relevantes – diabetes, insuficiência cardíaca, doença pulmonar obstrutiva crônica, neoplasias avançadas, entre outras – com medidas de dependência funcional e limitação nas atividades diárias (MANTANA et al., 2025). Em estudos envolvendo pacientes idosos submetidos a cirurgias não cardíacas, esses índices mostram associação consistente e independente com complicações pós-operatórias e mortalidade, mesmo após ajuste para a classificação da American Society of Anesthesiologists e outros fatores clínicos.

De forma geral, a combinação entre essa classificação, índices de fragilidade e escalas clínicas já utilizadas por geriatras e clínicos aumenta a capacidade de identificar pacientes com maior risco, quando comparada ao uso isolado de qualquer desses instrumentos (MANTANA et al., 2025). Na Atenção Primária à Saúde, a ideia de fragilidade já está incorporada em diversas políticas de cuidado ao idoso, com recomendações para rastrear perda funcional e vulnerabilidade. O desafio seguinte, ainda pouco superado na prática cotidiana, é transformar essas informações em ferramenta estruturada para apoiar decisões sobre encaminhamento cirúrgico, organizar o planejamento perioperatório em conjunto com equipes especializadas e sustentar uma discussão realista de riscos e benefícios com o próprio paciente e com sua família.

Modelos baseados em aprendizado de máquina

A ampliação de bases de dados cirúrgicos padronizados, como o programa norte-americano de melhoria de qualidade em cirurgia (National Surgical Quality Improvement Program), criou condições para o desenvolvimento de modelos preditivos mais complexos. Algoritmos de aprendizado de máquina conseguem integrar muitas variáveis clínicas, laboratoriais e demográficas, explorando relações não lineares e interações entre fatores que muitas vezes escapam aos modelos tradicionais de regressão.

Um exemplo frequentemente citado é o modelo denominado Surgical Personalized Anticipation of Transfusion Hazard, desenvolvido para estimar a necessidade de transfusão de concentrado de hemácias a partir de milhões de registros cirúrgicos. Em validação multicêntrica envolvendo dezenas de hospitais nos Estados Unidos, esse algoritmo alcançou área sob a curva Receiver Operating Characteristic em torno de 0,93, desempenho considerado excelente e superior a abordagens convencionais para o planejamento transfusional, com potencial para reduzir condutas desnecessárias e racionalizar o uso de hemocomponentes (LOU et al., 2025).

Apesar desse desempenho promissor, a literatura mostra que muitos modelos baseados em aprendizado de máquina não passam por processos rigorosos de validação externa. Quando aplicados a populações diferentes daquelas utilizadas em seu desenvolvimento, esses algoritmos frequentemente perdem parte considerável de sua acurácia, justamente por estarem excessivamente ajustados às características da base original (MISHRA et al., 2022). Em serviços de Atenção Primária à Saúde esse desafio é ainda maior: as bases de dados tendem a ser menos completas, a infraestrutura de prontuário eletrônico é mais heterogênea e o fluxo de informações com os hospitais costuma ser fragmentado.

Dessa forma, embora os modelos de aprendizado de máquina representem uma fronteira importante na estratificação de risco cirúrgico, sua incorporação a contextos de baixa complexidade exige prudência. É fundamental que o algoritmo seja previamente testado em amostras que se aproximem do perfil de pacientes atendidos na atenção primária, que existam mecanismos de atualização periódica dos parâmetros e que a ferramenta seja integrada a rotinas de cuidado em que o julgamento clínico do profissional permaneça como referência central, e não seja substituído por completo pelas estimativas automatizadas.

Limitações éticas, operacionais e técnicas

A transposição de modelos de risco cirúrgico para a APS e para redes de baixa complexidade coloca desafios que ultrapassam o domínio estatístico.

Do ponto de vista técnico, a qualidade dos dados representa um primeiro obstáculo. Muitos escores dependem de exames laboratoriais e variáveis intraoperatórias que não estão disponíveis na avaliação pré-operatória realizada na APS. Substituições por indicadores clínicos ou proxies simplificados podem introduzir erros sistemáticos e fragilizar o desempenho do modelo. Além disso, diferenças epidemiológicas importantes – prevalência de comorbidades, estado nutricional, tempo de espera para cirurgia – podem comprometer diretamente a validade dos coeficientes estimados em outras populações, tornando indispensável a recalibração local sempre que possível.

Em relação à operacionalização, o uso rotineiro de escores pressupõe infraestrutura mínima, seja em forma de calculadoras digitais, seja integrando o modelo ao prontuário eletrônico. Nos serviços de APS com alta demanda e recursos limitados, inserir grande número de variáveis em tempo real pode ser inviável. Isso tende a privilegiar escores simples, mas justamente esses modelos simplificados, quando utilizados isoladamente, oferecem menor precisão preditiva. Há, portanto, um equilíbrio delicado entre complexidade do modelo e viabilidade de uso no cotidiano da atenção primária.

As questões éticas são igualmente relevantes. Modelos de risco são, por natureza, probabilísticos. Quando interpretados de forma determinista, podem conduzir a decisões excludentes, como negar acesso a cirurgia eletiva para pacientes classificados como “alto risco” a partir de limiares numéricos pouco discutidos. Ao mesmo tempo, subestimar risco e autorizar procedimentos em cenários de baixa capacidade de suporte intensivo pode expor pacientes a danos evitáveis. A transparência na comunicação com o paciente, a explicitação dos limites do modelo e a integração do escore a um processo compartilhado de tomada de decisão são elementos fundamentais para mitigar esses riscos.

Por fim, há o problema do viés e da equidade. Modelos calibrados em populações de maior renda ou em centros de excelência podem não capturar adequadamente determinantes sociais da saúde presentes em populações atendidas na APS, o que pode levar a estimativas sistematicamente incorretas para determinados grupos. No caso de algoritmos de aprendizado de máquina, treinados em bases com sub-representação de populações vulneráveis, há o risco de amplificação de desigualdades preexistentes. A recomendação, nesses casos, é que qualquer implementação seja acompanhada de monitoramento sistemático do desempenho por subgrupos, com mecanismos de revisão e ajuste quando identificados padrões de erro que penalizem grupos específicos.

Considerações finais

A validação externa e a recalibração de escores de risco cirúrgico constituem etapas indispensáveis para qualquer tentativa de ampliar o uso dessas ferramentas para além dos hospitais terciários. Em teoria, os modelos disponíveis – desde escores clássicos como ASA, POSSUM e P-POSSUM até índices de fragilidade e algoritmos de aprendizado de máquina – oferecem um arsenal robusto de instrumentos para apoiar decisões clínicas em diferentes contextos. Na prática, porém, sua utilidade em redes de baixa complexidade e na Atenção Primária à Saúde depende de evidências de desempenho nesses cenários específicos e da capacidade de adaptação às realidades locais.

No Brasil, diretrizes cardiológicas e protocolos de APS já oferecem um arcabouço mínimo para avaliação pré-operatória de pacientes de baixo e moderado risco, com ênfase em estratificação clínica e uso de escores cardiovasculares específicos. O passo seguinte, do ponto de vista científico, é desenvolver e testar, em coortes representativas de UBS, UPAs e ambulatórios, estratégias de validação externa de modelos cirúrgicos existentes, com análise rigorosa de discriminação, calibração e impacto clínico. O ajuste de intercepto e slope, quando indicado, pode alinhar as previsões ao perfil epidemiológico local, desde que realizado com transparência metodológica e acompanhado de auditoria contínua.

Em termos de política pública, a incorporação responsável de escores cirúrgicos na APS requer também investimentos em infraestrutura de informação, formação continuada de profissionais e construção de protocolos que utilizem essas ferramentas como apoio – e não como substituto – do juízo clínico. Quando bem implementados, os modelos de risco podem contribuir para decisões mais consistentes, melhor comunicação entre níveis de atenção e maior segurança para pacientes e equipes. Sem validação adequada e governança, entretanto, correm o risco de se tornar apenas mais uma camada de complexidade, sem benefício comprovado.

Referências

CARVALHO-E-CARVALHO, L. D. N. et al. Aplicabilidade dos escores POSSUM e P-POSSUM como preditores de morbimortalidade em cirurgia colorretal: experiência brasileira. Revista do Colégio Brasileiro de Cirurgiões, v. 45, n. 1, p. e1347, 2018.

CPOC – Centre for Perioperative Care. Guideline for perioperative care for people living with frailty. London, 2022.

DEPARTAMENTO DE ATENÇÃO PRIMÁRIA À SAÚDE (Rio de Janeiro). Guia de Referência Rápida – Avaliação Pré-Operatória na Atenção Primária. 1. ed. Rio de Janeiro: Secretaria Municipal de Saúde, 2016.

LAM, V. et al. Comparative predictive accuracy of ASA, POSSUM, and NSQIP risk scoring systems in major abdominal surgeries: a systematic review. Cureus, v. 17, n. 6, p. e85572, 2025.

LOU, S. et al. Multicenter validation of a machine learning model for surgical transfusion risk at 45 US hospitals. JAMA Network Open, v. 8, n. 6, p. e223945, 2025.

MANTANA, S. et al. Assessing frailty to predict surgical risk: a comparative study of three tools in older non-cardiac surgery patients. BMC Geriatrics, v. 25, n. 1, p. 95, 2025.

MISHRA, A. et al. Recalibration methods for improved clinical utility of risk scores. Medical Decision Making, v. 42, n. 4, p. 500–512, 2022.

NHS ENGLAND. Identifying frailty in older people in primary care. London, 2017.

RAMSPEK, C. L. et al. External validation of prognostic models: what, why, how, when and where? Clinical Kidney Journal, v. 14, n. 1, p. 49–58, 2020.

SCOTT, K. W. et al. Development and validation of a predictive model for American Society of Anesthesiologists physical status. BMC Health Services Research, v. 19, n. 1, p. 544, 2019.

SOCIEDADE BRASILEIRA DE CARDIOLOGIA. Diretriz de avaliação cardiovascular perioperatória. Arquivos Brasileiros de Cardiologia, v. 121, n. 9, p. e20240590, 2024.


1 Médico, graduado em Medicina pela Universidad de Ciencias Médicas de Cuba e pós-graduado em Medicina de Família e Comunidade (UFCSPA)
E-mail: lucasomni@gmail.com