← Back to blog

Integrar dados do mundo real em doenças raras

July 3, 2026
Integrar dados do mundo real em doenças raras

A integração de dados do mundo real (Real World Data, RWD) em doenças raras é definida como o processo de consolidar, harmonizar e analisar informação clínica gerada fora dos ensaios controlados, incluindo registos eletrónicos, dados administrativos e biomarcadores. No Brasil, mais de 13 milhões de pessoas atendidas pelo SUS vivem com uma doença rara, e o tempo médio para diagnóstico definitivo chega a 5,4 anos. Integrar dados do mundo real em doenças raras é a resposta técnica mais direta a este problema: transforma informação dispersa em evidência clínica acionável para diagnóstico precoce e tratamento personalizado.


Quais as principais fontes de dados do mundo real para doenças raras?

Os dados do mundo real em saúde provêm de múltiplas fontes, cada uma com atributos distintos. Conhecer essas fontes é o primeiro passo para qualquer estratégia de integração.

As fontes mais relevantes para investigadores e profissionais de saúde são:

  • Registos clínicos eletrónicos (RCE): prontuários do SUS e de redes privadas que documentam consultas, diagnósticos e prescrições ao longo do tempo.
  • Dados administrativos: sistemas como APAC (Autorização de Procedimentos de Alta Complexidade), SIH (Sistema de Informações Hospitalares) e SIM (Sistema de Informações sobre Mortalidade), que cobrem populações amplas com dados longitudinais.
  • Dados laboratoriais e genéticos: resultados de sequenciamento genómico, painéis de biomarcadores e exames de diagnóstico molecular, essenciais dado que 71,9% das doenças raras são genéticas.
  • Dados de fenotipagem e para-clínicos: registos de fenótipos clínicos estruturados segundo ontologias como HPO (Human Phenotype Ontology), indispensáveis para correlacionar genótipo e manifestação clínica.
  • Dados de dispositivos e wearables: monitorização contínua de parâmetros fisiológicos, ainda emergente mas com potencial crescente em doenças neuromusculares e metabólicas.

A padronização semântica destas fontes é tão determinante quanto a sua recolha. Sem vocabulários controlados comuns, dois sistemas que registam a mesma condição com terminologias diferentes tornam a integração impossível. A Rede Nacional de Dados em Saúde (RNDS) já consolidou mais de 4,1 mil milhões de registos integrados do setor público e privado, o que demonstra que a escala é atingível quando existe infraestrutura comum.

Dica profissional: Antes de iniciar qualquer projeto de integração, mapeie as ontologias já adotadas pelas fontes de dados disponíveis. Usar HPO para fenotipagem e ORPHA para codificação de doenças raras desde o início evita retrabalho custoso na fase de harmonização.


Quais os pré-requisitos técnicos e regulatórios para integrar estes dados?

A integração eficaz de dados em saúde exige conformidade simultânea com padrões técnicos e com o quadro regulatório vigente. Falhar num destes eixos compromete toda a infraestrutura.

Os pré-requisitos técnicos fundamentais são:

  1. Adoção do padrão HL7 FHIR R4: a captura estruturada de dados segundo o Conjunto Mínimo de Dados (CMD) e o Registo de Atendimento Clínico (RAC) é obrigatória para integração com a RNDS.
  2. Namespaces canónicos para interoperabilidade semântica: o uso de ICD-10 para diagnósticos, ORPHA para doenças raras e SIGTAP para procedimentos garante que sistemas distintos «falem a mesma língua».
  3. Persistência longitudinal dos dados: modelos clínicos avançados como o GEMEO exigem dados organizados ao longo do tempo para gerar predições fiáveis. Dados pontuais sem continuidade temporal não sustentam análise preditiva.
  4. Governança com autenticação, autorização e auditoria: o Ministério da Saúde define estes três mecanismos como pilares da soberania do dado.
  5. Conformidade com a LGPD e o Decreto 12.560/2025: toda integração que envolva dados pessoais de saúde requer base legal explícita, finalidade definida e mecanismos de anonimização ou pseudonimização.

«Interoperabilidade cuidadosa não significa acesso irrestrito, mas um equilíbrio entre dados úteis e proteção do paciente.» O maior desafio na integração não é a conectividade técnica entre sistemas, mas garantir a segurança, a soberania do dado e a conformidade regulatória.

No plano regulatório, a interoperabilidade público-privada exige modelos de autorização claros. A criação de um prontuário eletrónico unificado que respeite o Decreto 12.560/2025 e a LGPD representa o horizonte imediato para o sistema de saúde brasileiro.

Dica profissional: Implemente um registo de auditoria desde o primeiro dia de integração. Saber quem acedeu a que dados, quando e para que finalidade não é apenas uma exigência regulatória: é a base da confiança institucional que viabiliza parcerias de longo prazo.


Como executar a integração de dados do mundo real em doenças raras

A execução de uma integração de dados do mundo real segue uma sequência lógica. Saltar etapas gera inconsistências que se propagam para toda a análise posterior.

Investigador a registar informações clínicas com atenção ao detalhe

Passo 1: Mapeamento das fontes existentes

Identifique todas as bases de dados disponíveis, incluindo sistemas administrativos, RCE e repositórios de dados genéticos. Documente o formato, a periodicidade de atualização e o grau de completude de cada fonte. Este inventário inicial evita duplicações e revela lacunas críticas antes de qualquer investimento técnico.

Passo 2: Harmonização e conversão para formato padrão

Converta os dados para o padrão FHIR R4 e aplique os namespaces canónicos definidos na etapa anterior. A harmonização semântica, que inclui a conversão para padrões como MEDS v0.4.1 e o uso de códigos ICD-10 e ORPHA, é o que transforma dados heterogéneos em informação comparável entre instituições.

EtapaAção principalResultado esperado
MapeamentoInventariar fontes e formatosLista de fontes com grau de completude
HarmonizaçãoConverter para FHIR R4 e aplicar namespacesDados semanticamente interoperáveis
ModelaçãoAplicar modelos como GEMEOPredições clínicas com acurácia validada
ValidaçãoTestar integridade e consistênciaTaxa de erro abaixo do limiar definido
MonitorizaçãoAuditar acessos e qualidade contínuaConformidade regulatória mantida

Infográfico sobre os principais passos para integrar dados

Passo 3: Aplicação de modelos clínicos avançados

O modelo GEMEO, treinado com dados de 42.265 pacientes do SUS, atinge acurácia superior a 53% na previsão de eventos clínicos em doenças raras, superando técnicas tradicionais. Este resultado demonstra que dados do mundo real, quando devidamente harmonizados, sustentam predições clinicamente relevantes. O foco da investigação deve mudar de identificar a doença para prever o curso clínico e os efeitos da intervenção.

Passo 4: Validação e testes de integridade

Antes de qualquer uso clínico ou investigativo, valide a integridade dos dados integrados. Verifique consistência entre fontes, identifique registos duplicados e confirme que os campos críticos, como data de nascimento, código de diagnóstico e identificador do doente, estão preenchidos de forma uniforme. A qualidade da captura inicial é o maior gargalo para o sucesso da integração, mais do que a conectividade entre sistemas.


Quais os erros mais comuns na integração de dados em doenças raras?

A integração de dados do mundo real falha com frequência por razões previsíveis. Conhecer estes padrões de erro permite evitá-los antes de comprometer um projeto inteiro.

Os erros mais frequentes são:

  • Fragmentação não resolvida: iniciar a integração sem um modelo de dados comum resulta em silos que se multiplicam em vez de se consolidar. A ausência de namespaces canónicos é a causa mais comum desta fragmentação.
  • Captura primária desestruturada: dados registados em texto livre nos prontuários não são diretamente integráveis. A padronização na etapa de captura (CMD e RAC) é o maior gargalo, não a conectividade técnica.
  • Consentimento e privacidade mal geridos: integrar dados sem base legal explícita expõe a instituição a sanções da LGPD e destrói a confiança dos doentes. O consentimento deve ser granular e documentado.
  • Falta de coordenação público-privada: sistemas hospitalares privados e públicos usam frequentemente terminologias e formatos incompatíveis. Sem um protocolo de alinhamento prévio, a integração produz dados que não se podem comparar.
  • Ausência de monitorização contínua: uma integração validada num momento pode degradar-se com atualizações de sistemas ou mudanças nos fluxos de dados. A auditoria contínua é indispensável.

A odisseia diagnóstica que afeta doentes com doenças raras pode ser reduzida com o uso eficaz de dados integrados e fenotipagem computacional. Cada erro de integração não resolvido prolonga esse percurso. Para aprofundar as razões pelas quais o diagnóstico é tão difícil nestas condições, o artigo sobre por que doenças raras são difíceis de diagnosticar oferece uma análise detalhada das barreiras clínicas e sistémicas.

Dica profissional: Realize uma auditoria de qualidade de dados antes de qualquer integração. Identificar campos com mais de 20% de valores em falta ou inconsistências de codificação nesta fase custa uma fração do esforço que custará corrigir depois da integração estar em produção.


Principais conclusões

A integração de dados do mundo real em doenças raras exige padronização semântica, conformidade com a LGPD e modelos analíticos longitudinais para transformar dados dispersos em evidência clínica útil.

PontoDetalhes
Fontes diversas e complementaresCombinar RCE, dados administrativos e genómicos maximiza a cobertura clínica de cada doente.
Padronização semântica obrigatóriaUsar ICD-10, ORPHA e FHIR R4 desde a captura evita fragmentação irreversível nos dados.
Conformidade regulatória desde o inícioA LGPD e o Decreto 12.560/2025 exigem base legal, finalidade definida e auditoria contínua.
Modelos preditivos validadosO GEMEO demonstra que dados do SUS harmonizados sustentam predições clínicas com acurácia superior a 53%.
Captura estruturada como prioridadeA qualidade do CMD e do RAC determina o sucesso da integração mais do que a conectividade técnica.

O que a integração de dados realmente muda na prática clínica

Trabalho com dados de doenças raras há anos suficientes para ter visto o mesmo erro repetido em projetos bem financiados: a equipa técnica resolve a conectividade entre sistemas e declara a integração concluída. Depois, os investigadores tentam usar os dados e descobrem que metade dos registos de diagnóstico estão em texto livre, os códigos de procedimento variam entre hospitais e não existe continuidade temporal para nenhum doente.

A integração de dados do mundo real não é um problema de infraestrutura. É um problema de disciplina clínica e de cultura institucional. O médico que regista um diagnóstico em texto livre não está a ser negligente: está a usar o sistema da forma mais rápida disponível. Mudar este comportamento exige que o sistema estruturado seja tão fácil de usar quanto o campo de texto livre. Enquanto isso não acontecer, nenhum padrão técnico resolve o problema na sua raiz.

O que me convence de que estamos a avançar na direção certa é o exemplo do GEMEO. Um modelo treinado com dados reais do SUS, com todas as imperfeições que esses dados contêm, consegue superar técnicas tradicionais na previsão de eventos clínicos. Isso significa que mesmo dados imperfeitos, quando harmonizados com rigor, produzem valor clínico real. A medicina de precisão em doenças raras não depende de dados perfeitos. Depende de dados suficientemente bons e de modelos suficientemente inteligentes para trabalhar com a variabilidade inerente ao mundo real.

O investimento em infraestrutura de dados de saúde é, na prática, um investimento em anos de vida dos doentes. Cada mês que um doente com uma doença rara passa sem diagnóstico é um mês em que o tratamento correto não está a ser administrado. A integração de dados não é uma questão técnica abstrata. É uma questão clínica urgente.

— John


Hopeatrarelabs e a investigação em doenças raras

A Hopeatrarelabs desenvolve modelos de doença específicos para cada doente, usando células do próprio doente e tecnologias como iPSCs e edição génica por CRISPR. Esta abordagem transforma dados clínicos e genéticos em modelos funcionais que permitem testar milhares de fármacos aprovados pela FDA, oligonucleótidos antissentido (ASOs) personalizados e opções de terapia génica.

https://hopeatrarelabs.com

Para investigadores e profissionais de saúde que trabalham com dados do mundo real em doenças raras, a Hopeatrarelabs oferece um ponto de partida estruturado. O centro de conhecimento da Hopeatrarelabs reúne recursos técnicos e científicos para programas de doenças raras, desde a modelação de doença até à interpretação de resultados de rastreio terapêutico. Para saber mais sobre a abordagem completa de modelação personalizada, incluindo os processos de integração de dados clínicos e genómicos, o site principal da Hopeatrarelabs detalha cada etapa do processo.


Perguntas frequentes

O que são dados do mundo real em doenças raras?

Dados do mundo real (RWD) são informações clínicas geradas fora de ensaios controlados, incluindo prontuários eletrónicos, dados administrativos, registos laboratoriais e biomarcadores. Em doenças raras, estas fontes são frequentemente a única evidência disponível em escala suficiente para análise.

Qual o padrão técnico obrigatório para integração de dados de saúde no Brasil?

O padrão HL7 FHIR R4, combinado com a captura estruturada segundo o CMD e o RAC, é o requisito técnico central para integração com a Rede Nacional de Dados em Saúde (RNDS). A Portaria SMS/SP Nº 117/2026 formalizou estas obrigações para unidades assistenciais.

Como a LGPD afeta a integração de dados de doenças raras?

A LGPD exige base legal explícita, finalidade definida e mecanismos de anonimização ou pseudonimização para qualquer integração de dados pessoais de saúde. O Decreto 12.560/2025 reforça estes requisitos no contexto da interoperabilidade público-privada.

Quanto tempo demora em média o diagnóstico de uma doença rara no Brasil?

O tempo médio para diagnóstico definitivo de doença rara no Brasil é de 5,4 anos. Este valor, apurado num estudo retrospectivo com 12.530 doentes, reforça a necessidade de integrar dados clínicos de forma proativa para reduzir esta demora.

O que é o modelo GEMEO e para que serve?

O GEMEO é um modelo clínico treinado com dados de 42.265 doentes do SUS que atinge acurácia superior a 53% na previsão de eventos clínicos em doenças raras. Serve para demonstrar que dados do mundo real harmonizados sustentam predições clínicas relevantes, superando técnicas tradicionais de análise.

Recomendação