New AI model can estimate the long-term risk of over 1,000 diseases and forecast human health changes over a decade in advance
AI model forecasts disease risk decades in advance. Karen Arnott/EMBL-EBI
Summary
Researchers have developed an AI model that estimates long-term disease risk across more than 1,000 medical conditions
The model, trained and tested on anonymised medical data from the UK and Denmark, can forecast health outcomes over a decade in advance
While not ready for direct clinical use, the AI model offers new ways to study disease and inform healthcare strategies
Imagine a future where your medical history could help predict what health conditions you might face in the next two decades. Researchers have developed a generative AI model that uses large-scale health records to estimate how human health may change over time. It can forecast the risk and timing of over 1,000 diseases and predict health outcomes over a decade in advance.
This new generative AI model was custom-built using algorithmic concepts similar to those used in large language models (LLMs). It was trained on anonymised patient data from 400,000 participants from the UK Biobank. Researchers also successfully tested the model using data from 1.9 million patients in the Danish National Patient Registry. This approach is one of the most comprehensive demonstrations to date of how generative AI can model human disease progression at scale and was tested on data from two entirely separate healthcare systems.
“Our AI model is a proof of concept, showing that it’s possible for AI to learn many of our long-term health patterns and use this information to generate meaningful predictions,” said Ewan Birney, Interim Executive Director at the European Molecular Biology Laboratory (EMBL). “By modelling how illnesses develop over time, we can start to explore when certain risks emerge and how best to plan early interventions. It’s a big step towards more personalised and preventive approaches to healthcare.”
Just as large language models can learn the structure of sentences, this AI model learns the ‘grammar’ of health data to model medical histories as sequences of events unfolding over time. These events include medical diagnoses or lifestyle factors such as smoking. The model learns to forecast disease risk from the order in which such events happen and how much time passes between these events.
“Medical events often follow predictable patterns,” said Tom Fitzgerald, Staff Scientist at EMBL’s European Bioinformatics Institute (EMBL-EBI). “Our AI model learns those patterns and can forecast future health outcomes. It gives us a way to explore what might happen based on a person’s medical history and other key factors. Crucially, this is not a certainty, but an estimate of the potential risks.”
The model performs especially well for conditions with clear and consistent progression patterns, such as certain types of cancer, heart attacks, and septicaemia, which is a type of blood poisoning. However, the model is less reliable for more variable conditions, such as mental health disorders or pregnancy-related complications that depend on unpredictable life events.
Future use and limitations
Like weather forecasts, this new AI model provides probabilities, not certainties. It doesn’t predict exactly what will happen to an individual, but it offers well-calibrated estimates of how likely certain conditions are to occur over a given period. For example, it could predict the chance of developing heart disease within the next year. These risks are expressed as rates over time, similar to forecasting a 70% chance of rain tomorrow. Generally, forecasts over a shorter period of time have higher accuracy than long-range ones.
For example the model predicts varying levels of risk for heart attacks. Taking the UK BioBank cohort at the age of 60–65, the risk of heart attack varies from a chance of 4 in 10,000 per year for some men to approximately 1 in 100 in other men, depending on their prior diagnoses and lifestyle. Women have a lower risk on average, but a similar spread of risk. Moreover, the risks increase, on average, as people age. A systematic assessment on data from the UK Biobank not used for training showed that these calculated risks correspond well to the observed number of cases across age and sex groups.
The model is calibrated to produce accurate population-level risk estimates, forecasting how often certain conditions occur within groups of people. However, like any AI model, it has limitations. For example, because the model’s training data from the UK Biobank comes primarily from individuals aged 40–60, childhood and adolescent health events are underrepresented. The model also contains demographic biases due to gaps in the training data, including the underrepresentation of certain ethnic groups.
While the model isn’t ready for clinical use, it could already help researchers:
understand how diseases develop and progress over time,
explore how lifestyle and past illnesses affect long-term disease risk,
simulate health outcomes using artificial patient data, in situations where real-world data are difficult to obtain or access.
In the future, similar AI tools trained on more representative datasets could assist clinicians in identifying high-risk patients early. With ageing populations and rising rates of chronic illness, being able to forecast future health needs could help healthcare systems plan better and allocate resources more efficiently. But much more testing, consultation, and robust regulatory frameworks are needed before AI models can be deployed in a clinical setting.
“This is the beginning of a new way to understand human health and disease progression,” said Moritz Gerstung, Head of the Division of AI in Oncology at DKFZ and former Group Leader at EMBL-EBI. “Generative models such as ours could one day help personalise care and anticipate healthcare needs at scale. By learning from large populations, these models offer a powerful lens into how diseases unfold, and could eventually support earlier, more tailored interventions.”
Data privacy and ethics
This AI model was trained using anonymised health data under strict ethical rules. UK Biobank participants gave informed consent, and Danish data were accessed in accordance with national regulations that require the data to remain within Denmark. Researchers used secure, virtual systems to analyse the data without moving them across borders. These safeguards help ensure that AI models are developed and used in ways that respect privacy and uphold ethical standards.
Funding
This work was funded by EMBL member state contributions, DKFZ funds and Novo Nordisk Foundation grant.
KI-Modell prognostiziert Krankheitsrisiken Jahrzehnte im Voraus
Wissenschaftlerinnen und Wissenschaftler vom European Molecular Biology Laboratory (EMBL) und vom Deutschen Krebsforschungszentrum (DKFZ) haben ein KI-Modell entwickelt, das das langfristige individuelle Risiko für mehr als 1.000 Erkrankungen einschätzt. Das Modell, das auf anonymisierten medizinischen Daten aus Großbritannien und Dänemark trainiert und getestet wurde, kann Gesundheitsereignisse für eine Zeitspanne von über einem Jahrzehnt prognostizieren. Das in der Fachzeitschrift Nature vorgestellte Modell ist noch nicht für den klinischen Einsatz bereit, eröffnet aber schon jetzt neue Möglichkeiten, um Gesundheitsstrategien zu entwickeln.
Lässt sich anhand Ihrer persönlichen Krankengeschichte vorhersagen, mit welchen Gesundheitsproblemen Sie in den nächsten zwei Jahrzehnten konfrontiert sein könnten? Dass dies möglich ist, zeigen nun Forschende vom EMBL, vom DKFZ und der Universität Kopenhagen. Siehaben ein generatives KI-Modell entwickelt, das auf der Basis umfangreicher Gesundheitsdaten abschätzt, mit welchen gesundheitlichen Beeinträchtigungen der oder die Einzelne im Laufe der Zeit rechnen muss. Es kann das Risiko und den Zeitpunkt von über 1.000 Krankheiten prognostizieren und Gesundheitsentwicklungen über einen Zeitraum von zehn Jahren vorhersagen.
Die Algorithmen, auf deren Basis das neue generative KI-Modell entwickelt wurde, ähneln denen, die in großen Sprachmodellen (LLMs) verwendet werden. Das Modell wurde zunächst an anonymisierten Patientendaten von 400.000 Teilnehmern aus der UK Biobanktrainiert. Anschließend prüften die Forscher es erfolgreich mit Daten von 1,9 Millionen Personen aus dem dänischen nationalen Patientenregister. Das Modell ist die bislang umfassendste Demonstration dafür, wie generative KI den Verlauf menschlicher Krankheiten in großem Maßstab modellieren kann, und wurde anhand von Daten aus zwei völlig getrennten Gesundheitssystemen geprüft.
„Unser KI-Modell ist ein Machbarkeitsnachweis, der zeigt, dass es möglich ist, viele langfristige Gesundheitsmuster zu erkennen und diese Informationen zu nutzen, um aussagekräftige Vorhersagen zu generieren“, sagt Ewan Birney vom EMBL. „Indem wir modellieren, wie sich Krankheiten im Laufe der Zeit entwickeln, können wir untersuchen, wann bestimmte Risiken auftreten und wie frühzeitige Interventionen am besten geplant werden können. Dass ist ein großer Schritt in Richtung personalisierter und präventiverer Ansätze in der Gesundheitsversorgung.“
Die „Grammatik“ der Gesundheitsdaten
„So wie große Sprachmodelle aus der Abfolge von Wörtern in Texten die Grammatik unserer Sprache lernen können, lernt dieses KI-Modell die Logik der zeitlichen Abfolge von Ereignissen in Gesundheitsdaten, um ganze Krankengeschichten zu modellieren“, erklärt Moritz Gerstung vom DKFZ. Zu diesen Ereignissen gehören medizinische Diagnosen oder auch Lebensstilfaktoren wie Rauchen. An der Reihenfolge, in der die Ereignisse eintreten, und der Zeit, die zwischen diesen Ereignissen vergeht, lernt das Modell, das Krankheitsrisiko vorherzusagen.
„Medizinische Ereignisse folgen oft vorhersehbaren Mustern”, sagt Tom Fitzgerald vom Europäischen Bioinformatik-Institut des EMBL (EMBL-EBI). „Unser KI-Modell lernt diese Muster und kann zukünftige Gesundheitsergebnisse prognostizieren. Es gibt uns die Möglichkeit, auf der Grundlage der Krankengeschichte einer Person und anderer wichtiger Faktoren zu untersuchen, was passieren könnte. Entscheidend ist, dass es sich dabei nicht um eine Gewissheit handelt, sondern um eine Einschätzung der potenziellen Risiken.”
Das Modell eignet sich besonders gut für Erkrankungen mit klaren und konsistenten Verlaufsmustern, wie bestimmte Krebsarten, Herzinfarkte oder Sepsis. Bei variableren Diagnosen, wie psychischen Erkrankungen oder Schwangerschaftskomplikationen, die von unvorhersehbaren Lebensereignissen abhängen, ist es jedoch weniger zuverlässig.
Wahrscheinlichkeiten, keine Gewissheiten
Wie Wettervorhersagen liefert auch das neue KI-Modell Wahrscheinlichkeiten und keine Gewissheiten. Es kann das Schicksal einer bestimmten Person nicht genau vorhersagen, sondern bietet gut kalibrierte Schätzungen darüber, wie wahrscheinlich bestimmte Erkrankungen in einem bestimmten Zeitraum auftreten werden. Zum Beispiel die Wahrscheinlichkeit, innerhalb des nächsten Jahres eine Herzerkrankung zu entwickeln. Diese Risiken werden als Zeitraten ausgedrückt, ähnlich wie bei der Vorhersage einer 70-prozentigen Regenwahrscheinlichkeit für morgen. Hier sind Vorhersagen über einen kürzeren Zeitraum für gewöhnlich präziser als langfristige Prognosen.
Die Forschenden konnten zeigen, dass die vom Modell berechneten Wahrscheinlichkeiten tatsächlich mit der erwarteten Häufigkeit eintraten. Wie jedes KI-Modell hat es jedoch auch seine Grenzen. Da die Trainingsdaten aus der UK Biobank beispielsweise hauptsächlich von Personen im Alter von 40 bis 60 Jahren stammen, sind Gesundheitsereignisse im Kindes- und Jugendalter unterrepräsentiert, das gilt auch für bestimmte ethische Gruppen.
Beispiel Herzinfarkt
Das vom KI-Modell berechnete Risiko eines Herzinfarkts bei Männern im Alter zwischen 60 und 65 variiert zwischen einer Wahrscheinlichkeit von 4 pro 10.000/Jahr und etwa 100 pro 10.000/Jahr, abhängig von früheren Diagnosen und dem Lebensstil der Männer. Frauen haben im Durchschnitt ein geringeres Herzinfarktrisiko, aber eine ähnlich breite Streuung.
Darüber hinaus steigt das Herzinfarkt-Risiko bei Männern und Frauen mit zunehmendem Alter. Eine systematische Bewertung dieser berechneten Risiken in verschiedenen Alters- und Geschlechtsgruppen zeigt, dass sie gut mit der Anzahl von Fällen übereinstimmen, die in einem Teil der UK Biobank Kohorte, die nicht für das Training des Modells benutzt wurden, beobachtet wurden.
Das Modell ist noch nicht für den klinischen Einsatz bereit, könnte aber bereits jetzt Forschern helfen…
zu verstehen, wie Krankheiten sich im Laufe der Zeit entwickeln und fortschreiten.
zu untersuchen, wie sich Lebensstil und frühere Erkrankungen auf das langfristige Krankheitsrisiko auswirken.
Gesundheitsergebnisse anhand künstlicher Patientendaten zu simulieren, wenn reale Daten schwer zu beschaffen oder zugänglich sind.
In Zukunft könnten KI-Tools, die auf repräsentativeren Datensätzen trainiert wurden, Ärzten dabei helfen, Hochrisikopatienten frühzeitig zu identifizieren. Angesichts der alternden Bevölkerung und der steigenden Rate chronischer Erkrankungen könnte die Fähigkeit, zukünftige Gesundheitsbedürfnisse vorherzusagen, den Gesundheitssystemen helfen, besser zu planen und Ressourcen effizienter zuzuweisen. Bevor KI-Modelle jedoch in einer klinischen Umgebung eingesetzt werden können, sind noch viele weitere Tests sowie robuste regulatorische Rahmenbedingungen erforderlich.
„Das ist der Beginn einer neuen Art, die menschliche Gesundheit und den Verlauf von Krankheiten zu verstehen“, prognostiziert Moritz Gerstung. „Solche generativen Modelle könnten eines Tages dazu beitragen, die Versorgung zu personalisieren und den Bedarf an medizinischer Versorgung in großem Maßstab zu antizipieren. Durch das Lernen aus großen Populationen bieten diese Modelle einen aussagekräftigen Einblick in den Verlauf von Krankheiten und könnten letztendlich frühzeitigere, maßgeschneiderte Interventionen unterstützen.“
Das KI-Modell wurde unter strengen ethischen Regeln mit anonymisierten Gesundheitsdaten trainiert. Die Teilnehmer der UK Biobank gaben ihre Einwilligung, und auf die dänischen Register wurde gemäß den nationalen Vorschriften zugegriffen, die vorschreiben, dass die Daten innerhalb Dänemarks bleiben müssen. Die Forscher verwendeten sichere, virtuelle Systeme, um die Daten zu analysieren, ohne sie über Grenzen hinweg zu übertragen. Diese Sicherheitsvorkehrungen tragen dazu bei, dass KI-Modelle unter Wahrung der Privatsphäre und unter Einhaltung ethischer Standards entwickelt und eingesetzt werden.
Die Arbeit wurde durch Beiträge der EMBL-Mitgliedstaaten, Mittel des DKFZ und einen Zuschuss der Novo Nordisk Foundation finanziert.
Un nuevo modelo de IA predice el riesgo de padecer enfermedades con décadas de antelación
El modelo puede estimar el riesgo a largo plazo de más de 1000 enfermedades y predice los cambios en la salud humana con décadas de antelación
Resumen
Un equipo de científicos desarrolla un modelo de IA que estima el riesgo a largo plazo de padecer más de 1000 enfermedades
El modelo se ha entrenado con datos médicos anónimos procedentes de Reino Unido y Dinamarca, y puede predecir resultados de salud con más de una década de antelación
El modelo todavía no está listo para uso clínico, pero ofrece nuevas vías para estudiar enfermedades y desarrollar estrategias para atención sanitaria
Imagina un futuro donde tu historial médico pudiera ayudar a predecir qué enfermedades podrías padecer en las próximas dos décadas. Científicos del EMBL y DKFZ desarrollan un modelo de IA generativa que usa informes médicos a gran escala para estimar cómo cambia la salud humana durante años. Este modelo puede predecir el riesgo y el momento concreto de más de 1000 enfermedades y predecir resultados de salud con más de una década de antelación.
Este nuevo modelo de IA generativa ha sido construido a medida usando conceptos algorítmicos similares a los de modelos de lenguaje a gran escala (LLM por sus siglas en inglés). Los científicos entrenaron el modelo con datos anónimos de más de 400.000 pacientes del UK Biobank. El modelo se probó de manera exitosa usando datos de 1,9 millones de pacientes del Registro Nacional de Pacientes Daneses. Este método es una de las demostraciones más completas hasta la fecha de cómo la IA generativa puede modelar la progresión de enfermedades humanas a gran escala y se testeó con datos de dos sistemas de atención sanitaria completamente independientes.
“Nuestro modelo de IA es una prueba de concepto: demuestra que es posible aprender de nuestros patrones de salud a largo plazo y usar esta información para generar predicciones valiosas,” dice Ewan Birney, Director General Interino del Laboratorio Europeo de Biología Molecular (EMBL). “Si modelamos cómo se desarrollan las enfermedades a lo largo del tiempo, podemos empezar a explorar cuándo empiezan a emerger ciertos riesgos y esto nos permite planificar intervenciones preventivas. Es un gran paso hacia un sistema de salud personalizado y hacia la medicina preventiva.”
Así como los modelos de lenguaje a gran escala pueden aprender la estructura de las oraciones, este modelo de IA aprende la ‘gramática’ de los datos de salud para modelar los historiales médicos como secuencias de eventos que se desarrollan a lo largo del tiempo. Estos eventos incluyen diagnósticos médicos o factores de estilo de vida, como el tabaquismo. El modelo aprende a predecir el riesgo de enfermedad a partir del orden en que ocurren dichos eventos y del tiempo que transcurre entre ellos.
“Los eventos médicos a menudo siguen patrones predecibles”. dice Tom Fitzgerald, investigador del Instituto Europeo de Bioinformática del EMBL. “Nuestro modelo de IA aprende esos patrones y puede predecir resultados de salud. Nos proporciona una vía para explorar lo que podría pasarle a una persona basándose en su historial médico y otros factores clave. Obviamente la predicción no es una certeza, si no una estimación de los riesgos potenciales.”
El modelo funciona especialmente bien para condiciones con patrones de desarrollo claros y consistentes como por ejemplo ciertos tipos de cáncer, infartos y sepsis en sangre.
Usos futuros y limitaciones
Como las predicciones del tiempo, este nuevo modelo de IA proporciona probabilidades, no certezas. No predice de manera exacta lo que le pasará a un individuo, pero proporciona estimaciones bien calibradas de cómo ciertas condiciones médicas pueden ocurrir durante un periodo de tiempo. Por ejemplo, el modelo podría predecir las probabilidades de desarrollar una enfermedad cardiovascular en el próximo año. Estos riesgos vienen expresados como ratios o tasas a lo largo del tiempo, similar a prever un 70% de probabilidad de lluvia para mañana.
Algunos sucesos, como el riesgo de ser hospitalizado por un evento médico importante – como un infarto – se pueden predecir con certeza, mientras que otros son más inciertos. Así mismo pasa con las predicciones a corto plazo, que son más exactas que aquellas que se hacen a largo plazo.
Por ejemplo, cuando se usan nuevos datos que no se utilizaron para entrenar el modelo, éste predice niveles de riesgo variables para un infarto. Si se toma el cohorte del UK BioBank para edades entre 50 y 55, el riesgo de infarto varía desde una probabilidad de 1 en 10.000 por año para algunos hombres hasta aproximadamente 1 en 100 para otros, dependiendo de sus diagnósticos anteriores y su estilo de vida. Las mujeres tienen un riesgo promedio menor, pero una distribución de riesgo similar. Además, de media, el riesgo aumenta con la edad de los pacientes. Una evaluación sistemática de estos riesgos calculados en distintos grupos de edad y sexo mostró que corresponden bien con el número de casos observados.
El modelo está calibrado para producir estimaciones precisas de riesgo a nivel poblacional, prediciendo con qué frecuencia ocurren ciertas condiciones en grupos de personas. No obstante, como cualquier modelo de IA, tiene ciertas limitaciones. Por ejemplo, como los datos que se usaron para entrenarlo son del UK Biobank y éste principalmente contiene información de individuos entre 40 y 60 años, las condiciones médicas pediátricas y de adolescentes están subrepresentadas. El modelo también tiene sesgos demográficos debido a la falta de datos para entrenarlo, incluyendo subrepresentación de ciertos grupos étnicos.
Pese a que el modelo no está en la fase de uso clínico, ya puede ayudar a investigadores a:
entender cómo las enfermedades se desarrollan a lo largo del tiempo,
explorar cómo el estilo de vida y enfermedades pasadas afectan al riesgo de enfermedad a largo plazo,
simular resultados de salud usando datos de pacientes artificiales para situaciones en las que es difícil tener o acceder a datos reales.
En el futuro, modelos similares de IA entrenados con datos más representativos, podrían ayudar al personal sanitario a identificar de manera preventiva pacientes de alto riesgo. La población envejece, las tasas de enfermedades crónicas aumentan, y modelos como estos pueden ayudar a predecir necesidades futuras en los sistemas de salud, así como planificar mejor y destinar recursos de manera más eficiente. No obstante, antes de que modelos de IA como este puedan ser implementados en contextos clínicos, se necesita mucho más testeo, asesoramiento y marcos regulatorios sólidos.
“Este es el principio de una nueva manera de entender la salud humana y el desarrollo de enfermedades,” dice Moritz Gerstung, Director de la División de IA en Oncología en DKFZ y ex-jefe de grupo en EMBL-EBI “Algún día, modelos generativos como el nuestro podrían ayudar a personalizar la asistencia y a anticipar necesidades sanitarias a gran escala. Al aprender de grandes poblaciones, estos modelos ofrecen una perspectiva poderosa sobre cómo se desarrollan las enfermedades y, a la larga, podrían ayudar a hacer intervenciones preventivas y más personalizadas.”
Privacidad y ética
Este modelo de IA fue entrenado utilizando datos sanitarios anonimizados bajo estrictas normas éticas. Los participantes del UK Biobank dieron su consentimiento informado, y los datos daneses se accedieron de acuerdo con las regulaciones nacionales que exigen que los datos permanezcan dentro de Dinamarca. Los investigadores utilizaron sistemas virtuales seguros para analizar los datos sin moverlos a través de fronteras. Estas medidas de seguridad ayudan a garantizar que los modelos de IA se desarrollen y utilicen de manera que respeten la privacidad y cumplan con los estándares éticos.
Financiación
Este trabajo fue financiado por las contribuciones de los Estados miembros del EMBL, fondos del DKFZ y una subvención de la Fundación Novo Nordisk.
Un modèle d’IA prédit les risques de maladies plus d’une décennie en avance
Un nouveau modèle d’IA peut prédire votre santé plus d’une décennie en avance, anticipant les risques de plus de 1 000 maladies
Résumé
Les chercheurs ont développé un modèle d’IA qui pourrait estimer les risques de plus de 1 000 maladies
Le modèle, entraîné et testé sur des données médicales anonymisées provenant du Royaume-Uni et du Danemark, peut prédire des résultats en matière de santé plus d’une dizaine d’année en avance
Bien qu’il ne soit pas encore prêt pour une utilisation clinique directe, le modèle offre de nouvelles façons d’étudier les maladies et de guider les stratégies de soins de santé.
Imaginez un futur où votre historique de santé pourrait vous aider à prédire les possibles problèmes de santé que vous pourrez rencontrer les vingt prochaines années. Des chercheurs ont développé un nouveau modèle d’IA générative qui utilise des données médicales à grande échelle pour estimer comment la santé de l’Homme peut évoluer dans le temps. Il peut prévoir le risque et le temps de survenue de plus de 1 000 maladies et prédire les résultats en matière de santé plus d’une décennie à l’avance.
Ce nouveau modèle a été fait sur-mesure utilisant les mêmes principes algorithmiques que ceux utilisés pour les Grands modèles de langage(abrégé LLMs de l’anglais Large Language Models). Ce dernier fut entraîné sur des données anonymisées de plus de 4000 000 patients volontaires provenant de la UK Biobank. Les chercheurs ont aussi réussi à tester avec succès le modèle sur plus d’1.9 millions de patients inscrits au Registre National Danois des Patients. Cette approche, l’une des plus complètes à ce jour, démontre la capacité d’un modèle d’IA à prédire la progression des maladies à grande échelle et sur le long terme. Elle a de plus été testée avec succès sur deux systèmes de santé différents.
“Notre modèle d’IA représente une preuve de concept, démontrant qu’il est possible pour une IA de mieux comprendre les tendances concernant notre santé et utiliser cette information pour réaliser des prédictions qui ont du sens” a partagé Ewan Birney, Directeur Général par intérim au Laboratoire Européen de Biologie Moléculaire (EMBL). “En modélisant l’évolution des maladies dans le temps, nous pouvons commencer à explorer l’émergence de certains risques et comment mieux préparer des interventions préliminaires. C’est un grand pas vers une approche plus préventive et personnalisée des soins donnés aux patients.
Tout comme les grands modèles de langage peuvent apprendre la structure des phrases, ce modèle d’IA apprend la “grammaire” des données de santé afin de modéliser les antécédents médicaux sous forme de séquences d’événements se déroulant dans le temps. Ces événements incluent des diagnostics médicaux ou encore des facteurs liés au mode de vie comme le tabagisme. Le modèle apprend à prévoir le risque de maladie en se basant sur l’ordre dans lequel ces événements se produisent et du temps qui s’écoule entre eux.
“Des changements liés à la santé suivent souvent des tendances prévisibles” ajoute Tom Fitzgerald, Scientifique à l’Institut Européen de Bioinformatique de l’EMBL (EMBL-EBI). “Notre modèle d’IA apprend ces tendances et peut prévoir les résultats futurs en matière de santé. Il nous permet d’explorer ce qui pourrait arriver en fonction des antécédents médicaux d’une personne et d’autres facteurs clés. Il est important de noter qu’il ne s’agit pas d’une certitude, mais d’une estimation des risques potentiels. »
Le modèle est particulièrement efficace lorsque les schémas d’évolutions sont clairs et cohérents, comme pour certains types de cancer, les crises cardiaques, et les cas de septicémie, qui sont un type d’empoisonnement du sang. Cependant, le modèle l’est moins pour des maladies et événements de la vie qui représentent une plus grande variabilité, comme les troubles psychologiques et complications liées à la grossesse qui dépendent d’événements de vie plus imprévisibles.
Usages futurs et limites
Tout comme les prévisions météo, ce nouveau modèle nous donne des probabilités et non des certitudes. Il ne prédit pas avec exactitude ce qui pourrait arriver à une individu, néanmoins, il offre des estimations de la probabilité que certaines situations se produisent au cours d’une période donnée. Par exemple, il pourrait prédire les chances de développer une maladie cardiaque dans l’année qui suit. Ces risques sont exprimés comme tendances dans le temps, similaires à une prévision de 70% de chance de pluie le jour suivant. En général, les prévisions à court terme sont plus précises que celles à long terme.
Prenons un autre exemple, le modèle prédit différents niveaux de risque de crise cardiaque. Si l’on prend la cohorte UK BioBank âgée de 60 à 65 ans, le risque de crise cardiaque varie de 4 sur 10 000 par an pour certains hommes à environ 1 sur 100 pour d’autres, en fonction de leurs diagnostics antérieurs et de leur mode de vie.Les femmes présentent un risque moyen plus faible, mais une répartition similaire du risque. De plus, les risques augmentent en moyenne avec l’âge. Une évaluation systématique des données de la UK Biobank non utilisées lors de la phase d’entraînement a montré que ces risques calculés correspondent bien au nombre de cas observés dans les différents groupes d’âge et de sexe.
Le modèle est calibré pour produire des estimations précises du risque au niveau de la population. Cependant, comme n’importe quel modèle d’IA, il a ses limites. Par exemple, puisque les données d’entraînement de la UK Biobank proviennent d’individus âgés entre 40 et 60 ans, les situations liées à l’enfance et l’adolescence sont sous-représentées. Le modèle possède aussi des biais d’échantillonnages dûs à des groupes d’individus sous-représentés.
Même si le modèle n’est pas prêt pour les essais cliniques, il pourrait déjà aider les chercheurs à:
mieux comprendre comment les maladies se développent et progressent dans le temps,
Explorer comment le mode de vie et les maladies précédentes peuvent avoir un effets sur les risques de maladie longue durée,
simuler les résultats cliniques à l’aide de données de patients artificiels, dans les situations où il est difficile d’obtenir ou d’accéder à des données réelles.
Dans le futur, des outils IA similaires entraînés sur des bases de données plus représentatives pourront assister les cliniciens dans l’identification précoce des patients à haut risque. Avec le vieillissement de la population et l’augmentation des taux de maladies chroniques, la capacité à prévoir les besoins futurs en matière de santé pourrait aider les systèmes de santé à mieux planifier et à allouer plus efficacement les ressources. Mais de nombreux tests, consultations et cadres réglementaires solides sont encore nécessaires avant que les modèles d’IA puissent être déployés dans un contexte clinique.
« C’est le début d’une nouvelle manière de comprendre la santé humaine et la progression des maladies », a déclaré Moritz Gerstung, chef de la division IA en oncologie au DKFZ et ancien chef de groupe à l’EMBL-EBI. « Les modèles génératifs tels que le nôtre pourraient un jour contribuer à personnaliser les soins et à anticiper les besoins en matière de santé à grande échelle. En s’appuyant sur des populations importantes, ces modèles offrent un aperçu précieux de l’évolution des maladies et pourraient à terme permettre des interventions plus précoces et mieux adaptées. »
Confidentialité des données et éthique
Ce modèle d’IA a été entraîné à partir de données de santé anonymisées, dans le respect des règles éthiques strictes. Les participants de la UK Biobank ont donné leur consentement éclairé, et les données danoises ont été consultées conformément à la réglementation nationale qui exige que les données restent au Danemark. Les chercheurs ont utilisé des systèmes virtuels sécurisés pour analyser les données sans les transférer à l’étranger. Ces mesures de protection permettent de garantir que les modèles d’IA sont développés et utilisés dans le respect de la vie privée et des normes éthiques.
Financements
Ce projet a été financé par les États membres de l’EMBL, les fonds DKFZ et une subvention de la fondation Novo Nordisk.
Un modello di IA prevede il rischio di malattia con decenni di anticipo
Un nuovo modello di intelligenza artificiale è in grado di stimare il rischio a lungo termine per oltre 1.000 condizioni mediche e prevedere i cambiamenti nella salute umana con oltre un decennio di anticipo
Sintesi
Il nuovo modello di IA è capace di prevedere il rischio di insorgenza di più di 1.000 malattie
Addestrato e testato su dati clinici anonimizzati provenienti dal Regno Unito e dalla Danimarca, il modello è in grado di formulare previsioni sanitarie su un orizzonte temporale di oltre dieci anni
Sebbene non sia ancora pronto per l’applicazione clinica diretta, il modello di IA rappresenta un’importante innovazione nella ricerca medica, offrendo nuove opportunità per comprendere le malattie e definire strategie di prevenzione e intervento
Immaginate un futuro in cui la vostra storia clinica possa anticipare le sfide sanitarie che potreste affrontare nei prossimi vent’anni. Oggi quel futuro è un po’ più vicino grazie ad un modello di intelligenza artificiale generativa che utilizza cartelle cliniche su larga scala per stimare come la salute di una persona potrebbe evolvere nel tempo. Il modello è in grado di prevedere il rischio e la tempistica di oltre 1.000 malattie e di prevedere gli esiti di salute con più di un decennio di anticipo.
Basato su algoritmi simili a quelli utilizzati nei grandi modelli linguistici (LLM), il modello è stato addestrato su dati anonimizzati relativi a 400.000 individui provenienti dalla UK Biobank. La sua efficacia è stata poi validata utilizzando i dati di 1,9 milioni di pazienti raccolti nel Registro Nazionale Danese dei Pazienti. Questo approccio rappresenta una delle applicazioni più avanzate della IA generativa nella capacità di modellare la progressione delle malattie umane su larga scala ed è stato testato su dati provenienti da due sistemi sanitari completamente separati.
“Il nostro modello di intelligenza artificiale è una prova di concetto che dimostra come sia possibile apprendere molti dei modelli di salute a lungo termine e utilizzarli per generare previsioni significative”, ha dichiarato Ewan Birney, direttore esecutivo ad interim del Laboratorio Europeo di Biologia Molecolare (EMBL). “Modellando lo sviluppo delle malattie nel tempo, possiamo iniziare a comprendere quando emergono determinati rischi e come pianificare al meglio gli interventi precoci. Si tratta di un grande passo avanti verso un’assistenza sanitaria più personalizzata e preventiva”.
Proprio come i modelli linguistici di grandi dimensioni sono in grado di apprendere la struttura delle frasi, questo modello di IA apprende la “grammatica” dei dati sanitari. Analizza le storie cliniche come sequenze temporali di eventi — come diagnosi mediche o fattori legati allo stile di vita, come il fumo — e impara a prevedere il rischio di malattia sulla base dell’ordine e dell’intervallo con cui questi eventi si verificano.
“Gli eventi medici seguono spesso schemi prevedibili”, spiega Tom Fitzgerald, ricercatore presso l’Istituto europeo di bioinformatica dell’EMBL (EMBL-EBI). “Il nostro modello è in grado di apprendere questi schemi e prevedere potenziali esiti futuri. Ci offre un nuovo modo per esplorare ciò che potrebbe accadere sulla base della storia clinica di una persona e di altri fattori rilevanti. È fondamentale sottolineare che non si tratta di una certezza, ma di una stima dei potenziali rischi”.
Il modello risulta particolarmente efficace per condizioni che presentano una progressione clinica ben definita, come alcuni tipi di cancro, infarti e setticemia (una grave infezione sistemica del sangue). Tuttavia, le sue previsioni sono meno affidabili per patologie più variabili e influenzate da fattori esterni difficilmente prevedibili, come i disturbi mentali o le complicazioni legate alla gravidanza.
Utilizzi futuri e limiti del modello
Come accade per le previsioni meteorologiche, questo nuovo modello di IA fornisce stime probabilistiche, non certezze. Non prevede esattamente cosa accadrà a un individuo, ma offre stime ben calibrate della probabilità che determinate condizioni si verifichino in un dato periodo. Ad esempio, può stimare la probabilità di sviluppare una malattia cardiaca entro l’anno successivo, esprimendo questo rischio come una percentuale — proprio come si prevede una probabilità del 70% di pioggia per il giorno seguente.
Ad esempio, il modello prevede livelli variabili di rischio di infarto. Prendendo in considerazione il gruppo della UK Biobank nella fascia di età tra i 60 e i 65 anni, il rischio di infarto varia da una probabilità di 4 su 10.000 all’anno per alcuni uomini fino a circa 1 su 100 per altri uomini, a seconda delle diagnosi precedenti e dello stile di vita. Le donne presentano in media un rischio inferiore, ma con una distribuzione del rischio simile. Inoltre, i rischi aumentano in media con l’avanzare dell’età. Una valutazione sistematica dei dati della UK Biobank non utilizzati per l’addestramento ha mostrato che questi rischi calcolati corrispondono bene al numero osservato di casi nei diversi gruppi di età e sesso.
Il modello è calibrato per produrre stime accurate del rischio a livello di popolazione, prevedendo la frequenza con cui determinate condizioni si verificano all’interno di gruppi di persone. Tuttavia, come qualsiasi modello di IA, presenta dei limiti. Ad esempio, poiché i dati di addestramento del modello provenienti dalla UK Biobank provengono principalmente da individui di età compresa tra i 40 e i 60 anni, gli eventi sanitari relativi all’infanzia e all’adolescenza sono sottorappresentati. Il modello contiene anche distorsioni demografiche dovute a lacune nei dati di addestramento, tra cui la sottorappresentazione di alcuni gruppi etnici.
Sebbene il modello non sia ancora pronto per l’uso clinico, potrebbe già aiutare i ricercatori a:
Comprendere come le malattie si sviluppano e progrediscono nel tempo.
Esplorare come lo stile di vita e le malattie pregresse influenzano il rischio di malattie a lungo termine.
Simulare gli esiti sanitari utilizzando dati artificiali sui pazienti, in situazioni in cui è difficile ottenere o accedere a dati reali.
In futuro, strumenti di IA come questo, addestrati su set di dati più ampi e rappresentativi, potrebbero aiutare i medici a identificare precocemente i pazienti ad alto rischio. Con l’invecchiamento della popolazione e l’aumento dei tassi di malattie croniche, la capacità di anticipare le esigenze sanitarie potrebbe aiutare i sistemi sanitari a pianificare meglio i servizi e ad allocare risorse in modo più efficiente. Tuttavia, prima che i modelli di IA possano essere implementati in ambito clinico, sono necessari ulteriori studi di validazione, consultazioni interdisciplinari e un solido quadro normativo.
“Questo è solo l’inizio di un nuovo modo di comprendere la salute umana e la progressione delle malattie”, ha dichiarato Moritz Gerstung, capo della divisione di IA in oncologia presso il DKFZ ed ex capo gruppo presso l’EMBL-EBI. “Modelli generativi come il nostro potrebbero un giorno aiutare a personalizzare le cure e anticipare le esigenze sanitarie su larga scala. Imparando da grandi popolazioni, questi modelli offrono una potente lente d’ingrandimento sui meccanismi di sviluppo delle malattie, aprendo la strada ad interventi più tempestivi e personalizzati”.
Privacy dei dati ed etica
Questo modello di IA è stato addestrato utilizzando dati sanitari anonimizzati, nel pieno rispetto di rigorosi standard etici e normativi. I partecipanti alla UK Biobank hanno fornito il loro consenso informato per l’utilizzo dei propri dati a fini di ricerca. Per quanto riguarda i dati danesi, l’accesso è avvenuto in conformità con le normative nazionali che richiedono che i dati rimangano all’interno del territorio danese. I ricercatori hanno utilizzato sistemi virtuali sicuri per analizzare i dati senza trasferirli oltre confine. Queste misure di sicurezza contribuiscono a garantire che i modelli di IA siano sviluppati e utilizzati nel rispetto della privacy e degli standard etici condivisi a livello internazionale.
Finanziamenti
Questo lavoro è stato sostenuto dai contributi degli Stati membri dell’EMBL, dai fondi DKFZ e da una sovvenzione della Fondazione Novo Nordisk.