New tool combines biological knowledge with machine learning to help researchers extract meaningful insights from complex omics data
Image credit: Karen Arnott/EMBL-EBI
Summary
CORNETO is a new computational tool that helps researchers combine different types of biological data with prior biological knowledge to map how molecules like genes and proteins interact inside cells.
By analysing different samples together at once, CORNETO shows which biological processes are common and which are unique across cell types and conditions.
Researchers have used CORNETO to reveal shared and cell-specific pathways in disease research, e.g. to identify signalling pathways associated with chemotherapy resistance in ovarian cancer patients.
EMBL-EBI scientists and collaborators at Heidelberg University have developed CORNETO, a new computational tool that uses machine learning to gain meaningful insights from complex biological data. CORNETO enables users to extract molecular networks – maps of how genes, proteins, and signalling pathways interact – by combining experimental data from different samples and conditions with prior biological knowledge, such as signalling or metabolic networks. This can help us to better understand the mechanisms that lead a cell to be healthy or diseased.
Understanding how molecules interact inside our cells is key to uncovering the mechanisms that can go wrong, leading to disease. But as the types of omics data available to researchers grow in size and complexity, researchers often struggle to extract useful, meaningful patterns from them. CORNETO, which stands for Constrained Optimisation for the Recovery of NETworks from Omics, combines machine learning techniques with biological prior knowledge to simultaneously analyse multiple types of omics data, including transcriptomics, proteomics, and metabolomics.
What do we mean by omics?
Omics refers to the large-scale study of biological molecules and their functions within a living system, using high-throughput technologies to analyse complex datasets. This includes fields like genomics, transcriptomics, proteomics, and metabolomics.
“We wanted to solve a common challenge in systems biology: how to make sense of omics data when you have so much complex data available all at once,” said Julio Saez-Rodriguez, Head of Research at EMBL-EBI and Professor on leave at Heidelberg University. “CORNETO helps by combining these complex data with prior information coming from biological databases to find patterns that are consistent, interpretable, and biologically meaningful.”
Unified omics analyses
Traditionally, scientists analyse data from one condition at a time – for example, comparing healthy cells to diseased ones – and build separate interaction networks for each. But this approach can miss the bigger picture. CORNETO uses machine learning to analyse multiple samples or conditions together, highlighting biological processes that are shared across datasets, and pinpointing the differences between samples. CORNETO is also designed to allow researchers to customise it for specific use cases or extend it to new data types as needed.
“Using CORNETO is like finding the common threads in a tangled web,” explained Pablo Rodríguez-Mier, postdoctoral researcher at Heidelberg University. “It helps researchers pull out the key biological processes that are happening across many samples and understand what’s different or the same in each one.”
Real-world applications
Using CORNETO is especially valuable to researchers working in fields like cancer research, where there are similarities across patients, but no two patients are exactly alike. To demonstrate this, the researchers used CORNETO to analyse gene expression data from multiple cancer patients to discover which specific intracellular signalling pathways were behaving abnormally.
Using only transcriptomics data, CORNETO identified key deregulated kinases, enzymes that regulate cell signalling, which were also detected independently using phosphoproteomics. The resulting networks revealed both shared pathways and patient-specific differences, a step toward the kinds of insights that could one day support personalised treatment strategies.
CORNETO is also currently being used in the EU research project DECIDER to identify deregulated signalling pathways associated with chemotherapy resistance in ovarian cancer patients.
The researchers also used CORNETO to analyse metabolic pathways in yeast strains in which different genes were inactivated. Here, CORNETO was able to find the key processes the yeast cells were using to survive and grow. Understanding these essential processes could help scientists design better yeast strains for making biofuels and other products for industrial manufacturing.
Open-source and ready to use
CORNETO is available as open-source software on GitHub. Here, you can also find tutorials, example datasets, and modular code to adapt CORNETO to your needs.
Funding
This work was funded by the European Union’s Horizon 2020 Programme under the grant agreements No 951773 (PerMedCoE) and No 965193 (DECIDER).
CORNETO: aprendizaje automático para descifrar datos ómicos complejos
CORNETO: aprendizaje automático para descifrar datos ómicos complejos
Una nueva herramienta combina conocimiento biológico con aprendizaje automático para ayudar a los investigadores a extraer información significativa de datos ómicos complejos
Resumen
CORNETO es una nueva herramienta computacional que permite a los investigadores combinar distintos tipos de datos biológicos con datos y conocimiento biológico previo para mapear cómo interactúan moléculas como genes y proteínas dentro de las células.
Al analizar múltiples muestras de forma conjunta, CORNETO revela qué procesos biológicos son comunes y cuáles son específicos según el tipo celular o las condiciones experimentales.
Los investigadores han utilizado CORNETO para identificar rutas compartidas y específicas en estudios sobre enfermedades, por ejemplo, para detectar vías de señalización asociadas con la resistencia a la quimioterapia en pacientes con cáncer de ovario.
Científicos del EMBL-EBI, en colaboración con la Universidad de Heidelberg, han desarrollado CORNETO, una nueva herramienta computacional que emplea técnicas de aprendizaje automático para extraer información significativa de datos biológicos complejos. CORNETO permite a los usuarios reconstruir redes moleculares, que son mapas de interacciones entre genes, proteínas y vías de señalización, combinando datos experimentales de distintas muestras y condiciones con datos biológicos ya conocidos, como redes de señalización o metabolismo. Esto facilita la comprensión de los mecanismos que determinan si una célula está sana o enferma.
Comprender cómo interactúan las moléculas dentro de nuestras células es fundamental para identificar los mecanismos que pueden fallar y conducir a enfermedades. Sin embargo, a medida que aumentan el volumen y la complejidad de los datos ómicos disponibles, los investigadores enfrentan dificultades para extraer patrones útiles y con sentido biológico. CORNETO – acrónimo de Constrained Optimisation for the Recovery of NETworks from Omics – combina técnicas de aprendizaje automático y conocimiento biológico previo para analizar simultáneamente múltiples tipos de datos ómicos, como transcriptómica, proteómica y metabolómica.
¿Qué entendemos por datos ómicos?
El término “ómicas” hace referencia al estudio en profundidad de las moléculas biológicas y sus funciones en un sistema vivo, utilizando tecnologías de alto rendimiento para analizar conjuntos de datos complejos. Esto incluye disciplinas como la genómica, transcriptómica, proteómica y metabolómica.
“Queríamos resolver un desafío común en la biología de sistemas: cómo interpretar los datos ómicos cuando se dispone de tantos datos complejos al mismo tiempo”, explica Julio Saez-Rodriguez, Director de Investigación en EMBL-EBI y profesor en excedencia en la Universidad de Heidelberg. “CORNETO ayuda combinando estos datos complejos con información previa proveniente de bases de datos biológicas, para identificar patrones que sean consistentes, interpretables y con relevancia biológica”.
Análisis ómico unificado
Tradicionalmente, los científicos analizan los datos de un tipo a la vez – por ejemplo, comparando células sanas con células enfermas – y construyen redes de interacción separadas para cada caso. Sin embargo, este enfoque puede pasar por alto la visión global. CORNETO utiliza aprendizaje automático para analizar múltiples muestras o condiciones de forma conjunta, destacando los procesos biológicos compartidos entre conjuntos de datos y señalando las diferencias específicas. Además, está diseñado para ser personalizable y adaptable a casos de uso específicos o a nuevos tipos de datos.
“Utilizar CORNETO es como encontrar los hilos comunes en una red enmarañada”, afirma Pablo Rodríguez-Mier, investigador postdoctoral en la Universidad de Heidelberg. “Ayuda a los investigadores a identificar los procesos biológicos clave que ocurren en muchas muestras y a entender qué es igual o distinto en cada una”.
Aplicaciones reales
CORNETO resulta especialmente útil en campos como la investigación oncológica, donde existen similitudes entre pacientes, pero ningún paciente es exactamente igual a otro. Para demostrar su utilidad, los investigadores utilizaron CORNETO para analizar datos de expresión génica de múltiples pacientes con cáncer, con el fin de descubrir qué vías de señalización intracelular estaban funcionando de manera anómala.
Utilizando únicamente datos transcriptómicos, CORNETO identificó quinasas clave desreguladas – enzimas que regulan la señalización celular – que también fueron detectadas de manera independiente mediante fosfoproteómica. Las redes resultantes revelaron tanto rutas compartidas como diferencias específicas de cada paciente, un avance hacia el tipo de conocimientos que podrían respaldar tratamientos personalizados en el futuro.
Actualmente, CORNETO también se está utilizando en el proyecto europeo DECIDER para identificar vías de señalización desreguladas asociadas con la resistencia a la quimioterapia en pacientes con cáncer de ovario.
Los investigadores también aplicaron CORNETO al análisis de rutas metabólicas en cepas de levadura con diferentes genes inactivados. En este caso, CORNETO fue capaz de identificar los procesos clave que las células de levadura utilizaban para sobrevivir y crecer. Comprender estos procesos esenciales podría ayudar a diseñar cepas de levadura más eficientes para la producción de biocombustibles y otros productos en aplicaciones industriales.
Código abierto y listo para usar
CORNETO está disponible como software de código abierto en GitHub. Allí también se pueden encontrar tutoriales, conjuntos de datos de ejemplo y un código modular que permite adaptar la herramienta a distintas necesidades.
Financiación
Este trabajo ha sido financiado por el programa Horizon 2020 de la Unión Europea bajo el acuerdo de beca No 951773 (PerMedCoE) y No 965193 (DECIDER).