{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"institution":[{"id":[{"id":"https:\/\/ror.org\/03mb6wj31","id-type":"ROR","asserted-by":"publisher"},{"id":"https:\/\/www.isni.org\/000000041937028X","id-type":"ISNI","asserted-by":"publisher"},{"id":"https:\/\/www.wikidata.org\/entity\/Q1640731","id-type":"wikidata","asserted-by":"publisher"}],"name":"Universitat Polit\u00e8cnica de Catalunya","acronym":["UPC"]}],"indexed":{"date-parts":[[2026,3,19]],"date-time":"2026-03-19T11:18:29Z","timestamp":1773919109490,"version":"3.50.1"},"reference-count":0,"publisher":"Universitat Polit\u00e8cnica de Catalunya","license":[{"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by-sa\/4.0\/"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"abstract":"<jats:p>The advent of high-throughput technologies and their decreasing cost have fostered the creation of a rich ecosystem of public database resources. In an era of affordable data acquisition, the core challenge has shifted to improve data interpretation, in order to understand normal and disease states. To that end, leveraging the current contextual knowledge in the form of annotations and biological networks is a powerful data amplifier to elucidate novel hypotheses.\r\nLabel propagation and diffusion are the linchpin of the state of the art in network algorithms. In its simplest form, label propagation predicts the labels of a given node (for instance a gene, protein or metabolite) using those of its interactors. More elaborated approaches propagate beyond direct interactors, with robust performance in many computational biology domains.\r\nIt has been pointed out that the topological structure of biological networks can bias propagation algorithms. Poorly known entities are overlooked and harder to link to experimental findings, which in turn keeps them barely annotated. Some efforts try to break this circularity by statistically normalising the topological bias, but the properties of the bias and the real benefit of its removal are yet to be carefully examined.\r\nThis thesis covers two blocks. First, a characterisation of the bias in diffusion-based algorithms, with the implementation of statistical normalisations. Second, the application of such normalisation in classical computational biology problems: pathway analysis for metabolomics data and target gene prediction for drug development. In the first block, the presence of the bias is confirmed and linked to the network topology, albeit dependent on which nodes have labels. Equivalences are proven between diffusion processes with variations on their definitions, thus easing its choice. Closed forms on the first and second statistical moments of the null distributions of the diffusion scores are provided and linked to the spectral features of the network. The normalisation can be detrimental if the bias favours nodes with positive labels. An ad-hoc study of the data and the expected properties of the findings is recommended for an optimal choice. To that end, this thesis contributes the diffuStats software package, easing the computation and benchmark of several normalised and unnormalised diffusion scores.\r\nThe second block starts with pathway analysis for metabolomics data. This choice is driven by the relative lack of computational solutions for metabolomics, whose output still requires an effortful interpretation. Here, a knowledge graph is conceived to connect the metabolites to the biological pathways through intermediate entities, like reactions and enzymes. Given the metabolites of interest, a propagation process is run to prioritise a relevant sub-network, suitable for manual inspection. The statistical normalisation is required due to the network design and properties. The usefulness of this approach is proven not only regarding pathway findings, but also examining the metabolites and reactions within the suggested sub-networks. The knowledge network construction and the propagation algorithm are distributed in the FELLA software package.\r\nThe second practical application is the prediction of plausible gene targets in disease. Besides benchmarking the effect of the statistical normalisation, particular care is put into obtaining meaningful performance estimates for practical drug development. Target data is usually known at the protein complex level, which leads to performance over-estimation if ignored. Here, this effect is corrected in a varied comparison of prioritisation algorithms, networks, performance metrics and diseases. The results support that the statistical normalisation has a small but negative impact. After correcting for the protein complex structure, network-based algorithms are still deemed useful for drug discovery.<\/jats:p>\n                <jats:p>La aparici\u00f3n de tecnolog\u00edas experimentales de alto rendimiento ha propiciado la creaci\u00f3n de un rico entorno de bases de datos que aglomeran todo tipo de anotaciones moleculares. Dada la creciente facilidad para la adquisici\u00f3n de datos en varios niveles moleculares, el reto central de la biolog\u00eda computacional ha virado hacia la interpretaci\u00f3n de dicho volumen de datos.\r\nLa comprensi\u00f3n de los procesos de normalidad y enfermedad involucrados en los cambios observados en los estudios experimentales es el motor que expande la frontera del conocimiento humano. Para ello, es fundamental aprovechar la herencia de conocimiento previo, recogido en las bases de datos en forma de anotaciones y redes biol\u00f3gicas, y minarlo en busca de nuevos patrones e hip\u00f3tesis.\r\nLos algoritmos m\u00e1s extendidos para extraer conocimiento de las redes biol\u00f3gicas son los denominados m\u00e9todos de propagaci\u00f3n y difusi\u00f3n. Su trasfondo es el principio de culpa por asociaci\u00f3n, que postula que las entidades biol\u00f3gicas que mantienen relaci\u00f3n o interacci\u00f3n son m\u00e1s propensas a compartir funciones y propiedades. Dichos algoritmos aprovechan las interacciones conocidas, en formato de red, para predecir propiedades de nodos (por ejemplo, genes, prote\u00ednas o metabolitos) usando las propiedades de sus interactores.\r\nExiste evidencia de que la estructura topol\u00f3gica de las redes sesga los algoritmos de propagaci\u00f3n, de forma que los nodos mejor descritos gozan de una ventaja sistem\u00e1tica. Los nodos menos conocidos quedan en desventaja, se entorpece el descubrimiento de su implicaci\u00f3n en los experimentos, a su vez perpetuando nuestro pobre conocimiento sobre ellos. La literatura ofrece algunos estudios donde se normaliza dicho efecto, pero las propiedades intr\u00ednsecas del sesgo y el beneficio real de dicha normalizaci\u00f3n requiere un estudio m\u00e1s detallado.\r\nEl objeto de esta tesis tiene dos vertientes. Primero, la caracterizaci\u00f3n de la estad\u00edstica del sesgo en los algoritmos de propagaci\u00f3n, la concepci\u00f3n de normalizaciones estad\u00edsticas y su distribuci\u00f3n como software cient\u00edfico.\r\nSegundo, la aplicaci\u00f3n de dicha normalizaci\u00f3n en problemas cl\u00e1sicos de biolog\u00eda computacional. Concretamente, en el an\u00e1lisis de v\u00edas biol\u00f3gicas para datos de metabol\u00f3mica y en la predicci\u00f3n de genes como dianas terap\u00e9uticas en el desarrollo de f\u00e1rmacos. Ambos problemas son abordables mediante t\u00e9cnicas de propagaci\u00f3n y, por lo tanto, potencialmente sensibles al efecto del sesgo topol\u00f3gico.\r\nEn el primer bloque, se corrobora la existencia del sesgo y su dependencia no s\u00f3lo de la estructura de la red, sino de los nodos en los que se define la propagaci\u00f3n. Se demuestran equivalencias matem\u00e1ticas entre ciertas variaciones en la definici\u00f3n de la propagaci\u00f3n, facilitando as\u00ed su elecci\u00f3n. Se proporcionan expresiones cerradas sobre los momentos estad\u00edsticos de la difusi\u00f3n y se halla una conexi\u00f3n con las propiedades espectrales de las redes.\r\nUn punto importante es que la normalizaci\u00f3n no siempre ayuda, y su aplicabilidad depender\u00e1 de cada caso particular y de las hip\u00f3tesis sobre la topolog\u00eda de los nodos que deben ser descubiertos. Para ello, esta tesis deja como resultado diffuStats, un software disponible en un repositorio p\u00falico, que permite calcular y comparar la propagaci\u00f3n con ciertas variantes, y con presencia o ausencia de normalizaci\u00f3n.\r\nEn el segundo bloque, se escoge el an\u00e1lisis de v\u00edas en metabol\u00f3mica dada la relativa juventud de los estudios metabol\u00f3micos y, por ende, su falta de herramientas inform\u00e1ticas dedicadas. El an\u00e1lisis de v\u00edas cl\u00e1sico parte de una lista de metabolitos de inter\u00e9s, normalmente procedentes de un estudio, y reporta una lista de v\u00edas o procesos metab\u00f3licos estad\u00edsticamente relacionados con ellos. Algunas variantes usan redes de metabolitos para dar m\u00e1s contexto biol\u00f3gico, pero la interpretaci\u00f3n de los datos sigue requiriendo un extenso esfuerzo manual.\r\nLa aportaci\u00f3n de esta tesis es la creaci\u00f3n de una red de conocimiento que relaciona los metabolitos con las v\u00edas a trav\u00e9s de las entidades intermedias anotadas, como reacciones y enzimas. Sobre dicha red se aplican algoritmos de propagaci\u00f3n para identificar las entidades m\u00e1s relacionadas con los metabolitos de inter\u00e9s. La normalizaci\u00f3n estad\u00edstica es necesaria, dada la estructura y las caracter\u00edsticas de la red. Se demuestra no s\u00f3lo la coherencia de las v\u00edas metab\u00f3licas propuestas, sino la de los metabolitos y las reacciones priorizadas. La publicaci\u00f3n del software FELLA proporciona la construcci\u00f3n de la red de conocimiento y el algoritmo de difusi\u00f3n a la comunidad cient\u00edfica.\r\nFELLA va acompa\u00f1ado de seis casos de aplicaci\u00f3n en estudios humanos y animales.\r\nPor otro lado, se aborda el problema de predicci\u00f3n de genes para dianas terap\u00e9uticas a trav\u00e9s de redes biol\u00f3gicas. Adem\u00e1s de probar el efecto de la normalizaci\u00f3n estad\u00edstica, se pone \u00e9nfasis en estimar el desempe\u00f1o real esperado en un escenario de desarrollo de f\u00e1rmacos. Los datos de dianas terap\u00e9uticas no se suelen conocer al nivel de prote\u00edna sino al de complejo o familia de prote\u00ednas. La mayor\u00eda de estudios no lo tiene en cuenta, llegando a estimaciones optimistas sobre el desempe\u00f1o esperado. En esta tesis se propone un estudio exhaustivo que corrige el efecto de los complejos de prote\u00ednas, compara algoritmos de propagaci\u00f3n con distintas m\u00e9tricas de rendimiento por su informatividad y explora el rol de la red biol\u00f3gica y de la enfermedad en cuesti\u00f3n. Se demuestra que la normalizaci\u00f3n estad\u00edstica tiene poco efecto en el desempe\u00f1o y que, en general, los m\u00e9todos de propagaci\u00f3n siguen siendo \u00fatiles en el desarrollo de f\u00e1rmacos despu\u00e9s de corregir las estimaciones optimistas de su rendimiento.<\/jats:p>","DOI":"10.5821\/dissertation-2117-351134","type":"dissertation","created":{"date-parts":[[2024,11,21]],"date-time":"2024-11-21T01:22:31Z","timestamp":1732152151000},"approved":{"date-parts":[[2020,7,23]]},"source":"Crossref","is-referenced-by-count":0,"title":["Statistical normalisation of network propagation methods for computational biology"],"prefix":"10.5821","author":[{"sequence":"additional","affiliation":[]},{"given":"Sergio","family":"Picart Armada","sequence":"first","affiliation":[]}],"member":"3865","container-title":[],"original-title":[],"deposited":{"date-parts":[[2026,3,19]],"date-time":"2026-03-19T06:26:29Z","timestamp":1773901589000},"score":1,"resource":{"primary":{"URL":"https:\/\/hdl.handle.net\/2117\/351134"}},"subtitle":[],"editor":[{"given":"Alexandre","family":"Perera Lluna","sequence":"first","affiliation":[]}],"short-title":[],"issued":{"date-parts":[[null]]},"references-count":0,"URL":"https:\/\/doi.org\/10.5821\/dissertation-2117-351134","relation":{},"subject":[]}}