{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"institution":[{"id":[{"id":"https:\/\/ror.org\/03mb6wj31","id-type":"ROR","asserted-by":"publisher"},{"id":"https:\/\/www.isni.org\/000000041937028X","id-type":"ISNI","asserted-by":"publisher"},{"id":"https:\/\/www.wikidata.org\/entity\/Q1640731","id-type":"wikidata","asserted-by":"publisher"}],"name":"Universitat Polit\u00e8cnica de Catalunya","acronym":["UPC"]}],"indexed":{"date-parts":[[2026,1,24]],"date-time":"2026-01-24T13:55:44Z","timestamp":1769262944805,"version":"3.49.0"},"reference-count":0,"publisher":"Universitat Polit\u00e8cnica de Catalunya","license":[{"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"abstract":"<jats:p>(English) The rising interest in extracting value from data has led to a broad proliferation of monitoring infrastructures, most notably composed by sensors, intended to collect this new oil. Thus, gathering data has become fundamental for a great number of applications, such as predictive maintenance techniques or anomaly detection algorithms. However, before data can be refined into insights and knowledge, it has to be efficiently stored and prepared for its later retrieval. \r\nWhile General-purpose database management systems, such as Relational Database Management Systems, have been historically capable of managing a wide range of scenarios, they were found inefficient, or even unsuitable, in handling the Velocity and Volume of nowadays large Infrastructures.\r\nAiming to address the specific challenges of Monitoring Infrastructures, specialized systems like Time-Series Database Management Systems arose, becoming the fastest-growing database category since 2019. However, as each monitoring infrastructure has its own particularities, choosing the best fitting candidate solution became fairly laborious. In consequence, implementing efficient solutions involving Time-Series databases became an arduous task, not only in terms of investing in the most appropriate software and hardware infrastructure, but also in terms of finding expert personnel able to keep track and master those rapidly evolving technologies.\r\nIn order to mitigate these problems, this research proposes a highly efficient Time-Series database approach for monitoring Infrastructures, aimed at providing the best balance between performance and resource consumption, while enabling its deployment in general purpose document-oriented databases, relieving experts from having to learn yet-another database solution from scratch.\r\nMore precisely, our research provides the three following main contributions: (1) A foundation data model for time-series data over document-oriented databases, aimed at obtaining the best properties from both schema-full and schema-less approximations. (2) A technique for efficiently integrating several contiguous data models into a single time-series data store, creating a data-flow pattern named Cascading Polyglot Persistence. This technique makes it possible to adapt the database to the nature and progression of time-series data along time, as it is tailored to the expected operations to be performed according to the data aging, empowering further performance while limiting resource consumption. (3) A holistic scalability strategy for time-series databases following Cascading Polyglot Persistence, aimed at further maximizing the benefits of our polyglot approach when deploying it in a cluster fashion. \r\nIn order to evaluate the performance of our approach, we materialize it on top of MongoDB, the most popular NoSQL database, which further facilitates its adoption. In addition, we benchmark it against two alternative solutions: InfluxDB, the most popular time-series database, and MongoDB itself.\r\nOur results show that our approach is able to retrieve historical data up to more than 10 times faster than MongoDB, while also globally outperforming InfluxDB. In addition, it has shown to be able to ingest streams of real-time data two times faster than both MongoDB and InfluxDB, while requesting the same disk space as InfluxDB. Regarding its ad hoc scalability approach, it has shown to greatly reduce the number of needed machines, with respect to traditional approaches, while offering a scalability efficiency up to 85%.\r\nThese outstanding outcomes pave the way towards NagareDB, our time-series database, aimed at integrating all these approaches, providing them as an out-of-the-box solution.<\/jats:p>\n                <jats:p>(Espa\u00f1ol) El creciente inter\u00e9s en extraer valor de los datos ha llevado a una amplia proliferaci\u00f3n de infraestructuras de monitoreo, compuestas por sensores, y destinadas a recolectar este nuevo petr\u00f3leo. As\u00ed, la recopilaci\u00f3n de datos se ha convertido en fundamental para un gran n\u00famero de aplicaciones, como t\u00e9cnicas de mantenimiento predictivo o algoritmos de detecci\u00f3n de anomal\u00edas. Sin embargo, antes de que los datos puedan refinarse para obtener informaci\u00f3n y conocimiento, deben almacenarse y prepararse de manera eficiente para su posterior recuperaci\u00f3n.\r\nSi bien los sistemas de administraci\u00f3n de bases de datos de uso general, como los relacionales, hist\u00f3ricamente han sido capaces de administrar una amplia gama de escenarios, se encontraron ineficientes, o incluso inadecuados, para manejar la velocidad y el volumen de las grandes infraestructuras actuales.\r\nCon el objetivo de abordar los desaf\u00edos espec\u00edficos de las infraestructuras de monitoreo, surgieron sistemas especializados, como los sistemas de administraci\u00f3n de bases de datos de series temporales (TSDB), los cuales se convirtieron en la categor\u00eda de base de datos de m\u00e1s r\u00e1pido crecimiento desde 2019. Sin embargo, dado que cada infraestructura de monitoreo tiene sus propias particularidades, elegir la soluci\u00f3n m\u00e1s adecuada se volvi\u00f3 bastante laborioso. En consecuencia, implementar soluciones eficientes que involucren bases de datos para series temporales se convirti\u00f3 en una ardua tarea, no solo en t\u00e9rminos de seleccionar e invertir en la infraestructura de software y hardware m\u00e1s adecuada, sino tambi\u00e9n en t\u00e9rminos de encontrar personal experto capaz de realizar un seguimiento adecuado y dominar esas tecnolog\u00edas en r\u00e1pida y constante evoluci\u00f3n.\r\nPor tal de mitigar estos problemas, esta investigaci\u00f3n propone un dise\u00f1o de TSDB altamente eficiente para infraestructuras de monitorizaci\u00f3n, con la intenci\u00f3n de proporcionar el mejor equilibrio entre el rendimiento y el consumo de recursos. Particularmente, nuestra investigaci\u00f3n proporciona las siguientes tres principales contribuciones: (1) Un modelo de datos para series temporales sobre bases de datos orientadas a documentos, con el objetivo de beneficiarse de sus propiedades de esquema flexible y de su popularidad. (2) Una t\u00e9cnica para integrar de manera eficiente varios modelos de datos contiguos en un solo almac\u00e9n de datos, creando un patr\u00f3n de flujo de datos denominado Persistencia Pol\u00edglota en Cascada. Esta t\u00e9cnica permite adaptar la base de datos a la naturaleza y progresi\u00f3n de los datos de series temporales a lo largo del tiempo, ya que se adapta a las operaciones esperadas de acuerdo con el envejecimiento de los datos, lo que permite un mayor rendimiento y limita el consumo de recursos. (3) Una estrategia de escalabilidad hol\u00edstica, con el objetivo de maximizar a\u00fan m\u00e1s los beneficios de nuestro enfoque pol\u00edglota cuando se implementa en forma de cl\u00faster.\r\nPor tal de evaluar el rendimiento de nuestra propuesta, lo materializamos sobre MongoDB, la base de datos NoSQL m\u00e1s popular, lo que facilita a\u00fan m\u00e1s su adopci\u00f3n. Adem\u00e1s, lo comparamos con dos soluciones alternativas: InfluxDB, TSDB m\u00e1s popular, y el mismo MongoDB. Los resultados muestran que nuestra propuesta es capaz de recuperar datos hist\u00f3ricos hasta m\u00e1s de 10 veces m\u00e1s r\u00e1pido que MongoDB, mientras que tambi\u00e9n supera globalmente a InfluxDB. Adem\u00e1s, ha demostrado ser capaz de ingerir flujos de datos en tiempo real dos veces m\u00e1s r\u00e1pido que MongoDB e InfluxDB, mientras requiere el mismo espacio en disco que InfluxDB. En cuanto a su escalabilidad, ha demostrado ser capaz de reducir en gran medida la cantidad de m\u00e1quinas necesarias, al mismo tiempo que ofrece una eficiencia de escalabilidad de hasta el 85%.\r\nEstos resultados positivos allanan el camino hacia NagareDB, nuestra TSDB, destinada a integrar todos estas propuestas y dise\u00f1os, brind\u00e1ndolos como una soluci\u00f3n lista para usar.<\/jats:p>","DOI":"10.5821\/dissertation-2117-413897","type":"dissertation","created":{"date-parts":[[2024,9,6]],"date-time":"2024-09-06T01:23:50Z","timestamp":1725585830000},"approved":{"date-parts":[[2022,12,12]]},"source":"Crossref","is-referenced-by-count":0,"title":["A highly efficient time-series database approach for monitoring infrastructures"],"prefix":"10.5821","author":[{"sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Carlos","family":"Garc\u00eda Calatrava","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"3865","container-title":[],"original-title":[],"deposited":{"date-parts":[[2026,1,23]],"date-time":"2026-01-23T06:36:54Z","timestamp":1769150214000},"score":1,"resource":{"primary":{"URL":"https:\/\/hdl.handle.net\/2117\/413897"}},"subtitle":[],"editor":[{"given":"Fernando","family":"Cucchietti","sequence":"first","affiliation":[],"role":[{"role":"editor","vocabulary":"crossref"}]},{"given":"Yolanda","family":"Becerra Fontal","sequence":"additional","affiliation":[],"role":[{"role":"editor","vocabulary":"crossref"}]}],"short-title":[],"issued":{"date-parts":[[null]]},"references-count":0,"URL":"https:\/\/doi.org\/10.5821\/dissertation-2117-413897","relation":{},"subject":[]}}