{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,10]],"date-time":"2025-10-10T16:10:35Z","timestamp":1760112635198,"version":"build-2065373602"},"reference-count":59,"publisher":"Frontiers Media SA","license":[{"start":{"date-parts":[[2025,10,10]],"date-time":"2025-10-10T00:00:00Z","timestamp":1760054400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":["frontiersin.org"],"crossmark-restriction":true},"short-container-title":["Front. Artif. Intell."],"abstract":"<jats:p>In the fast-moving world of AI, as organizations and researchers develop more advanced models, they face challenges due to their sheer size and computational demands. Deploying such models on edge devices or in resource-constrained environments adds further challenges related to energy consumption, memory usage and latency. To address these challenges, emerging trends are shaping the future of efficient model optimization techniques. From this premise, by employing supervised state-of-the-art transformer-based models, this research introduces a systematic method for ontology alignment, grounded in cosine-based semantic similarity between a biomedical layman vocabulary and the Unified Medical Language System (UMLS) Metathesaurus. It leverages Microsoft Olive to search for target optimizations among different Execution Providers (EPs) using the ONNX Runtime backend, followed by an assembled process of dynamic quantization employing Intel Neural Compressor and IPEX (Intel Extension for PyTorch). Through our optimization process, we conduct extensive assessments on the two tasks from the DEFT 2020 Evaluation Campaign, achieving a new state-of-the-art in both. We retain performance metrics intact, while attaining an average inference speed-up of 20x and reducing memory usage by 70%.<\/jats:p>","DOI":"10.3389\/frai.2025.1662984","type":"journal-article","created":{"date-parts":[[2025,10,10]],"date-time":"2025-10-10T15:32:52Z","timestamp":1760110372000},"update-policy":"https:\/\/doi.org\/10.3389\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Search-optimized quantization in biomedical ontology alignment"],"prefix":"10.3389","volume":"8","author":[{"given":"Oussama","family":"Bouaggad","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Natalia","family":"Grabar","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"1965","published-online":{"date-parts":[[2025,10,10]]},"reference":[{"key":"B1","doi-asserted-by":"publisher","first-page":"1079","DOI":"10.1109\/TETC.2023.3346944","article-title":"Hardware-aware DNN compression via diverse pruning and mixed-precision quantization","volume":"12","author":"Balaskas","year":"2024","journal-title":"IEEE Trans. Emerg. Top. Comput"},{"key":"B2","doi-asserted-by":"publisher","first-page":"D267","DOI":"10.1093\/nar\/gkh061","article-title":"The unified medical language system (UMLS): integrating biomedical terminology","volume":"32","author":"Bodenreider","year":"2004","journal-title":"Nucleic Acids Res"},{"key":"B3","first-page":"14","article-title":"\u201cCalcul de similarit\u00e9 entre phrases : quelles mesures et quels descripteurs? (sentence similarity: a study on similarity metrics with words and character strings),\u201d","volume-title":"Actes de la 6e conf\u00e9rence conjointe Journ\u00e9es d'\u00c9tudes sur la Parole (JEP, 33e \u00e9dition), Traitement Automatique des Langues Naturelles (TALN, 27e \u00e9dition), Rencontre des \u00c9tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R\u00c9CITAL, 22e \u00e9dition) Atelier D\u00c9fi Fouille de Textes","author":"Buscaldi","year":"2020"},{"key":"B4","first-page":"1","article-title":"\u201cPr\u00e9sentation de la campagne d'\u00e9valuation DEFT 2020 : similarit\u00e9 textuelle en domaine ouvert et extraction d'information pr\u00e9cise dans des cas cliniques (Presentation of the DEFT 2020 challenge: Open domain textual similarity and precise information extraction from clinical cases),\u201d","author":"Cardon","year":"2020","journal-title":"Actes de la 6e conf\u00e9rence conjointe Journ\u00e9es d'\u00c9tudes sur la Parole (JEP, 33e \u00e9dition), Traitement Automatique des Langues Naturelles (TALN, 27e \u00e9dition), Rencontre des \u00c9tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R\u00c9CITAL, 22e \u00e9dition). Atelier D\u00c9fi Fouille de Textes"},{"key":"B5","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1707.01209","article-title":"Model compression as constrained optimization, with application to neural nets. Part I: General framework","author":"Carreira-Perpi\u00f1\u00e1n","year":"2017","journal-title":"arXiv [Preprint]."},{"key":"B6","doi-asserted-by":"crossref","first-page":"392","DOI":"10.1007\/978-3-030-77385-4_23","article-title":"\u201cAugmenting ontology alignment by semantic embedding and distant supervision,\u201d","volume-title":"The Semantic Web","author":"Chen","year":"2021"},{"key":"B7","first-page":"3123","article-title":"\u201cBinaryconnect: training deep neural networks with binary weights during propagations,\u201d","volume-title":"Proceedings of the 28th International Conference on Neural Information Processing Systems - Volume 2, NIPS'15","author":"Courbariaux","year":"2015"},{"key":"B8","doi-asserted-by":"publisher","first-page":"i","DOI":"10.1017\/S1351324909990209","article-title":"Recognizing textual entailment: rational, evaluation and approaches","volume":"15","author":"Dagan","year":"2009","journal-title":"Nat. Lang. Eng"},{"key":"B9","first-page":"49","article-title":"\u201cApproche supervis\u00e9e de calcul de similarit\u00e9 s\u00e9mantique entre paires de phrases (supervised approach to compute semantic similarity between sentence pairs),\u201d","volume-title":"Actes de la 6e conf\u00e9rence conjointe Journ\u00e9es d'\u00c9tudes sur la Parole (JEP, 33e \u00e9dition), Traitement Automatique des Langues Naturelles (TALN, 27e \u00e9dition), Rencontre des \u00c9tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R\u00c9CITAL, 22e \u00e9dition). Atelier D\u00c9fi Fouille de Textes","author":"Dram\u00e9","year":"2020"},{"key":"B10","volume-title":"Ontology Matching","author":"Euzenat","year":"2007"},{"key":"B11","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2302.01588","article-title":"Bioformer: An efficient transformer language model for biomedical text mining","author":"Fang","year":"2023","journal-title":"arXiv preprint arXiv:2302.01588"},{"key":"B12","doi-asserted-by":"crossref","first-page":"527","DOI":"10.1007\/978-3-642-41030-7_38","article-title":"\u201cThe agreementmakerlight ontology matching system,\u201d","volume-title":"On the Move to Meaningful Internet Systems: OTM 2013 Conferences","author":"Faria","year":"2013"},{"key":"B13","unstructured":"\u201cThe lottery ticket hypothesis: finding sparse, trainable neural networks,\u201d\n          \n          \n            \n              Frankle\n              J.\n            \n            \n              Carbin\n              M.\n            \n          \n          OpenReview.net\n          ICLR\n          \n          2019"},{"key":"B14","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3458754","article-title":"Domain-specific language model pretraining for biomedical natural language processing","volume":"3","author":"Gu","year":"2021","journal-title":"ACM Trans. Comput. Healthcare"},{"key":"B15","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1608.04493","article-title":"Dynamic network surgery for efficient DNNs","author":"Guo","year":"2016","journal-title":"arXiv preprint arXiv:1608.04493"},{"key":"B16","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1510.00149","article-title":"Deep compression: Compressing deep neural network with pruning, trained quantization and huffman coding","author":"Han","year":"2015","journal-title":"arXiv preprint arXiv:1510.00149"},{"key":"B17","first-page":"164","article-title":"\u201cSecond order derivatives for network pruning: optimal brain surgeon,\u201d","volume-title":"Proceedings of the 6th International Conference on Neural Information Processing Systems, Denver, CO, NIPS'92","author":"Hassibi","year":"1992"},{"key":"B18","unstructured":"\u201cBiomedical ontology alignment with BERT,\u201d\n          \n          1\n          12\n          \n            \n              He\n              Y.\n            \n            \n              Chen\n              J.\n            \n            \n              Antonyrajah\n              D.\n            \n            \n              Horrocks\n              I.\n            \n          \n          Proceedings of the 16th International Workshop on Ontology Matching co-located with the 20th International Semantic Web Conference (ISWC 2021), CEUR Workshop Proceedings, vol. 3063\n          \n          2021"},{"key":"B19","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1503.02531","article-title":"Distilling the knowledge in a neural network","author":"Hinton","year":"2015","journal-title":"arXiv preprint arXiv:1503.02531"},{"key":"B20","doi-asserted-by":"publisher","first-page":"149","DOI":"10.1109\/MDAT.2023.3307558","article-title":"On hardware-aware design and optimization of edge intelligence","volume":"40","author":"Huai","year":"2023","journal-title":"IEEE Des. Test"},{"key":"B21","doi-asserted-by":"publisher","first-page":"2704","DOI":"10.1109\/CVPR.2018.00286","article-title":"\u201cQuantization and training of neural networks for efficient integer-arithmetic-only inference,\u201d","author":"Jacob","year":"2018","journal-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)"},{"key":"B22","unstructured":"BERT-based ranking for biomedical entity normalization\n          \n          269\n          \n            \n              Ji\n              Z.\n            \n            \n              Wei\n              Q.\n            \n            \n              Xu\n              H.\n            \n          \n          AMIA Summits Transl. Sci. Proc\n          2020\n          2020"},{"key":"B23","doi-asserted-by":"crossref","first-page":"273","DOI":"10.1007\/978-3-642-25073-6_18","article-title":"\u201cLogMap: logic-based and scalable ontology matching,\u201d","volume-title":"The Semantic Web-ISWC 2011","author":"Jim\u00e9nez-Ruiz","year":"2011"},{"key":"B24","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2101.01321","article-title":"I-BERT: integer-only BERT quantization","author":"Kim","year":"2021","journal-title":"arXiv preprint arXiv:2101.01321"},{"key":"B25","first-page":"787","article-title":"\u201cDeepAlignment: unsupervised ontology matching with refined word vectors,\u201d","volume-title":"Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)","author":"Kolyvakis","year":"2018"},{"key":"B26","article-title":"\u201cRated lexicon for the simplification of medical texts,\u201d","volume-title":"The Fifth International Conference on Informatics and Assistive Technologies for Health-Care, Medical Support and Wellbeing HEALTHINFO 2020","author":"Koptient","year":"2020"},{"key":"B27","first-page":"129","article-title":"\u201cOntologies in bioinformatics and systems biology,\u201d","volume-title":"Artificial Intelligence Methods And Tools For Systems Biology","author":"Lambrix","year":"2004"},{"key":"B28","first-page":"598","article-title":"\u201cOptimal brain damage,\u201d","volume-title":"Proceedings of the 3rd International Conference on Neural Information Processing Systems, NIPS'89","author":"LeCun","year":"1989"},{"key":"B29","doi-asserted-by":"publisher","first-page":"1234","DOI":"10.1093\/bioinformatics\/btz682","article-title":"BioBERT: a pre-trained biomedical language representation model for biomedical text mining","volume":"36","author":"Lee","year":"2020","journal-title":"Bioinformatics"},{"key":"B30","doi-asserted-by":"publisher","first-page":"4228","DOI":"10.18653\/v1\/2021.naacl-main.334","author":"Liu","year":"2021","journal-title":"Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies"},{"key":"B31","doi-asserted-by":"crossref","first-page":"3449","DOI":"10.18653\/v1\/P19-1335","article-title":"\u201cZero-shot entity linking by reading entity descriptions,\u201d","volume-title":"Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics","author":"Logeswaran","year":"2019"},{"key":"B32","unstructured":"\u201cMixed precision training,\u201d\n          \n          \n            \n              Micikevicius\n              P.\n            \n            \n              Narang\n              S.\n            \n            \n              Alben\n              J.\n            \n            \n              Diamos\n              G.\n            \n            \n              Elsen\n              E.\n            \n            \n              Garcia\n              D.\n            \n          \n          International Conference on Learning Representations\n          \n          2018"},{"key":"B33","unstructured":"\u201cEfficient estimation of word representations in vector space,\u201d\n          \n          \n            \n              Mikolov\n              T.\n            \n            \n              Chen\n              K.\n            \n            \n              Corrado\n              G.\n            \n            \n              Dean\n              J.\n            \n          \n          31752376\n          1st International Conference on Learning Representations, ICLR 2013, Scottsdale, Arizona, USA, May 2-4, 2013, Workshop Track Proceedings\n          \n          2013"},{"key":"B34","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1906.04721","article-title":"Data-free quantization through weight equalization and bias correction","author":"Nagel","year":"2019","journal-title":"arXiv preprint arXiv:1906.04721"},{"key":"B35","doi-asserted-by":"crossref","first-page":"319","DOI":"10.18653\/v1\/W19-5034","article-title":"\u201cScispaCy: fast and robust models for biomedical natural language processing,\u201d","volume-title":"Proceedings of the 18th BioNLP Workshop and Shared Task","author":"Neumann","year":"2019"},{"key":"B36","doi-asserted-by":"publisher","first-page":"473","DOI":"10.1162\/neco.1992.4.4.473","article-title":"Simplifying neural networks by soft weight-sharing","volume":"4","author":"Nowlan","year":"1992","journal-title":"Neural Comput"},{"key":"B37","doi-asserted-by":"publisher","first-page":"60","DOI":"10.1145\/3524066","article-title":"Quantized sparse training: a unified trainable framework for joint pruning and quantization in DNNs","volume":"21","author":"Park","year":"2022","journal-title":"ACM Trans. Embed. Comput. Syst"},{"key":"B38","first-page":"7985","article-title":"\u201cAdaptive loss-aware quantization for multi-bit networks,\u201d","volume-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","author":"Qu","year":"2020"},{"key":"B39","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2208.06064","article-title":"Mixed-precision neural networks: a survey","author":"Rakka","year":"2022","journal-title":"arXiv preprint arXiv:2208.06064"},{"key":"B40","doi-asserted-by":"publisher","first-page":"97","DOI":"10.1145\/3623402","article-title":"A comprehensive survey on model quantization for deep neural networks in image classification","volume":"14","author":"Rokh","year":"2023","journal-title":"ACM Trans. Intell. Syst. Technol."},{"key":"B41","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s11334-023-00540-3","article-title":"Hyperparameter optimization for deep neural network models: a comprehensive study on methods and techniques","volume":"21","author":"Roy","year":"2023","journal-title":"Innov. Syst. Softw. Eng"},{"key":"B42","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2306.04879","article-title":"Augmenting Hessians with inter-layer dependencies for mixed-precision post-training quantization","author":"Schaefer","year":"2023","journal-title":"arXiv preprint arXiv:2306.04879"},{"key":"B43","doi-asserted-by":"publisher","first-page":"8815","DOI":"10.1609\/aaai.v34i05.6409","article-title":"Q-BERT: hessian based ultra low precision quantization of BERT","volume":"34","author":"Shen","year":"2020","journal-title":"Proc. AAAI Conf. Artif. Intell"},{"key":"B44","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1109\/ISCAS45731.2020.9180868","article-title":"\u201cA power efficient multi-bit accelerator for memory prohibitive deep neural networks,\u201d","author":"Shivapakash","year":"2020","journal-title":"2020 IEEE International Symposium on Circuits and Systems (ISCAS)"},{"key":"B45","doi-asserted-by":"crossref","first-page":"3641","DOI":"10.18653\/v1\/2020.acl-main.335","article-title":"\u201cBiomedical entity representations with synonym marginalization,\u201d","volume-title":"Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL)","author":"Sung","year":"2020"},{"key":"B46","first-page":"97","article-title":"\u201cSimilarit\u00e9 s\u00e9mantique entre phrases : apprentissage par transfert interlingue (semantic sentence similarity: multilingual transfer learning),\u201d","volume-title":"Actes de la 6e conf\u00e9rence conjointe Journ\u00e9es d'\u00c9tudes sur la Parole (JEP, 33e \u00e9dition), Traitement Automatique des Langues Naturelles (TALN, 27e \u00e9dition), Rencontre des \u00c9tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R\u00c9CITAL, 22e \u00e9dition)","author":"Teiss\u00e8dre","year":"2020"},{"key":"B47","first-page":"6000","article-title":"\u201cAttention is all you need,\u201d","volume-title":"Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, CA, NIPS'17","author":"Vaswani","year":"2017"},{"key":"B48","doi-asserted-by":"publisher","first-page":"47","DOI":"10.18653\/v1\/W18-2306","article-title":"\u201cOntology alignment in the biomedical domain using entity definitions and context,\u201d","author":"Wang","year":"2018","journal-title":"Proceedings of the BioNLP 2018 workshop"},{"key":"B49","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1808.09397","article-title":"MedSTS: A resource for clinical semantic textual similarity","author":"Wang","year":"2018","journal-title":"arXiv preprint arXiv:1808.09397"},{"key":"B50","doi-asserted-by":"crossref","first-page":"259","DOI":"10.1007\/978-3-030-58526-6_16","article-title":"\u201cDifferentiable joint pruning and quantization for hardware efficiency,\u201d","volume-title":"Computer Vision - ECCV 2020: 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XXIX","author":"Wang","year":"2020"},{"key":"B51","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2004.09602","article-title":"Integer quantization for deep learning inference: principles and empirical evaluation","author":"Wu","year":"2020","journal-title":"arXiv preprint arXiv:2004.09602"},{"key":"B52","doi-asserted-by":"publisher","first-page":"6397","DOI":"10.18653\/v1\/2020.emnlp-main.519","article-title":"\u201cScalable zero-shot entity linking with dense entity retrieval,\u201d","author":"Wu","year":"2020","journal-title":"Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)"},{"key":"B53","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2211.10438","article-title":"SmoothQuant: Accurate and efficient post-training quantization for large language models","author":"Xiao","year":"2024","journal-title":"arXiv preprint arXiv:2211.10438"},{"key":"B54","doi-asserted-by":"publisher","first-page":"8452","DOI":"10.18653\/v1\/2020.acl-main.748","article-title":"\u201cA generate-and-rank framework with semantic type regularization for biomedical concept normalization,\u201d","author":"Xu","year":"2020","journal-title":"Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics"},{"key":"B55","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1709.00513","article-title":"Training shallow and thin networks for acceleration via knowledge distillation with conditional adversarial networks","author":"Xu","year":"2017","journal-title":"arXiv preprint arXiv:1709.00513"},{"key":"B56","doi-asserted-by":"crossref","first-page":"2175","DOI":"10.1109\/CVPR42600.2020.00225","article-title":"\u201cAutomatic neural network compression by sparsity-quantization joint learning: a constrained optimization-based approach,\u201d","volume-title":"2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","author":"Yang","year":"2020"},{"key":"B57","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2010.01892","article-title":"Joint pruning and quantization for extremely sparse neural networks","author":"Yu","year":"2020","journal-title":"arXiv preprint arXiv:2010.01892"},{"key":"B58","doi-asserted-by":"crossref","first-page":"868","DOI":"10.18653\/v1\/2022.findings-emnlp.61","article-title":"\u201cKnowledge-rich self-supervision for biomedical entity linking,\u201d","volume-title":"Findings of the Association for Computational Linguistics: EMNLP 2022","author":"Zhang","year":"2022"},{"key":"B59","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1901.09504","article-title":"Improving neural network quantization without retraining using outlier channel splitting","author":"Zhao","year":"2019","journal-title":"arXiv preprint arXiv:1901.09504"}],"container-title":["Frontiers in Artificial Intelligence"],"original-title":[],"link":[{"URL":"https:\/\/www.frontiersin.org\/articles\/10.3389\/frai.2025.1662984\/full","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,10]],"date-time":"2025-10-10T15:33:01Z","timestamp":1760110381000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.frontiersin.org\/articles\/10.3389\/frai.2025.1662984\/full"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,10]]},"references-count":59,"alternative-id":["10.3389\/frai.2025.1662984"],"URL":"https:\/\/doi.org\/10.3389\/frai.2025.1662984","relation":{},"ISSN":["2624-8212"],"issn-type":[{"value":"2624-8212","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,10,10]]},"article-number":"1662984"}}