{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,15]],"date-time":"2025-10-15T11:40:02Z","timestamp":1760528402814,"version":"build-2065373602"},"reference-count":41,"publisher":"Springer Science and Business Media LLC","issue":"10","license":[{"start":{"date-parts":[[2025,7,9]],"date-time":"2025-07-09T00:00:00Z","timestamp":1752019200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,7,9]],"date-time":"2025-07-09T00:00:00Z","timestamp":1752019200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Knowl Inf Syst"],"published-print":{"date-parts":[[2025,10]]},"DOI":"10.1007\/s10115-025-02516-0","type":"journal-article","created":{"date-parts":[[2025,7,10]],"date-time":"2025-07-10T09:59:56Z","timestamp":1752141596000},"page":"9615-9636","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Comparative analysis of sentence similarity detection using machine and deep learning with vectorization techniques"],"prefix":"10.1007","volume":"67","author":[{"given":"Gayatri Girish","family":"Asalkar","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bechoo","family":"Lal","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Nilesh B.","family":"Korade","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,7,9]]},"reference":[{"key":"2516_CR1","unstructured":"de Oliveira RS, Nascimento EG (2022) Analyzing similarities between legal court documents using natural language processing approaches based on Transformers. arXiv preprint https:\/\/arxiv.org\/abs\/2204.07182"},{"key":"2516_CR2","doi-asserted-by":"crossref","unstructured":"Shabariram CP, Priya Ponnuswamy P (2023) Semantic similarity based automated answer script evaluation system using machine learning pipeline and natural language processing. In: Computational vision and bio-inspired computing: proceedings of ICCVBIC 2022. Springer, Singapore, pp 495\u2013509","DOI":"10.1007\/978-981-19-9819-5_36"},{"key":"2516_CR3","first-page":"1877","volume":"33","author":"T Brown","year":"2020","unstructured":"Brown T, Mann B, Ryder N, Subbiah M, Kaplan JD, Dhariwal P, Neelakantan A, Shyam P, Sastry G, Askell A, Agarwal S (2020) Language models are few-shot learners. Adv Neural Inf Process Syst 33:1877\u20131901","journal-title":"Adv Neural Inf Process Syst"},{"key":"2516_CR4","unstructured":"Radford A. Improving language understanding by generative pre-training"},{"key":"2516_CR5","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2023.127063","volume":"568","author":"J Su","year":"2024","unstructured":"Su J, Ahmed M, Lu Y, Pan S, Bo W, Liu Y (2024) Roformer: Enhanced transformer with rotary position embedding. Neurocomputing 568:127063","journal-title":"Neurocomputing"},{"key":"2516_CR6","doi-asserted-by":"crossref","unstructured":"Reimers N (2019) Sentence-BERT: sentence embeddings using siamese BERT-networks. arXiv preprint https:\/\/arxiv.org\/abs\/1908.10084","DOI":"10.18653\/v1\/D19-1410"},{"key":"2516_CR7","doi-asserted-by":"crossref","unstructured":"Conneau A (2019) Unsupervised cross-lingual representation learning at scale. arXiv preprint https:\/\/arxiv.org\/abs\/1911.02116","DOI":"10.18653\/v1\/2020.acl-main.747"},{"issue":"03","key":"2516_CR8","first-page":"2901","volume":"34","author":"W Liu","year":"2020","unstructured":"Liu W, Zhou P, Zhao Z, Wang Z, Ju Q, Deng H, Wang P (2020) K-bert: Enabling language representation with knowledge graph. Proc AAAI Conf Artif Intell 34(03):2901\u20132908","journal-title":"Proc AAAI Conf Artif Intell"},{"key":"2516_CR9","first-page":"775","volume":"6","author":"T Xu","year":"2020","unstructured":"Xu T, Zhang F (2020) A brief review of relation extraction based on pre-trained language models. Fuzzy Syst Data Min 6:775\u2013789","journal-title":"Fuzzy Syst Data Min"},{"key":"2516_CR10","doi-asserted-by":"publisher","DOI":"10.1016\/j.artmed.2022.102380","volume":"132","author":"A P\u00e9rez","year":"2022","unstructured":"P\u00e9rez A, Parapar J, Barreiro \u00c1 (2022) Automatic depression score estimation with word embedding models. Artif Intell Med 132:102380","journal-title":"Artif Intell Med"},{"issue":"11","key":"2516_CR11","doi-asserted-by":"publisher","first-page":"3081","DOI":"10.1007\/s13042-021-01349-x","volume":"12","author":"R Yu","year":"2021","unstructured":"Yu R, Lu W, Lu H, Wang S, Li F, Zhang X, Yu J (2021) Sentence pair modeling based on semantic feature map for human interaction with IoT devices. Int J Mach Learn Cybern 12(11):3081\u20133099","journal-title":"Int J Mach Learn Cybern"},{"issue":"6","key":"2516_CR12","doi-asserted-by":"publisher","first-page":"3911","DOI":"10.3390\/app13063911","volume":"13","author":"ZH Amur","year":"2023","unstructured":"Amur ZH, Kwang Hooi Y, Bhanbhro H, Dahri K, Soomro GM (2023) Short-text semantic similarity (stss): techniques, challenges and future perspectives. Appl Sci 13(6):3911","journal-title":"Appl Sci"},{"key":"2516_CR13","doi-asserted-by":"crossref","unstructured":"Sun K, Luo X, Luo MY (2022) A survey of pretrained language models. In: International conference on knowledge science, engineering and management. Springer, Cham, pp 442\u2013456","DOI":"10.1007\/978-3-031-10986-7_36"},{"key":"2516_CR14","doi-asserted-by":"crossref","unstructured":"Alsuhaibani M (2023) Deep learning-based sentence embeddings using BERT for textual entailment. Int J Adv Comput Sci Appl 14(8)","DOI":"10.14569\/IJACSA.2023.01408108"},{"key":"2516_CR15","doi-asserted-by":"crossref","unstructured":"Feng J, Liu J, Gu C, Qi H, Ren Z, Xu K, Wang Y (2024) Focusing on differences! Sample framework enhances semantic textual similarity with external knowledge. Expert Syst Appl 124462","DOI":"10.1016\/j.eswa.2024.124462"},{"issue":"2","key":"2516_CR16","doi-asserted-by":"publisher","first-page":"183","DOI":"10.22581\/muet1982.3130","volume":"43","author":"S Ahmad","year":"2024","unstructured":"Ahmad S, Saqib SM, Syed AH (2024) CNN and LSTM based hybrid deep learning model for sentiment analysis on arabic text reviews. Mehran Univ Res J Eng Technol 43(2):183\u2013194","journal-title":"Mehran Univ Res J Eng Technol"},{"issue":"4","key":"2516_CR17","doi-asserted-by":"publisher","first-page":"409","DOI":"10.5391\/IJFIS.2021.21.4.409","volume":"21","author":"HJ Alyamani","year":"2021","unstructured":"Alyamani HJ, Ahmad S, Syed AH, Saqib SM, Al-Otaibi YD (2021) LSI authentication-based Arabic to English text converter. Int J Fuzzy Logic Intell Syst 21(4):409\u2013422","journal-title":"Int J Fuzzy Logic Intell Syst"},{"issue":"10","key":"2516_CR18","doi-asserted-by":"publisher","first-page":"94","DOI":"10.21833\/ijaas.2019.10.015","volume":"6","author":"SM Saqib","year":"2019","unstructured":"Saqib SM, Ahmad S, Syed AH, Naeem T, Alotaibi FM (2019) Analysis of latent Dirichlet allocation and non-negative matrix factorization using latent semantic indexing. Int J Adv Appl Sci 6(10):94\u2013102","journal-title":"Int J Adv Appl Sci"},{"issue":"1","key":"2516_CR19","doi-asserted-by":"publisher","first-page":"26","DOI":"10.21015\/vtse.v11i1.1207","volume":"11","author":"SM Saqib","year":"2023","unstructured":"Saqib SM, Naeem T, Ahmad S, Alorfi AS (2023) Evaluation of deep learning approaches for sentiment analysis. VAWKUM Trans Comput Sci 11(1):26\u201341","journal-title":"VAWKUM Trans Comput Sci"},{"key":"2516_CR20","unstructured":"Korade NB, Salunke MB, Asalkar GG, Khedkar RG, Bhosale AU, Joshi DM, Jadhav AC. Intelligent systems and applications in engineering"},{"key":"2516_CR21","doi-asserted-by":"crossref","unstructured":"Le HT, Cao DT, Bui TH, Luong LT, Nguyen HQ (2021) Improve quora question pair dataset for question similarity task. In: 2021 RIVF international conference on computing and communication technologies (RIVF). IEEE, pp 1\u20135","DOI":"10.1109\/RIVF51545.2021.9642071"},{"key":"2516_CR22","doi-asserted-by":"publisher","first-page":"21932","DOI":"10.1109\/ACCESS.2020.2969041","volume":"8","author":"Z Imtiaz","year":"2020","unstructured":"Imtiaz Z, Umer M, Ahmad M, Ullah S, Choi GS, Mehmood A (2020) Duplicate questions pair detection using siamese malstm. IEEE Access 8:21932\u201321942","journal-title":"IEEE Access"},{"key":"2516_CR23","unstructured":"Nijagunarya Y. Detecting duplicate questions in community based websites using machine learning"},{"key":"2516_CR24","doi-asserted-by":"publisher","first-page":"25964","DOI":"10.1109\/ACCESS.2020.2968391","volume":"8","author":"L Wang","year":"2020","unstructured":"Wang L, Zhang L, Jiang J (2020) Duplicate question detection with deep learning in stack overflow. IEEE Access 8:25964\u201325975","journal-title":"IEEE Access"},{"key":"2516_CR25","doi-asserted-by":"publisher","first-page":"30666","DOI":"10.1109\/ACCESS.2022.3159692","volume":"10","author":"L Wang","year":"2022","unstructured":"Wang L, Liu S, Qiao L, Sun W, Sun Q, Cheng H (2022) A cross-lingual sentence similarity calculation method with multifeature fusion. IEEE Access 10:30666\u201330675","journal-title":"IEEE Access"},{"key":"2516_CR26","doi-asserted-by":"crossref","unstructured":"Wu MJ, Fu TY, Chang YC, Lee CW (2020) A study on natural language processing classified news. In: 2020 Indo\u2013Taiwan 2nd international conference on computing, analytics and networks (Indo-Taiwan ICAN). IEEE, pp 244\u2013247","DOI":"10.1109\/Indo-TaiwanICAN48429.2020.9181355"},{"issue":"1","key":"2516_CR27","first-page":"7923262","volume":"2022","author":"F Lan","year":"2022","unstructured":"Lan F (2022) Research on text similarity measurement hybrid algorithm with term semantic information and TF-IDF method. Adv Multimedia 2022(1):7923262","journal-title":"Adv Multimedia"},{"key":"2516_CR28","doi-asserted-by":"publisher","DOI":"10.1016\/j.imu.2023.101253","volume":"41","author":"EJ Ciaccio","year":"2023","unstructured":"Ciaccio EJ (2023) Use of artificial intelligence in scientific paper writing. Inform Med Unlocked 41:101253","journal-title":"Inform Med Unlocked"},{"issue":"1","key":"2516_CR29","doi-asserted-by":"publisher","first-page":"507","DOI":"10.11591\/ijeecs.v37.i1.pp507-517","volume":"37","author":"NB Korade","year":"2025","unstructured":"Korade NB, Salunke MB, Bhosle AA, Asalkar GG, Lal B, Kumbharkar PB (2025) Elevating intelligent voice assistant chatbots with natural language processing, and OpenAI technologies. Indonesian J Electr Eng Comput Sci 37(1):507\u2013517","journal-title":"Indonesian J Electr Eng Comput Sci"},{"issue":"1","key":"2516_CR30","doi-asserted-by":"publisher","first-page":"101","DOI":"10.1504\/IJPMB.2021.112258","volume":"11","author":"IL Ansorena","year":"2021","unstructured":"Ansorena IL (2021) On the benchmarking of port performance: a cosine similarity approach. Int J Process Manag Benchmark 11(1):101\u2013114","journal-title":"Int J Process Manag Benchmark"},{"issue":"4","key":"2516_CR31","first-page":"391","volume":"19","author":"RS Ramya","year":"2021","unstructured":"Ramya RS, Singh G, Sejal SN, Venugopal KR, Iyengar SS, Patnaik LM (2021) R 2 DCLT: retrieving relevant documents using cosine similarity and LDA in text mining. Int J Inf Commun Technol 19(4):391\u2013422","journal-title":"Int J Inf Commun Technol"},{"issue":"11","key":"2516_CR32","doi-asserted-by":"publisher","first-page":"5720","DOI":"10.3390\/app12115720","volume":"12","author":"AS Alammary","year":"2022","unstructured":"Alammary AS (2022) BERT models for Arabic text classification: a systematic review. Appl Sci 12(11):5720","journal-title":"Appl Sci"},{"key":"2516_CR33","unstructured":"Saha BN, Senapati A (2020) Long short term memory (lstm) based deep learning for sentiment analysis of english and spanish data. In: 2020 international conference on computational performance evaluation (ComPE). IEEE, pp 442\u2013446"},{"key":"2516_CR34","doi-asserted-by":"crossref","unstructured":"Korade NB, Zuber DM (2023) Boost stock forecasting accuracy using the modified firefly algorithm and multichannel convolutional neural network. J Theor Appl Inf Technol 15(7)","DOI":"10.1007\/978-981-99-2742-5_46"},{"key":"2516_CR35","doi-asserted-by":"crossref","unstructured":"Korade NB, Zuber M (2022) Stock price forecasting using convolutional neural networks and optimization techniques. Int J Adv Comput Sci Appl 13(11)","DOI":"10.14569\/IJACSA.2022.0131142"},{"issue":"17","key":"2516_CR36","doi-asserted-by":"publisher","first-page":"5682","DOI":"10.3390\/s21175682","volume":"21","author":"C Wang","year":"2021","unstructured":"Wang C, Xu S, Yang J (2021) Adaboost algorithm in artificial intelligence for optimizing the IRI prediction accuracy of asphalt concrete pavement. Sensors 21(17):5682","journal-title":"Sensors"},{"key":"2516_CR37","unstructured":"Alghazzawi DM, Alquraishee AG, Badri SK, Hasan SH. ERF-XGB: Ensemble Random Forest-Based XG Boost for Accurate Prediction and Classification of E-Commerce Product Review: Sustainability"},{"key":"2516_CR38","doi-asserted-by":"crossref","unstructured":"Korade NB, Salunke MB, Bhosle AA, Kumbharkar PB, Asalkar GG, Khedkar RG (2024) Strengthening sentence similarity identification through openAI embeddings and deep learning. Int J Adv Comput Sci Appl 15(4)","DOI":"10.14569\/IJACSA.2024.0150485"},{"issue":"3","key":"2516_CR39","first-page":"11","volume":"12","author":"NB Korade","year":"2024","unstructured":"Korade NB, Salunke MB, Asalkar GG, Khedkar RG, Bhosale AU, Joshi DM, Jadhav AC (2024) Exploring NLP techniques for duplicate question detection to maximizing responses on Q&A websites. Int J Intell Syst Appl Eng 12(3):11\u201320","journal-title":"Int J Intell Syst Appl Eng"},{"key":"2516_CR40","unstructured":"Amouyal S, Wolfson T, Rubin O, Yoran O, Herzig J, Berant J (2023) QAMPARI: a benchmark for open-domain questions with many answers. In: Proceedings of the third workshop on natural language generation, evaluation, and metrics (GEM), pp 97\u2013110"},{"key":"2516_CR41","unstructured":"Patel M, Anand A (2024) Factuality or fiction? Benchmarking modern LLMs on ambiguous QA with citations. arXiv preprint https:\/\/arxiv.org\/abs\/2412.18051"}],"container-title":["Knowledge and Information Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10115-025-02516-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10115-025-02516-0\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10115-025-02516-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,15]],"date-time":"2025-10-15T10:58:47Z","timestamp":1760525927000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10115-025-02516-0"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,7,9]]},"references-count":41,"journal-issue":{"issue":"10","published-print":{"date-parts":[[2025,10]]}},"alternative-id":["2516"],"URL":"https:\/\/doi.org\/10.1007\/s10115-025-02516-0","relation":{},"ISSN":["0219-1377","0219-3116"],"issn-type":[{"type":"print","value":"0219-1377"},{"type":"electronic","value":"0219-3116"}],"subject":[],"published":{"date-parts":[[2025,7,9]]},"assertion":[{"value":"28 January 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"24 April 2025","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"5 June 2025","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 July 2025","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no competing interests.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}},{"value":"This article does not contain any studies with human participants or animals performed by any of the authors.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethical approval"}},{"value":"All the authors involved have agreed to participate in this submitted article.","order":4,"name":"Ethics","group":{"name":"EthicsHeading","label":"Consent to participate"}},{"value":"All the authors involved in this manuscript give full consent for publication of this submitted article.","order":5,"name":"Ethics","group":{"name":"EthicsHeading","label":"Consent to Publish"}}]}}