{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,28]],"date-time":"2025-10-28T15:02:05Z","timestamp":1761663725428,"version":"3.37.3"},"reference-count":34,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2018,2,19]],"date-time":"2018-02-19T00:00:00Z","timestamp":1518998400000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100005357","name":"Agent\u00fara na Podporu V\u00fdskumu a V\u00fdvoja","doi-asserted-by":"publisher","award":["APVV-15-0517"],"award-info":[{"award-number":["APVV-15-0517"]}],"id":[{"id":"10.13039\/501100005357","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100006109","name":"Vedeck\u00e1 Grantov\u00e1 Agent\u00fara M\u0160VVa\u0160 SR a SAV","doi-asserted-by":"publisher","award":["VEGA 1\/0511\/17"],"award-info":[{"award-number":["VEGA 1\/0511\/17"]}],"id":[{"id":"10.13039\/501100006109","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J Intell Inf Syst"],"published-print":{"date-parts":[[2018,10]]},"DOI":"10.1007\/s10844-018-0499-2","type":"journal-article","created":{"date-parts":[[2018,2,19]],"date-time":"2018-02-19T04:20:24Z","timestamp":1519014024000},"page":"439-455","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":13,"title":["Weighted fast sequential DTW for multilingual audio Query-by-Example retrieval"],"prefix":"10.1007","volume":"51","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-4380-0801","authenticated-orcid":false,"given":"Jozef","family":"Vavrek","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Peter","family":"Viszlay","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Martin","family":"Lojka","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jozef","family":"Juh\u00e1r","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mat\u00fa\u0161","family":"Pleva","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2018,2,19]]},"reference":[{"unstructured":"Anguera, X., Rodriguez Fuentes, L. J., Szoke, I., Buzo, A., & Metze, F. (2014). Query by Example Search on Speech at Mediaeval 2014. In Working notes Proceedings of the MediaEval 2014. Barcelona: Workshop.","key":"499_CR1"},{"unstructured":"Anguera, X., & et al. (2013). The telefonica research spoken web search system for MediaEval 2013. In Working notes proceedings of the mediaeval 2013. Barcelona: CEUR Workshop Proceedings CEUR-WS.org.","key":"499_CR2"},{"unstructured":"Aradilla, G., Vepa, J., & Bourlard, H. (2006). Using posterior-based features in template matching for speech recognition. In Proceedings of INTERSPEECH\u201906 (pp. 1186\u20131189). Pittsburgh: IEEE.","key":"499_CR3"},{"unstructured":"Buzo, A., Cucu, H., & Burileanu, C. (2014). SpeeD@MediaEval 2014: spoken term detection with robust multilingual phone recognition. In Working notes proceedigs of the mediaeval 2014. Barcelona: Workshop.","key":"499_CR4"},{"unstructured":"Calvo, M., Gim\u00e9nez, M., Hurtado, L.F., Arnal, E.S., & G\u00f3mez, J.A. (2014). ELiRF at MediaEval 2014: query by example search on speech task (QUESST). In Working notes proceedings of the mediaeval 2014. Barcelona: Workshop.","key":"499_CR5"},{"doi-asserted-by":"crossref","unstructured":"Chan, C.A., & Lee, L.S. (2011). Integrating frame-based and segment-based dynamic time warping for unsupervised spoken term detection with spoken queries. In 2011 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 5652\u20135655). Prague: IEEE.","key":"499_CR6","DOI":"10.1109\/ICASSP.2011.5947642"},{"issue":"2","key":"499_CR7","doi-asserted-by":"publisher","first-page":"167","DOI":"10.1007\/s10844-016-0438-z","volume":"49","author":"A Czyzewski","year":"2017","unstructured":"Czyzewski, A., Kostek, B., Bratoszewski, P., Kotus, J., & Szykulski, M. (2017). An audio-visual corpus for multimodal automatic speech recognition. Journal of Intelligent Information Systems, 49 (2), 167\u2013192. https:\/\/doi.org\/10.1007\/s10844-016-0438-z .","journal-title":"Journal of Intelligent Information Systems"},{"doi-asserted-by":"crossref","unstructured":"Dubois, C., & Charlet, D. (2008). Using textual information from LVCSR transcripts for phonetic-based spoken term detection. In ICASSP 2008 (pp. 4961\u20134964). Las Vegas: IEEE.","key":"499_CR8","DOI":"10.1109\/ICASSP.2008.4518771"},{"unstructured":"Fiscus, J., Ajot, J., & Doddingtion, G. (2006). The spoken term detection (std) 2006 evaluation plan, September (2006) NIST USA.","key":"499_CR9"},{"doi-asserted-by":"crossref","unstructured":"Gehring, J., Miao, Y., Metze, F., & Waibel, A. (2013). Extracting deep bottleneck features using stacked auto-encoders. In ICASSP (pp. 3377\u20133381). Vancouver: IEEE.","key":"499_CR10","DOI":"10.1109\/ICASSP.2013.6638284"},{"doi-asserted-by":"crossref","unstructured":"Hazen, T., Shen, W., & White, C. (2009). Query-by-example spoken term detection using phonetic posteriorgram templates. In IEEE workshop on Automatic speech recognition understanding, 2009. ASRU 2009 (pp. 421\u2013426). Merano: IEEE.","key":"499_CR11","DOI":"10.1109\/ASRU.2009.5372889"},{"unstructured":"van den Heuvel, H., & et al. (2001). SpeechDat-E: Five eastern European speech databases for voice-operated Teleservices completed. In Proceedings of EUROSPEECH. http:\/\/www.isca-speech.org\/archive\/archive_papers\/eurospeech_2001\/e01_2059.pdf (pp. 2059\u20132062). Aalborg: ISCA.","key":"499_CR12"},{"doi-asserted-by":"publisher","unstructured":"Hou, J., Xie, L., & Fu, Z. (2016). Investigating neural network based query-by-example keyword spotting approach for personalized wake-up word detection in mandarin chinese. In 2016 10th international symposium on chinese spoken language processing (ISCSLP). https:\/\/doi.org\/10.1109\/ISCSLP.2016.7918366 (pp. 1\u20135).","key":"499_CR13","DOI":"10.1109\/ISCSLP.2016.7918366"},{"doi-asserted-by":"crossref","unstructured":"Huijbregts, M., McLaren, M., & van Leeuwen, D. (2011). Unsupervised acoustic sub-word unit detection for query-by-example spoken term detection. In 2011 IEEE international conference on Acoustics, speech and signal processing (ICASSP) (pp. 4436\u20134439). Prague: IEEE.","key":"499_CR14","DOI":"10.1109\/ICASSP.2011.5947338"},{"unstructured":"Itakura, F. (1990). Minimum prediction residual principle applied to speech recognition. In Waibel, A., & Lee, K.F. (Eds.) Readings in speech recognition. http:\/\/dl.acm.org\/citation.cfm?id=108235.108243 (pp. 154\u2013158). San Francisco: Morgan Kaufmann Publishers Inc.","key":"499_CR15"},{"unstructured":"Kesiraju, S., Mantena, G.V., & Prahallad, K. (2014). IIIT-h system for MediaEval 2014 QUESST. In Working notes proceedings of the mediaeval (p. 2014). Barcelona: Workshop.","key":"499_CR16"},{"issue":"1","key":"499_CR17","doi-asserted-by":"publisher","first-page":"5","DOI":"10.1007\/s11042-012-1183-0","volume":"68","author":"J Kotus","year":"2014","unstructured":"Kotus, J., Lopatka, K., & Czyzewski, A. (2014). Detection and localization of selected acoustic events in acoustic field for smart surveillance applications. Multimedia Tools and Applications, 68(1), 5\u201321. https:\/\/doi.org\/10.1007\/s11042-012-1183-0 .","journal-title":"Multimedia Tools and Applications"},{"issue":"5","key":"499_CR18","doi-asserted-by":"publisher","first-page":"946","DOI":"10.1109\/TASLP.2014.2311322","volume":"22","author":"G Mantena","year":"2014","unstructured":"Mantena, G., Achanta, S., & Prahallad, K. (2014). Query-by-Example spoken term detection using frequency domain linear prediction and Non-Segmental dynamic time warping. IEEE\/ACM Transactions on Audio, Speech, and Language Processing, 22(5), 946\u2013955.","journal-title":"IEEE\/ACM Transactions on Audio, Speech, and Language Processing"},{"unstructured":"Muscariello, A., Gravier, G., & Bimbot, F. (2011). Zero-resource Audio-Only spoken term detection based on a combination of template matching Techniques. In INTERSPEECH (pp. 921\u2013924). Firenze: ISCA.","key":"499_CR19"},{"doi-asserted-by":"crossref","unstructured":"Ogbureke, K.U., & Carson-Berndsen, J. (2010). Framework for cross-language automatic phonetic segmentation. In Proceedings of ICASSP\u201910 (pp. 5266\u20135269). Dallas: IEEE.","key":"499_CR20","DOI":"10.1109\/ICASSP.2010.5494978"},{"unstructured":"Park, A., & Glass, J.R. (2006). A Novel DTW-based distance measure for speaker segmentation. In SLT (pp. 22\u201325). Palm Beach: IEEE.","key":"499_CR21"},{"issue":"1","key":"499_CR22","doi-asserted-by":"publisher","first-page":"186","DOI":"10.1109\/TASL.2007.909282","volume":"16","author":"AS Park","year":"2008","unstructured":"Park, A.S., & Glass, J.R. (2008). Unsupervised pattern discovery in speech. IEEE Transactions on Audio, Speech, and Language Processing, 16(1), 186\u2013197. IEEE.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"issue":"4","key":"499_CR23","doi-asserted-by":"publisher","first-page":"1143","DOI":"10.1007\/s11042-014-2038-7","volume":"74","author":"C Penet","year":"2015","unstructured":"Penet, C., Demarty, C.H., Gravier, G., & Gros, P. (2015). Variability modelling for audio events detection in movies. Multimedia Tools and Applications, 74 (4), 1143\u20131173.","journal-title":"Multimedia Tools and Applications"},{"unstructured":"Rodriguez-Fuentes, L.J., & Penagarikano, M. (2013). MediaEval 2013 spoken Web search task: system performance measures. Tech. rep., software technologies working group (GTTS, http:\/\/gtts.ehu.es ). http:\/\/gtts.ehu.es\/gtts\/NT\/fulltext\/rodriguezmediaeval13.pdf .","key":"499_CR24"},{"unstructured":"Saraclar, M. (2004). Lattice-based search for spoken utterance retrieval. In Proceedings of HLT-NAACL 2004. https:\/\/www.aclweb.org\/anthology\/N\/N04\/N04-1017.pdf (pp. 129\u2013136). Boston: ACL.","key":"499_CR25"},{"unstructured":"Szoke, I., & et al. (2007). Spoken term detection system based on combination of LVCSR and phonetic search. In MLMI, lecture notes in computer science, (Vol. 4892 pp. 237\u2013247). Brno: Springer.","key":"499_CR26"},{"issue":"30","key":"499_CR27","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/2328967.2328971","volume":"2012","author":"J Tejedor","year":"2012","unstructured":"Tejedor, J., Fap\u0161o, M., Sz\u00f6ke, I., \u010cernock\u00fd, J., & Gr\u00e9zl, F. (2012). Comparison of methods for language-dependent and language-independent query-by-example spoken term detection. ACM Transactions on Information Systems (TOIS), 2012(30), 1\u201334.","journal-title":"ACM Transactions on Information Systems (TOIS)"},{"doi-asserted-by":"publisher","unstructured":"Vavrek, J, & et al. (2015). Query-by-Example retrieval via fast sequential dynamic time warping algorithm. In Telecommunications and signal processing - TSP 2014. https:\/\/doi.org\/10.1109\/TSP.2015.7296440 (pp. 469\u2013473). Berlin: IEEE.","key":"499_CR28","DOI":"10.1109\/TSP.2015.7296440"},{"doi-asserted-by":"crossref","unstructured":"Wang, H., Leung, C.C., Lee, T., Ma, B., & Li, H. (2012). An acoustic segment modeling approach to query-by-example spoken term detection. In Proceedings of ICASSP\u201912 (pp. 5157\u20135160). Kyoto: IEEE.","key":"499_CR29","DOI":"10.1109\/ICASSP.2012.6289081"},{"doi-asserted-by":"crossref","unstructured":"Wang, H., Lee, T., Leung, C.C., Ma, B., & Li, H. (2013a). Unsupervised mining of acoustic subword units with segment-level Gaussian posteriorgrams. In INTERSPEECH (pp. 2297\u20132301). Lyon: ISCA.","key":"499_CR30","DOI":"10.21437\/Interspeech.2013-538"},{"doi-asserted-by":"crossref","unstructured":"Wang, H., Lee, T., Leung, C.C., Ma, B., & Li, H. (2013b). Using parallel tokenizers with DTW matrix combination for low-resource spoken term detection. In 2013 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 8545\u20138549). Vancouver: IEEE.","key":"499_CR31","DOI":"10.1109\/ICASSP.2013.6639333"},{"unstructured":"Yang, P., Xu, H., Xiao, X., Xie, L., Leung, C.C., Chen, H., Yu, J., Lv, H., Wang, L., Leow, S.J., & Ma, B. (2014). The NNI Query-by-Example System for MediaEval 2014. In Working Notes Proceedings of the MediaEval 2014 Workshop, CEUR Workshop Proceedings (CEUR-WS.org). Barcelona, Catalunya, Spain, October 16-17, 2014 (pp. 1\u20132). http:\/\/ceur-ws.org\/Vol-1263\/mediaeval2014_submission_69.pdf .","key":"499_CR32"},{"key":"499_CR33","volume-title":"The HTK book (for HTK Version 3.4)","author":"S Young","year":"2006","unstructured":"Young, S., & et al. (2006). The HTK book (for HTK Version 3.4). Cambridge: Cambridge University."},{"doi-asserted-by":"crossref","unstructured":"Zhang, Y., & Glass, J.R. (2009). Unsupervised spoken keyword spotting via segmental DTW on Gaussian posteriorgrams. In ASRU (pp. 398\u2013403). Merano: IEEE.","key":"499_CR34","DOI":"10.1109\/ASRU.2009.5372931"}],"container-title":["Journal of Intelligent Information Systems"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s10844-018-0499-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10844-018-0499-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10844-018-0499-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,8,14]],"date-time":"2022-08-14T14:00:10Z","timestamp":1660485610000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s10844-018-0499-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,2,19]]},"references-count":34,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2018,10]]}},"alternative-id":["499"],"URL":"https:\/\/doi.org\/10.1007\/s10844-018-0499-2","relation":{},"ISSN":["0925-9902","1573-7675"],"issn-type":[{"type":"print","value":"0925-9902"},{"type":"electronic","value":"1573-7675"}],"subject":[],"published":{"date-parts":[[2018,2,19]]},"assertion":[{"value":"21 July 2017","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 January 2018","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 January 2018","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"19 February 2018","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}