{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,13]],"date-time":"2026-01-13T02:55:13Z","timestamp":1768272913766,"version":"3.49.0"},"reference-count":78,"publisher":"Springer Science and Business Media LLC","issue":"9","license":[{"start":{"date-parts":[[2022,1,22]],"date-time":"2022-01-22T00:00:00Z","timestamp":1642809600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2022,1,22]],"date-time":"2022-01-22T00:00:00Z","timestamp":1642809600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Neural Comput &amp; Applic"],"published-print":{"date-parts":[[2022,5]]},"DOI":"10.1007\/s00521-021-06781-2","type":"journal-article","created":{"date-parts":[[2022,1,22]],"date-time":"2022-01-22T00:04:11Z","timestamp":1642809851000},"page":"6861-6877","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":9,"title":["InstaIndoor and multi-modal deep learning for indoor scene recognition"],"prefix":"10.1007","volume":"34","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-8882-7461","authenticated-orcid":false,"given":"Andreea","family":"Glavan","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Estefan\u00eda","family":"Talavera","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2022,1,22]]},"reference":[{"key":"6781_CR1","unstructured":"Abadi M, Agarwal A, Barham P, Brevdo E, Chen Z, Citro C, Corrado G.S, Davis A, Dean J, Devin M, et\u00a0al (2016) Tensorflow: A system for large-scale machine learning. USENIX Conference on Operating Systems Design and Implementation pp. 265\u2013283"},{"key":"6781_CR2","unstructured":"Abu-El-Haija S, Kothari N, Lee J, Natsev P, Toderici G, Varadarajan B, Vijayanarasimhan S (2016) Youtube-8M: A large-scale video classification benchmark. arXiv preprint arXiv:1609.08675"},{"key":"6781_CR3","doi-asserted-by":"crossref","unstructured":"Alayrac JB, Bojanowski P, Agrawal N, Sivic J, Laptev I, Lacoste-Julien S (2016) Unsupervised learning from narrated instruction videos. IEEE Conference on Computer Vision and Pattern Recognition pp. 4575\u20134583","DOI":"10.1109\/CVPR.2016.495"},{"key":"6781_CR4","doi-asserted-by":"crossref","unstructured":"Arandjelovic R, Gronat P, Torii A, Pajdla T, Sivic J (2016) NetVLAD: CNN architecture for weakly supervised place recognition. IEEE Conference on Computer Vision and Pattern Recognition pp. 5297\u20135307","DOI":"10.1109\/CVPR.2016.572"},{"key":"6781_CR5","first-page":"122","volume":"120","author":"G Bradski","year":"2000","unstructured":"Bradski G (2000) The openCV library. Dr. Dobb\u2019s J Softw Tools 120:122\u2013125","journal-title":"Dr. Dobb\u2019s J Softw Tools"},{"key":"6781_CR6","doi-asserted-by":"crossref","unstructured":"Caruana R, Lawrence S, Giles L (2001) Overfitting in neural nets: backpropagation, conjugate gradient, and early stopping. Advances in Neural Information Processing Systems pp. 402\u2013408","DOI":"10.1109\/IJCNN.2000.857823"},{"key":"6781_CR7","doi-asserted-by":"publisher","first-page":"14173","DOI":"10.1007\/s00521-020-04811-z","volume":"32","author":"FM Castro","year":"2020","unstructured":"Castro FM, Marin-Jimenez MJ, Guil N, de la Blanca NP (2020) Multimodal feature fusion for CNN-based gait recognition: an empirical comparison. Neural Comput Appl 32:14173","journal-title":"Neural Comput Appl"},{"issue":"10","key":"6781_CR8","doi-asserted-by":"publisher","first-page":"1865","DOI":"10.1109\/JPROC.2017.2675998","volume":"105","author":"G Cheng","year":"2017","unstructured":"Cheng G, Han J, Lu X (2017) Remote sensing image scene classification: benchmark and state of the art. Proceedings of IEEE 105(10):1865\u20131883","journal-title":"Proceedings of IEEE"},{"key":"6781_CR9","unstructured":"Chollet F, et\u00a0al (2015) Keras, https:\/\/github.com\/fchollet\/keras"},{"key":"6781_CR10","doi-asserted-by":"crossref","unstructured":"Damen D, Doughty H, Farinella GM, Fidler S, Furnari A, Kazakos E, Moltisanti D, Munro J, Perrett T, Price W, et\u00a0al (2018) Scaling egocentric vision: the epic-kitchens dataset. European Conference on Computer Vision pp. 720\u2013736","DOI":"10.1007\/978-3-030-01225-0_44"},{"key":"6781_CR11","doi-asserted-by":"crossref","unstructured":"Deng J, Dong W, Socher R, Li LJ, Li K, Fei-Fei L (2009) ImageNet: a large-scale hierarchical image database. IEEE Conference on Computer Vision and Pattern Recognition pp. 248\u2013255","DOI":"10.1109\/CVPR.2009.5206848"},{"issue":"2","key":"6781_CR12","doi-asserted-by":"publisher","first-page":"237","DOI":"10.1109\/34.982903","volume":"24","author":"GN DeSouza","year":"2002","unstructured":"DeSouza GN, Kak AC (2002) Vision for mobile robot navigation: a survey. Trans Anal Mach Intell 24(2):237\u2013267","journal-title":"Trans Anal Mach Intell"},{"key":"6781_CR13","doi-asserted-by":"crossref","unstructured":"DeTone D, Malisiewicz T, Rabinovich A (2018) Superpoint: self-supervised interest point detection and description. IEEE Conference on Computer Vision and Pattern Recognition workshops pp. 224\u2013236","DOI":"10.1109\/CVPRW.2018.00060"},{"key":"6781_CR14","unstructured":"Devlin J, Chang M.W, Lee K, Toutanova K (2019) BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL-HLT pp. 4171\u20134186"},{"issue":"4","key":"6781_CR15","doi-asserted-by":"publisher","first-page":"302","DOI":"10.1111\/j.1467-9280.1997.tb00442.x","volume":"8","author":"VA Diwadkar","year":"1997","unstructured":"Diwadkar VA, McNamara TP (1997) Viewpoint dependence in scene recognition. Psychol Sci 8(4):302\u2013307","journal-title":"Psychol Sci"},{"key":"6781_CR16","doi-asserted-by":"crossref","unstructured":"Dusmanu M, Rocco I, Pajdla T, Pollefeys M, Sivic J, Torii A, Sattler T (2019) D2-net: A trainable CNN for joint description and detection of local features. IEEE Conference on Computer Vision and Pattern Recognition pp. 8092\u20138101","DOI":"10.1109\/CVPR.2019.00828"},{"key":"6781_CR17","doi-asserted-by":"crossref","unstructured":"Espinace P, Kollar T, Soto A, Roy N (2010) Indoor scene recognition through object detection. IEEE International Conference on Robotics and Automation pp. 1406\u20131413","DOI":"10.1109\/ROBOT.2010.5509682"},{"key":"6781_CR18","doi-asserted-by":"crossref","unstructured":"Fouhey DF, Kuo Wc, Efros AA, Malik J (2018) From lifestyle vlogs to everyday interactions. IEEE Conference on Computer Vision and Pattern Recognition pp. 4991\u20135000","DOI":"10.1109\/CVPR.2018.00524"},{"key":"6781_CR19","doi-asserted-by":"crossref","unstructured":"Gelli F, Uricchio T, Bertini M, Del\u00a0Bimbo A, Chang SF (2015) Image popularity prediction in social media using sentiment and context features. International Conference on Multimedia pp. 907\u2013910","DOI":"10.1145\/2733373.2806361"},{"key":"6781_CR20","unstructured":"Google C (2021) Google speech to text, https:\/\/pypi.org\/project\/google-cloud-speech\/"},{"key":"6781_CR21","unstructured":"Gwi G Social media trends in 2021: Latest trends & statistics. GWI https:\/\/www.gwi.com\/reports\/social"},{"key":"6781_CR22","doi-asserted-by":"crossref","unstructured":"Harouni A, Karargyris A, Negahdar M, Beymer D, Syeda-Mahmood T (2018) Universal multi-modal deep network for classification and segmentation of medical images. International Symposium on Biomedical Imaging pp. 872\u2013876","DOI":"10.1109\/ISBI.2018.8363710"},{"issue":"3","key":"6781_CR23","doi-asserted-by":"publisher","first-page":"487","DOI":"10.1038\/s41386-018-0247-x","volume":"44","author":"S Hassanpour","year":"2019","unstructured":"Hassanpour S, Tomita N, DeLise T, Crosier B, Marsch LA (2019) Identifying substance use risk based on deep neural networks and instagram social media data. Neuropsychopharmacology 44(3):487\u2013494","journal-title":"Neuropsychopharmacology"},{"key":"6781_CR24","doi-asserted-by":"crossref","unstructured":"Hausler S, Garg S, Xu M, Milford M, Fischer T (2021) Patch-netvlad: multi-scale fusion of locally-global descriptors for place recognition. IEEE Conference on Computer Vision and Pattern Recognition pp. 14141\u201314152","DOI":"10.1109\/CVPR46437.2021.01392"},{"issue":"8","key":"6781_CR25","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9(8):1735\u20131780","journal-title":"Neural Comput"},{"issue":"3","key":"6781_CR26","doi-asserted-by":"publisher","first-page":"538","DOI":"10.1109\/TMM.2005.843346","volume":"7","author":"J Huang","year":"2005","unstructured":"Huang J, Liu Z, Wang Y (2005) Joint scene classification and segmentation based on hidden markov model. IEEE Trans Multimed 7(3):538\u2013550","journal-title":"IEEE Trans Multimed"},{"key":"6781_CR27","unstructured":"Huang Q, Xiong Y, Xiong Y, Zhang Y, Lin D (2018) From trailers to storylines: an efficient way to learn from movies. European Conference on Computer Vision"},{"key":"6781_CR28","doi-asserted-by":"crossref","unstructured":"Huang W, Wai AAP, Foo SF, Biswas J, Hsia CC, Liou K (2010) Multimodal sleeping posture classification. International Conference on Pattern Recognition pp. 4336\u20134339","DOI":"10.1109\/ICPR.2010.1054"},{"issue":"7","key":"6781_CR29","doi-asserted-by":"publisher","first-page":"3372","DOI":"10.1109\/TIP.2016.2567076","volume":"25","author":"SH Khan","year":"2016","unstructured":"Khan SH, Hayat M, Bennamoun M, Togneri R, Sohel FA (2016) A discriminative representation of convolutional features for indoor scene recognition. IEEE Trans Image Process 25(7):3372\u20133383","journal-title":"IEEE Trans Image Process"},{"key":"6781_CR30","unstructured":"Kingma DP, Ba J (2015) Adam: a method for stochastic optimization. CoRR arXiv:1412.6980"},{"key":"6781_CR31","doi-asserted-by":"crossref","unstructured":"Lan T, Chen TC, Savarese S (2014) A hierarchical representation for future action prediction. European Conference on Computer Vision pp. 689\u2013704","DOI":"10.1007\/978-3-319-10578-9_45"},{"key":"6781_CR32","doi-asserted-by":"crossref","unstructured":"Lee J, Reade W, Sukthankar R, Toderici G, et\u00a0al (2018) The 2nd youtube-8m large-scale video understanding challenge. In: European Conference on Computer Vision Workshops","DOI":"10.1007\/978-3-030-11018-5_18"},{"key":"6781_CR33","unstructured":"Leyva-Vallina M, Strisciuglio N, Petkov N (2021) Generalized contrastive optimization of siamese networks for place recognition. arXiv preprint arXiv:2103.06638"},{"key":"6781_CR34","doi-asserted-by":"crossref","unstructured":"Li H, Ma X, Wang F, Liu J, Xu K (2013) On popularity prediction of videos shared in online social networks. ACM International Conference on Information & Knowledge Management pp. 169\u2013178","DOI":"10.1145\/2505515.2505523"},{"issue":"12","key":"6781_CR35","doi-asserted-by":"publisher","first-page":"2847","DOI":"10.3390\/s17122847","volume":"17","author":"M Liu","year":"2017","unstructured":"Liu M, Chen R, Li D, Chen Y, Guo G, Cao Z, Pan Y (2017) Scene recognition for indoor localization using a multi-sensor fusion approach. Sensors 17(12):2847","journal-title":"Sensors"},{"issue":"23","key":"6781_CR36","doi-asserted-by":"publisher","first-page":"5300","DOI":"10.3390\/s19235300","volume":"19","author":"Y Liu","year":"2019","unstructured":"Liu Y, Yan X, Ca Zhang, Liu W (2019) An ensemble convolutional neural networks for bearing fault diagnosis using multi-sensor data. Sensors 19(23):5300","journal-title":"Sensors"},{"key":"6781_CR37","unstructured":"Liu Y, Ott M, Goyal N, Du J, Joshi M, Chen D, Levy O, Lewis M, Zettlemoyer L, Stoyanov V (2019) Roberta: a robustly optimized BERT pretraining approach. ICLR pp. 1\u201315"},{"issue":"1","key":"6781_CR38","doi-asserted-by":"publisher","first-page":"61","DOI":"10.1023\/A:1008066223044","volume":"20","author":"Z Liu","year":"1998","unstructured":"Liu Z, Wang Y, Chen T (1998) Audio feature extraction and analysis for scene segmentation and classification. J VLSI Sig Process Syst 20(1):61\u201379","journal-title":"J VLSI Sig Process Syst"},{"issue":"1","key":"6781_CR39","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1109\/TRO.2015.2496823","volume":"32","author":"S Lowry","year":"2015","unstructured":"Lowry S, S\u00fcnderhauf N, Newman P, Leonard JJ, Cox D, Corke P, Milford MJ (2015) Visual place recognition: a survey. IEEE Trans Robot 32(1):1\u201319","journal-title":"IEEE Trans Robot"},{"issue":"5","key":"6781_CR40","doi-asserted-by":"publisher","first-page":"823","DOI":"10.1080\/01431160600746456","volume":"28","author":"D Lu","year":"2007","unstructured":"Lu D, Weng Q (2007) A survey of image classification methods and techniques for improving classification performance. J Remote Sens 28(5):823\u2013870","journal-title":"J Remote Sens"},{"key":"6781_CR41","doi-asserted-by":"crossref","unstructured":"Marszalek M, Laptev I, Schmid C (2009) Actions in context. IEEE Conference on Computer Vision and Pattern Recognition pp. 2929\u20132936","DOI":"10.1109\/CVPR.2009.5206557"},{"issue":"3","key":"6781_CR42","doi-asserted-by":"publisher","first-page":"866","DOI":"10.1109\/JBHI.2019.2922390","volume":"24","author":"ET Martinez","year":"2019","unstructured":"Martinez ET, Leyva-Vallina M, Sarker MMK, Puig D, Petkov N, Radeva P (2019) Hierarchical approach to classify food scenes in egocentric photo-streams. J Biomed Health Inform 24(3):866\u2013877","journal-title":"J Biomed Health Inform"},{"issue":"2","key":"6781_CR43","doi-asserted-by":"publisher","first-page":"198","DOI":"10.1109\/34.982900","volume":"24","author":"I Matthews","year":"2002","unstructured":"Matthews I, Cootes TF, Bangham JA, Cox S, Harvey R (2002) Extraction of visual features for lipreading. Trans Pattern Anal Mach Intell 24(2):198\u2013213","journal-title":"Trans Pattern Anal Mach Intell"},{"key":"6781_CR44","unstructured":"Mikolov T, Chen K, Corrado G, Dean J (2013) Efficient estimation of word representations in vector space"},{"key":"6781_CR45","doi-asserted-by":"crossref","unstructured":"Modiri\u00a0Assari S, Roshan\u00a0Zamir A, Shah M (2014) Video classification using semantic concept co-occurrences. IEEE Conference on Computer Vision and Pattern Recognition pp. 2529\u20132536","DOI":"10.1109\/CVPR.2014.324"},{"key":"6781_CR46","unstructured":"Ngiam J, Khosla A, Kim M, Nam J, Lee H, Ng AY (2011) Multimodal deep learning. International Conference on Machine Learning pp.\u00a01\u20139"},{"key":"6781_CR47","unstructured":"Oh J, Guo X, Lee H, Lewis R, Singh S (2015) Action-conditional video prediction using deep networks in Atari games. International Conference on Neural Information Processing Systems pp.\u00a01\u20139"},{"key":"6781_CR48","doi-asserted-by":"crossref","unstructured":"Patterson E.K, Gurbuz S, Tufekci Z, Gowdy JN (2002) CUAVE: A new audio-visual database for multimodal human-computer interface research. IEEE International Conference on Acoustics, Speech, and Signal Processing 2, II\u20132017","DOI":"10.1109\/ICASSP.2002.1006168"},{"key":"6781_CR49","first-page":"52","volume":"125","author":"A Perrin","year":"2015","unstructured":"Perrin A (2015) Pew research center. Soc Med Usage 125:52\u201368","journal-title":"Soc Med Usage"},{"key":"6781_CR50","doi-asserted-by":"crossref","unstructured":"Quattoni A, Torralba A (2009) Recognizing indoor scenes. IEEE Conference on Computer Vision and Pattern Recognition pp. 413\u2013420","DOI":"10.1109\/CVPR.2009.5206537"},{"key":"6781_CR51","doi-asserted-by":"crossref","unstructured":"Reimers N, Gurevych I (2019) Sentence-BERT: sentence embeddings using siamese BERT-networks. In: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. pp. 3982\u20133992. Association for Computational Linguistics","DOI":"10.18653\/v1\/D19-1410"},{"key":"6781_CR52","doi-asserted-by":"crossref","unstructured":"Roach M, Mason JS (2001) Classification of video genre using audio. European Conference on Speech Communication and Technology pp.\u00a01\u20134","DOI":"10.21437\/Eurospeech.2001-630"},{"key":"6781_CR53","unstructured":"Sanabria R, Caglayan O, Palaskar S, Elliott D, Barrault L, Specia L, Metze F (2018) How2: a large-scale dataset for multimodal language understanding. Advances in Neural Information Processing Systems Workshop on Visually Grounded Interaction and Language"},{"issue":"4","key":"6781_CR54","doi-asserted-by":"publisher","first-page":"159","DOI":"10.1007\/s001380050069","volume":"10","author":"S Shah","year":"1997","unstructured":"Shah S, Aggarwal JK (1997) Mobile robot navigation and scene modeling using stereo fish-eye lens system. Mach Vis Appl 10(4):159\u2013173","journal-title":"Mach Vis Appl"},{"key":"6781_CR55","doi-asserted-by":"crossref","unstructured":"Si C, Chen W, Wang W, Wang L, Tan T (2019) An attention enhanced graph convolutional LSTM network for skeleton-based action recognition. IEEE Conference on Computer Vision and Pattern Recognition pp. 1227\u20131236","DOI":"10.1109\/CVPR.2019.00132"},{"key":"6781_CR56","doi-asserted-by":"crossref","unstructured":"Silberman N, Fergus R (2011) Indoor scene segmentation using a structured light sensor. International Conference on Computer Vision Workshops pp. 601\u2013608","DOI":"10.1109\/ICCVW.2011.6130298"},{"key":"6781_CR57","unstructured":"Simonyan K, Zisserman A (2015) Very deep convolutional networks for large-scale image recognition. CoRR arXiv:1409.1556"},{"key":"6781_CR58","doi-asserted-by":"crossref","unstructured":"Singh B, Sharma DK (2021) Predicting image credibility in fake news over social media using multi-modal approach. Neural Computing and Applications pp. 1\u201315","DOI":"10.1007\/s00521-021-06086-4"},{"key":"6781_CR59","doi-asserted-by":"crossref","unstructured":"Sureka A, Kumaraguru P, Goyal A, Chhabra S (2010) Mining youtube to discover extremist videos, users and hidden communities. Asia Information Retrieval Symposium pp. 13\u201324","DOI":"10.1007\/978-3-642-17187-1_2"},{"key":"6781_CR60","doi-asserted-by":"crossref","unstructured":"Taira H, Okutomi M, Sattler T, Cimpoi M, Pollefeys M, Sivic J, Pajdla T, Torii A (2018) Inloc: Indoor visual localization with dense matching and view synthesis. IEEE Conference on Computer Vision and Pattern Recognition pp. 7199\u20137209","DOI":"10.1109\/CVPR.2018.00752"},{"key":"6781_CR61","doi-asserted-by":"crossref","unstructured":"Tan W, Tiwari P, Pandey HM, Moreira C, Jaiswal AK (2020) Multimodal medical image fusion algorithm in the era of big data. Neural Computing and Applications pp. 1\u201321","DOI":"10.1007\/s00521-020-05173-2"},{"key":"6781_CR62","doi-asserted-by":"crossref","unstructured":"Tapaswi M, Zhu Y, Stiefelhagen R, Torralba A, Urtasun R, Fidler S (2016) MovieQA: Understanding stories in movies through question-answering. IEEE Conference on Computer Vision and Pattern Recognition pp. 4631\u20134640","DOI":"10.1109\/CVPR.2016.501"},{"key":"6781_CR63","doi-asserted-by":"crossref","unstructured":"Toft C, Maddern W, Torii A, Hammarstrand L, Stenborg E, Safari D, Okutomi M, Pollefeys M, Sivic J, Pajdla T, et\u00a0al (2020) Long-term visual localization revisited. IEEE Transactions on Pattern Analysis and Machine Intelligence pp. 1\u201314","DOI":"10.1109\/TPAMI.2020.3032010"},{"key":"6781_CR64","doi-asserted-by":"crossref","unstructured":"Tsai G, Xu C, Liu J, Kuipers B (2011) Real-time indoor scene understanding using bayesian filtering with motion cues. International Conference on Computer Vision pp. 121\u2013128","DOI":"10.1109\/ICCV.2011.6126233"},{"key":"6781_CR65","volume-title":"Python 3 Reference Manual","author":"G Van Rossum","year":"2009","unstructured":"Van Rossum G, Drake FL (2009) Python 3 Reference Manual. Scotts Valley, CA"},{"key":"6781_CR66","doi-asserted-by":"crossref","unstructured":"Warburg F, Hauberg S, Lopez-Antequera M, Gargallo P, Kuang Y, Civera J (2020) Mapillary street-level sequences: A dataset for lifelong place recognition. IEEE Conference on Computer Vision and Pattern Recognition pp. 2626\u20132635","DOI":"10.1109\/CVPR42600.2020.00270"},{"key":"6781_CR67","doi-asserted-by":"crossref","unstructured":"Xiao J, Hays J, Ehinger K.A, Oliva A, Torralba A (2010) Sun database: Large-scale scene recognition from abbey to zoo. IEEE Conference on Computer Vision and Pattern Recognition pp. 3485\u20133492","DOI":"10.1109\/CVPR.2010.5539970"},{"key":"6781_CR68","unstructured":"Xingjian S, Chen Z, Wang H, Yeung DY, Wong WK, Woo Wc (2015) Convolutional LSTM network: A machine learning approach for precipitation nowcasting. Advances in neural information processing systems pp. 802\u2013810"},{"issue":"4","key":"6781_CR69","doi-asserted-by":"publisher","first-page":"6545","DOI":"10.1109\/LRA.2021.3094228","volume":"6","author":"Y Xu","year":"2021","unstructured":"Xu Y, Huang J, Wang J, Wang Y, Qin H, Nan K (2021) Esa-vlad: a lightweight network based on second-order attention and netvlad for loop closure detection. IEEE Robot Autom Lett 6(4):6545\u20136552","journal-title":"IEEE Robot Autom Lett"},{"issue":"4","key":"6781_CR70","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3011871","volume":"8","author":"X Yang","year":"2017","unstructured":"Yang X, Luo J (2017) Tracking illicit drug dealing and abuse on instagram using multimodal analysis. Trans Intell Syst Technol 8(4):1\u201315","journal-title":"Trans Intell Syst Technol"},{"key":"6781_CR71","doi-asserted-by":"crossref","unstructured":"Ye H, Wu Z, Zhao RW, Wang X, Jiang YG, Xue X (2015) Evaluating two-stream CNN for video classification. 5th ACM on International Conference on Multimedia Retrieval pp. 435\u2013442","DOI":"10.1145\/2671188.2749406"},{"issue":"2","key":"6781_CR72","doi-asserted-by":"publisher","first-page":"661","DOI":"10.1109\/TNNLS.2019.2908982","volume":"31","author":"J Yu","year":"2019","unstructured":"Yu J, Zhu C, Zhang J, Huang Q, Tao D (2019) Spatial pyramid-enhanced netvlad with weighted triplet loss for place recognition. IEEE Trans Neural Netw Learn Syst 31(2):661\u2013674","journal-title":"IEEE Trans Neural Netw Learn Syst"},{"key":"6781_CR73","doi-asserted-by":"crossref","unstructured":"Zhang C, Peng Y (2018) Visual data synthesis via GAN for zero-shot video classification. 27th International Joint Conference on Artificial Intelligence pp. 1128\u20131134","DOI":"10.24963\/ijcai.2018\/157"},{"issue":"1\u20134","key":"6781_CR74","doi-asserted-by":"publisher","first-page":"43","DOI":"10.1007\/s13042-010-0001-0","volume":"1","author":"Y Zhang","year":"2010","unstructured":"Zhang Y, Jin R, Zhou ZH (2010) Understanding bag-of-words model: a statistical framework. J Mach Learn Cybernet 1(1\u20134):43\u201352","journal-title":"J Mach Learn Cybernet"},{"issue":"1","key":"6781_CR75","doi-asserted-by":"publisher","first-page":"55","DOI":"10.1007\/BF00163583","volume":"9","author":"JY Zheng","year":"1992","unstructured":"Zheng JY, Tsuji S (1992) Panoramic representation for route recognition by a mobile robot. Int J Comput Vis 9(1):55\u201376","journal-title":"Int J Comput Vis"},{"key":"6781_CR76","doi-asserted-by":"crossref","unstructured":"Zhou B, Lapedriza A, Khosla A, Oliva A, Torralba A (2017) Places: a 10 million image database for scene recognition. Transactions on Pattern Analysis and Machine Intelligence pp. 1\u201323","DOI":"10.1167\/17.10.296"},{"key":"6781_CR77","unstructured":"Zhou B, Lapedriza A, Xiao J, Torralba A, Oliva A (2014) Learning deep features for scene recognition using places database. Neural Information Processing Systems Foundation pp.\u00a01\u20139"},{"key":"6781_CR78","doi-asserted-by":"crossref","unstructured":"Zhou L, Xu C, Corso J (2018) Towards automatic learning of procedures from web instructional videos. AAAI Conference on Artificial Intelligence pp. 7590\u20137598","DOI":"10.1609\/aaai.v32i1.12342"}],"container-title":["Neural Computing and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-021-06781-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00521-021-06781-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-021-06781-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,1,24]],"date-time":"2023-01-24T03:41:16Z","timestamp":1674531676000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00521-021-06781-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,1,22]]},"references-count":78,"journal-issue":{"issue":"9","published-print":{"date-parts":[[2022,5]]}},"alternative-id":["6781"],"URL":"https:\/\/doi.org\/10.1007\/s00521-021-06781-2","relation":{},"ISSN":["0941-0643","1433-3058"],"issn-type":[{"value":"0941-0643","type":"print"},{"value":"1433-3058","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,1,22]]},"assertion":[{"value":"18 June 2021","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 November 2021","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 January 2022","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declaration"}},{"value":"The authors declare that they have no conflicts of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}