{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,30]],"date-time":"2026-01-30T03:54:34Z","timestamp":1769745274213,"version":"3.49.0"},"reference-count":56,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2019,7,12]],"date-time":"2019-07-12T00:00:00Z","timestamp":1562889600000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2019,7,12]],"date-time":"2019-07-12T00:00:00Z","timestamp":1562889600000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J Intell Robot Syst"],"published-print":{"date-parts":[[2020,1]]},"DOI":"10.1007\/s10846-019-01049-3","type":"journal-article","created":{"date-parts":[[2019,7,12]],"date-time":"2019-07-12T07:02:41Z","timestamp":1562914961000},"page":"95-107","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":39,"title":["Deep-Learning-Based Human Intention Prediction Using RGB Images and Optical Flow"],"prefix":"10.1007","volume":"97","author":[{"given":"Shengchao","family":"Li","sequence":"first","affiliation":[]},{"given":"Lin","family":"Zhang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6499-5308","authenticated-orcid":false,"given":"Xiumin","family":"Diao","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2019,7,12]]},"reference":[{"key":"1049_CR1","doi-asserted-by":"publisher","first-page":"399","DOI":"10.1016\/j.artint.2014.11.007","volume":"247","author":"Z Wang","year":"2017","unstructured":"Wang, Z., Boularias, A., M\u00fclling, K., Sch\u00f6lkopf, B., Peters, J.: Anticipatory action selection for human\u2013robot table tennis. Artif. Intell. 247, 399\u2013414 (2017)","journal-title":"Artif. Intell."},{"key":"1049_CR2","doi-asserted-by":"crossref","unstructured":"Koppula, H.S., Jain, A., Saxena, A.: Anticipatory planning for human-robot teams. Experimental Robotics. 453\u2013470 (2016)","DOI":"10.1007\/978-3-319-23778-7_30"},{"key":"1049_CR3","unstructured":"Townsend, E.C., Mielke, E.A., Wingate, D., and Killpack, M.D.: \u201cEstimating Human Intent for Physical Human-Robot co-Manipulation,\u201d arXiv Prepr. arXiv1705.10851, (2017)"},{"issue":"6","key":"1049_CR4","doi-asserted-by":"publisher","first-page":"1350","DOI":"10.3390\/s17061350","volume":"17","author":"I-H Kim","year":"2017","unstructured":"Kim, I.-H., Bong, J.-H., Park, J., Park, S.: Prediction of driver\u2019s intention of lane change by augmenting sensor information using machine learning techniques. Sensors. 17(6), 1350 (2017)","journal-title":"Sensors"},{"key":"1049_CR5","doi-asserted-by":"publisher","first-page":"41","DOI":"10.1016\/j.infrared.2016.12.014","volume":"81","author":"J-Y Kwak","year":"2017","unstructured":"Kwak, J.-Y., Ko, B.C., Nam, J.-Y.: Pedestrian intention prediction based on dynamic fuzzy automata for vehicle driving at nighttime. Infrared Phys. Technol. 81, 41\u201351 (2017)","journal-title":"Infrared Phys. Technol."},{"issue":"1","key":"1049_CR6","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0085060","volume":"9","author":"EA Kirchner","year":"2014","unstructured":"Kirchner, E.A., Tabie, M., Seeland, A.: Multimodal movement prediction-towards an individual assistance of patients. PLoS One. 9(1), e85060 (2014)","journal-title":"PLoS One"},{"key":"1049_CR7","unstructured":"Phule, S.S., Sawant, S.D.: \u201cAbnormal activities detection for security purpose unattainded bag and crowding detection by using image processing,\u201d in Intelligent Computing and Control Systems (ICICCS), 2017 International Conference on, pp. 1069\u20131073, (2017)"},{"key":"1049_CR8","unstructured":"Feichtenhofer, C., Pinz, A., Zisserman, A.: \u201cConvolutional two-stream network fusion for video action recognition,\u201d in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1933\u20131941, (2016)"},{"key":"1049_CR9","unstructured":"Ma, S., Sigal, L., Sclaroff, S.: \u201cLearning activity progression in lstms for activity detection and early detection,\u201d in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., pp. 1942\u20131950, (2016)"},{"key":"1049_CR10","unstructured":"Ryoo, M.S.: \u201cHuman activity prediction: early recognition of ongoing activities from streaming videos,\u201d in Computer Vision (ICCV), 2011 IEEE International Conference on, pp. 1036\u20131043, (2011)"},{"key":"1049_CR11","unstructured":"Xu, Z., Qing, L., Miao, J.: \u201cActivity auto-completion: predicting human activities from partial videos,\u201d in Proceedings of the IEEE International Conference on Computer Vision, pp. 3191\u20133199, (2015)"},{"key":"1049_CR12","doi-asserted-by":"crossref","unstructured":"Li, S., Zhang, L., Diao, X., \u201cImproving Human Intention Prediction Using Data Augmentation,\u201d in 2018 27th IEEE International Symposium on Robot and Human Interactive Communication (RO-MAN), pp. 559\u2013564, (2018)","DOI":"10.1109\/ROMAN.2018.8525781"},{"key":"1049_CR13","unstructured":"Sharma, G, Jurie, F., Schmid, C.: \u201cExpanded parts model for human attribute and action recognition in still images,\u201d in computer vision and pattern recognition, pp. 652\u2013659, (2013)"},{"key":"1049_CR14","unstructured":"Zheng, Y., Zhang, Y.J., Li, X., Liu, B.D.: \u201cAction recognition in still images using a combination of human pose and context information,\u201d in 2012 19th IEEE International Conference on Image Processing, pp. 785\u2013788, (2012)"},{"key":"1049_CR15","unstructured":"Delaitre, V., Sivic, J., Laptev, I.: \u201cLearning person-object interactions for action recognition in still images,\u201d in Advances in Neural Information Processing Systems, pp. 1503\u20131511, (2011)"},{"key":"1049_CR16","unstructured":"Zunino, A., Cavazza, J., Koul, A., Cavallo, A., Becchio, C., Murino, V.: \u201cintention from motion,\u201d arXiv Prepr. arXiv1605.09526, (2016)"},{"issue":"7553","key":"1049_CR17","doi-asserted-by":"publisher","first-page":"436","DOI":"10.1038\/nature14539","volume":"521","author":"Y LeCun","year":"2015","unstructured":"LeCun, Y., Bengio, Y., Hinton, G.: Deep learning. Nature. 521(7553), 436\u2013444 (2015)","journal-title":"Nature"},{"key":"1049_CR18","first-page":"886","volume":"1","author":"N Dalal","year":"2005","unstructured":"Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection, in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on. 1, 886\u2013893 (2005)","journal-title":"IEEE Computer Society Conference on"},{"key":"1049_CR19","unstructured":"Klaser, A., Marsza\u0142ek, M., Schmid, C.: \u201cA spatio-temporal descriptor based on 3d-gradients,\u201d in BMVC 2008-19th British Machine Vision Conference, pp. 271\u2013275, (2008)"},{"key":"1049_CR20","unstructured":"Laptev, I., Marszalek, M., Schmid, C., Rozenfeld, B.: \u201cLearning realistic human actions from movies,\u201d in Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on, pp. 1\u20138, (2008)"},{"issue":"2\u20133","key":"1049_CR21","doi-asserted-by":"publisher","first-page":"107","DOI":"10.1007\/s11263-005-1838-7","volume":"64","author":"I Laptev","year":"2005","unstructured":"Laptev, I.: On space-time interest points. Int. J. Comput. Vis. 64(2\u20133), 107\u2013123 (2005)","journal-title":"Int. J. Comput. Vis."},{"key":"1049_CR22","unstructured":"Scovanner, P., Ali, S., Shah, M.: \u201cA 3-dimensional sift descriptor and its application to action recognition,\u201d in Proceedings of the 15th ACM International Conference on Multimedia, pp. 357\u2013360, (2007)"},{"key":"1049_CR23","doi-asserted-by":"crossref","unstructured":"Wang, H., Schmid, C.: \u201cAction recognition with improved trajectories,\u201d in Proceedings of the IEEE International Conference on Computer Vision, (2013)","DOI":"10.1109\/ICCV.2013.441"},{"key":"1049_CR24","doi-asserted-by":"crossref","unstructured":"Bilen, H., Fernando, B., Gavves, E., Vedaldi A., Gould, S.: \u201cDynamic image networks for action recognition,\u201d in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., pp. 3034\u20133042, 2016","DOI":"10.1109\/CVPR.2016.331"},{"key":"1049_CR25","unstructured":"Ryoo, M.S., Fuchs, T.J., Xia, L., Aggarwal, J.K., Matthies, L.: \u201cRobot-centric activity prediction from first-person videos: what will they do to me?,\u201d in Proceedings of the Tenth Annual ACM\/IEEE International Conference on Human-Robot Interaction, pp. 295\u2013302, (2015)"},{"key":"1049_CR26","unstructured":"Soran, B., Farhadi, A., Shapiro, L.: \u201cGenerating notifications for missing actions: Don\u2019t forget to turn the lights off!,\u201d in Proceedings of the IEEE International Conference on Computer Vision, pp. 4669\u20134677, (2015)"},{"key":"1049_CR27","unstructured":"Yu, G., Yuan, J., Liu, Z.: \u201cPredicting human activities using spatio-temporal structure of interest points,\u201d in Proceedings of the 20th ACM International Conference on Multimedia, pp. 1049\u20131052, (2012)"},{"key":"1049_CR28","unstructured":"Soomro, K., Idrees, H., Shah, M.: \u201cPredicting the where and what of actors and actions through online action localization,\u201d in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., pp. 2648\u20132657, (2016)"},{"key":"1049_CR29","unstructured":"Tran, D., Bourdev, L., Fergus, R., Torresani, L., Paluri, M.: \u201cLearning spatiotemporal features with 3d convolutional networks,\u201d in Computer Vision (ICCV), 2015 IEEE International Conference on, pp. 4489\u20134497, (2015)"},{"key":"1049_CR30","unstructured":"Donahue, J. et al.: \u201cLong-term recurrent convolutional networks for visual recognition and description,\u201d in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., pp. 2625\u20132634, (2015)"},{"key":"1049_CR31","unstructured":"Simonyan, K., Zisserman, A.: \u201cTwo-stream convolutional networks for action recognition in videos,\u201d in Advances in Neural Information Processing Systems (NIPS), pp. 568\u2013576, (2014)"},{"issue":"1","key":"1049_CR32","doi-asserted-by":"publisher","first-page":"221","DOI":"10.1109\/TPAMI.2012.59","volume":"35","author":"S Ji","year":"2013","unstructured":"Ji, S., Xu, W., Yang, M., Yu, K.: 3D convolutional neural networks for human action recognition. IEEE Trans. Pattern Anal. Mach. Intell. 35(1), 221\u2013231 (2013)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"1049_CR33","doi-asserted-by":"crossref","unstructured":"Varol, G., Laptev, I., Schmid, C.: \u201cLong-term temporal convolutions for action recognition,\u201d IEEE Trans. Pattern Anal. Mach. Intell., (2017)","DOI":"10.1109\/TPAMI.2017.2712608"},{"key":"1049_CR34","doi-asserted-by":"crossref","unstructured":"Sun, L., Jia, K., Yeung, D.-Y., Shi, B.E.: Human action recognition using factorized spatio-temporal convolutional networks. Proceedings of the IEEE International Conference on Computer Vision. 4597\u20134605 (2015)","DOI":"10.1109\/ICCV.2015.522"},{"key":"1049_CR35","unstructured":"Qiu, Z., Yao, T., Mei, T.: \u201cLearning spatio-temporal representation with pseudo-3d residual networks,\u201d in 2017 IEEE International Conference on Computer Vision (ICCV), pp. 5534\u20135542, (2017)"},{"key":"1049_CR36","unstructured":"Carreira, J., Zisserman, A.: \u201cQuo vadis, action recognition? A new model and the kinetics dataset,\u201d in Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on, pp. 4724\u20134733, (2017)"},{"key":"1049_CR37","unstructured":"Ng, J.Y.-H., Hausknecht, M., Vijayanarasimhan, S., Vinyals, O., Monga, R., Toderici, G.: \u201cBeyond short snippets: deep networks for video classification,\u201d in Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on, pp. 4694\u20134702, (2015)"},{"issue":"2\u20134","key":"1049_CR38","doi-asserted-by":"publisher","first-page":"358","DOI":"10.1007\/s11263-017-0992-z","volume":"126","author":"C Ferm\u00fcller","year":"2018","unstructured":"Ferm\u00fcller, C., Wang, F., Yang, Y., Zampogiannis, K., Zhang, Y., Barranco, F., Pfeiffer, M.: Prediction of manipulation actions. Int. J. Comput. Vis. 126(2\u20134), 358\u2013374 (2018)","journal-title":"Int. J. Comput. Vis."},{"key":"1049_CR39","unstructured":"Srivastava, N., Mansimov, E., Salakhudinov, R.: \u201cUnsupervised learning of video representations using lstms,\u201d in International conference on machine learning, pp. 843\u2013852, (2015)"},{"key":"1049_CR40","doi-asserted-by":"publisher","first-page":"20","DOI":"10.1007\/978-3-319-46484-8_2","volume-title":"Computer Vision \u2013 ECCV 2016","author":"Limin Wang","year":"2016","unstructured":"L. Wang et al.: \u201cTemporal segment networks: Towards good practices for deep action recognition,\u201d in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), vol. 9912 LNCS, pp. 20\u201336, (2016)"},{"key":"1049_CR41","unstructured":"Wang, L., Qiao, Y., Tang, X.: \u201cAction recognition with trajectory-pooled deep-convolutional descriptors,\u201d in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., pp. 4305\u20134314, (2015)"},{"key":"1049_CR42","unstructured":"Zhu, W., Hu, J., Sun, G., Cao, X., Qiao, Y.: \u201cA key volume mining deep framework for action recognition,\u201d in Computer Vision and Pattern Recognition (CVPR), 2016 IEEE Conference on, pp. 1991\u20131999, (2016)"},{"key":"1049_CR43","unstructured":"Li, Q., Qiu, Z., Yao, T., Mei, T., Rui, Y., Luo, J.: \u201cAction recognition by learning deep multi-granular spatio-temporal video representation,\u201d in Proceedings of the 2016 ACM on International Conference on Multimedia Retrieval, pp. 159\u2013166, (2016)"},{"issue":"1","key":"1049_CR44","doi-asserted-by":"publisher","first-page":"85","DOI":"10.1007\/s13735-016-0117-4","volume":"6","author":"Q Li","year":"2017","unstructured":"Li, Q., Qiu, Z., Yao, T., Mei, T., Rui, Y., Luo, J.: Learning hierarchical video representation for action recognition. Int. J. Multimed. Inf. Retr. 6(1), 85\u201398 (2017)","journal-title":"Int. J. Multimed. Inf. Retr."},{"key":"1049_CR45","unstructured":"Qiu, Z., Li, Q., Yao, T., Mei, T., Rui, Y: \u201cMsr asia msm at thumos challenge 2015,\u201d in CVPR workshop, vol. 8, (2015)"},{"key":"1049_CR46","unstructured":"Ch\u00e9ron, G., Laptev, I., Schmid, C.: \u201cP-CNN: pose-based CNN features for action recognition,\u201d in Proceedings of the IEEE international conference on computer vision, pp. 3218\u20133226, (2015)"},{"key":"1049_CR47","unstructured":"Gkioxari, G., Malik, J.: \u201cFinding action tubes,\u201d in Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on, pp. 759\u2013768, (2015)"},{"key":"1049_CR48","unstructured":"Weinzaepfel, P., Harchaoui, Z., Schmid, C.: \u201cLearning to track for spatio-temporal action localization,\u201d in Proceedings of the IEEE international conference on computer vision, pp. 3164\u20133172, (2015)"},{"key":"1049_CR49","doi-asserted-by":"crossref","unstructured":"Daoudi, M., Coello, Y., Desrosiers, P., Ott, L.: \u201cA new computational approach to identify human social intention in action,\u201d in IEEE International Conference on Automatic Face & Gesture Recognition, (2018)","DOI":"10.1109\/FG.2018.00082"},{"key":"1049_CR50","unstructured":"Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., Fei-Fei, L.: \u201cLarge-scale video classification with convolutional neural networks,\u201d in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1725\u20131732, (2014)"},{"key":"1049_CR51","unstructured":"Dosovitskiy, A. et al.: \u201cFlownet: learning optical flow with convolutional networks,\u201d in Proceedings of the IEEE International Conference on Computer Vision, pp. 2758\u20132766, (2015)"},{"key":"1049_CR52","unstructured":"Ilg, E., Mayer, N., Saikia, T., Keuper, M., Dosovitskiy, A., Brox, T.: \u201cFlownet 2.0: Evolution of optical flow estimation with deep networks,\u201d in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognitionision (CVPR), vol. 2, p. 6, (2017)"},{"key":"1049_CR53","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: \u201cDeep residual learning for image recognition,\u201d in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognitionision (CVPR), pp. 770\u2013778, (2016)"},{"key":"1049_CR54","unstructured":"Berg, A., Deng, J., Fei-Fei, L.: \u201cLarge scale visual recognition challenge 2010.\u201d 2010"},{"key":"1049_CR55","unstructured":"Soomro, K., Zamir, A.R., Shah, M.: \u201cUCF101: a dataset of 101 human actions classes from videos in the wild,\u201d arXiv Prepr. arXiv1212.0402, (2012)"},{"key":"1049_CR56","doi-asserted-by":"crossref","unstructured":"Ryoo, M.S., Aggarwal, J.K., Dataset, U.-I.: \u201cICPR Contest on Semantic Description of Human Activities (SDHA), (2010)","DOI":"10.1007\/978-3-642-17711-8_28"}],"container-title":["Journal of Intelligent &amp; Robotic Systems"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10846-019-01049-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s10846-019-01049-3\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10846-019-01049-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,7,10]],"date-time":"2020-07-10T23:09:54Z","timestamp":1594422594000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s10846-019-01049-3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,7,12]]},"references-count":56,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2020,1]]}},"alternative-id":["1049"],"URL":"https:\/\/doi.org\/10.1007\/s10846-019-01049-3","relation":{},"ISSN":["0921-0296","1573-0409"],"issn-type":[{"value":"0921-0296","type":"print"},{"value":"1573-0409","type":"electronic"}],"subject":[],"published":{"date-parts":[[2019,7,12]]},"assertion":[{"value":"22 January 2019","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"7 June 2019","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"12 July 2019","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}