{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T07:27:55Z","timestamp":1740122875098,"version":"3.37.3"},"reference-count":35,"publisher":"Springer Science and Business Media LLC","issue":"24","license":[{"start":{"date-parts":[[2021,8,13]],"date-time":"2021-08-13T00:00:00Z","timestamp":1628812800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2021,8,13]],"date-time":"2021-08-13T00:00:00Z","timestamp":1628812800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61771420","62001413"],"award-info":[{"award-number":["61771420","62001413"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100003787","name":"Natural Science Foundation of Hebei Province","doi-asserted-by":"publisher","award":["F2020203064"],"award-info":[{"award-number":["F2020203064"]}],"id":[{"id":"10.13039\/501100003787","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002858","name":"China Postdoctoral Science Foundation","doi-asserted-by":"publisher","award":["2018M641674"],"award-info":[{"award-number":["2018M641674"]}],"id":[{"id":"10.13039\/501100002858","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Doctoral Foundation of Yanshan University","award":["BL18033"],"award-info":[{"award-number":["BL18033"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2021,10]]},"DOI":"10.1007\/s11042-021-11403-z","type":"journal-article","created":{"date-parts":[[2021,8,13]],"date-time":"2021-08-13T23:05:00Z","timestamp":1628895900000},"page":"33179-33192","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":8,"title":["3D convolutional networks with multi-layer-pooling selection fusion for video classification"],"prefix":"10.1007","volume":"80","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-0300-6144","authenticated-orcid":false,"given":"Zheng-ping","family":"Hu","sequence":"first","affiliation":[]},{"given":"Rui-xue","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Yue","family":"Qiu","sequence":"additional","affiliation":[]},{"given":"Meng-yao","family":"Zhao","sequence":"additional","affiliation":[]},{"given":"Zhe","family":"Sun","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2021,8,13]]},"reference":[{"key":"11403_CR1","doi-asserted-by":"crossref","unstructured":"Ali A, Zhu Y, Chen Q et al (2019) Leveraging spatio-temporal patterns for predicting citywide traffic crowd flows using deep hybrid neural networks, in: Proc Intern Conf Parallel Distributed Syst 125\u2013132","DOI":"10.1109\/ICPADS47876.2019.00025"},{"key":"11403_CR2","doi-asserted-by":"publisher","first-page":"1437","DOI":"10.1109\/TPAMI.2017.2711011","volume":"40","author":"R Arandjelovic","year":"2018","unstructured":"Arandjelovic R, Gronat P, Torii A et al (2018) NetVLAD: CNN architecture for weakly supervised place recognition. IEEE Trans Pattern Anal Mach Intell 40:1437\u20131451","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"11403_CR3","doi-asserted-by":"crossref","unstructured":"Carreira J, Zisserman A (2017) Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset, in:\u00a02017 IEEE Conf Comp Vision Pattern Recogn 4724\u20134733","DOI":"10.1109\/CVPR.2017.502"},{"key":"11403_CR4","doi-asserted-by":"crossref","unstructured":"Cheng C, Lv P, Su B (2018) Spatiotemporal pyramid pooling in 3D convolutional neural networks for action recognition, in: Intern Conf Image Process 3468\u20133472","DOI":"10.1109\/ICIP.2018.8451625"},{"key":"11403_CR5","doi-asserted-by":"crossref","unstructured":"Donahue J, Hendricks L, Guadarrama S et al (2015) Long-term recurrent convolutional networks for visual recognition and description, in: IEEE Conf Computer Vision Pattern Recogn 2625\u20132634","DOI":"10.1109\/CVPR.2015.7298878"},{"key":"11403_CR6","doi-asserted-by":"crossref","unstructured":"Donahue J, Hendricks L, Rohrbach M et al (2017) Long-Term Recurrent Convolutional Networks for Visual Recognition and Description. IEEE Trans Pattern Analysis Machine Intell (39):677\u2013691","DOI":"10.1109\/TPAMI.2016.2599174"},{"key":"11403_CR7","doi-asserted-by":"crossref","unstructured":"Dosovitskiy A, Fischer P, Ilg E et al (2015) FlowNet: learning optical flow with convolutional networks, in: IEEE Intern Confe Comp Vision 2758\u20132766","DOI":"10.1109\/ICCV.2015.316"},{"key":"11403_CR8","first-page":"3745","volume":"2017","author":"W Du","year":"2017","unstructured":"Du W, Wang Y, Qiao Y (2017) RPAN: An End-to-End Recurrent Pose-Attention Network for Action Recognition in Videos. IEEE Intern Conf Comp Vision 2017:3745\u20133754","journal-title":"IEEE International Conference on Computer Vision"},{"key":"11403_CR9","first-page":"6546","volume":"2018","author":"K Hara","year":"2018","unstructured":"Hara K, Kataoka H, Satoh Y (2018) Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?, in. IEEE\/CVF Conf Comp Vision Pattern Recogn\u00a02018:6546\u20136555","journal-title":"IEEE\/CVF Conference on Computer Vision and Pattern Recognition"},{"key":"11403_CR10","doi-asserted-by":"publisher","first-page":"1904","DOI":"10.1109\/TPAMI.2015.2389824","volume":"37","author":"K He","year":"2015","unstructured":"He K, Zhang X, Ren S et al (2015) Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. IEEE Trans Pattern Anal Mach Intell 37:1904\u20131916","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"11403_CR11","first-page":"770","volume":"2016","author":"K He","year":"2016","unstructured":"He K, Zhang X, Ren S et al (2016) Deep Residual Learning for Image Recognition, in. IEEE Conf Comp Vision Pattern Recogn\u00a0770\u2013778","journal-title":"IEEE Conference on Computer Vision and Pattern Recognition"},{"key":"11403_CR12","first-page":"7132","volume":"2018","author":"J Hu","year":"2018","unstructured":"Hu J, Shen L, Sun G (2018) Squeeze-and-Excitation Networks, in. IEEE\/CVF Conf Comp Vision Pattern Recogn 7132\u20137141","journal-title":"IEEE\/CVF Conference on Computer Vision and Pattern Recognition"},{"key":"11403_CR13","doi-asserted-by":"publisher","unstructured":"Hu Y, Gao J, Xu C (2020) Learning Dual-Pooling Graph Neural Networks for Few-shot Video Classification, IEEE Trans Multimedia (Early Access). https:\/\/doi.org\/10.1109\/TMM.2020.3039329","DOI":"10.1109\/TMM.2020.3039329"},{"key":"11403_CR14","doi-asserted-by":"crossref","unstructured":"Ilg E, Mayer N, Saikia T et al (2017) FlowNet 2.0: evolution of optical flow estimation with deep networks, 2017 IEEE Conf Comp Vision Pattern Recogn 1647\u20131655","DOI":"10.1109\/CVPR.2017.179"},{"key":"11403_CR15","doi-asserted-by":"publisher","first-page":"3137","DOI":"10.1109\/TMM.2018.2823900","volume":"20","author":"Y Jiang","year":"2018","unstructured":"Jiang Y, Wu Z, Tang J et al (2018) Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification. IEEE Trans Multimedia 20:3137\u20133147","journal-title":"IEEE Trans Multimedia"},{"key":"11403_CR16","doi-asserted-by":"publisher","first-page":"58","DOI":"10.1016\/j.jvcir.2018.01.016","volume":"52","author":"L Jing","year":"2018","unstructured":"Jing L, Yang X, Tian Y (2018) Video you only look once: Overall temporal convolutions for action recognition. J Vis Commun Image Represent 52:58\u201365","journal-title":"J Vis Commun Image Represent"},{"key":"11403_CR17","doi-asserted-by":"crossref","unstructured":"Karpathy A, Toderici G, Shetty S (2014) Large-Scale Video Classification with Convolutional Neural Networks, in: IEEE Conf Comp Vision Pattern Recogn 1725\u20131732","DOI":"10.1109\/CVPR.2014.223"},{"key":"11403_CR18","doi-asserted-by":"publisher","first-page":"4646","DOI":"10.1109\/TIP.2019.2912357","volume":"28","author":"C Li","year":"2019","unstructured":"Li C, Zhang B, Chen C et al (2019) Deep manifold structure transfer for action recognition. IEEE Trans Image Process 28:4646\u20134658","journal-title":"IEEE Trans Image Process"},{"key":"11403_CR19","doi-asserted-by":"crossref","unstructured":"Lin J, Gan C, Han D (2019) TSM: Temporal Shift Module for Efficient Video Understanding, in: Intern Conf Comp Vision 7082\u20137092","DOI":"10.1109\/ICCV.2019.00718"},{"key":"11403_CR20","first-page":"9937","volume":"2019","author":"A Piergiovanni","year":"2019","unstructured":"Piergiovanni A, Ryoo M (2019) Representation Flow for Action Recognition, in. IEEE\/CVF Conf Comp Vision Pattern Recogn 9937\u20139945","journal-title":"IEEE\/CVF Conference on Computer Vision and Pattern Recognition"},{"key":"11403_CR21","first-page":"5534","volume":"2017","author":"Z Qiu","year":"2017","unstructured":"Qiu Z, Yao T, Mei T (2017) Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks, in. IEEE Intern Conf Comp Vision 5534\u20135542","journal-title":"IEEE International Conference on Computer Vision"},{"key":"11403_CR22","doi-asserted-by":"crossref","unstructured":"Shi Y, Tian Y, Wang Y et al (2017) Learning Long-Term Dependencies for Action Recognition with a Biologically-Inspired Deep Network, in: IEEE Inter Conf Comp Vision 716\u2013725","DOI":"10.1109\/ICCV.2017.84"},{"key":"11403_CR23","unstructured":"Simonyan K, Zisserman A (2014) Two-stream convolutional networksfor action recognition in videos. Proc 27th Intern Confer Neural Inform Process Syst 568\u2013576"},{"key":"11403_CR24","first-page":"1099","volume":"2020","author":"S Sudhakaran","year":"2020","unstructured":"Sudhakaran S, Escalera S, Lanz O (2020) Gate-Shift Networks for Video Action Recognition, in. IEEE\/CVF Conf Comp Vision Pattern Recogn 1099\u20131108","journal-title":"IEEE\/CVF Conference on Computer Vision and Pattern Recognition"},{"key":"11403_CR25","first-page":"4489","volume":"2015","author":"D Tran","year":"2015","unstructured":"Tran D, Bourdev L, Fergus R et al (2015) Learning Spatiotemporal Features with 3D Convolutional Networks, in. IEEE Intern Conf Comp Vision 4489\u20134497","journal-title":"IEEE International Conference on Computer Vision"},{"key":"11403_CR26","first-page":"5551","volume":"2019","author":"D Tran","year":"2019","unstructured":"Tran D, Wang H, Feiszli M et al (2019) Video Classification With Channel-Separated Convolutional Networks, in. IEEE\/CVF Intern Conf Comp Vision 25551\u20135560","journal-title":"IEEE\/CVF International Conference on Computer Vision"},{"key":"11403_CR27","doi-asserted-by":"publisher","first-page":"1510","DOI":"10.1109\/TPAMI.2017.2712608","volume":"40","author":"G Varol","year":"2018","unstructured":"Varol G, Laptev I, Schmid C (2018) Long-Term Temporal Convolutions for Action Recognition. IEEE Trans Pattern Anal Mach Intell 40:1510\u20131517","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"11403_CR28","doi-asserted-by":"crossref","unstructured":"Wang H, Schmid C (2013) Action recognition with improved trajectories, in: Intern Conf Comp Vision 3551\u20133558","DOI":"10.1109\/ICCV.2013.441"},{"key":"11403_CR29","doi-asserted-by":"crossref","unstructured":"Wang J, Wang W, Gao W (2018) Multiscale Deep Alternative Neural Network for Large-Scale Video Classification IEEE Transact Multimedia 20:2578\u20132592","DOI":"10.1109\/TMM.2018.2855081"},{"key":"11403_CR30","doi-asserted-by":"crossref","unstructured":"Wang L, Xiong Y, Wang Z et al (2020) Temporal segment networks: towards good practices for deep action recognition, in: Euro Conf Comp Vision 20\u201336","DOI":"10.1007\/978-3-319-46484-8_2"},{"key":"11403_CR31","doi-asserted-by":"publisher","first-page":"2293","DOI":"10.1109\/TMM.2019.2953814","volume":"22","author":"H Wu","year":"2020","unstructured":"Wu H, Ma X, Li Y (2020) Convolutional Networks With Channel and STIPs Attention Model for Action Recognition in Videos. IEEE Trans Multimedia 22:2293\u20132306","journal-title":"IEEE Trans Multimedia"},{"key":"11403_CR32","doi-asserted-by":"publisher","first-page":"2518","DOI":"10.1109\/TMM.2019.2907453","volume":"21","author":"J Zhang","year":"2019","unstructured":"Zhang J, Mei K, Zheng Y et al (2019) Exploiting Mid-Level Semantics for Large-Scale Complex Video Classification. IEEE Trans Multimedia 21:2518\u20132530","journal-title":"IEEE Trans Multimedia"},{"key":"11403_CR33","doi-asserted-by":"publisher","first-page":"1839","DOI":"10.1109\/TCSVT.2017.2682196","volume":"28","author":"S Zhao","year":"2018","unstructured":"Zhao S, Liu Y, Han Y et al (2018) Pooling the Convolutional Layers in Deep ConvNets for Video Action Recognition. IEEE Trans Circuits Syst Video Technol 28:1839\u20131849","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"11403_CR34","doi-asserted-by":"publisher","first-page":"38","DOI":"10.1016\/j.jvcir.2018.12.026","volume":"60","author":"S Zhu","year":"2019","unstructured":"Zhu S, Fang Z, Wang Y et al (2019) Multimodal activity recognition with local block CNN and attention-based spatial weighted CNN. J Vis Commun Image Represent 60:38\u201343","journal-title":"J Vis Commun Image Represent"},{"key":"11403_CR35","doi-asserted-by":"crossref","unstructured":"Zolfaghari M, Singh K, Brox T (2018) Eco: Efficient convolutional network for online video understanding, Proc Euro Con Comp Vision 713\u2013730","DOI":"10.1007\/978-3-030-01216-8_43"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-021-11403-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-021-11403-z\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-021-11403-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2021,10,20]],"date-time":"2021-10-20T02:04:10Z","timestamp":1634695450000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-021-11403-z"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,8,13]]},"references-count":35,"journal-issue":{"issue":"24","published-print":{"date-parts":[[2021,10]]}},"alternative-id":["11403"],"URL":"https:\/\/doi.org\/10.1007\/s11042-021-11403-z","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"type":"print","value":"1380-7501"},{"type":"electronic","value":"1573-7721"}],"subject":[],"published":{"date-parts":[[2021,8,13]]},"assertion":[{"value":"30 October 2020","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"27 July 2021","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"2 August 2021","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"13 August 2021","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}