{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,18]],"date-time":"2026-06-18T15:42:33Z","timestamp":1781797353491,"version":"3.54.5"},"reference-count":104,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"Foundation for Innovative Research Groups through the National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61421003"],"award-info":[{"award-number":["61421003"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002358","name":"Beihang University","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002358","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. on Image Process."],"published-print":{"date-parts":[[2021]]},"DOI":"10.1109\/tip.2020.3048680","type":"journal-article","created":{"date-parts":[[2021,2,10]],"date-time":"2021-02-10T10:06:26Z","timestamp":1612951586000},"page":"2989-3004","source":"Crossref","is-referenced-by-count":68,"title":["Semantics-Aware Spatial-Temporal Binaries for Cross-Modal Video Retrieval"],"prefix":"10.1109","volume":"30","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-6955-6635","authenticated-orcid":false,"given":"Mengshi","family":"Qi","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0306-534X","authenticated-orcid":false,"given":"Jie","family":"Qin","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0512-880X","authenticated-orcid":false,"given":"Yi","family":"Yang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8001-2703","authenticated-orcid":false,"given":"Yunhong","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4516-9729","authenticated-orcid":false,"given":"Jiebo","family":"Luo","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.515"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.497"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/69.755615"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1181"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1145\/2600428.2609610"},{"key":"ref37","first-page":"1","article-title":"Efficient estimation of word representations in vector space","author":"mikolov","year":"2013","journal-title":"Proc ICLR Workshops"},{"key":"ref36","first-page":"2346","article-title":"Jointly modeling deep video and compositional text to bridge vision and language in a unified framework","author":"xu","year":"2015","journal-title":"Proc AAAI"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46604-0_46"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1016\/S0165-1684(00)00019-0"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.439"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299011"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.441"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1145\/2072298.2072354"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.282"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123273"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.267"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/2964284.2964308"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2012.193"},{"key":"ref26","first-page":"1","article-title":"Learning hash functions for cross-view similarity search","author":"kumar","year":"2011","journal-title":"Proc IJCAI"},{"key":"ref100","first-page":"1","article-title":"Hashing with graphs","author":"liu","year":"2011","journal-title":"Proc ICML"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.348"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.2965987"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1145\/3331184.3331235"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.117"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2016.2557059"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2016.2610324"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01012"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413967"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6820"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01186"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1145\/3357384.3358104"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.510"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2019.03.015"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/3323873.3325034"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1016\/S0031-3203(96)00109-4"},{"key":"ref5","author":"snoek","year":"2009","journal-title":"Concept-Based Video Retrieval"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1145\/3206025.3206064"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1145\/3240508.3240549"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2018.2832602"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.162"},{"key":"ref46","first-page":"1","article-title":"A novel convolutional architecture for video-text retrieval","author":"li","year":"2020","journal-title":"Proc IEEE Int Conf Multimedia Expo (ICME)"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00957"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1145\/3209978.3210003"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/ICME46284.2020.9102913"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1145\/3397271.3401151"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2020\/140"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1007\/s13735-018-00166-3"},{"key":"ref43","first-page":"10638","article-title":"Fine-grained video-text retrieval with hierarchical graph reasoning","author":"chen","year":"2020","journal-title":"Proc IEEE\/CVF Conf Comput Vis Pattern Recognit (CVPR)"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2821921"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123311"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2814344"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2019.2940683"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.335"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298676"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2016.2564638"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46487-9_47"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.169"},{"key":"ref79","first-page":"1","article-title":"Very deep convolutional networks for large-scale image recognition","author":"simonyan","year":"2015","journal-title":"Proc ICLR"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.712"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2016.09.009"},{"key":"ref61","first-page":"2818","article-title":"Auto-encoding twin-bottleneck hashing","author":"shen","year":"2020","journal-title":"Proc IEEE\/CVF Conf Comput Vis Pattern Recognit (CVPR)"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1155\/2018\/7068349"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2015.09.116"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2016.2645404"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2017\/429"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2882155"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2017.03.021"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00830"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2017.2667710"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2018.2830110"},{"key":"ref95","first-page":"3946","article-title":"Quantized correlation hashing for fast cross-modal search","author":"wu","year":"2015","journal-title":"Proc IJCAI"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.541"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299073"},{"key":"ref92","first-page":"265","article-title":"TensorFlow: A system for large-scale machine learning","volume":"16","author":"abadi","year":"2016","journal-title":"Proc OSDI"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.3115\/1118108.1118117"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref104","first-page":"1","article-title":"Convolutional LSTM network: A machine learning approach for precipitation nowcasting","author":"xingjian","year":"2015","journal-title":"Proc NIPS"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2017.2669095"},{"key":"ref102","first-page":"1","article-title":"Discrete graph hashing","author":"liu","year":"2014","journal-title":"Proc NIPS"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1145\/997817.997857"},{"key":"ref99","first-page":"4","article-title":"Spectral hashing","author":"weiss","year":"2009","journal-title":"Proc NIPS"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2013.225"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298947"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01249-6_7"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2019.2921655"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00408"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01275"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.2983567"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00538"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2016.2619262"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3416269"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298754"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2019.2894161"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.566"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1145\/2393347.2393393"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2016.2612883"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2017.2737329"},{"key":"ref80","first-page":"1097","article-title":"ImageNet classification with deep convolutional neural networks","author":"krizhevsky","year":"2012","journal-title":"Proc NIPS"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.571"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298598"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2670560"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298698"},{"key":"ref88","doi-asserted-by":"crossref","first-page":"10754","DOI":"10.1609\/aaai.v34i07.6704","article-title":"Person tube retrieval via language description","author":"fan","year":"2020","journal-title":"Proc AAAI"}],"container-title":["IEEE Transactions on Image Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/83\/9263394\/09351755.pdf?arnumber=9351755","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,10]],"date-time":"2022-05-10T14:50:06Z","timestamp":1652194206000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9351755\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021]]},"references-count":104,"URL":"https:\/\/doi.org\/10.1109\/tip.2020.3048680","relation":{},"ISSN":["1057-7149","1941-0042"],"issn-type":[{"value":"1057-7149","type":"print"},{"value":"1941-0042","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021]]}}}