{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,17]],"date-time":"2026-03-17T18:27:04Z","timestamp":1773772024901,"version":"3.50.1"},"reference-count":57,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100013290","name":"National Key Research and Development Program of China Stem Cell and Translational Research","doi-asserted-by":"publisher","award":["2018AAA0102200"],"award-info":[{"award-number":["2018AAA0102200"]}],"id":[{"id":"10.13039\/501100013290","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61720106006"],"award-info":[{"award-number":["61720106006"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61721004"],"award-info":[{"award-number":["61721004"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61702511"],"award-info":[{"award-number":["61702511"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61751211"],"award-info":[{"award-number":["61751211"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61532009"],"award-info":[{"award-number":["61532009"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U1836220"],"award-info":[{"award-number":["U1836220"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U1705262"],"award-info":[{"award-number":["U1705262"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61872424"],"award-info":[{"award-number":["61872424"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61936005"],"award-info":[{"award-number":["61936005"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Key Research Program of Frontier Sciences of CAS","award":["QYZDJSSWJSC039"],"award-info":[{"award-number":["QYZDJSSWJSC039"]}]},{"name":"Research Program of National Laboratory of Pattern Recognition","award":["Z-2018007"],"award-info":[{"award-number":["Z-2018007"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Multimedia"],"published-print":{"date-parts":[[2021]]},"DOI":"10.1109\/tmm.2020.3011288","type":"journal-article","created":{"date-parts":[[2020,7,24]],"date-time":"2020-07-24T20:23:24Z","timestamp":1595622204000},"page":"2386-2397","source":"Crossref","is-referenced-by-count":36,"title":["Learning Coarse-to-Fine Graph Neural Networks for Video-Text Retrieval"],"prefix":"10.1109","volume":"23","author":[{"given":"Wei","family":"Wang","sequence":"first","affiliation":[]},{"given":"Junyu","family":"Gao","sequence":"additional","affiliation":[]},{"given":"Xiaoshan","family":"Yang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8343-9665","authenticated-orcid":false,"given":"Changsheng","family":"Xu","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1145\/3240508.3240566"},{"key":"ref38","article-title":"Few-shot learning with graph neural networks","author":"garcia","year":"0","journal-title":"Proc Int Conf Learn Representations (ICLR)"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/2072298.2072484"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1145\/1291233.1291280"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2016.2614233"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01234-2_29"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/TNN.2008.2005605"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2019.2947358"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2020.2969792"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2019\/138"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2018.2832602"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.347"},{"key":"ref29","first-page":"1786","article-title":"W2vv++ fully deep learning for Ad-Hoc video search","author":"li","year":"0","journal-title":"Proc 27th ACM Int Conf Multimedia"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/2962719"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1145\/3206025.3206064"},{"key":"ref20","first-page":"740","article-title":"Microsoft COCO: Common objects in context","author":"lin","year":"0","journal-title":"Proc Eur Conf Comput Vis"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/s11280-018-0536-7"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2016.2610324"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2007.1110"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/2072298.2072354"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1023\/B:VISI.0000029664.99615.94"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1145\/1282280.1282352"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.515"},{"key":"ref51","article-title":"Automatic differentiation in pytorch","author":"paszke","year":"2017"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.324"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1145\/2647868.2654902"},{"key":"ref55","first-page":"2","article-title":"Order-embeddings of images and language","author":"vendrov","year":"2016","journal-title":"Proc 4th Int Conf Learn Representations ICLR"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00208"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2010.5540112"},{"key":"ref52","first-page":"7","article-title":"Adam: A method for stochastic optimization","author":"kingma","year":"0","journal-title":"Proc 3rd Int Conf Learn Representations ICLR"},{"key":"ref10","first-page":"1857","article-title":"Improved deep metric learning with multi-class n-pair loss objective","author":"sohn","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref11","article-title":"Learning to model relationships for zero-shot video classification","author":"gao","year":"2020","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"ref40","first-page":"10","article-title":"Neural relational inference for interacting systems","author":"kipf","year":"0","journal-title":"Proc 35th Int Conf Mach Learn ICML"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33014731"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33018303"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00478"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2020.2969787"},{"key":"ref16","article-title":"Semi-supervised classification with graph convolutional networks","author":"kipf","year":"0","journal-title":"Proc Int Conf Learn Representations (ICLR)"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00943"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00010"},{"key":"ref19","first-page":"593","article-title":"Modeling relational data with graph convolutional networks","author":"schlichtkrull","year":"0","journal-title":"Proc Eur Semantic Web Conf"},{"key":"ref4","first-page":"2346","article-title":"Jointly modeling deep video and compositional text to bridge vision and language in a unified framework","author":"xu","year":"0","journal-title":"Proc 29th AAAI Conf Artif Intell"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2015.2393635"},{"key":"ref6","first-page":"2121","article-title":"Devise: A deep visual-semantic embedding model","author":"frome","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.497"},{"key":"ref8","first-page":"9","article-title":"Use what you have: Video retrieval using representations from collaborative experts","author":"liu","year":"0","journal-title":"Proc Brit Mach Vis Conf"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00957"},{"key":"ref49","article-title":"VSE++: Improved visual-semantic embeddings with hard negatives","author":"faghri","year":"0","journal-title":"Proc Brit Mach Vis Conf (BMVC)"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00535"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.571"},{"key":"ref45","first-page":"539","article-title":"Unsupervised generative adversarial cross-modal hashing","author":"zhang","year":"0","journal-title":"Proc 30nd AAAI Conf Artif Intell"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.502"},{"key":"ref47","first-page":"190","article-title":"Collecting highly parallel data for paraphrase evaluation","author":"chen","year":"0","journal-title":"Proc 49th Annu Meeting Assoc Comput Linguistics Human Lang Technologies"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-00776-8_21"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01065"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-30645-8_49"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00965"}],"container-title":["IEEE Transactions on Multimedia"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6046\/9296985\/09147074.pdf?arnumber=9147074","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,10]],"date-time":"2022-05-10T14:51:27Z","timestamp":1652194287000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9147074\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021]]},"references-count":57,"URL":"https:\/\/doi.org\/10.1109\/tmm.2020.3011288","relation":{},"ISSN":["1520-9210","1941-0077"],"issn-type":[{"value":"1520-9210","type":"print"},{"value":"1941-0077","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021]]}}}