{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,9]],"date-time":"2026-06-09T15:29:09Z","timestamp":1781018949621,"version":"3.54.1"},"reference-count":70,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2016,1,1]],"date-time":"2016-01-01T00:00:00Z","timestamp":1451606400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"funder":[{"DOI":"10.13039\/501100012166","name":"National Basic Research Program of China","doi-asserted-by":"crossref","award":["2012CB316400"],"award-info":[{"award-number":["2012CB316400"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"crossref"}]},{"name":"Fundamental Scientific Research"},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"crossref","award":["61210006"],"award-info":[{"award-number":["61210006"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"crossref"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"crossref","award":["61532005"],"award-info":[{"award-number":["61532005"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"crossref"}]},{"name":"Program for Changjiang Scholars and Innovative Research Team in University","award":["IRT201206"],"award-info":[{"award-number":["IRT201206"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Cybern."],"published-print":{"date-parts":[[2016]]},"DOI":"10.1109\/tcyb.2016.2519449","type":"journal-article","created":{"date-parts":[[2016,3,8]],"date-time":"2016-03-08T19:15:12Z","timestamp":1457464512000},"page":"1-12","source":"Crossref","is-referenced-by-count":172,"title":["Cross-Modal Retrieval With CNN Visual Features: A New Baseline"],"prefix":"10.1109","author":[{"given":"Yunchao","family":"Wei","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yao","family":"Zhao","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Canyi","family":"Lu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shikui","family":"Wei","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Luoqi","family":"Liu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zhenfeng","family":"Zhu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shuicheng","family":"Yan","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref70","doi-asserted-by":"crossref","first-page":"1070","DOI":"10.1609\/aaai.v27i1.8603","article-title":"Supervised coupled dictionary learning with group structures for multi-modal retrieval","author":"zhuang","year":"2013","journal-title":"Proc AAAI"},{"key":"ref39","first-page":"823","article-title":"Cluster canonical correlation analysis","author":"rasiwasia","year":"2014","journal-title":"Proc AISTATS"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1145\/1873951.1873987"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/2502081.2502087"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1145\/2484028.2484039"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1023\/B:VISI.0000029664.99615.94"},{"key":"ref30","first-page":"1699","article-title":"Query-oriented multi-document summarization via unsupervised deep learning","author":"liu","year":"2012","journal-title":"Proc AAAI"},{"key":"ref37","first-page":"139","article-title":"Collecting image annotations using Amazon&#x2019;s mechanical turk","author":"rashtchian","year":"2010","journal-title":"Proc Workshop Creating Speech Lang Data Amazon&#x2019;s Mech Turk"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.222"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1023\/A:1011139631724"},{"key":"ref34","first-page":"689","article-title":"Multimodal deep learning","author":"ngiam","year":"2011","journal-title":"Proc ICML"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2012.2237023"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2012.2234731"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2011.170"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1145\/1631272.1631298"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2014.2360856"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2008.917359"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ISCAS.2010.5537907"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1145\/2600428.2609563"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2012.6288383"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2014.2374755"},{"key":"ref67","first-page":"2177","article-title":"Large-scale supervised multimodal hashing with semantic correlation maximization","author":"zhang","year":"2014","journal-title":"Proc AAAI"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2013.2285219"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1145\/2502081.2502107"},{"key":"ref2","first-page":"993","article-title":"Latent Dirichlet allocation","volume":"3","author":"blei","year":"2003","journal-title":"J Mach Learn Res"},{"key":"ref1","first-page":"1247","article-title":"Deep canonical correlation analysis","author":"andrew","year":"2013","journal-title":"Proc ICML"},{"key":"ref20","first-page":"2407","article-title":"Learning cross-modality similarity for multinomial data","author":"jia","year":"2011","journal-title":"Proc ICCV"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2014.2306655"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1145\/2647868.2654889"},{"key":"ref24","article-title":"Learning multiple layers of features from tiny images","author":"krizhevsky","year":"2009"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2010.5540092"},{"key":"ref26","first-page":"1360","article-title":"Learning hash functions for cross-view similarity search","volume":"22","author":"kumar","year":"2011","journal-title":"Proc IJCAI"},{"key":"ref25","first-page":"1106","article-title":"ImageNet classification with deep convolutional neural networks","author":"krizhevsky","year":"2012","journal-title":"Proc NIPS"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2012.2207397"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2014.2356136"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2013.2291214"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1145\/2502081.2502097"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2014.6890289"},{"key":"ref56","article-title":"Modality-dependent cross-media retrieval","author":"wei","year":"2015","journal-title":"arXiv preprint arXiv 1506 01070"},{"key":"ref55","article-title":"CNN: Single-label to multi-label","author":"wei","year":"2014","journal-title":"arXiv preprint arXiv 1406 5726"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1145\/2808492.2808576"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.14778\/2732296.2732301"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2010.2055045"},{"key":"ref10","first-page":"1871","article-title":"LIBLINEAR: A library for large linear classification","volume":"9","author":"fan","year":"2008","journal-title":"J Mach Learn Res"},{"key":"ref11","first-page":"2121","article-title":"DeViSE: A deep visual-semantic embedding model","author":"frome","year":"2013","journal-title":"Proc NIPS"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2014.131"},{"key":"ref12","article-title":"Rich feature hierarchies for accurate object detection and semantic segmentation","author":"girshick","year":"2013","journal-title":"arXiv preprint arXiv 1311 2524"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-013-0658-4"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1162\/0899766042321814"},{"key":"ref15","doi-asserted-by":"crossref","first-page":"504","DOI":"10.1126\/science.1127647","article-title":"Reducing the dimensionality of data with neural networks","volume":"313","author":"hinton","year":"2006","journal-title":"Science"},{"key":"ref16","article-title":"Improving neural networks by preventing co-adaptation of feature detectors","author":"hinton","year":"2012","journal-title":"arXiv preprint arXiv 1207 0580"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.5244\/C.24.58"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-011-0494-3"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2010.5540039"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/1646396.1646452"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2010.5539928"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2005.177"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2013.142"},{"key":"ref8","article-title":"DeCAF: A deep convolutional activation feature for generic visual recognition","author":"donahue","year":"2013","journal-title":"arXiv preprint arXiv 1310 1531"},{"key":"ref7","first-page":"248","article-title":"ImageNet: A large-scale hierarchical image database","author":"deng","year":"2009","journal-title":"Proc CVPR"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2009.2017400"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-009-0275-4"},{"key":"ref46","first-page":"1","article-title":"Im2text and text2im: Associating images and texts for cross-modal retrieval","author":"verma","year":"2014","journal-title":"Proc BMVC"},{"key":"ref45","first-page":"2231","article-title":"Multimodal learning with deep Boltzmann machines","author":"srivastava","year":"2012","journal-title":"Proc NIPS"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2010.5540018"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2015.2476655"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2012.6247923"},{"key":"ref41","article-title":"Overfeat: Integrated recognition, localization and detection using convolutional networks","author":"sermanet","year":"2013","journal-title":"arXiv preprint arXiv 1312 6229"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1145\/2463676.2465274"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2013.2289351"}],"container-title":["IEEE Transactions on Cybernetics"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6221036\/6352949\/7428926.pdf?arnumber=7428926","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,6,14]],"date-time":"2024-06-14T21:52:34Z","timestamp":1718401954000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7428926\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016]]},"references-count":70,"URL":"https:\/\/doi.org\/10.1109\/tcyb.2016.2519449","relation":{},"ISSN":["2168-2267","2168-2275"],"issn-type":[{"value":"2168-2267","type":"print"},{"value":"2168-2275","type":"electronic"}],"subject":[],"published":{"date-parts":[[2016]]}}}