{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,5,13]],"date-time":"2025-05-13T06:44:52Z","timestamp":1747118692623,"version":"3.40.3"},"publisher-location":"Cham","reference-count":19,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783319239873"},{"type":"electronic","value":"9783319239897"}],"license":[{"start":{"date-parts":[[2015,1,1]],"date-time":"2015-01-01T00:00:00Z","timestamp":1420070400000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2015]]},"DOI":"10.1007\/978-3-319-23989-7_19","type":"book-chapter","created":{"date-parts":[[2015,10,13]],"date-time":"2015-10-13T21:05:04Z","timestamp":1444770304000},"page":"176-185","source":"Crossref","is-referenced-by-count":1,"title":["Multi-modal Retrieval via Deep Textual-Visual Correlation Learning"],"prefix":"10.1007","author":[{"given":"Jun","family":"Song","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yueyang","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Fei","family":"Wu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Weiming","family":"Lu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Siliang","family":"Tang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yueting","family":"Zhuang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2015,10,22]]},"reference":[{"key":"19_CR1","unstructured":"Mikolov, T., et al. Efficient estimation of word representations in vector space (2013). arXiv preprint arXiv:1301.3781"},{"key":"19_CR2","doi-asserted-by":"crossref","unstructured":"Socher, R., et al. Grounded Compositional Semantics for Finding and Describing Images with Sentences. NIPS Deep Learning Workshop (2013)","DOI":"10.1162\/tacl_a_00177"},{"key":"19_CR3","unstructured":"Donahue, J., et al. Decaf: A deep convolutional activation feature for generic visual recognition (2013). arXiv preprint arXiv:1310.1531"},{"key":"19_CR4","unstructured":"Krizhevsky, A., Ilya, S., Geoffrey, E.H.: Imagenet classification with deep convolutional neural networks. In: Advances in Neural Information Processing Systems (2012)"},{"key":"19_CR5","first-page":"993","volume":"3","author":"DM Blei","year":"2003","unstructured":"Blei, D.M., Andrew, Y.N., Michael, I.J.: Latent dirichlet allocation. J. mach. Learn. Res. 3, 993\u20131022 (2003)","journal-title":"J. mach. Learn. Res."},{"issue":"10","key":"19_CR6","doi-asserted-by":"publisher","first-page":"735","DOI":"10.1109\/LSP.2007.896438","volume":"14","author":"SH Lee","year":"2007","unstructured":"Lee, S.H., Seungjin, C.: Two-dimensional canonical correlation analysis. IEEE Signal Process. Lett. 14(10), 735\u2013738 (2007)","journal-title":"IEEE Signal Process. Lett."},{"issue":"2","key":"19_CR7","doi-asserted-by":"publisher","first-page":"300","DOI":"10.1109\/TPAMI.2007.40","volume":"29","author":"C Siagian","year":"2007","unstructured":"Siagian, C., Itti, L.: Rapid biologically-inspired scene classification using features shared with visual attention. IEEE Trans. Pattern Anal. Mach. Intell. 29(2), 300\u2013312 (2007)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"19_CR8","doi-asserted-by":"publisher","first-page":"321","DOI":"10.1093\/biomet\/28.3-4.321","volume":"28","author":"H Hotelling","year":"1936","unstructured":"Hotelling, H.: Relations between two sets of variates. Biometrika 28, 321\u2013377 (1936)","journal-title":"Biometrika"},{"key":"19_CR9","doi-asserted-by":"crossref","unstructured":"Rasiwasia, N., et al. A new approach to cross-modal multimedia retrieval. In: Proceedings of the International Conference on Multimedia. ACM (2010)","DOI":"10.1145\/1873951.1873987"},{"key":"19_CR10","doi-asserted-by":"crossref","unstructured":"Blei, D.M., Jordan, M.I.: Modeling annotated data. In: Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval, pp. 127\u2013134. ACM (2003)","DOI":"10.1145\/860435.860460"},{"key":"19_CR11","doi-asserted-by":"crossref","unstructured":"Salomatin, K., Yiming, Y., Abhimanyu, L.: Multi-field Correlated Topic Modeling. SDM (2009)","DOI":"10.1137\/1.9781611972795.54"},{"key":"19_CR12","doi-asserted-by":"crossref","unstructured":"Putthividhy, D., Hagai, T.A., Srikantan, S.N.: Topic regression multi-modal latent dirichlet allocation for image annotation. In: 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE (2010)","DOI":"10.1109\/CVPR.2010.5540000"},{"key":"19_CR13","doi-asserted-by":"crossref","unstructured":"Zhuang, Y., et al. Supervised Coupled Dictionary Learning with Group Structures for Multi-modal Retrieval. AAAI (2013)","DOI":"10.1609\/aaai.v27i1.8603"},{"issue":"1","key":"19_CR14","doi-asserted-by":"publisher","first-page":"59","DOI":"10.1016\/j.cviu.2005.09.012","volume":"106","author":"L Fei-Fei","year":"2007","unstructured":"Fei-Fei, L., Fergus, R., Perona, P.: Learning generative visual models from few training examples: an incremental bayesian approach tested on 101 object categories. Comput. Vis. Image Underst. 106(1), 59\u201370 (2007)","journal-title":"Comput. Vis. Image Underst."},{"key":"19_CR15","doi-asserted-by":"crossref","unstructured":"Zhen, Y., Dit-Yan, Y.: A probabilistic model for multimodal hash function learning. In: Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM (2012)","DOI":"10.1145\/2339530.2339678"},{"issue":"2","key":"19_CR16","doi-asserted-by":"publisher","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","volume":"60","author":"DG Lowe","year":"2004","unstructured":"Lowe, D.G.: Distinctive image features from scale-invariant keypoints. Int. J. Comput. Vis. 60(2), 91\u2013110 (2004)","journal-title":"Int. J. Comput. Vis."},{"key":"19_CR17","unstructured":"De Marneffe, M.-C., MacCartney, B., Manning, C.D.: Generating typed dependency parses from phrase structure parses. In: Proceedings of LREC, vol. 6 (2006)"},{"key":"19_CR18","doi-asserted-by":"crossref","unstructured":"Deng, Jia., et al. Imagenet: A large-scale hierarchical image database. In: IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2009. IEEE (2009)","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"19_CR19","unstructured":"Jia, Y., Mathieu, S., Trevor, D.: Learning cross-modality similarity for multinomial data. In: 2011 IEEE International Conference on Computer Vision (ICCV). IEEE (2011)"}],"container-title":["Lecture Notes in Computer Science","Intelligence Science and Big Data Engineering. Image and Video Data Engineering"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-23989-7_19","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,8,15]],"date-time":"2023-08-15T08:01:34Z","timestamp":1692086494000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-23989-7_19"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015]]},"ISBN":["9783319239873","9783319239897"],"references-count":19,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-23989-7_19","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2015]]}}}