{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,3]],"date-time":"2026-02-03T19:36:37Z","timestamp":1770147397572,"version":"3.49.0"},"reference-count":43,"publisher":"Springer Science and Business Media LLC","issue":"5","license":[{"start":{"date-parts":[[2024,9,27]],"date-time":"2024-09-27T00:00:00Z","timestamp":1727395200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,9,27]],"date-time":"2024-09-27T00:00:00Z","timestamp":1727395200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"name":"Guizhou Provincial Key Technology R&D Program","award":["(QKHZDZX (2022) 001)"],"award-info":[{"award-number":["(QKHZDZX (2022) 001)"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimedia Systems"],"published-print":{"date-parts":[[2024,10]]},"DOI":"10.1007\/s00530-024-01471-0","type":"journal-article","created":{"date-parts":[[2024,9,27]],"date-time":"2024-09-27T08:02:59Z","timestamp":1727424179000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Dual graph-structured semantics multi-subspace learning for cross-modal retrieval"],"prefix":"10.1007","volume":"30","author":[{"given":"Yirong","family":"Li","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xianghong","family":"Tang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jianguang","family":"Lu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yong","family":"Huang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,9,27]]},"reference":[{"key":"1471_CR1","doi-asserted-by":"crossref","unstructured":"Alberti, C., Ling, J., Collins, M., Reitter, D.: Fusion of detected objects in text for visual question answering. (2019). arXiv preprint arXiv:1908.05054","DOI":"10.18653\/v1\/D19-1219"},{"key":"1471_CR2","doi-asserted-by":"crossref","unstructured":"Anderson, P., He, X., Buehler, C., Teney, D., Johnson, M., Gould, S., Zhang, L.: Bottom-up and top-down attention for image captioning and visual question answering. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 6077\u20136086 (2018)","DOI":"10.1109\/CVPR.2018.00636"},{"key":"1471_CR3","unstructured":"Andrew, G., Arora, R., Bilmes, J., Livescu, K.: Deep canonical correlation analysis. In: International Conference on Machine Learning, PMLR. pp 1247\u20131255 (2013)"},{"key":"1471_CR4","doi-asserted-by":"publisher","first-page":"4756","DOI":"10.1109\/TNNLS.2022.3174970","volume":"35","author":"C Bai","year":"2022","unstructured":"Bai, C., Zeng, C., Ma, Q., Zhang, J.: Graph convolutional network discrete hashing for cross-modal retrieval. IEEE Trans. Neural Netw. Learn. Syst. 35, 4756\u20134767 (2022)","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"1471_CR5","doi-asserted-by":"publisher","first-page":"38","DOI":"10.1016\/j.patrec.2021.02.021","volume":"146","author":"LVB Beltr\u00e1n","year":"2021","unstructured":"Beltr\u00e1n, L.V.B., Caicedo, J.C., Journet, N., Coustaty, M., Lecellier, F., Doucet, A.: Deep multimodal learning for cross-modal retrieval: One model for all tasks. Pattern Recogn. Lett. 146, 38\u201345 (2021)","journal-title":"Pattern Recogn. Lett."},{"key":"1471_CR6","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3499027","volume":"18","author":"Y Cheng","year":"2022","unstructured":"Cheng, Y., Zhu, X., Qian, J., Wen, F., Liu, P.: Cross-modal graph matching network for image-text retrieval. ACM Trans. Multimed. Comput. Commun. Appl. (TOMM) 18, 1\u201323 (2022)","journal-title":"ACM Trans. Multimed. Comput. Commun. Appl. (TOMM)"},{"key":"1471_CR7","doi-asserted-by":"crossref","unstructured":"Feng, F., Wang, X., Li, R.: Cross-modal retrieval with correspondence autoencoder. In: Proceedings of the 22nd ACM International Conference on Multimedia, pp. 7\u201316 (2014)","DOI":"10.1145\/2647868.2654902"},{"key":"1471_CR8","doi-asserted-by":"publisher","first-page":"2639","DOI":"10.1162\/0899766042321814","volume":"16","author":"DR Hardoon","year":"2004","unstructured":"Hardoon, D.R., Szedmak, S., Shawe-Taylor, J.: Canonical correlation analysis: an overview with application to learning methods. Neural Comput. 16, 2639\u20132664 (2004)","journal-title":"Neural Comput."},{"key":"1471_CR9","doi-asserted-by":"publisher","first-page":"4257","DOI":"10.1007\/s10489-022-03653-7","volume":"53","author":"P He","year":"2023","unstructured":"He, P., Wang, M., Tu, D., Wang, Z.: Dual discriminant adversarial cross-modal retrieval. Appl. Intell. 53, 4257\u20134267 (2023)","journal-title":"Appl. Intell."},{"key":"1471_CR10","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107734","volume":"112","author":"P Hu","year":"2021","unstructured":"Hu, P., Peng, X., Zhu, H., Lin, J., Zhen, L., Wang, W., Peng, D.: Cross-modal discriminant adversarial network. Pattern Recogn. 112, 107734 (2021)","journal-title":"Pattern Recogn."},{"key":"1471_CR11","doi-asserted-by":"publisher","first-page":"1047","DOI":"10.1109\/TCYB.2018.2879846","volume":"50","author":"X Huang","year":"2018","unstructured":"Huang, X., Peng, Y., Yuan, M.: Mhtn: modal-adversarial hybrid transfer network for cross-modal retrieval. IEEE Trans. Cybern. 50, 1047\u20131059 (2018)","journal-title":"IEEE Trans. Cybern."},{"key":"1471_CR12","doi-asserted-by":"crossref","unstructured":"Jing, M., Li, J., Zhu, L., Lu, K., Yang, Y., Huang, Z.: Incomplete cross-modal retrieval with dual-aligned variational autoencoders. In: Proceedings of the 28th ACM International Conference on Multimedia, pp. 3283\u20133291 (2020)","DOI":"10.1145\/3394171.3413676"},{"key":"1471_CR13","doi-asserted-by":"publisher","first-page":"188","DOI":"10.1109\/TPAMI.2015.2435740","volume":"38","author":"M Kan","year":"2015","unstructured":"Kan, M., Shan, S., Zhang, H., Lao, S., Chen, X.: Multi-view discriminant analysis. IEEE Trans. Pattern Anal. Mach. Intell 38, 188\u2013194 (2015)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell"},{"key":"1471_CR14","doi-asserted-by":"publisher","first-page":"1825","DOI":"10.1109\/TPAMI.2016.2610969","volume":"39","author":"K Li","year":"2016","unstructured":"Li, K., Qi, G.J., Ye, J., Hua, K.A.: Linear subspace ranking hashing for cross-modal retrieval. IEEE Trans. Pattern Anal. Mach. Intell. 39, 1825\u20131838 (2016)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"1471_CR15","doi-asserted-by":"crossref","unstructured":"Li, K., Zhang, Y., Li, K., Li, Y., Fu, Y.: Visual semantic reasoning for image-text matching. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 4654\u20134662 (2019)","DOI":"10.1109\/ICCV.2019.00475"},{"key":"1471_CR16","doi-asserted-by":"crossref","unstructured":"Li, R., Wang, S., Zhu, F., Huang, J.: Adaptive graph convolutional neural networks. In: Proceedings of the AAAI Conference on Artificial Intelligence (2018)","DOI":"10.1609\/aaai.v32i1.11691"},{"key":"1471_CR17","doi-asserted-by":"publisher","DOI":"10.1016\/j.engappai.2023.106439","volume":"123","author":"Z Li","year":"2023","unstructured":"Li, Z., Lu, H., Fu, H., Wang, Z., Gu, G.: Adaptive adversarial learning based cross-modal retrieval. Eng. Appl. Artif. Intell. 123, 106439 (2023)","journal-title":"Eng. Appl. Artif. Intell."},{"key":"1471_CR18","doi-asserted-by":"publisher","first-page":"920","DOI":"10.1109\/TCSVT.2022.3203247","volume":"33","author":"L Liao","year":"2022","unstructured":"Liao, L., Yang, M., Zhang, B.: Deep supervised dual cycle adversarial network for cross-modal retrieval. IEEE Trans. Circ. Syst. Video Technol. 33, 920\u2013934 (2022)","journal-title":"IEEE Trans. Circ. Syst. Video Technol."},{"key":"1471_CR19","doi-asserted-by":"crossref","unstructured":"Liu, S., Fan, H., Qian, S., Chen, Y., Ding, W., Wang, Z.: Hit: Hierarchical transformer with momentum contrast for video-text retrieval. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 11915\u201311925 (2021)","DOI":"10.1109\/ICCV48922.2021.01170"},{"key":"1471_CR20","doi-asserted-by":"crossref","unstructured":"Liu, S., Qian, S., Guan, Y., Zhan, J., Ying, L.: Joint-modal distribution-based similarity hashing for large-scale unsupervised deep cross-modal retrieval. In: Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 1379\u20131388 (2020)","DOI":"10.1145\/3397271.3401086"},{"key":"1471_CR21","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/2536798","volume":"46","author":"T Mei","year":"2014","unstructured":"Mei, T., Rui, Y., Li, S., Tian, Q.: Multimedia search reranking: a literature survey. ACM Comput. Surv. (CSUR) 46, 1\u201338 (2014)","journal-title":"ACM Comput. Surv. (CSUR)"},{"key":"1471_CR22","doi-asserted-by":"publisher","first-page":"2475","DOI":"10.1109\/TCYB.2019.2932096","volume":"50","author":"S Pan","year":"2019","unstructured":"Pan, S., Hu, R., Fung, S.F., Long, G., Jiang, J., Zhang, C.: Learning graph embedding with adversarial training methods. IEEE Trans. Cybern. 50, 2475\u20132487 (2019)","journal-title":"IEEE Trans. Cybern."},{"key":"1471_CR23","unstructured":"Peng, Y., Huang, X., Qi, J.: Cross-media shared representation by hierarchical learning with multiple deep networks. In: IJCAI, pp. 3853 (2016)"},{"key":"1471_CR24","doi-asserted-by":"publisher","first-page":"405","DOI":"10.1109\/TMM.2017.2742704","volume":"20","author":"Y Peng","year":"2017","unstructured":"Peng, Y., Qi, J., Huang, X., Yuan, Y.: Ccl: Cross-modal correlation learning with multigrained fusion by hierarchical network. IEEE Trans. Multimed. 20, 405\u2013420 (2017)","journal-title":"IEEE Trans. Multimed."},{"key":"1471_CR25","doi-asserted-by":"publisher","first-page":"3520","DOI":"10.1109\/TMM.2021.3101642","volume":"24","author":"S Qian","year":"2021","unstructured":"Qian, S., Xue, D., Fang, Q., Xu, C.: Adaptive label-aware graph convolutional networks for cross-modal retrieval. IEEE Trans. Multimed. 24, 3520\u20133532 (2021)","journal-title":"IEEE Trans. Multimed."},{"key":"1471_CR26","doi-asserted-by":"crossref","unstructured":"Qian, S., Zhang, T., Xu, C.: Multi-modal multi-view topic-opinion mining for social event analysis. In: Proceedings of the 24th ACM International Conference on Multimedia, pp. 2\u201311 (2016)","DOI":"10.1145\/2964284.2964294"},{"key":"1471_CR27","doi-asserted-by":"publisher","first-page":"233","DOI":"10.1109\/TMM.2015.2510329","volume":"18","author":"S Qian","year":"2015","unstructured":"Qian, S., Zhang, T., Xu, C., Shao, J.: Multi-modal event topic model for social event analysis. IEEE Trans. Multimed. 18, 233\u2013246 (2015)","journal-title":"IEEE Trans. Multimed."},{"key":"1471_CR28","doi-asserted-by":"crossref","unstructured":"Ranjan, V., Rasiwasia, N., Jawahar, C.: Multi-label cross-modal retrieval. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 4094\u20134102 (2015)","DOI":"10.1109\/ICCV.2015.466"},{"key":"1471_CR29","doi-asserted-by":"crossref","unstructured":"Rennie, S.J., Marcheret, E., Mroueh, Y., Ross, J., Goel, V.: Self-critical sequence training for image captioning. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7008\u20137024 (2017)","DOI":"10.1109\/CVPR.2017.131"},{"key":"1471_CR30","doi-asserted-by":"crossref","unstructured":"Wang, B., Yang, Y., Xu, X., Hanjalic, A., Shen, H.T.: Adversarial cross-modal retrieval. In: Proceedings of the 25th ACM International Conference on Multimedia, pp. 154\u2013162 (2017)","DOI":"10.1145\/3123266.3123326"},{"key":"1471_CR31","doi-asserted-by":"crossref","unstructured":"Wang, J., Gong, T., Zeng, Z., Sun, C., Yan, Y.: C3cmr: Cross-modality cross-instance contrastive learning for cross-media retrieval. In: Proceedings of the 30th ACM International Conference on Multimedia, pp. 4300\u20134308 (2022)","DOI":"10.1145\/3503161.3548263"},{"key":"1471_CR32","doi-asserted-by":"publisher","first-page":"2010","DOI":"10.1109\/TPAMI.2015.2505311","volume":"38","author":"K Wang","year":"2015","unstructured":"Wang, K., He, R., Wang, L., Wang, W., Tan, T.: Joint feature selection and subspace learning for cross-modal retrieval. IEEE Trans. Pattern Anal. Mach. Intell. 38, 2010\u20132023 (2015)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"1471_CR33","first-page":"449","volume":"47","author":"Y Wei","year":"2016","unstructured":"Wei, Y., Zhao, Y., Lu, C., Wei, S., Liu, L., Zhu, Z., Yan, S.: Cross-modal retrieval with cnn visual features: a new baseline. IEEE Trans. Cybern. 47, 449\u2013460 (2016)","journal-title":"IEEE Trans. Cybern."},{"key":"1471_CR34","doi-asserted-by":"publisher","first-page":"2866","DOI":"10.1109\/TCSVT.2020.3030656","volume":"31","author":"K Wen","year":"2020","unstructured":"Wen, K., Gu, X., Cheng, Q.: Learning dual semantic relations with graph attention for image-text matching. IEEE Trans. Circ. Syst. Video Technol. 31, 2866\u20132879 (2020)","journal-title":"IEEE Trans. Circ. Syst. Video Technol."},{"key":"1471_CR35","doi-asserted-by":"crossref","unstructured":"Yang, X., Tang, K., Zhang, H., Cai, J.: Auto-encoding scene graphs for image captioning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10685\u201310694 (2019)","DOI":"10.1109\/CVPR.2019.01094"},{"key":"1471_CR36","doi-asserted-by":"crossref","unstructured":"Yao, T., Mei, T., Ngo, C.W.: Learning query and image similarities with ranking canonical correlation analysis. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 28\u201336 (2015)","DOI":"10.1109\/ICCV.2015.12"},{"key":"1471_CR37","doi-asserted-by":"crossref","unstructured":"Yi, Z., Zhang, H., Tan, P., Gong, M.: Dualgan: Unsupervised dual learning for image-to-image translation. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 2849\u20132857 (2017)","DOI":"10.1109\/ICCV.2017.310"},{"key":"1471_CR38","doi-asserted-by":"crossref","unstructured":"Yu, J., Lu, Y., Qin, Z., Zhang, W., Liu, Y., Tan, J., Guo, L.: Modeling text with graph convolutional network for cross-modal information retrieval. In: Advances in Multimedia Information Processing\u2013PCM 2018: 19th Pacific-Rim Conference on Multimedia, Hefei, China, September 21\u201322, 2018, Proceedings, Part I 19, Springer. pp. 223\u2013234 (2018)","DOI":"10.1007\/978-3-030-00776-8_21"},{"key":"1471_CR39","doi-asserted-by":"publisher","DOI":"10.1016\/j.jvcir.2023.103807","volume":"93","author":"M Yuan","year":"2023","unstructured":"Yuan, M., Zhang, H., Liu, D., Wang, L., Liu, L.: Semantic-embedding guided graph network for cross-modal retrieval. J. Vis. Commun. Image Represent. 93, 103807 (2023)","journal-title":"J. Vis. Commun. Image Represent."},{"key":"1471_CR40","doi-asserted-by":"publisher","first-page":"965","DOI":"10.1109\/TCSVT.2013.2276704","volume":"24","author":"X Zhai","year":"2013","unstructured":"Zhai, X., Peng, Y., Xiao, J.: Learning cross-media joint representation with sparse and semisupervised regularization. IEEE Trans. Circ. Syst. Video Technol. 24, 965\u2013978 (2013)","journal-title":"IEEE Trans. Circ. Syst. Video Technol."},{"key":"1471_CR41","doi-asserted-by":"crossref","unstructured":"Zhang, L., Chen, L., Zhou, C., Yang, F., Li, X.: Exploring graph-structured semantics for cross-modal retrieval. In: Proceedings of the 29th ACM International Conference on Multimedia, pp. 4277\u20134286 (2021)","DOI":"10.1145\/3474085.3475567"},{"key":"1471_CR42","doi-asserted-by":"crossref","unstructured":"Zhen, L., Hu, P., Wang, X., Peng, D.: Deep supervised cross-modal retrieval. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10394\u201310403 (2019)","DOI":"10.1109\/CVPR.2019.01064"},{"key":"1471_CR43","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3383184","volume":"16","author":"Z Zheng","year":"2020","unstructured":"Zheng, Z., Zheng, L., Garrett, M., Yang, Y., Xu, M., Shen, Y.D.: Dual-path convolutional image-text embeddings with instance loss. ACM Trans. Multimed. Comput. Commun. Appl. (TOMM) 16, 1\u201323 (2020)","journal-title":"ACM Trans. Multimed. Comput. Commun. Appl. (TOMM)"}],"container-title":["Multimedia Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00530-024-01471-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00530-024-01471-0\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00530-024-01471-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,10,28]],"date-time":"2024-10-28T18:18:00Z","timestamp":1730139480000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00530-024-01471-0"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,9,27]]},"references-count":43,"journal-issue":{"issue":"5","published-print":{"date-parts":[[2024,10]]}},"alternative-id":["1471"],"URL":"https:\/\/doi.org\/10.1007\/s00530-024-01471-0","relation":{},"ISSN":["0942-4962","1432-1882"],"issn-type":[{"value":"0942-4962","type":"print"},{"value":"1432-1882","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,9,27]]},"assertion":[{"value":"7 June 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"25 August 2024","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"27 September 2024","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors have no conflict of interest to declare that are relevant to the content of this article.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}},{"value":"Not applicable.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethical approval"}}],"article-number":"294"}}