{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,14]],"date-time":"2026-01-14T18:56:03Z","timestamp":1768416963842,"version":"3.49.0"},"publisher-location":"Cham","reference-count":31,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031723469","type":"print"},{"value":"9783031723476","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024]]},"DOI":"10.1007\/978-3-031-72347-6_1","type":"book-chapter","created":{"date-parts":[[2024,9,16]],"date-time":"2024-09-16T13:02:55Z","timestamp":1726491775000},"page":"3-18","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["ARIF: An Adaptive Attention-Based Cross-Modal Representation Integration Framework"],"prefix":"10.1007","author":[{"given":"Chengzhi","family":"Liu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zihong","family":"Luo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yifei","family":"Bi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zile","family":"Huang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dong","family":"Shu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiheng","family":"Hou","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hongchen","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kaiyu","family":"Liang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,9,17]]},"reference":[{"issue":"8","key":"1_CR1","doi-asserted-by":"publisher","first-page":"1222","DOI":"10.1038\/s41592-023-01909-9","volume":"20","author":"T Ashuach","year":"2023","unstructured":"Ashuach, T., Gabitto, M.I., Koodli, R.V., Saldi, G.-A., Jordan, M.I., Yosef, N.: MultiVI: deep generative model for the integration of multimodal data. Nat. Methods 20(8), 1222\u20131231 (2023)","journal-title":"Nat. Methods"},{"key":"1_CR2","doi-asserted-by":"crossref","unstructured":"Guo, W., Wang, J., Wang, S.: Deep multimodal representation learning: a survey. IEEE Access 7, 63\u00a0373\u201363\u00a0394 (2019)","DOI":"10.1109\/ACCESS.2019.2916887"},{"key":"1_CR3","doi-asserted-by":"crossref","unstructured":"Ma, H., Li, W., Zhang, X., Gao, S., Lu, S.: AttnSense: multi-level attention mechanism for multimodal human activity recognition. In: IJCAI, pp. 3109\u20133115 (2019)","DOI":"10.24963\/ijcai.2019\/431"},{"key":"1_CR4","doi-asserted-by":"crossref","unstructured":"Ghaleb, E., Niehues, J., Asteriadis, S.: Multimodal attention-mechanism for temporal emotion recognition. In: 2020 IEEE International Conference on Image Processing (ICIP), pp. 251\u2013255. IEEE (2020)","DOI":"10.1109\/ICIP40778.2020.9191019"},{"issue":"2","key":"1_CR5","doi-asserted-by":"publisher","first-page":"423","DOI":"10.1109\/TPAMI.2018.2798607","volume":"41","author":"T Baltru\u0161aitis","year":"2018","unstructured":"Baltru\u0161aitis, T., Ahuja, C., Morency, L.-P.: Multimodal machine learning: a survey and taxonomy. IEEE Trans. Pattern Anal. Mach. Intell. 41(2), 423\u2013443 (2018)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"1_CR6","doi-asserted-by":"crossref","unstructured":"Gadzicki, K., Khamsehashari, R., Zetzsche, C.: Early vs late fusion in multimodal convolutional neural networks. In: IEEE 23rd International Conference on Information Fusion (FUSION), pp. 1\u20136. IEEE (2020)","DOI":"10.23919\/FUSION45008.2020.9190246"},{"key":"1_CR7","doi-asserted-by":"crossref","unstructured":"Li, X., Li, X., Ye, T., Cheng, X., Liu, W., Tan, H.: Bridging the gap between multi-focus and multi-modal: a focused integration framework for multi-modal image fusion. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 1628\u20131637 (2024)","DOI":"10.1109\/WACV57701.2024.00165"},{"key":"1_CR8","doi-asserted-by":"crossref","unstructured":"Lu, Y., et al.: Cross-modality person re-identification with shared-specific feature transfer. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 13\u00a0379\u201313\u00a0389 (2020)","DOI":"10.1109\/CVPR42600.2020.01339"},{"key":"1_CR9","doi-asserted-by":"crossref","unstructured":"Qin, Q., Hu, W., Liu, B.: Feature projection for improved text classification. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 8161\u20138171 (2020)","DOI":"10.18653\/v1\/2020.acl-main.726"},{"key":"1_CR10","unstructured":"Barnum, G., Talukder, S., Yue, Y.: On the benefits of early fusion in multimodal representation learning (2020)"},{"issue":"5","key":"1_CR11","doi-asserted-by":"publisher","first-page":"2381","DOI":"10.3390\/s23052381","volume":"23","author":"M Paw\u0142owski","year":"2023","unstructured":"Paw\u0142owski, M., Wr\u00f3blewska, A., Sysko-Roma\u0144czuk, S.: Effective techniques for multimodal data fusion: a comparative analysis. Sensors 23(5), 2381 (2023)","journal-title":"Sensors"},{"key":"1_CR12","doi-asserted-by":"publisher","first-page":"43","DOI":"10.1016\/j.inffus.2017.02.007","volume":"38","author":"J Zhao","year":"2017","unstructured":"Zhao, J., Xie, X., Xu, X., Sun, S.: Multi-view learning overview: recent progress and new challenges. Inf. Fusion 38, 43\u201354 (2017)","journal-title":"Inf. Fusion"},{"key":"1_CR13","unstructured":"Sierra, D.A.J., Restrepo, H.D.B., Cardonay, H.D.V., Chanussot, J.: Graph-based fusion for change detection in multi-spectral images (2020)"},{"key":"1_CR14","doi-asserted-by":"publisher","first-page":"149","DOI":"10.1016\/j.inffus.2020.07.006","volume":"64","author":"Y-D Zhang","year":"2020","unstructured":"Zhang, Y.-D., et al.: Advances in multimodal data fusion in neuroimaging: overview, challenges, and novel orientation. Inf. Fusion 64, 149\u2013187 (2020)","journal-title":"Inf. Fusion"},{"key":"1_CR15","doi-asserted-by":"publisher","DOI":"10.1016\/j.knosys.2022.108976","volume":"250","author":"Y Ma","year":"2022","unstructured":"Ma, Y., Zhao, S., Wang, W., Li, Y., King, I.: Multimodality in meta-learning: a comprehensive survey. Knowl.-Based Syst. 250, 108976 (2022)","journal-title":"Knowl.-Based Syst."},{"key":"1_CR16","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1016\/j.inffus.2022.09.006","volume":"90","author":"LA Passos","year":"2023","unstructured":"Passos, L.A., Papa, J.P., Del Ser, J., Hussain, A., Adeel, A.: Multimodal audio-visual information fusion using canonical-correlated graph neural network for energy-efficient speech enhancement. Inf. Fusion 90, 1\u201311 (2023)","journal-title":"Inf. Fusion"},{"key":"1_CR17","doi-asserted-by":"crossref","unstructured":"Antol, S., et al.: VQA: visual question answering. In: International Conference on Computer Vision (ICCV), p.\u00a01 (2015)","DOI":"10.1109\/ICCV.2015.279"},{"issue":"6","key":"1_CR18","doi-asserted-by":"publisher","first-page":"82","DOI":"10.1109\/MIS.2016.94","volume":"31","author":"A Zadeh","year":"2016","unstructured":"Zadeh, A., Zellers, R., Pincus, E., Morency, L.-P.: Multimodal sentiment intensity analysis in videos: facial gestures and verbal messages. IEEE Intell. Syst. 31(6), 82\u201388 (2016)","journal-title":"IEEE Intell. Syst."},{"key":"1_CR19","unstructured":"Zhou, H.: Informer: beyond efficient transformer for long sequence time-series forecasting. In: Proceedings of the AAAI Conference on Artificial Intelligence, pp. 11\u00a0106\u201311\u00a0115 (2021)"},{"key":"1_CR20","doi-asserted-by":"crossref","unstructured":"Xu, T., et al.: AttnGAN: fine-grained text to image generation with attentional generative adversarial networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1316\u20131324 (2018)","DOI":"10.1109\/CVPR.2018.00143"},{"key":"1_CR21","unstructured":"Guo, D., Xu, C., Tao, D.: Bilinear graph networks for visual question answering. IEEE Trans. Neural Netw. Learn. Syst. (2021)"},{"key":"1_CR22","doi-asserted-by":"crossref","unstructured":"Zhang, P.: VinVL: revisiting visual representations in vision-language models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 5579\u20135588 (2021)","DOI":"10.1109\/CVPR46437.2021.00553"},{"key":"1_CR23","unstructured":"Bao, H.: VLMo: unified vision-language pre-training with mixture-of-modality-experts. In: Advances in Neural Information Processing Systems, vol.\u00a035, pp. 32\u00a0897\u201332\u00a0912 (2022)"},{"key":"1_CR24","doi-asserted-by":"crossref","unstructured":"Wang, J., et\u00a0al.: All in one: exploring unified video-language pre-training. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6598\u20136608 (2023)","DOI":"10.1109\/CVPR52729.2023.00638"},{"key":"1_CR25","doi-asserted-by":"crossref","unstructured":"Wang, W., et al.: Image as a foreign language: Beit pretraining for vision and vision-language tasks. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 19\u00a0175\u201319\u00a0186, June 2023","DOI":"10.1109\/CVPR52729.2023.01838"},{"key":"1_CR26","doi-asserted-by":"crossref","unstructured":"Gunes, H., Piccardi, M.: Affect recognition from face and body: early fusion vs. late fusion. In: IEEE International Conference on Systems, Man and Cybernetics, vol. 4, pp. 3437\u20133443. IEEE (2005)","DOI":"10.1109\/ICSMC.2005.1571679"},{"key":"1_CR27","doi-asserted-by":"crossref","unstructured":"Perez, E., Strub, F., De\u00a0Vries, H., Dumoulin, V., Courville, A.: Film: visual reasoning with a general conditioning layer. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a032, no.\u00a01 (2018)","DOI":"10.1609\/aaai.v32i1.11671"},{"key":"1_CR28","doi-asserted-by":"crossref","unstructured":"Kiela, D., Grave, E., Joulin, A., Mikolov, T.: Efficient large-scale multi-modal classification. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a032, no.\u00a01 (2018)","DOI":"10.1609\/aaai.v32i1.11945"},{"key":"1_CR29","unstructured":"Zeng, A., Chen, M., Zhang, L., Xu, Q.: Are transformers effective for time series forecasting? In: Proceedings of the AAAI Conference on Artificial Intelligence, pp. 11\u00a0121\u201311\u00a0128 (2023)"},{"key":"1_CR30","unstructured":"Wu, H., Xu, J., Wang, J., Long, M.: Autoformer: decomposition transformers with auto-correlation for long-term series forecasting. In: Advances in Neural Information Processing Systems (NIPS), vol.\u00a034, pp. 22\u00a0419\u201322\u00a0430 (2021)"},{"key":"1_CR31","unstructured":"Li, S., et al.: Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting. In: Advances in Neural Information Processing Systems (NIPS), vol.\u00a032, pp. 5243\u20135253 (2019). ID: 2835"}],"container-title":["Lecture Notes in Computer Science","Artificial Neural Networks and Machine Learning \u2013 ICANN 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-72347-6_1","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,16]],"date-time":"2024-09-16T13:14:38Z","timestamp":1726492478000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-72347-6_1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024]]},"ISBN":["9783031723469","9783031723476"],"references-count":31,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-72347-6_1","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024]]},"assertion":[{"value":"17 September 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICANN","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Artificial Neural Networks","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Lugano","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Switzerland","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"20 September 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"33","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icann2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}