{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,16]],"date-time":"2026-06-16T04:44:03Z","timestamp":1781585043866,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":49,"publisher":"ACM","license":[{"start":{"date-parts":[[2022,11,7]],"date-time":"2022-11-07T00:00:00Z","timestamp":1667779200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"Army research office","award":["W911NF-20-2-0053"],"award-info":[{"award-number":["W911NF-20-2-0053"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2022,11,7]]},"DOI":"10.1145\/3536221.3556581","type":"proceedings-article","created":{"date-parts":[[2022,11,4]],"date-time":"2022-11-04T15:54:14Z","timestamp":1667577254000},"page":"605-614","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":3,"title":["X-Norm: Exchanging Normalization Parameters for Bimodal Fusion"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-5558-2421","authenticated-orcid":false,"given":"Yufeng","family":"Yin","sequence":"first","affiliation":[{"name":"Institute for Creative Technologies, University of Southern California, United States"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4093-2315","authenticated-orcid":false,"given":"Jiashu","family":"Xu","sequence":"additional","affiliation":[{"name":"Institute for Creative Technologies, University of Southern California, United States"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8108-8889","authenticated-orcid":false,"given":"Tianxin","family":"Zu","sequence":"additional","affiliation":[{"name":"Institute for Creative Technologies, University of Southern California, United States"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5873-1434","authenticated-orcid":false,"given":"Mohammad","family":"Soleymani","sequence":"additional","affiliation":[{"name":"Institute for Creative Technologies, University of Southern California, United States"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2022,11,7]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Deep audio-visual speech recognition","author":"Afouras Triantafyllos","year":"2018","unstructured":"Triantafyllos Afouras , Joon\u00a0Son Chung , Andrew Senior , Oriol Vinyals , and Andrew Zisserman . 2018. Deep audio-visual speech recognition . IEEE transactions on pattern analysis and machine intelligence ( 2018 ). Triantafyllos Afouras, Joon\u00a0Son Chung, Andrew Senior, Oriol Vinyals, and Andrew Zisserman. 2018. Deep audio-visual speech recognition. IEEE transactions on pattern analysis and machine intelligence (2018)."},{"key":"e_1_3_2_1_2_1","unstructured":"Jimmy\u00a0Lei Ba Jamie\u00a0Ryan Kiros and Geoffrey\u00a0E. Hinton. 2016. Layer Normalization. arXiv preprint arXiv: Arxiv-1607.06450(2016).  Jimmy\u00a0Lei Ba Jamie\u00a0Ryan Kiros and Geoffrey\u00a0E. Hinton. 2016. Layer Normalization. arXiv preprint arXiv: Arxiv-1607.06450(2016)."},{"key":"e_1_3_2_1_3_1","volume-title":"Multimodal machine learning: A survey and taxonomy","author":"Baltru\u0161aitis Tadas","year":"2018","unstructured":"Tadas Baltru\u0161aitis , Chaitanya Ahuja , and Louis-Philippe Morency . 2018. Multimodal machine learning: A survey and taxonomy . IEEE transactions on pattern analysis and machine intelligence 41, 2( 2018 ), 423\u2013443. Tadas Baltru\u0161aitis, Chaitanya Ahuja, and Louis-Philippe Morency. 2018. Multimodal machine learning: A survey and taxonomy. IEEE transactions on pattern analysis and machine intelligence 41, 2(2018), 423\u2013443."},{"key":"e_1_3_2_1_4_1","unstructured":"Tadas Baltru\u0161aitis Chaitanya Ahuja and Louis-Philippe Morency. 2017. Multimodal Machine Learning: A Survey and Taxonomy. arXiv preprint arXiv: Arxiv-1705.09406(2017).  Tadas Baltru\u0161aitis Chaitanya Ahuja and Louis-Philippe Morency. 2017. Multimodal Machine Learning: A Survey and Taxonomy. arXiv preprint arXiv: Arxiv-1705.09406(2017)."},{"key":"e_1_3_2_1_5_1","unstructured":"Gedas Bertasius Heng Wang and Lorenzo Torresani. 2021. Is Space-Time Attention All You Need for Video Understanding?arXiv preprint arXiv: Arxiv-2102.05095(2021).  Gedas Bertasius Heng Wang and Lorenzo Torresani. 2021. Is Space-Time Attention All You Need for Video Understanding?arXiv preprint arXiv: Arxiv-2102.05095(2021)."},{"key":"e_1_3_2_1_6_1","volume-title":"Understanding batch normalization. Advances in neural information processing systems 31","author":"Bjorck Nils","year":"2018","unstructured":"Nils Bjorck , Carla\u00a0 P Gomes , Bart Selman , and Kilian\u00a0 Q Weinberger . 2018. Understanding batch normalization. Advances in neural information processing systems 31 ( 2018 ). Nils Bjorck, Carla\u00a0P Gomes, Bart Selman, and Kilian\u00a0Q Weinberger. 2018. Understanding batch normalization. Advances in neural information processing systems 31 (2018)."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1145\/2460296.2460316"},{"key":"e_1_3_2_1_8_1","volume-title":"IEMOCAP: Interactive emotional dyadic motion capture database. Language resources and evaluation 42, 4","author":"Busso Carlos","year":"2008","unstructured":"Carlos Busso , Murtaza Bulut , Chi-Chun Lee , Abe Kazemzadeh , Emily Mower , Samuel Kim , Jeannette\u00a0 N Chang , Sungbok Lee , and Shrikanth\u00a0 S Narayanan . 2008 . IEMOCAP: Interactive emotional dyadic motion capture database. Language resources and evaluation 42, 4 (2008), 335\u2013359. Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette\u00a0N Chang, Sungbok Lee, and Shrikanth\u00a0S Narayanan. 2008. IEMOCAP: Interactive emotional dyadic motion capture database. Language resources and evaluation 42, 4 (2008), 335\u2013359."},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2016.2515617"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1109\/TAFFC.2016.2515617"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.502"},{"key":"e_1_3_2_1_12_1","volume-title":"Scaling Egocentric Vision: The EPIC-KITCHENS Dataset. In European Conference on Computer Vision (ECCV).","author":"Damen Dima","year":"2018","unstructured":"Dima Damen , Hazel Doughty , Giovanni\u00a0Maria Farinella , Sanja Fidler , Antonino Furnari , Evangelos Kazakos , Davide Moltisanti , Jonathan Munro , Toby Perrett , Will Price , and Michael Wray . 2018 . Scaling Egocentric Vision: The EPIC-KITCHENS Dataset. In European Conference on Computer Vision (ECCV). Dima Damen, Hazel Doughty, Giovanni\u00a0Maria Farinella, Sanja Fidler, Antonino Furnari, Evangelos Kazakos, Davide Moltisanti, Jonathan Munro, Toby Perrett, Will Price, and Michael Wray. 2018. Scaling Egocentric Vision: The EPIC-KITCHENS Dataset. In European Conference on Computer Vision (ECCV)."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2020.2991965"},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"e_1_3_2_1_15_1","volume-title":"MISA: Modality-Invariant and-Specific Representations for Multimodal Sentiment Analysis. arXiv preprint arXiv:2005.03545(2020).","author":"Hazarika Devamanyu","year":"2020","unstructured":"Devamanyu Hazarika , Roger Zimmermann , and Soujanya Poria . 2020 . MISA: Modality-Invariant and-Specific Representations for Multimodal Sentiment Analysis. arXiv preprint arXiv:2005.03545(2020). Devamanyu Hazarika, Roger Zimmermann, and Soujanya Poria. 2020. MISA: Modality-Invariant and-Specific Representations for Multimodal Sentiment Analysis. arXiv preprint arXiv:2005.03545(2020)."},{"key":"e_1_3_2_1_16_1","unstructured":"Wei-Ning Hsu Benjamin Bolte Yao-Hung\u00a0Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov and Abdelrahman Mohamed. 2021. HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units. arXiv preprint arXiv: Arxiv-2106.07447(2021).  Wei-Ning Hsu Benjamin Bolte Yao-Hung\u00a0Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov and Abdelrahman Mohamed. 2021. HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units. arXiv preprint arXiv: Arxiv-2106.07447(2021)."},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.167"},{"key":"e_1_3_2_1_18_1","volume-title":"International conference on machine learning. PMLR, 448\u2013456","author":"Ioffe Sergey","year":"2015","unstructured":"Sergey Ioffe and Christian Szegedy . 2015 . Batch normalization: Accelerating deep network training by reducing internal covariate shift . In International conference on machine learning. PMLR, 448\u2013456 . Sergey Ioffe and Christian Szegedy. 2015. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In International conference on machine learning. PMLR, 448\u2013456."},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1145\/3340555.3353731"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6307"},{"key":"e_1_3_2_1_21_1","unstructured":"Dimitrios Kollias and Stefanos Zafeiriou. 2019. Expression Affect Action Unit Recognition: Aff-Wild2 Multi-Task Learning and ArcFace. arXiv preprint arXiv:1910.04855(2019).  Dimitrios Kollias and Stefanos Zafeiriou. 2019. Expression Affect Action Unit Recognition: Aff-Wild2 Multi-Task Learning and ArcFace. arXiv preprint arXiv:1910.04855(2019)."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9054580"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107356"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.coling-main.320"},{"key":"e_1_3_2_1_25_1","unstructured":"Kuan Liu Yanen Li Ning Xu and Prem Natarajan. 2018. Learn to Combine Modalities in Multimodal Deep Learning. arXiv preprint arXiv: Arxiv-1805.11730(2018).  Kuan Liu Yanen Li Ning Xu and Prem Natarajan. 2018. Learn to Combine Modalities in Multimodal Deep Learning. arXiv preprint arXiv: Arxiv-1805.11730(2018)."},{"key":"e_1_3_2_1_26_1","unstructured":"Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy Mike Lewis Luke Zettlemoyer and Veselin Stoyanov. 2019. RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv preprint arXiv: Arxiv-1907.11692(2019).  Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy Mike Lewis Luke Zettlemoyer and Veselin Stoyanov. 2019. RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv preprint arXiv: Arxiv-1907.11692(2019)."},{"key":"e_1_3_2_1_27_1","unstructured":"Ilya Loshchilov and Frank Hutter. 2017. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101(2017).  Ilya Loshchilov and Frank Hutter. 2017. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101(2017)."},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-662-44415-3_16"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00020"},{"key":"e_1_3_2_1_30_1","volume-title":"Attention bottlenecks for multimodal fusion. Advances in Neural Information Processing Systems 34","author":"Nagrani Arsha","year":"2021","unstructured":"Arsha Nagrani , Shan Yang , Anurag Arnab , Aren Jansen , Cordelia Schmid , and Chen Sun . 2021. Attention bottlenecks for multimodal fusion. Advances in Neural Information Processing Systems 34 ( 2021 ). Arsha Nagrani, Shan Yang, Anurag Arnab, Aren Jansen, Cordelia Schmid, and Chen Sun. 2021. Attention bottlenecks for multimodal fusion. Advances in Neural Information Processing Systems 34 (2021)."},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8682541"},{"key":"e_1_3_2_1_32_1","volume-title":"NeurIPS Autodiff Workshop.","author":"Paszke Adam","year":"2017","unstructured":"Adam Paszke , Sam Gross , Soumith Chintala , Gregory Chanan , Edward Yang , Zachary DeVito , Zeming Lin , Alban Desmaison , Luca Antiga , and Adam Lerer . 2017 . Automatic differentiation in PyTorch . In NeurIPS Autodiff Workshop. Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, and Adam Lerer. 2017. Automatic differentiation in PyTorch. In NeurIPS Autodiff Workshop."},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11671"},{"key":"e_1_3_2_1_34_1","volume-title":"A survey on vision-based human action recognition. Image and vision computing 28, 6","author":"Poppe Ronald","year":"2010","unstructured":"Ronald Poppe . 2010. A survey on vision-based human action recognition. Image and vision computing 28, 6 ( 2010 ), 976\u2013990. Ronald Poppe. 2010. A survey on vision-based human action recognition. Image and vision computing 28, 6 (2010), 976\u2013990."},{"key":"e_1_3_2_1_35_1","unstructured":"Wasifur Rahman Md.\u00a0Kamrul Hasan Sangwu Lee Amir Zadeh Chengfeng Mao Louis-Philippe Morency and Ehsan Hoque. 2019. Integrating Multimodal Information in Large Pretrained Transformers. arXiv preprint arXiv: Arxiv-1908.05787(2019).  Wasifur Rahman Md.\u00a0Kamrul Hasan Sangwu Lee Amir Zadeh Chengfeng Mao Louis-Philippe Morency and Ehsan Hoque. 2019. Integrating Multimodal Information in Large Pretrained Transformers. arXiv preprint arXiv: Arxiv-1908.05787(2019)."},{"key":"e_1_3_2_1_36_1","volume-title":"Deep multimodal feature analysis for action recognition in rgb+ d videos","author":"Shahroudy Amir","year":"2017","unstructured":"Amir Shahroudy , Tian-Tsong Ng , Yihong Gong , and Gang Wang . 2017. Deep multimodal feature analysis for action recognition in rgb+ d videos . IEEE transactions on pattern analysis and machine intelligence 40, 5( 2017 ), 1045\u20131058. Amir Shahroudy, Tian-Tsong Ng, Yihong Gong, and Gang Wang. 2017. Deep multimodal feature analysis for action recognition in rgb+ d videos. IEEE transactions on pattern analysis and machine intelligence 40, 5(2017), 1045\u20131058."},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N16-1020"},{"key":"e_1_3_2_1_38_1","volume-title":"Two-stream convolutional networks for action recognition in videos. Advances in neural information processing systems 27","author":"Simonyan Karen","year":"2014","unstructured":"Karen Simonyan and Andrew Zisserman . 2014. Two-stream convolutional networks for action recognition in videos. Advances in neural information processing systems 27 ( 2014 ). Karen Simonyan and Andrew Zisserman. 2014. Two-stream convolutional networks for action recognition in videos. Advances in neural information processing systems 27 (2014)."},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.imavis.2017.08.003"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1656"},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2017.2764438"},{"key":"e_1_3_2_1_42_1","unstructured":"Dmitry Ulyanov Andrea Vedaldi and Victor Lempitsky. 2016. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022(2016).  Dmitry Ulyanov Andrea Vedaldi and Victor Lempitsky. 2016. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022(2016)."},{"key":"e_1_3_2_1_43_1","volume-title":"Attention is all you need. Advances in neural information processing systems 30","author":"Vaswani Ashish","year":"2017","unstructured":"Ashish Vaswani , Noam Shazeer , Niki Parmar , Jakob Uszkoreit , Llion Jones , Aidan\u00a0 N Gomez , \u0141ukasz Kaiser , and Illia Polosukhin . 2017. Attention is all you need. Advances in neural information processing systems 30 ( 2017 ). Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan\u00a0N Gomez, \u0141ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. Advances in neural information processing systems 30 (2017)."},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01271"},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"crossref","unstructured":"Thomas Wolf Lysandre Debut Victor Sanh Julien Chaumond Clement Delangue Anthony Moi Pierric Cistac Tim Rault R\u00e9mi Louf Morgan Funtowicz 2019. Huggingface\u2019s transformers: State-of-the-art natural language processing. arXiv preprint arXiv:1910.03771(2019).  Thomas Wolf Lysandre Debut Victor Sanh Julien Chaumond Clement Delangue Anthony Moi Pierric Cistac Tim Rault R\u00e9mi Louf Morgan Funtowicz 2019. Huggingface\u2019s transformers: State-of-the-art natural language processing. arXiv preprint arXiv:1910.03771(2019).","DOI":"10.18653\/v1\/2020.emnlp-demos.6"},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"publisher","DOI":"10.1145\/3382507.3418813"},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683483"},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"crossref","unstructured":"Amir Zadeh Minghai Chen Soujanya Poria Erik Cambria and Louis-Philippe Morency. 2017. Tensor Fusion Network for Multimodal Sentiment Analysis. arXiv preprint arXiv: Arxiv-1707.07250(2017).  Amir Zadeh Minghai Chen Soujanya Poria Erik Cambria and Louis-Philippe Morency. 2017. Tensor Fusion Network for Multimodal Sentiment Analysis. arXiv preprint arXiv: Arxiv-1707.07250(2017).","DOI":"10.18653\/v1\/D17-1115"},{"key":"e_1_3_2_1_49_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2022.3144885"}],"event":{"name":"ICMI '22: INTERNATIONAL CONFERENCE ON MULTIMODAL INTERACTION","location":"Bengaluru India","acronym":"ICMI '22","sponsor":["SIGCHI ACM Special Interest Group on Computer-Human Interaction"]},"container-title":["Proceedings of the 2022 International Conference on Multimodal Interaction"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3536221.3556581","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3536221.3556581","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T17:48:52Z","timestamp":1750182532000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3536221.3556581"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,11,7]]},"references-count":49,"alternative-id":["10.1145\/3536221.3556581","10.1145\/3536221"],"URL":"https:\/\/doi.org\/10.1145\/3536221.3556581","relation":{},"subject":[],"published":{"date-parts":[[2022,11,7]]},"assertion":[{"value":"2022-11-07","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}