{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T08:14:28Z","timestamp":1765008868794,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":40,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,12,9]]},"DOI":"10.1145\/3743093.3771034","type":"proceedings-article","created":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T08:08:11Z","timestamp":1765008491000},"page":"1-8","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Gloss-Free Sign Language Translation With Optical-Flow Guided Two-Stream Network"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0009-1261-2980","authenticated-orcid":false,"given":"Peidong","family":"Liu","sequence":"first","affiliation":[{"name":"Tianjin University, Tianjin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2470-8110","authenticated-orcid":false,"given":"Lianyu","family":"Hu","sequence":"additional","affiliation":[{"name":"Tianjin University, Tianjin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-8318-5102","authenticated-orcid":false,"given":"Tongkai","family":"Shi","sequence":"additional","affiliation":[{"name":"Tianjin University, Tianjin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1040-352X","authenticated-orcid":false,"given":"Fanhua","family":"Shang","sequence":"additional","affiliation":[{"name":"Tianjin University, Tianjin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-3320-5239","authenticated-orcid":false,"given":"Jichao","family":"Feng","sequence":"additional","affiliation":[{"name":"Tianjin University, Tianjin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3809-1086","authenticated-orcid":false,"given":"Wei","family":"Feng","sequence":"additional","affiliation":[{"name":"Tianjin University, Tianjin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5501-9575","authenticated-orcid":false,"given":"Liang","family":"Wan","sequence":"additional","affiliation":[{"name":"Tianjin University, Tianjin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,12,6]]},"reference":[{"key":"e_1_3_3_2_2_2","unstructured":"Patricia\u00a0Cabot Alvarez Xavier Giro Nieto Laia and Tarres Benet. 2022. Sign language translation based on transformers for the How2Sign dataset. Image Processing Group Signal Theory and Communications Department Universitat Polit\u00e8cnica de Catalunya. BARCELONATECH (2022)."},{"key":"e_1_3_3_2_3_2","doi-asserted-by":"crossref","unstructured":"Necati\u00a0Cihan Camg\u00f6z Simon Hadfield Oscar Koller Hermann Ney and R. Bowden. 2018. Neural Sign Language Translation. 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (2018) 7784\u20137793. https:\/\/api.semanticscholar.org\/CorpusID:4724109","DOI":"10.1109\/CVPR.2018.00812"},{"key":"e_1_3_3_2_4_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01004"},{"key":"e_1_3_3_2_5_2","doi-asserted-by":"crossref","unstructured":"Jo\u00e3o Carreira and Andrew Zisserman. 2017. Quo Vadis Action Recognition? A New Model and the Kinetics Dataset. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017) 4724\u20134733. https:\/\/api.semanticscholar.org\/CorpusID:206596127","DOI":"10.1109\/CVPR.2017.502"},{"key":"e_1_3_3_2_6_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00506"},{"key":"e_1_3_3_2_7_2","doi-asserted-by":"crossref","unstructured":"Yutong Chen Fangyun Wei Xiao Sun Zhirong Wu and Stephen Lin. 2022. A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation. 2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022) 5110\u20135120. https:\/\/api.semanticscholar.org\/CorpusID:247315595","DOI":"10.1109\/CVPR52688.2022.00506"},{"key":"e_1_3_3_2_8_2","unstructured":"Yutong Chen Ronglai Zuo Fangyun Wei Yu Wu Shujie Liu and Brian Kan-Wing Mak. 2022. Two-Stream Network for Sign Language Recognition and Translation. ArXiv abs\/2211.01367 (2022). https:\/\/api.semanticscholar.org\/CorpusID:253254833"},{"key":"e_1_3_3_2_9_2","unstructured":"Zhigang Chen Benjia Zhou Jun Li Jun Wan Zhen Lei Ning Jiang Quan Lu and Guoqing Zhao. 2024. Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation. ArXiv abs\/2403.12556 (2024). https:\/\/api.semanticscholar.org\/CorpusID:268531535"},{"key":"e_1_3_3_2_10_2","unstructured":"Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai Thomas Unterthiner Mostafa Dehghani Matthias Minderer Georg Heigold Sylvain Gelly Jakob Uszkoreit and Neil Houlsby. 2020. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ArXiv abs\/2010.11929 (2020). https:\/\/api.semanticscholar.org\/CorpusID:225039882"},{"key":"e_1_3_3_2_11_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00276"},{"key":"e_1_3_3_2_12_2","unstructured":"Sen Fang Lei Wang Ce Zheng Yapeng Tian and Chen Chen. 2024. SignLLM: Sign Language Production Large Language Models. https:\/\/api.semanticscholar.org\/CorpusID:269899618"},{"key":"e_1_3_3_2_13_2","doi-asserted-by":"publisher","DOI":"10.5555\/1763974.1764031"},{"key":"e_1_3_3_2_14_2","doi-asserted-by":"crossref","unstructured":"Biao Fu Peigen Ye Liang Zhang Pei-Ju Yu Cong Hu Yidong Chen and X. Shi. 2022. A Token-Level Contrastive Framework for Sign Language Translation. ICASSP 2023 - 2023 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP) (2022) 1\u20135. https:\/\/api.semanticscholar.org\/CorpusID:257496311","DOI":"10.1109\/ICASSP49357.2023.10095466"},{"key":"e_1_3_3_2_15_2","doi-asserted-by":"publisher","DOI":"10.1145\/1143844.1143891"},{"key":"e_1_3_3_2_16_2","unstructured":"Mo Guan Yan Wang Guangkun Ma Jiarui Liu and Mingzu Sun. 2024. Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation. ArXiv abs\/2405.05672 (2024). https:\/\/api.semanticscholar.org\/CorpusID:269635215"},{"key":"e_1_3_3_2_17_2","doi-asserted-by":"crossref","unstructured":"Kaiming He X. Zhang Shaoqing Ren and Jian Sun. 2015. Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2015) 770\u2013778. https:\/\/api.semanticscholar.org\/CorpusID:206594692","DOI":"10.1109\/CVPR.2016.90"},{"key":"e_1_3_3_2_18_2","doi-asserted-by":"crossref","unstructured":"Qibin Hou Daquan Zhou and Jiashi Feng. 2021. Coordinate Attention for Efficient Mobile Network Design. 2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021) 13708\u201313717. https:\/\/api.semanticscholar.org\/CorpusID:232110359","DOI":"10.1109\/CVPR46437.2021.01350"},{"key":"e_1_3_3_2_19_2","volume-title":"AAAI Conference on Artificial Intelligence","author":"Hu Lianyu","year":"2022","unstructured":"Lianyu Hu, Liqing Gao, Zekang Liu, and Wei Feng. 2022. Self-Emphasizing Network for Continuous Sign Language Recognition. In AAAI Conference on Artificial Intelligence. https:\/\/api.semanticscholar.org\/CorpusID:254096222"},{"key":"e_1_3_3_2_20_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19833-5_30"},{"key":"e_1_3_3_2_21_2","doi-asserted-by":"crossref","unstructured":"Lianyu Hu Liqing Gao Zekang Liu and Wei Feng. 2023. Continuous Sign Language Recognition with Correlation Network. 2023 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023) 2529\u20132539. https:\/\/api.semanticscholar.org\/CorpusID:257364927","DOI":"10.1109\/CVPR52729.2023.00249"},{"key":"e_1_3_3_2_22_2","doi-asserted-by":"crossref","unstructured":"Zilong Huang Xinggang Wang Lichao Huang Chang Huang Yunchao Wei Humphrey Shi and Wenyu Liu. 2018. CCNet: Criss-Cross Attention for Semantic Segmentation. 2019 IEEE\/CVF International Conference on Computer Vision (ICCV) (2018) 603\u2013612. https:\/\/api.semanticscholar.org\/CorpusID:53846561","DOI":"10.1109\/ICCV.2019.00069"},{"key":"e_1_3_3_2_23_2","unstructured":"Sheng Jin Lumin Xu Jin Xu Can Wang Wentao Liu Chen Qian Wanli Ouyang and Ping Luo. 2020. Whole-Body Human Pose Estimation in the Wild. ArXiv abs\/2007.11858 (2020). https:\/\/api.semanticscholar.org\/CorpusID:220713198"},{"key":"e_1_3_3_2_24_2","doi-asserted-by":"publisher","DOI":"10.1109\/WACV51458.2022.00219"},{"key":"e_1_3_3_2_25_2","unstructured":"Thomas Kipf and Max Welling. 2016. Semi-Supervised Classification with Graph Convolutional Networks. ArXiv abs\/1609.02907 (2016). https:\/\/api.semanticscholar.org\/CorpusID:3144218"},{"key":"e_1_3_3_2_26_2","volume-title":"Annual Meeting of the Association for Computational Linguistics","author":"Lin Chin-Yew","year":"2004","unstructured":"Chin-Yew Lin. 2004. ROUGE: A Package for Automatic Evaluation of Summaries. In Annual Meeting of the Association for Computational Linguistics. https:\/\/api.semanticscholar.org\/CorpusID:964287"},{"key":"e_1_3_3_2_27_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.722"},{"key":"e_1_3_3_2_28_2","doi-asserted-by":"crossref","unstructured":"Yinhan Liu Jiatao Gu Naman Goyal Xian Li Sergey Edunov Marjan Ghazvininejad Mike Lewis and Luke Zettlemoyer. 2020. Multilingual Denoising Pre-training for Neural Machine Translation. Transactions of the Association for Computational Linguistics 8 (2020) 726\u2013742. https:\/\/api.semanticscholar.org\/CorpusID:210861178","DOI":"10.1162\/tacl_a_00343"},{"key":"e_1_3_3_2_29_2","doi-asserted-by":"crossref","unstructured":"Yuecong Min Aiming Hao Xiujuan Chai and Xilin Chen. 2021. Visual Alignment Constraint for Continuous Sign Language Recognition. 2021 IEEE\/CVF International Conference on Computer Vision (ICCV) (2021) 11522\u201311531. https:\/\/api.semanticscholar.org\/CorpusID:233033520","DOI":"10.1109\/ICCV48922.2021.01134"},{"key":"e_1_3_3_2_30_2","volume-title":"Annual Meeting of the Association for Computational Linguistics","author":"Papineni Kishore","year":"2002","unstructured":"Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a Method for Automatic Evaluation of Machine Translation. In Annual Meeting of the Association for Computational Linguistics. https:\/\/api.semanticscholar.org\/CorpusID:11080756"},{"key":"e_1_3_3_2_31_2","volume-title":"International Conference on Machine Learning","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong\u00a0Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. In International Conference on Machine Learning. https:\/\/api.semanticscholar.org\/CorpusID:231591445"},{"key":"e_1_3_3_2_32_2","doi-asserted-by":"crossref","unstructured":"Ramprasaath\u00a0R. Selvaraju Abhishek Das Ramakrishna Vedantam Michael Cogswell Devi Parikh and Dhruv Batra. 2016. Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization. International Journal of Computer Vision 128 (2016) 336 \u2013 359. https:\/\/api.semanticscholar.org\/CorpusID:15019293","DOI":"10.1007\/s11263-019-01228-7"},{"key":"e_1_3_3_2_33_2","unstructured":"Karen Simonyan and Andrew Zisserman. 2014. Two-Stream Convolutional Networks for Action Recognition in Videos. ArXiv abs\/1406.2199 (2014). https:\/\/api.semanticscholar.org\/CorpusID:11797475"},{"key":"e_1_3_3_2_34_2","doi-asserted-by":"crossref","unstructured":"Christian Szegedy Vincent Vanhoucke Sergey Ioffe Jonathon Shlens and Zbigniew Wojna. 2015. Rethinking the Inception Architecture for Computer Vision. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2015) 2818\u20132826. https:\/\/api.semanticscholar.org\/CorpusID:206593880","DOI":"10.1109\/CVPR.2016.308"},{"key":"e_1_3_3_2_35_2","unstructured":"A\u00e4ron van\u00a0den Oord Yazhe Li and Oriol Vinyals. 2018. Representation Learning with Contrastive Predictive Coding. ArXiv abs\/1807.03748 (2018). https:\/\/api.semanticscholar.org\/CorpusID:49670925"},{"key":"e_1_3_3_2_36_2","doi-asserted-by":"crossref","unstructured":"Jingdong Wang Ke Sun Tianheng Cheng Borui Jiang Chaorui Deng Yang Zhao Dong Liu Yadong Mu Mingkui Tan Xinggang Wang Wenyu Liu and Bin Xiao. 2019. Deep High-Resolution Representation Learning for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence 43 (2019) 3349\u20133364. https:\/\/api.semanticscholar.org\/CorpusID:201124533","DOI":"10.1109\/TPAMI.2020.2983686"},{"key":"e_1_3_3_2_37_2","unstructured":"Ryan Wong Necati\u00a0Cihan Camg\u00f6z and Richard Bowden. 2024. Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation. ArXiv abs\/2405.04164 (2024). https:\/\/api.semanticscholar.org\/CorpusID:269614235"},{"key":"e_1_3_3_2_38_2","unstructured":"Sanghyun Woo Jongchan Park Joon-Young Lee and In-So Kweon. 2018. CBAM: Convolutional Block Attention Module. ArXiv abs\/1807.06521 (2018). https:\/\/api.semanticscholar.org\/CorpusID:49867180"},{"key":"e_1_3_3_2_39_2","doi-asserted-by":"crossref","unstructured":"Aoxiong Yin Tianyun Zhong Lilian H.\u00a0Y. Tang Weike Jin Tao Jin and Zhou Zhao. 2023. Gloss Attention for Gloss-free Sign Language Translation. 2023 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023) 2551\u20132562. https:\/\/api.semanticscholar.org\/CorpusID:259924687","DOI":"10.1109\/CVPR52729.2023.00251"},{"key":"e_1_3_3_2_40_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-96530-3"},{"key":"e_1_3_3_2_41_2","doi-asserted-by":"crossref","unstructured":"Hao Zhou Wen gang Zhou Weizhen Qi Junfu Pu and Houqiang Li. 2021. Improving Sign Language Translation with Monolingual Data by Sign Back-Translation. 2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021) 1316\u20131325. https:\/\/api.semanticscholar.org\/CorpusID:235195736","DOI":"10.1109\/CVPR46437.2021.00137"}],"event":{"name":"MMAsia '25: ACM Multimedia Asia","location":"Kuala Lumpur Malaysia","acronym":"MMAsia '25","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 7th ACM International Conference on Multimedia in Asia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3743093.3771034","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T08:10:48Z","timestamp":1765008648000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3743093.3771034"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,6]]},"references-count":40,"alternative-id":["10.1145\/3743093.3771034","10.1145\/3743093"],"URL":"https:\/\/doi.org\/10.1145\/3743093.3771034","relation":{},"subject":[],"published":{"date-parts":[[2025,12,6]]},"assertion":[{"value":"2025-12-06","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}