{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T05:47:14Z","timestamp":1775540834352,"version":"3.50.1"},"reference-count":46,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"NSFC","doi-asserted-by":"crossref","award":["62576348"],"award-info":[{"award-number":["62576348"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"crossref"}]},{"DOI":"10.13039\/501100001809","name":"NSFC","doi-asserted-by":"crossref","award":["62172420"],"award-info":[{"award-number":["62172420"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"crossref"}]},{"name":"Kuaishou"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Multimedia"],"published-print":{"date-parts":[[2026]]},"DOI":"10.1109\/tmm.2026.3651039","type":"journal-article","created":{"date-parts":[[2026,1,6]],"date-time":"2026-01-06T18:36:32Z","timestamp":1767724592000},"page":"2618-2629","source":"Crossref","is-referenced-by-count":0,"title":["ASR-Enhanced Multimodal Representation Learning for Cross-Domain Product Retrieval"],"prefix":"10.1109","volume":"28","author":[{"ORCID":"https:\/\/orcid.org\/0009-0008-9984-1841","authenticated-orcid":false,"given":"Ruixiang","family":"Zhao","sequence":"first","affiliation":[{"name":"Renmin University of China, Beijing, China"}]},{"given":"Jian","family":"Jia","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"given":"Yan","family":"Li","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"given":"Xuehan","family":"Bai","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"given":"Quan","family":"Chen","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"given":"Han","family":"Li","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"given":"Peng","family":"Jiang","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0220-8310","authenticated-orcid":false,"given":"Xirong","family":"Li","sequence":"additional","affiliation":[{"name":"Renmin University of China, Beijing, China"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2018.2876822"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612408"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00524"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/2964284.2964326"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2016.2647386"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2022.3208742"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1145\/3397271.3401430"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01246"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01752"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548226"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19833-5_37"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1145\/3534678.3539151"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01851"},{"key":"ref14","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford","year":"2021"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01233"},{"key":"ref16","article-title":"Use what you have: Video retrieval using representations from collaborative experts","volume-title":"Proc. Brit. Mach. Vis. Conf.","author":"Liu","year":"2019"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00272"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i5.32585"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2022.3157993"},{"key":"ref20","first-page":"23634","article-title":"MERLOT: Multimodal neural script knowledge models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Zellers","year":"2021"},{"key":"ref21","article-title":"VIREO, TRECVID 2017: Video-to-text, ad-hoc video search and video hyperlinking","volume-title":"Proc. TRECVID Workshop","author":"Nguyen","year":"2017"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1145\/3078971.3079025"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.395"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01637"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2023.109519"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.02057"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.444"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58548-8_13"},{"key":"ref29","first-page":"20020","article-title":"Everything at oncemulti-modal fusion transformer for video retrieval","volume-title":"Proc. Conf. Comput. Vis. Pattern Recognit.","author":"Shvetsova","year":"2022"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01423"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.naacl-main.193"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i1.25113"},{"key":"ref33","article-title":"KeyBERT: Minimal keyword extraction with BERT","author":"Grootendorst","year":"2020"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19772-7_1"},{"key":"ref35","article-title":"An image is worth 16  16 words: Transformers for image recognition at scale","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Kolesnikov","year":"2021"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.64"},{"key":"ref37","article-title":"RoBERTa: A robustly optimized BERT pretraining approach","author":"Liu","year":"2019"},{"key":"ref38","article-title":"The kinetics human action video dataset","author":"Kay","year":"2017"},{"key":"ref39","article-title":"Representation learning with contrastive predictive coding","author":"Oord","year":"2018"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00401"},{"key":"ref41","article-title":"Decoupled weight decay regularization","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Loshchilov","year":"2019"},{"key":"ref42","article-title":"Chinese CLIP: Contrastive vision-language pretraining in Chinese","author":"Yang","year":"2022"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612156"},{"key":"ref44","article-title":"Youku-mPLUG: A 10 million large-scale chinese video-language dataset for pre-training and benchmarks","author":"Xu","year":"2023"},{"key":"ref45","first-page":"9694","article-title":"Align before fuse: Vision and language representation learning with momentum distillation","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Li","year":"2021"},{"key":"ref46","first-page":"13","article-title":"ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Lu","year":"2019"}],"container-title":["IEEE Transactions on Multimedia"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6046\/11342315\/11329487.pdf?arnumber=11329487","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T04:51:34Z","timestamp":1775537494000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11329487\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"references-count":46,"URL":"https:\/\/doi.org\/10.1109\/tmm.2026.3651039","relation":{},"ISSN":["1520-9210","1941-0077"],"issn-type":[{"value":"1520-9210","type":"print"},{"value":"1941-0077","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]}}}