{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,18]],"date-time":"2025-06-18T04:21:17Z","timestamp":1750220477846,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":16,"publisher":"ACM","license":[{"start":{"date-parts":[[2021,10,17]],"date-time":"2021-10-17T00:00:00Z","timestamp":1634428800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2021,10,17]]},"DOI":"10.1145\/3474085.3478560","type":"proceedings-article","created":{"date-parts":[[2021,10,18]],"date-time":"2021-10-18T17:45:27Z","timestamp":1634579127000},"page":"2789-2791","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":4,"title":["ViDA-MAN"],"prefix":"10.1145","author":[{"given":"Tong","family":"Shen","sequence":"first","affiliation":[{"name":"JD AI Research, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiawei","family":"Zuo","sequence":"additional","affiliation":[{"name":"JD AI Research, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Fan","family":"Shi","sequence":"additional","affiliation":[{"name":"JD AI Research, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jin","family":"Zhang","sequence":"additional","affiliation":[{"name":"Migu Culture Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Liqin","family":"Jiang","sequence":"additional","affiliation":[{"name":"Migu Culture Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Meng","family":"Chen","sequence":"additional","affiliation":[{"name":"JD AI Research, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhengchen","family":"Zhang","sequence":"additional","affiliation":[{"name":"JD AI Research, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wei","family":"Zhang","sequence":"additional","affiliation":[{"name":"JD AI Research, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaodong","family":"He","sequence":"additional","affiliation":[{"name":"JD AI Research, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tao","family":"Mei","sequence":"additional","affiliation":[{"name":"JD AI Research, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2021,10,17]]},"reference":[{"key":"e_1_3_2_2_1_1","unstructured":"Unity. www.unity.com.  Unity. www.unity.com."},{"key":"e_1_3_2_2_2_1","unstructured":"Unreal Engine. www.unrealengine.com.  Unreal Engine. www.unrealengine.com."},{"key":"e_1_3_2_2_3_1","volume-title":"Lempitsky","author":"Aliev Kara-Ali","year":"2019","unstructured":"Kara-Ali Aliev , Dmitry Ulyanov , and Victor S . Lempitsky . 2019 . Neural Point-Based Graphics. CoRR , Vol. abs\/ 1906 .08240 (2019). arxiv: 1906.08240 http:\/\/arxiv.org\/abs\/1906.08240 Kara-Ali Aliev, Dmitry Ulyanov, and Victor S. Lempitsky. 2019. Neural Point-Based Graphics. CoRR, Vol. abs\/1906.08240 (2019). arxiv: 1906.08240 http:\/\/arxiv.org\/abs\/1906.08240"},{"key":"e_1_3_2_2_4_1","doi-asserted-by":"publisher","DOI":"10.1145\/311535.311556"},{"key":"e_1_3_2_2_5_1","volume-title":"Everybody Dance Now. In IEEE International Conference on Computer Vision (ICCV).","author":"Chan Caroline","year":"2019","unstructured":"Caroline Chan , Shiry Ginosar , Tinghui Zhou , and Alexei A Efros . 2019 . Everybody Dance Now. In IEEE International Conference on Computer Vision (ICCV). Caroline Chan, Shiry Ginosar, Tinghui Zhou, and Alexei A Efros. 2019. Everybody Dance Now. In IEEE International Conference on Computer Vision (ICCV)."},{"key":"e_1_3_2_2_6_1","volume-title":"Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation. arXiv preprint arXiv:1604.06057","author":"Kulkarni Tejas D","year":"2016","unstructured":"Tejas D Kulkarni , Karthik R Narasimhan , Ardavan Saeedi , and Joshua B Tenenbaum . 2016. Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation. arXiv preprint arXiv:1604.06057 ( 2016 ). Tejas D Kulkarni, Karthik R Narasimhan, Ardavan Saeedi, and Joshua B Tenenbaum. 2016. Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation. arXiv preprint arXiv:1604.06057 (2016)."},{"key":"e_1_3_2_2_7_1","doi-asserted-by":"publisher","DOI":"10.1145\/3130800.3130813"},{"key":"e_1_3_2_2_8_1","doi-asserted-by":"publisher","DOI":"10.1145\/3197517.3201401"},{"key":"e_1_3_2_2_9_1","doi-asserted-by":"publisher","DOI":"10.1145\/3306346.3323020"},{"key":"e_1_3_2_2_10_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00244"},{"key":"e_1_3_2_2_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/AVSS.2009.58"},{"key":"e_1_3_2_2_12_1","doi-asserted-by":"crossref","unstructured":"Vijayaditya Peddinti Daniel Povey and S. Khudanpur. 2015. A time delay neural network architecture for efficient modeling of long temporal contexts. In INTERSPEECH.  Vijayaditya Peddinti Daniel Povey and S. Khudanpur. 2015. A time delay neural network architecture for efficient modeling of long temporal contexts. In INTERSPEECH.","DOI":"10.21437\/Interspeech.2015-647"},{"key":"e_1_3_2_2_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414727"},{"key":"e_1_3_2_2_14_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8682804"},{"key":"e_1_3_2_2_15_1","doi-asserted-by":"publisher","DOI":"10.5555\/3326943.3327049"},{"key":"e_1_3_2_2_16_1","volume-title":"Semantically conditioned lstm-based natural language generation for spoken dialogue systems. arXiv preprint arXiv:1508.01745","author":"Wen Tsung-Hsien","year":"2015","unstructured":"Tsung-Hsien Wen , Milica Gasic , Nikola Mrksic , Pei-Hao Su , David Vandyke , and Steve Young . 2015. Semantically conditioned lstm-based natural language generation for spoken dialogue systems. arXiv preprint arXiv:1508.01745 ( 2015 ). Tsung-Hsien Wen, Milica Gasic, Nikola Mrksic, Pei-Hao Su, David Vandyke, and Steve Young. 2015. Semantically conditioned lstm-based natural language generation for spoken dialogue systems. arXiv preprint arXiv:1508.01745 (2015)."}],"event":{"name":"MM '21: ACM Multimedia Conference","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Virtual Event China","acronym":"MM '21"},"container-title":["Proceedings of the 29th ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3474085.3478560","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3474085.3478560","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T20:48:48Z","timestamp":1750193328000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3474085.3478560"}},"subtitle":["Visual Dialog with Digital Humans"],"short-title":[],"issued":{"date-parts":[[2021,10,17]]},"references-count":16,"alternative-id":["10.1145\/3474085.3478560","10.1145\/3474085"],"URL":"https:\/\/doi.org\/10.1145\/3474085.3478560","relation":{},"subject":[],"published":{"date-parts":[[2021,10,17]]},"assertion":[{"value":"2021-10-17","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}