{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,10]],"date-time":"2026-01-10T02:54:20Z","timestamp":1768013660822,"version":"3.49.0"},"publisher-location":"New York, NY, USA","reference-count":24,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,9,21]],"date-time":"2024-09-21T00:00:00Z","timestamp":1726876800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"Natural Science Foundation of Guangdong Province, China","award":["2024A1515012226"],"award-info":[{"award-number":["2024A1515012226"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,9,21]]},"DOI":"10.1145\/3640471.3680231","type":"proceedings-article","created":{"date-parts":[[2024,11,14]],"date-time":"2024-11-14T12:03:49Z","timestamp":1731585829000},"page":"1-7","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":2,"title":["DesignWatch: Analyzing Users' Operations of Mobile Apps Based on Screen Recordings"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-4206-630X","authenticated-orcid":false,"given":"Xiucheng","family":"Zhang","sequence":"first","affiliation":[{"name":"School of Artificial Intelligence, Sun Yat-sen University, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-8428-8183","authenticated-orcid":false,"given":"Yixin","family":"Zeng","sequence":"additional","affiliation":[{"name":"School of Artificial Intelligence, Sun Yat-sen University, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-5131-9286","authenticated-orcid":false,"given":"Qichang","family":"Li","sequence":"additional","affiliation":[{"name":"School of Artificial Intelligence, Sun Yat-sen University, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6850-4385","authenticated-orcid":false,"given":"Guanyi","family":"Chen","sequence":"additional","affiliation":[{"name":"School of Computer Science and Engineering, Sun Yat-sen University, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-6707-5236","authenticated-orcid":false,"given":"Qianyao","family":"Xu","sequence":"additional","affiliation":[{"name":"Tsinghua University, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3832-3713","authenticated-orcid":false,"given":"Xiaozhu","family":"Hu","sequence":"additional","affiliation":[{"name":"Division of Integrative Systems and Design, Hong Kong University of Science and Technology, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5700-3136","authenticated-orcid":false,"given":"Zhenhui","family":"Peng","sequence":"additional","affiliation":[{"name":"School of Artificial Intelligence, Sun Yat-sen University, China"}]}],"member":"320","published-online":{"date-parts":[[2024,9,21]]},"reference":[{"key":"e_1_3_2_2_1_1","doi-asserted-by":"publisher","DOI":"10.1145\/3616855.3635856"},{"key":"e_1_3_2_2_2_1","doi-asserted-by":"publisher","DOI":"10.1145\/3412365"},{"key":"e_1_3_2_2_3_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"e_1_3_2_2_4_1","doi-asserted-by":"publisher","DOI":"10.1145\/3586183.3606778"},{"key":"e_1_3_2_2_5_1","volume-title":"International Conference on Human-Computer Interaction. Springer, 229\u2013243","author":"Santana Vagner Figueredo\u00a0de","year":"2019","unstructured":"Vagner Figueredo\u00a0de Santana and Felipe\u00a0Eduardo Ferreira\u00a0Silva. 2019. User test logger: An open source browser plugin for logging and reporting local user studies. In International Conference on Human-Computer Interaction. Springer, 229\u2013243."},{"key":"e_1_3_2_2_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"e_1_3_2_2_7_1","doi-asserted-by":"publisher","DOI":"10.1145\/3581641.3584069"},{"key":"e_1_3_2_2_8_1","volume-title":"Do LLM Agents Exhibit Social Behavior?arXiv preprint arXiv:2312.15198","author":"Leng Yan","year":"2023","unstructured":"Yan Leng and Yuan Yuan. 2023. Do LLM Agents Exhibit Social Behavior?arXiv preprint arXiv:2312.15198 (2023)."},{"key":"e_1_3_2_2_9_1","volume-title":"EC-TEL 2015, Toledo, Spain, September 15-18, 2015, Proceedings 10","author":"Li Nan","year":"2015","unstructured":"Nan Li, \u0141ukasz Kidzi\u0144ski, Patrick Jermann, and Pierre Dillenbourg. 2015. MOOC video interaction patterns: What do they tell us?. In Design for Teaching and Learning in a Networked World: 10th European Conference on Technology Enhanced Learning, EC-TEL 2015, Toledo, Spain, September 15-18, 2015, Proceedings 10. Springer, 197\u2013210."},{"key":"e_1_3_2_2_10_1","doi-asserted-by":"publisher","DOI":"10.1038\/s41598-023-29640-7"},{"key":"e_1_3_2_2_11_1","doi-asserted-by":"publisher","DOI":"10.1080\/10494820.2021.1916768"},{"key":"e_1_3_2_2_12_1","doi-asserted-by":"publisher","DOI":"10.1109\/CCECE.2012.6334930"},{"key":"e_1_3_2_2_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/IV.2001.942051"},{"key":"e_1_3_2_2_14_1","doi-asserted-by":"publisher","DOI":"10.1186\/s40537-015-0031-2"},{"key":"e_1_3_2_2_15_1","volume-title":"Multimodal Human-Computer Interaction: a constructive and empirical study","author":"Raisamo Roope","unstructured":"Roope Raisamo. 1999. Multimodal Human-Computer Interaction: a constructive and empirical study. Tampere University Press."},{"key":"e_1_3_2_2_16_1","volume-title":"Visual chain of thought: Bridging logical gaps with multimodal infillings. arXiv preprint arXiv:2305.02317","author":"Rose Daniel","year":"2023","unstructured":"Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei, Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, and William\u00a0Yang Wang. 2023. Visual chain of thought: Bridging logical gaps with multimodal infillings. arXiv preprint arXiv:2305.02317 (2023)."},{"key":"e_1_3_2_2_17_1","volume-title":"Gemini in reasoning: Unveiling commonsense in multimodal large language models. arXiv preprint arXiv:2312.17661","author":"Wang Yuqing","year":"2023","unstructured":"Yuqing Wang and Yun Zhao. 2023. Gemini in reasoning: Unveiling commonsense in multimodal large language models. arXiv preprint arXiv:2312.17661 (2023)."},{"key":"e_1_3_2_2_18_1","volume-title":"Image quality assessment: from error visibility to structural similarity","author":"Wang Zhou","year":"2004","unstructured":"Zhou Wang, Alan\u00a0C Bovik, Hamid\u00a0R Sheikh, and Eero\u00a0P Simoncelli. 2004. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing 13, 4 (2004), 600\u2013612."},{"key":"e_1_3_2_2_19_1","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.2981892"},{"key":"e_1_3_2_2_20_1","volume-title":"Anchorage: Visual analysis of satisfaction in customer service videos via anchor events","author":"Wong Kam\u00a0Kwai","year":"2023","unstructured":"Kam\u00a0Kwai Wong, Xingbo Wang, Yong Wang, Jianben He, Rong Zhang, and Huamin Qu. 2023. Anchorage: Visual analysis of satisfaction in customer service videos via anchor events. IEEE Transactions on Visualization and Computer Graphics (2023)."},{"key":"e_1_3_2_2_21_1","volume-title":"The dawn of lmms: Preliminary explorations with gpt-4v (ision). arXiv preprint arXiv:2309.17421 9, 1","author":"Yang Zhengyuan","year":"2023","unstructured":"Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, and Lijuan Wang. 2023. The dawn of lmms: Preliminary explorations with gpt-4v (ision). arXiv preprint arXiv:2309.17421 9, 1 (2023), 1."},{"key":"e_1_3_2_2_22_1","volume-title":"A survey on multimodal large language models. arXiv preprint arXiv:2306.13549","author":"Yin Shukang","year":"2023","unstructured":"Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, and Enhong Chen. 2023. A survey on multimodal large language models. arXiv preprint arXiv:2306.13549 (2023)."},{"key":"e_1_3_2_2_23_1","volume-title":"Gesturelens: Visual analysis of gestures in presentation videos","author":"Zeng Haipeng","year":"2022","unstructured":"Haipeng Zeng, Xingbo Wang, Yong Wang, Aoyu Wu, Ting-Chuen Pong, and Huamin Qu. 2022. Gesturelens: Visual analysis of gestures in presentation videos. IEEE Transactions on Visualization and Computer Graphics (2022)."},{"key":"e_1_3_2_2_24_1","volume-title":"USimAgent: Large Language Models for Simulating Search Users. arXiv preprint arXiv:2403.09142","author":"Zhang Erhan","year":"2024","unstructured":"Erhan Zhang, Xingzhu Wang, Peiyuan Gong, Yankai Lin, and Jiaxin Mao. 2024. USimAgent: Large Language Models for Simulating Search Users. arXiv preprint arXiv:2403.09142 (2024)."}],"event":{"name":"MobileHCI '24: 26th International Conference on Mobile Human-Computer Interaction","location":"Melbourne VIC Australia","acronym":"MobileHCI '24","sponsor":["SIGCHI ACM Special Interest Group on Computer-Human Interaction"]},"container-title":["26th International Conference on Mobile Human-Computer Interaction"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3640471.3680231","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3640471.3680231","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,2]],"date-time":"2025-09-02T15:04:27Z","timestamp":1756825467000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3640471.3680231"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,9,21]]},"references-count":24,"alternative-id":["10.1145\/3640471.3680231","10.1145\/3640471"],"URL":"https:\/\/doi.org\/10.1145\/3640471.3680231","relation":{},"subject":[],"published":{"date-parts":[[2024,9,21]]},"assertion":[{"value":"2024-09-21","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}