{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,8]],"date-time":"2025-10-08T00:33:18Z","timestamp":1759883598100,"version":"build-2065373602"},"publisher-location":"New York, NY, USA","reference-count":39,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,5,8]]},"DOI":"10.1145\/3701716.3717853","type":"proceedings-article","created":{"date-parts":[[2025,6,23]],"date-time":"2025-06-23T14:24:42Z","timestamp":1750688682000},"page":"2764-2768","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Enhancing Product Search Interfaces with Sketch-Guided Diffusion and Language Agents"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-7788-3567","authenticated-orcid":false,"given":"Edward","family":"Sun","sequence":"first","affiliation":[{"name":"University of California, Los Angeles, Los Angeles, CA, USA"}]}],"member":"320","published-online":{"date-parts":[[2025,5,23]]},"reference":[{"doi-asserted-by":"crossref","unstructured":"Alexander Black Tu Bui Long Mai Hailin Jin and John Collomosse. 2021. Compositional Sketch Search. arxiv: 2106.08009 [cs.CV] https:\/\/arxiv.org\/abs\/2106.08009","key":"e_1_3_2_2_1_1","DOI":"10.1109\/ICIP42928.2021.9506609"},{"key":"e_1_3_2_2_2_1","volume-title":"Efros","author":"Brooks Tim","year":"2023","unstructured":"Tim Brooks, Aleksander Holynski, and Alexei A. Efros. 2023. InstructPix2Pix: Learning to Follow Image Editing Instructions. arxiv: 2211.09800 [cs.CV] https:\/\/arxiv.org\/abs\/2211.09800"},{"doi-asserted-by":"publisher","key":"e_1_3_2_2_3_1","DOI":"10.1145\/1873951.1874299"},{"unstructured":"Sanxing Chen Sam Wiseman and Bhuwan Dhingra. 2024. ChatShop: Interactive Information Seeking with Language Agents. arxiv: 2404.09911 [cs.CL] https:\/\/arxiv.org\/abs\/2404.09911","key":"e_1_3_2_2_4_1"},{"doi-asserted-by":"publisher","key":"e_1_3_2_2_5_1","DOI":"10.1109\/TPAMI.2022.3218591nolinkurl10.1109\/TPAMI.2022.3218591"},{"doi-asserted-by":"publisher","key":"e_1_3_2_2_6_1","DOI":"10.1109\/ICCV.2017.290nolinkurl10.1109\/ICCV.2017.290"},{"doi-asserted-by":"publisher","key":"e_1_3_2_2_7_1","DOI":"10.1109\/ICCV.2009.5459258nolinkurl10.1109\/ICCV.2009.5459258"},{"key":"e_1_3_2_2_8_1","volume-title":"Denoising Diffusion Probabilistic Models. arxiv","author":"Ho Jonathan","year":"2006","unstructured":"Jonathan Ho, Ajay Jain, and Pieter Abbeel. 2020. Denoising Diffusion Probabilistic Models. arxiv: 2006.11239 [cs.LG] https:\/\/arxiv.org\/abs\/2006.11239"},{"unstructured":"Jonathan Ho and Tim Salimans. 2022. Classifier-Free Diffusion Guidance. arxiv: 2207.12598 [cs.LG] https:\/\/arxiv.org\/abs\/2207.12598","key":"e_1_3_2_2_9_1"},{"key":"e_1_3_2_2_10_1","volume-title":"Web-Scale Responsive Visual Search at Bing. arxiv","author":"Hu Houdong","year":"1802","unstructured":"Houdong Hu, Yan Wang, Linjun Yang, Pavel Komlev, Li Huang, Xi Chen, Jiapei Huang, Ye Wu, Meenaz Merchant, and Arun Sacheti. 2018. Web-Scale Responsive Visual Search at Bing. arxiv: 1802.04914 [cs.CV] https:\/\/arxiv.org\/abs\/1802.04914"},{"volume-title":"Planning","author":"Huang Shijue","unstructured":"Shijue Huang, Wanjun Zhong, Jianqiao Lu, Qi Zhu, Jiahui Gao, Weiwen Liu, Yutai Hou, Xingshan Zeng, Yasheng Wang, Lifeng Shang, Xin Jiang, Ruifeng Xu, and Qun Liu. 2024. Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios. arxiv: 2401.17167 [cs.CL] https:\/\/arxiv.org\/abs\/2401.17167","key":"e_1_3_2_2_11_1"},{"unstructured":"Wenlong Huang Chen Wang Ruohan Zhang Yunzhu Li Jiajun Wu and Li Fei-Fei. 2023. VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models. arxiv: 2307.05973 [cs.RO] https:\/\/arxiv.org\/abs\/2307.05973","key":"e_1_3_2_2_12_1"},{"unstructured":"Carlos E. Jimenez John Yang Alexander Wettig Shunyu Yao Kexin Pei Ofir Press and Karthik Narasimhan. 2024. SWE-bench: Can Language Models Resolve Real-World GitHub Issues?arxiv: 2310.06770 [cs.CL] https:\/\/arxiv.org\/abs\/2310.06770","key":"e_1_3_2_2_13_1"},{"doi-asserted-by":"publisher","key":"e_1_3_2_2_14_1","DOI":"10.1109\/ICIP.2017.8296970"},{"doi-asserted-by":"crossref","unstructured":"Jacky Liang Wenlong Huang Fei Xia Peng Xu Karol Hausman Brian Ichter Pete Florence and Andy Zeng. 2023. Code as Policies: Language Model Programs for Embodied Control. arxiv: 2209.07753 [cs.RO] https:\/\/arxiv.org\/abs\/2209.07753","key":"e_1_3_2_2_15_1","DOI":"10.1109\/ICRA48891.2023.10160591"},{"unstructured":"Kuan Heng Lin Sicheng Mo Ben Klingher Fangzhou Mu and Bolei Zhou. 2024a. Ctrl-X: Controlling Structure and Appearance for Text-To-Image Generation Without Guidance. arxiv: 2406.07540 [cs.CV] https:\/\/arxiv.org\/abs\/2406.07540","key":"e_1_3_2_2_16_1"},{"unstructured":"Shanchuan Lin Anran Wang and Xiao Yang. 2024b. SDXL-Lightning: Progressive Adversarial Diffusion Distillation. arxiv: 2402.13929 [cs.CV] https:\/\/arxiv.org\/abs\/2402.13929","key":"e_1_3_2_2_17_1"},{"unstructured":"Qiuyu Lu Jiawei Fang Zhihao Yao Yue Yang Shiqing Lyu Haipeng Mi and Lining Yao. 2024. Enabling Generative Design Tools with LLM Agents for Mechanical Computation Devices: A Case Study. arxiv: 2405.17837 [cs.HC] https:\/\/arxiv.org\/abs\/2405.17837","key":"e_1_3_2_2_18_1"},{"unstructured":"Chong Mou Xintao Wang Liangbin Xie Yanze Wu Jian Zhang Zhongang Qi Ying Shan and Xiaohu Qie. 2023. T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models. arxiv: 2302.08453 [cs.CV] https:\/\/arxiv.org\/abs\/2302.08453","key":"e_1_3_2_2_19_1"},{"unstructured":"Arjun Panickssery Samuel R. Bowman and Shi Feng. 2024. LLM Evaluators Recognize and Favor Their Own Generations. arxiv: 2404.13076 [cs.CL] https:\/\/arxiv.org\/abs\/2404.13076","key":"e_1_3_2_2_20_1"},{"unstructured":"Bo Peng Xinyi Ling Ziru Chen Huan Sun and Xia Ning. 2024. eCeLLM: Generalizing Large Language Models for E-commerce from Large-scale High-quality Instruction Data. arxiv: 2402.08831 [cs.CL] https:\/\/arxiv.org\/abs\/2402.08831","key":"e_1_3_2_2_21_1"},{"doi-asserted-by":"publisher","key":"e_1_3_2_2_22_1","DOI":"10.3758\/s13414-013-0605-znolinkurl10.3758\/s13414-013-0605-z"},{"key":"e_1_3_2_2_23_1","volume-title":"Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever.","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. arxiv: 2103.00020 [cs.CV] https:\/\/arxiv.org\/abs\/2103.00020"},{"doi-asserted-by":"publisher","key":"e_1_3_2_2_24_1","DOI":"10.1007\/978-3-030-90235-31nolinkurl10.1007\/978-3-030-90235-31"},{"doi-asserted-by":"publisher","key":"e_1_3_2_2_25_1","DOI":"10.1109\/ICCV48922.2021.00507"},{"key":"e_1_3_2_2_26_1","volume-title":"British Machine Vision Conference. 102","author":"Su Zhuo","year":"2019","unstructured":"Zhuo Su, Matti Pietik\u00e4inen, and Li Liu. 2019. BIRD: Learning Binary and Illumination Robust Descriptor for Face Recognition.. In British Machine Vision Conference. 102."},{"doi-asserted-by":"publisher","key":"e_1_3_2_2_27_1","DOI":"10.1109\/TPAMI.2023.3300513nolinkurl10.1109\/TPAMI.2023.3300513"},{"key":"e_1_3_2_2_28_1","volume-title":"AMES: Asymmetric and Memory-Efficient Similarity Estimation for Instance-level Retrieval. arxiv: 2408.03282 [cs.CV] https:\/\/arxiv.org\/abs\/2408.03282","author":"Suma Pavel","year":"2024","unstructured":"Pavel Suma, Giorgos Kordopatis-Zilos, Ahmet Iscen, and Giorgos Tolias. 2024. AMES: Asymmetric and Memory-Efficient Similarity Estimation for Instance-level Retrieval. arxiv: 2408.03282 [cs.CV] https:\/\/arxiv.org\/abs\/2408.03282"},{"unstructured":"Andrey Voynov Kfir Aberman and Daniel Cohen-Or. 2022. Sketch-Guided Text-to-Image Diffusion Models. arxiv: 2211.13752 [cs.CV] https:\/\/arxiv.org\/abs\/2211.13752","key":"e_1_3_2_2_29_1"},{"unstructured":"Xiaoxuan Wang Ziniu Hu Pan Lu Yanqiao Zhu Jieyu Zhang Satyen Subramaniam Arjun R. Loomba Shichang Zhang Yizhou Sun and Wei Wang. 2024. SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models. arxiv: 2307.10635 [cs.CL] https:\/\/arxiv.org\/abs\/2307.10635","key":"e_1_3_2_2_30_1"},{"unstructured":"Yijia Xiao Edward Sun Yiqiao Jin Qifan Wang and Wei Wang. 2024b. ProteinGPT: Multimodal LLM for Protein Property Prediction and Structure Understanding. arxiv: 2408.11363 [cs.AI] https:\/\/arxiv.org\/abs\/2408.11363","key":"e_1_3_2_2_31_1"},{"unstructured":"Yijia Xiao Edward Sun Yiqiao Jin and Wei Wang. 2024a. RNA-GPT: Multimodal Generative System for RNA Sequence Understanding. arxiv: 2411.08900 [q-bio.GN] https:\/\/arxiv.org\/abs\/2411.08900","key":"e_1_3_2_2_32_1"},{"unstructured":"Yijia Xiao Edward Sun Tianyu Liu and Wei Wang. 2024c. LogicVista: Multimodal LLM Logical Reasoning Benchmark in Visual Contexts. arxiv: 2407.04973 [cs.AI] https:\/\/arxiv.org\/abs\/2407.04973","key":"e_1_3_2_2_33_1"},{"unstructured":"Yijia Xiao Edward Sun Di Luo and Wei Wang. 2025. TradingAgents: Multi-Agents LLM Financial Trading Framework. arxiv: 2412.20138 [q-fin.TR] https:\/\/arxiv.org\/abs\/2412.20138","key":"e_1_3_2_2_34_1"},{"unstructured":"Zhaohu Xing Sicheng Yang Sixiang Chen Tian Ye Yijun Yang Jing Qin and Lei Zhu. 2024. Cross-conditioned Diffusion Model for Medical Image to Image Translation. arxiv: 2409.08500 [eess.IV] https:\/\/arxiv.org\/abs\/2409.08500","key":"e_1_3_2_2_35_1"},{"unstructured":"Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan and Yuan Cao. 2023. ReAct: Synergizing Reasoning and Acting in Language Models. arxiv: 2210.03629 [cs.CL] https:\/\/arxiv.org\/abs\/2210.03629","key":"e_1_3_2_2_36_1"},{"unstructured":"Lvmin Zhang Anyi Rao and Maneesh Agrawala. 2023. Adding Conditional Control to Text-to-Image Diffusion Models. arxiv: 2302.05543 [cs.CV] https:\/\/arxiv.org\/abs\/2302.05543","key":"e_1_3_2_2_37_1"},{"unstructured":"Qinlin Zhao Jindong Wang Yixuan Zhang Yiqiao Jin Kaijie Zhu Hao Chen and Xing Xie. 2024. CompeteAI: Understanding the Competition Dynamics in Large Language Model-based Agents. arxiv: 2310.17512 [cs.AI] https:\/\/arxiv.org\/abs\/2310.17512","key":"e_1_3_2_2_38_1"},{"unstructured":"Tianyu Zhu and Jesse Clark. 2024. Marqo Ecommerce Embeddings - Foundation Model for Product Embeddings. https:\/\/github.com\/marqo-ai\/marqo-ecommerce-embeddings\/","key":"e_1_3_2_2_39_1"}],"event":{"sponsor":["SIGWEB ACM Special Interest Group on Hypertext, Hypermedia, and Web"],"acronym":"WWW '25","name":"WWW '25: The ACM Web Conference 2025","location":"Sydney NSW Australia"},"container-title":["Companion Proceedings of the ACM on Web Conference 2025"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3701716.3717853","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,7]],"date-time":"2025-10-07T18:28:54Z","timestamp":1759861734000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3701716.3717853"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5,8]]},"references-count":39,"alternative-id":["10.1145\/3701716.3717853","10.1145\/3701716"],"URL":"https:\/\/doi.org\/10.1145\/3701716.3717853","relation":{},"subject":[],"published":{"date-parts":[[2025,5,8]]},"assertion":[{"value":"2025-05-23","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}