{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,3]],"date-time":"2026-03-03T16:07:31Z","timestamp":1772554051779,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":77,"publisher":"ACM","license":[{"start":{"date-parts":[[2025,3,24]],"date-time":"2025-03-24T00:00:00Z","timestamp":1742774400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,3,24]]},"DOI":"10.1145\/3708359.3712102","type":"proceedings-article","created":{"date-parts":[[2025,3,19]],"date-time":"2025-03-19T12:50:34Z","timestamp":1742388634000},"page":"341-365","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":8,"title":["CoPrompter: User-Centric Evaluation of LLM Instruction Alignment for Improved Prompt Engineering"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-8384-2155","authenticated-orcid":false,"given":"Ishika","family":"Joshi","sequence":"first","affiliation":[{"name":"Adobe, Noida, India,"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-3001-8909","authenticated-orcid":false,"given":"Simra","family":"Shahid","sequence":"additional","affiliation":[{"name":"Adobe, Noida, Uttar Pradesh, India,"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-1321-7175","authenticated-orcid":false,"given":"Shreeya Manasvi","family":"Venneti","sequence":"additional","affiliation":[{"name":"Computer Science Engineering, International Institute of Information Technology, Bangalore, Karnataka, India,"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-4474-3028","authenticated-orcid":false,"given":"Manushree","family":"Vasu","sequence":"additional","affiliation":[{"name":"Georgia Institute Of Technology, Atlanta, Georgia, USA,"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-3696-742X","authenticated-orcid":false,"given":"Yantao","family":"Zheng","sequence":"additional","affiliation":[{"name":"Adobe, San Jose, California, India,"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8433-8719","authenticated-orcid":false,"given":"Yunyao","family":"Li","sequence":"additional","affiliation":[{"name":"Adobe, San Jose, California, USA,"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0366-2427","authenticated-orcid":false,"given":"Balaji","family":"Krishnamurthy","sequence":"additional","affiliation":[{"name":"Adobe, Noida, India,"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1356-4406","authenticated-orcid":false,"given":"Gromit Yeuk-Yin","family":"Chan","sequence":"additional","affiliation":[{"name":"Adobe Research, San Jose, California, USA,"}]}],"member":"320","published-online":{"date-parts":[[2025,3,24]]},"reference":[{"key":"e_1_3_3_3_2_2","doi-asserted-by":"publisher","DOI":"10.1109\/SAI.2014.6918171"},{"key":"e_1_3_3_3_3_2","doi-asserted-by":"publisher","DOI":"10.1145\/3586182.3616660"},{"key":"e_1_3_3_3_4_2","doi-asserted-by":"crossref","unstructured":"Patrick Bedu\u00e9 and Albrecht Fritzsche. 2021. Can We Trust AI? An Empirical Investigation of Trust Requirements and Guide to Successful AI Adoption. Journal of Enterprise Information Management 35 (04 2021). https:\/\/doi.org\/10.1108\/JEIM-06-2020-0233","DOI":"10.1108\/JEIM-06-2020-0233"},{"key":"e_1_3_3_3_5_2","doi-asserted-by":"publisher","DOI":"10.1145\/3442188.3445922"},{"key":"e_1_3_3_3_6_2","unstructured":"Rishi Bommasani Drew\u00a0A Hudson Ehsan Adeli Russ Altman Simran Arora Sydney von Arx Michael\u00a0S Bernstein Jeannette Bohg Antoine Bosselut Emma Brunskill et\u00a0al. 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2108.07258 (2021)."},{"key":"e_1_3_3_3_7_2","first-page":"1877","volume-title":"Advances in Neural Information Processing Systems","author":"Brown Tom","year":"2020","unstructured":"Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared\u00a0D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020. Language Models are Few-Shot Learners. In Advances in Neural Information Processing Systems , H.\u00a0Larochelle, M.\u00a0Ranzato, R.\u00a0Hadsell, M.F. Balcan, and H.\u00a0Lin (Eds.), Vol.\u00a033. Curran Associates, Inc., 1877\u20131901. https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2020\/file\/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf"},{"key":"e_1_3_3_3_8_2","unstructured":"S\u00e9bastien Bubeck Varun Chandrasekaran Ronen Eldan Johannes Gehrke Eric Horvitz Ece Kamar Peter Lee Yin\u00a0Tat Lee Yuanzhi Li Scott Lundberg et\u00a0al. 2023. Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2303.12712 (2023)."},{"key":"e_1_3_3_3_9_2","doi-asserted-by":"crossref","unstructured":"Yi Chen Rui Wang Haiyun Jiang Shuming Shi and Ruifeng Xu. 2023. Exploring the Use of Large Language Models for Reference-Free Text Quality Evaluation: An Empirical Study. arxiv:https:\/\/arXiv.org\/abs\/2304.00723\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2304.00723","DOI":"10.18653\/v1\/2023.findings-ijcnlp.32"},{"key":"e_1_3_3_3_10_2","doi-asserted-by":"crossref","unstructured":"Oscar\u00a0Hengxuan Chi Shizhen Jia Yafang Li and Dogan Gursoy. 2021. Developing a formative scale to measure consumers\u2019 trust toward interaction with artificially intelligent (AI) social robots in service delivery. Computers in Human Behavior 118 (2021) 106700. https:\/\/doi.org\/10.1016\/j.chb.2021.106700","DOI":"10.1016\/j.chb.2021.106700"},{"key":"e_1_3_3_3_11_2","doi-asserted-by":"publisher","unstructured":"Victoria Clarke and Virginia Braun. 2017. Thematic analysis. The Journal of Positive Psychology 12 3 (2017) 297\u2013298. https:\/\/doi.org\/10.1080\/17439760.2016.1262613 arXiv:10.1080\/17439760.2016.1262613","DOI":"10.1080\/17439760.2016.1262613"},{"key":"e_1_3_3_3_12_2","doi-asserted-by":"publisher","DOI":"10.1145\/3637528.3671458"},{"key":"e_1_3_3_3_13_2","unstructured":"Carson Denison Monte MacDiarmid Fazl Barez David Duvenaud Shauna Kravec Samuel Marks Nicholas Schiefer Ryan Soklaski Alex Tamkin Jared Kaplan et\u00a0al. 2024. Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2406.10162 (2024)."},{"key":"e_1_3_3_3_14_2","doi-asserted-by":"crossref","unstructured":"Leonard Dung. 2023. Current cases of AI misalignment and their implications for future risks. Synthese 202 5 (26 Oct 2023) 138. https:\/\/doi.org\/10.1007\/s11229-023-04367-0","DOI":"10.1007\/s11229-023-04367-0"},{"key":"e_1_3_3_3_15_2","doi-asserted-by":"crossref","unstructured":"Batya Friedman David\u00a0G. Hendry and Alan Borning. 2017. A Survey of Value Sensitive Design Methods. Found. Trends Hum.-Comput. Interact. 11 2 (Nov. 2017) 63\u2013125. https:\/\/doi.org\/10.1561\/1100000015","DOI":"10.1561\/1100000015"},{"key":"e_1_3_3_3_16_2","doi-asserted-by":"crossref","unstructured":"Isabel\u00a0O. Gallegos Ryan\u00a0A. Rossi Joe Barrow Md\u00a0Mehrab Tanjim Sungchul Kim Franck Dernoncourt Tong Yu Ruiyi Zhang and Nesreen\u00a0K. Ahmed. 2024. Bias and Fairness in Large Language Models: A Survey. Computational Linguistics 50 3 (Sept. 2024) 1097\u20131179. https:\/\/doi.org\/10.1162\/colia00524 Place: Cambridge MA Publisher: MIT Press.","DOI":"10.1162\/coli_a_00524"},{"key":"e_1_3_3_3_17_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.findings-emnlp.301"},{"key":"e_1_3_3_3_18_2","doi-asserted-by":"crossref","unstructured":"Samuel Gehman Suchin Gururangan Maarten Sap Yejin Choi and Noah\u00a0A Smith. 2020. Realtoxicityprompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2009.11462 (2020).","DOI":"10.18653\/v1\/2020.findings-emnlp.301"},{"key":"e_1_3_3_3_19_2","volume-title":"Forty-first International Conference on Machine Learning","author":"Glukhov David","unstructured":"David Glukhov, Ilia Shumailov, Yarin Gal, Nicolas Papernot, and Vardan Papyan. [n. d.]. Position: Fundamental Limitations of LLM Censorship Necessitate New Approaches. In Forty-first International Conference on Machine Learning."},{"key":"e_1_3_3_3_20_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.740"},{"key":"e_1_3_3_3_21_2","doi-asserted-by":"crossref","unstructured":"Jeffrey Heer and Ben Shneiderman. 2012. Interactive Dynamics for Visual Analysis: A taxonomy of tools that support the fluent and flexible use of visualizations. Queue 10 2 (Feb. 2012) 30\u201355. https:\/\/doi.org\/10.1145\/2133416.2146416","DOI":"10.1145\/2133416.2146416"},{"key":"e_1_3_3_3_22_2","unstructured":"Or Honovich Thomas Scialom Omer Levy and Timo Schick. 2022. Unnatural instructions: Tuning language models with (almost) no human labor. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2212.09689 (2022)."},{"key":"e_1_3_3_3_23_2","volume-title":"NeurIPS ML Safety Workshop","author":"Jang Joel","year":"2022","unstructured":"Joel Jang, Seonghyeon Ye, and Minjoon Seo. 2022. Can Large Language Models Truly Follow your Instructions?. In NeurIPS ML Safety Workshop."},{"key":"e_1_3_3_3_24_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.123"},{"key":"e_1_3_3_3_25_2","doi-asserted-by":"publisher","DOI":"10.1145\/3491101.3503564"},{"key":"e_1_3_3_3_26_2","doi-asserted-by":"publisher","DOI":"10.1145\/3634737.3659433"},{"key":"e_1_3_3_3_27_2","first-page":"29","volume-title":"Proceedings of the Seventh Workshop on e-Commerce and NLP @ LREC-COLING 2024","author":"Jiang Ling","year":"2024","unstructured":"Ling Jiang, Keer Jiang, Xiaoyu Chu, Saaransh Gulati, and Pulkit Garg. 2024. Hallucination Detection in LLM-enriched Product Listings. In Proceedings of the Seventh Workshop on e-Commerce and NLP @ LREC-COLING 2024, Shervin Malmasi, Besnik Fetahu, Nicola Ueffing, Oleg Rokhlenko, Eugene Agichtein, and Ido Guy (Eds.). ELRA and ICCL, Torino, Italia, 29\u201339. https:\/\/aclanthology.org\/2024.ecnlp-1.4"},{"key":"e_1_3_3_3_28_2","unstructured":"Yuxin Jiang Yufei Wang Xingshan Zeng Wanjun Zhong Liangyou Li Fei Mi Lifeng Shang Xin Jiang Qun Liu and Wei Wang. 2023. Followbench: A multi-level fine-grained constraints following benchmark for large language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2310.20410 (2023)."},{"key":"e_1_3_3_3_29_2","unstructured":"Ishika Joshi Ishita Gupta Adrita Dey and Tapan Parikh. 2024. \u2019Since Lawyers are Males..\u2019: Examining Implicit Gender Bias in Hindi Language Generation by LLMs. https:\/\/doi.org\/10.48550\/arXiv.2409.13484 arXiv:https:\/\/arXiv.org\/abs\/2409.13484 [cs]."},{"key":"e_1_3_3_3_30_2","doi-asserted-by":"publisher","DOI":"10.1145\/3613904.3642216"},{"key":"e_1_3_3_3_31_2","unstructured":"Yoonsu Kim Kihoon Son Seoyoung Kim and Juho Kim. 2024. Beyond Prompts: Learning from Human Communication for Enhanced AI Intent Alignment. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2405.05678 (2024)."},{"key":"e_1_3_3_3_32_2","unstructured":"Aounon Kumar Chirag Agarwal Suraj Srinivas Aaron\u00a0Jiaxun Li Soheil Feizi and Himabindu Lakkaraju. 2024. Certifying LLM Safety against Adversarial Prompting. https:\/\/openreview.net\/forum?id=wNere1lelo"},{"key":"e_1_3_3_3_33_2","doi-asserted-by":"publisher","DOI":"10.1145\/3675417.3675536"},{"key":"e_1_3_3_3_34_2","unstructured":"Percy Liang Rishi Bommasani Tony Lee Dimitris Tsipras Dilara Soylu Michihiro Yasunaga Yian Zhang Deepak Narayanan Yuhuai Wu Ananya Kumar et\u00a0al. 2022. Holistic evaluation of language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2211.09110 (2022)."},{"key":"e_1_3_3_3_35_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.229"},{"key":"e_1_3_3_3_36_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.586"},{"key":"e_1_3_3_3_37_2","first-page":"2638","volume-title":"Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)","author":"Liu Yuxuan","year":"2024","unstructured":"Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, and Qi Zhang. 2024. Calibrating LLM-Based Evaluator. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), Nicoletta Calzolari, Min-Yen Kan, Veronique Hoste, Alessandro Lenci, Sakriani Sakti, and Nianwen Xue (Eds.). ELRA and ICCL, Torino, Italia, 2638\u20132656. https:\/\/aclanthology.org\/2024.lrec-main.237"},{"key":"e_1_3_3_3_38_2","unstructured":"Yuxuan Liu Tianchi Yang Shaohan Huang Zihan Zhang Haizhen Huang Furu Wei Weiwei Deng Feng Sun and Qi Zhang. 2024. HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2402.15754 (2024)."},{"key":"e_1_3_3_3_39_2","first-page":"22631","volume-title":"International Conference on Machine Learning","author":"Longpre Shayne","year":"2023","unstructured":"Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung\u00a0Won Chung, Yi Tay, Denny Zhou, Quoc\u00a0V Le, Barret Zoph, Jason Wei, et\u00a0al. 2023. The flan collection: Designing data and methods for effective instruction tuning. In International Conference on Machine Learning. PMLR, 22631\u201322648."},{"key":"e_1_3_3_3_40_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.241"},{"key":"e_1_3_3_3_41_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.556"},{"key":"e_1_3_3_3_42_2","unstructured":"Chaitanya Malaviya Priyanka Agrawal Kuzman Ganchev Pranesh Srinivasan Fantine Huot Jonathan Berant Mark Yatskar Dipanjan Das Mirella Lapata and Chris Alberti. 2024. DOLOMITES: Domain-Specific Long-Form Methodical Tasks. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2405.05938 (2024)."},{"key":"e_1_3_3_3_43_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.557"},{"key":"e_1_3_3_3_44_2","volume-title":"ICML 2024 Workshop on LLMs and Cognition","author":"Memon Zeeshan","year":"2024","unstructured":"Zeeshan Memon, Muhammad Arham, Adnan Ul-Hasan, and Faisal Shafait. 2024. LLM-Informed Discrete Prompt Optimization. In ICML 2024 Workshop on LLMs and Cognition. https:\/\/openreview.net\/forum?id=d0jQuZe6k0"},{"key":"e_1_3_3_3_45_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.416"},{"key":"e_1_3_3_3_46_2","volume-title":"The Second Workshop on Generative Information Retrieval","author":"Niu Mengjia","year":"2024","unstructured":"Mengjia Niu, Hao Li, Jie Shi, Hamed Haddadi, and Fan Mo. 2024. Mitigating Hallucinations in Large Language Models via Self-Refinement-Enhanced Knowledge Retrieval. In The Second Workshop on Generative Information Retrieval. https:\/\/openreview.net\/forum?id=H6Kz3tRugR"},{"key":"e_1_3_3_3_47_2","volume-title":"Advances in Neural Information Processing Systems","author":"Ouyang Long","year":"2022","unstructured":"Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Gray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. 2022. Training language models to follow instructions with human feedback. In Advances in Neural Information Processing Systems, Alice\u00a0H. Oh, Alekh Agarwal, Danielle Belgrave, and Kyunghyun Cho (Eds.). https:\/\/openreview.net\/forum?id=TG8KACxEON"},{"key":"e_1_3_3_3_48_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.hucllm-1.2"},{"key":"e_1_3_3_3_49_2","unstructured":"Chau\u00a0Minh Pham Simeng Sun and Mohit Iyyer. 2024. Suri: Multi-constraint Instruction Following for Long-form Text Generation. arxiv:https:\/\/arXiv.org\/abs\/2406.19371\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2406.19371"},{"key":"e_1_3_3_3_50_2","volume-title":"The Second Tiny Papers Track at ICLR 2024","author":"Phute Mansi","year":"2024","unstructured":"Mansi Phute, Alec Helbling, Matthew\u00a0Daniel Hull, ShengYun Peng, Sebastian Szyller, Cory Cornelius, and Duen\u00a0Horng Chau. 2024. LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked. In The Second Tiny Papers Track at ICLR 2024. https:\/\/openreview.net\/forum?id=YoqgcIA19o"},{"key":"e_1_3_3_3_51_2","unstructured":"Yiwei Qin Kaiqiang Song Yebowen Hu Wenlin Yao Sangwoo Cho Xiaoyang Wang Xuansheng Wu Fei Liu Pengfei Liu and Dong Yu. 2024. InFoBench: Evaluating Instruction Following Ability in Large Language Models. arxiv:https:\/\/arXiv.org\/abs\/2401.03601\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2401.03601"},{"key":"e_1_3_3_3_52_2","unstructured":"Alec Radford Karthik Narasimhan Tim Salimans Ilya Sutskever et\u00a0al. 2018. Improving language understanding by generative pre-training. (2018)."},{"key":"e_1_3_3_3_53_2","doi-asserted-by":"crossref","unstructured":"Smirla Ramos Monta\u00f1ez. 2023. Advancing equity through research: The importance of asset-based approaches and methods. Journal of Applied Developmental Psychology 86 (2023) 101540. https:\/\/doi.org\/10.1016\/j.appdev.2023.101540","DOI":"10.1016\/j.appdev.2023.101540"},{"key":"e_1_3_3_3_54_2","first-page":"16802","volume-title":"Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)","author":"Rao Abhinav\u00a0Sukumar","year":"2024","unstructured":"Abhinav\u00a0Sukumar Rao, Atharva\u00a0Roshan Naik, Sachin Vashistha, Somak Aditya, and Monojit Choudhury. 2024. Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), Nicoletta Calzolari, Min-Yen Kan, Veronique Hoste, Alessandro Lenci, Sakriani Sakti, and Nianwen Xue (Eds.). ELRA and ICCL, Torino, Italia, 16802\u201316830. https:\/\/aclanthology.org\/2024.lrec-main.1462"},{"key":"e_1_3_3_3_55_2","volume-title":"A Practical Guide to the System Usability Scale: Background, Benchmarks & Best Practices","author":"Sauro J.","year":"2011","unstructured":"J. Sauro. 2011. A Practical Guide to the System Usability Scale: Background, Benchmarks & Best Practices. Measuring Usability LLC. https:\/\/books.google.co.in\/books?id=BL0kKQEACAAJ"},{"key":"e_1_3_3_3_56_2","volume-title":"Quantifying the User Experience","author":"Sauro J.","year":"2012","unstructured":"J. Sauro and James Lewis. 2012. Quantifying the User Experience. https:\/\/doi.org\/10.1016\/C2010-0-65192-3"},{"key":"e_1_3_3_3_57_2","volume-title":"The Twelfth International Conference on Learning Representations","author":"Sclar Melanie","year":"2024","unstructured":"Melanie Sclar, Yejin Choi, Yulia Tsvetkov, and Alane Suhr. 2024. Quantifying Language Models\u2019 Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting. In The Twelfth International Conference on Learning Representations. https:\/\/openreview.net\/forum?id=RIu5lyNXjT"},{"key":"e_1_3_3_3_58_2","doi-asserted-by":"crossref","unstructured":"Shreya Shankar Haotian Li Parth Asawa Madelon Hulsebos Yiming Lin JD Zamfirescu-Pereira Harrison Chase Will Fu-Hinthorn Aditya\u00a0G Parameswaran and Eugene Wu. 2024. Spade: Synthesizing assertions for large language model pipelines. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2401.03038 (2024).","DOI":"10.14778\/3685800.3685835"},{"key":"e_1_3_3_3_59_2","unstructured":"Shreya Shankar Haotian Li Parth Asawa Madelon Hulsebos Yiming Lin J.\u00a0D. Zamfirescu-Pereira Harrison Chase Will Fu-Hinthorn Aditya\u00a0G. Parameswaran and Eugene Wu. 2024. SPADE: Synthesizing Data Quality Assertions for Large Language Model Pipelines. arxiv:https:\/\/arXiv.org\/abs\/2401.03038\u00a0[cs.DB] https:\/\/arxiv.org\/abs\/2401.03038"},{"key":"e_1_3_3_3_60_2","doi-asserted-by":"crossref","unstructured":"Shreya Shankar JD Zamfirescu-Pereira Bj\u00f6rn Hartmann Aditya\u00a0G Parameswaran and Ian Arawjo. 2024. Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2404.12272 (2024).","DOI":"10.1145\/3654777.3676450"},{"key":"e_1_3_3_3_61_2","unstructured":"Mrinank Sharma Meg Tong Tomasz Korbak David Duvenaud Amanda Askell Samuel\u00a0R Bowman Newton Cheng Esin Durmus Zac Hatfield-Dodds Scott\u00a0R Johnston et\u00a0al. 2023. Towards understanding sycophancy in language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2310.13548 (2023)."},{"key":"e_1_3_3_3_62_2","unstructured":"Hua Shen Tiffany Knearem Reshmi Ghosh Kenan Alkiek Kundan Krishna Yachuan Liu Ziqiao Ma Savvas Petridis Yi-Hao Peng Li Qiwei et\u00a0al. 2024. Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications Framework and Future Directions. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2406.09264 (2024)."},{"key":"e_1_3_3_3_63_2","unstructured":"Clay Spinuzzi. 2005. The Methodology of Participatory Design. Technical Communication 52 (05 2005) 163\u2013174."},{"key":"e_1_3_3_3_64_2","unstructured":"Nisan Stiennon Long Ouyang Jeffrey Wu Daniel Ziegler Ryan Lowe Chelsea Voss Alec Radford Dario Amodei and Paul\u00a0F Christiano. 2020. Learning to summarize with human feedback. Advances in Neural Information Processing Systems 33 (2020) 3008\u20133021."},{"key":"e_1_3_3_3_65_2","unstructured":"Michael Terry Chinmay Kulkarni Martin Wattenberg Lucas Dixon and Meredith\u00a0Ringel Morris. 2023. Interactive AI Alignment: Specification Process and Evaluation Alignment. https:\/\/api.semanticscholar.org\/CorpusID:264935292"},{"key":"e_1_3_3_3_66_2","doi-asserted-by":"publisher","DOI":"10.1145\/3491101.3519772"},{"key":"e_1_3_3_3_67_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.243"},{"key":"e_1_3_3_3_68_2","first-page":"896","volume-title":"Findings of the Association for Computational Linguistics: EACL 2024","author":"Wang Yuxia","year":"2024","unstructured":"Yuxia Wang, Haonan Li, Xudong Han, Preslav Nakov, and Timothy Baldwin. 2024. Do-Not-Answer: Evaluating Safeguards in LLMs. In Findings of the Association for Computational Linguistics: EACL 2024, Yvette Graham and Matthew Purver (Eds.). Association for Computational Linguistics, St. Julian\u2019s, Malta, 896\u2013911. https:\/\/aclanthology.org\/2024.findings-eacl.61"},{"key":"e_1_3_3_3_69_2","doi-asserted-by":"crossref","unstructured":"Yizhong Wang Swaroop Mishra Pegah Alipoormolabashi Yeganeh Kordi Amirreza Mirzaei Anjana Arunkumar Arjun Ashok Arut\u00a0Selvan Dhanasekaran Atharva Naik David Stap et\u00a0al. 2022. Super-naturalinstructions: Generalization via declarative instructions on 1600+ nlp tasks. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2204.07705 (2022).","DOI":"10.18653\/v1\/2022.emnlp-main.340"},{"key":"e_1_3_3_3_70_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.naacl-long.92"},{"key":"e_1_3_3_3_71_2","first-page":"24824","volume-title":"Advances in Neural Information Processing Systems","volume":"35","author":"Wei Jason","year":"2022","unstructured":"Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, brian ichter, Fei Xia, Ed Chi, Quoc\u00a0V Le, and Denny Zhou. 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. In Advances in Neural Information Processing Systems , S.\u00a0Koyejo, S.\u00a0Mohamed, A.\u00a0Agarwal, D.\u00a0Belgrave, K.\u00a0Cho, and A.\u00a0Oh (Eds.), Vol.\u00a035. Curran Associates, Inc., 24824\u201324837. https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2022\/file\/9d5609613524ecf4f15af0f7b31abca4-Paper-Conference.pdf"},{"key":"e_1_3_3_3_72_2","unstructured":"Laura Weidinger John Mellor Maribeth Rauh Conor Griffin Jonathan Uesato Po-Sen Huang Myra Cheng Mia Glaese Borja Balle Atoosa Kasirzadeh et\u00a0al. 2021. Ethical and social risks of harm from language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2112.04359 (2021)."},{"key":"e_1_3_3_3_73_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.826"},{"key":"e_1_3_3_3_74_2","doi-asserted-by":"publisher","DOI":"10.1145\/3313831.3376301"},{"key":"e_1_3_3_3_75_2","first-page":"292","volume-title":"Proceedings of the 35th Conference on Computational Linguistics and Speech Processing (ROCLING 2023)","author":"Yeh Kai-Ching","year":"2023","unstructured":"Kai-Ching Yeh, Jou-An Chi, Da-Chen Lian, and Shu-Kai Hsieh. 2023. Evaluating interfaced llm bias. In Proceedings of the 35th Conference on Computational Linguistics and Speech Processing (ROCLING 2023). 292\u2013299."},{"key":"e_1_3_3_3_76_2","doi-asserted-by":"publisher","DOI":"10.1145\/3544548.3581388"},{"key":"e_1_3_3_3_77_2","doi-asserted-by":"publisher","DOI":"10.1145\/3584931.3607008"},{"key":"e_1_3_3_3_78_2","first-page":"1","volume-title":"Proceedings of the CHI Conference on Human Factors in Computing Systems","author":"Zhang Zhiping","year":"2024","unstructured":"Zhiping Zhang, Michelle Jia, Hao-Ping Lee, Bingsheng Yao, Sauvik Das, Ada Lerner, Dakuo Wang, and Tianshi Li. 2024. \u201cIt\u2019s a Fair Game\u201d, or Is It? Examining How Users Navigate Disclosure Risks and Benefits When Using LLM-Based Conversational Agents. In Proceedings of the CHI Conference on Human Factors in Computing Systems. 1\u201326."}],"event":{"name":"IUI '25: 30th International Conference on Intelligent User Interfaces","location":"Cagliari Italy","acronym":"IUI '25","sponsor":["SIGAI ACM Special Interest Group on Artificial Intelligence","SIGCHI ACM Special Interest Group on Computer-Human Interaction"]},"container-title":["Proceedings of the 30th International Conference on Intelligent User Interfaces"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3708359.3712102","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3708359.3712102","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T01:09:46Z","timestamp":1750295386000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3708359.3712102"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,3,24]]},"references-count":77,"alternative-id":["10.1145\/3708359.3712102","10.1145\/3708359"],"URL":"https:\/\/doi.org\/10.1145\/3708359.3712102","relation":{},"subject":[],"published":{"date-parts":[[2025,3,24]]},"assertion":[{"value":"2025-03-24","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}