{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,9,6]],"date-time":"2024-09-06T09:38:59Z","timestamp":1725615539607},"reference-count":68,"publisher":"MIT Press","license":[{"start":{"date-parts":[[2023,5,8]],"date-time":"2023-05-08T00:00:00Z","timestamp":1683504000000},"content-version":"vor","delay-in-days":127,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":["direct.mit.edu"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2023,5,9]]},"abstract":"<jats:title>Abstract<\/jats:title>\n               <jats:p>Semantic parsing maps natural language questions into logical forms, which can be executed against a knowledge base for answers. In real-world applications, the performance of a parser is often limited by the lack of training data. To facilitate zero-shot learning, data synthesis has been widely studied to automatically generate paired questions and logical forms. However, data synthesis methods can hardly cover the diverse structures in natural languages, leading to a large gap in sentence structure between synthetic and natural questions. In this paper, we propose a decomposition-based method to unify the sentence structures of questions, which benefits the generalization to natural questions. Experiments demonstrate that our method significantly improves the semantic parser trained on synthetic data (+7.9% on KQA and +8.9% on ComplexWebQuestions in terms of exact match accuracy). Extensive analysis demonstrates that our method can better generalize to natural questions with novel text expressions compared with baselines. Besides semantic parsing, our idea potentially benefits other semantic understanding tasks by mitigating the distracting structure features. To illustrate this, we extend our method to the task of sentence embedding learning, and observe substantial improvements on sentence retrieval (+13.1% for Hit@1).<\/jats:p>","DOI":"10.1162\/tacl_a_00552","type":"journal-article","created":{"date-parts":[[2023,5,8]],"date-time":"2023-05-08T21:23:05Z","timestamp":1683580985000},"page":"367-383","update-policy":"http:\/\/dx.doi.org\/10.1162\/mitpressjournals.corrections.policy","source":"Crossref","is-referenced-by-count":1,"title":["Bridging the Gap between Synthetic and Natural Questions via Sentence Decomposition for Semantic Parsing"],"prefix":"10.1162","volume":"11","author":[{"given":"Yilin","family":"Niu","sequence":"first","affiliation":[{"name":"The CoAI Lab, DCST, Tsinghua University, Beijing, China. niuyl14@tsinghua.org.cn"},{"name":"Institute for Artificial Intelligence, State Key Lab of Intelligent Technology and Systems, China"},{"name":"Beijing National Research Center for Information Science and Technology, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Fei","family":"Huang","sequence":"additional","affiliation":[{"name":"The CoAI Lab, DCST, Tsinghua University, Beijing, China. f-huang18@mails.tsinghua.edu.cn"},{"name":"Institute for Artificial Intelligence, State Key Lab of Intelligent Technology and Systems, China"},{"name":"Beijing National Research Center for Information Science and Technology, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wei","family":"Liu","sequence":"additional","affiliation":[{"name":"Xiaomi AI Lab, China. liuwei40@xiaomi.com"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jianwei","family":"Cui","sequence":"additional","affiliation":[{"name":"Xiaomi AI Lab, China. cuijianwei@xiaomi.com"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bin","family":"Wang","sequence":"additional","affiliation":[{"name":"Xiaomi AI Lab, China. wangbin11@xiaomi.com"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Minlie","family":"Huang","sequence":"additional","affiliation":[{"name":"The CoAI Lab, DCST, Tsinghua University, Beijing, China. aihuang@tsinghua.edu.cn"},{"name":"Institute for Artificial Intelligence, State Key Lab of Intelligent Technology and Systems, China"},{"name":"Beijing National Research Center for Information Science and Technology, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"281","published-online":{"date-parts":[[2023,5,9]]},"reference":[{"key":"2023050821230224200_bib1","doi-asserted-by":"publisher","first-page":"252","DOI":"10.18653\/v1\/S15-2045","article-title":"Semeval-2015 task 2: Semantic textual similarity, english, spanish and pilot on interpretability","volume-title":"SemEval@NAACL-HLT","author":"Agirre","year":"2015"},{"key":"2023050821230224200_bib2","doi-asserted-by":"publisher","first-page":"81","DOI":"10.3115\/v1\/S14-2010","article-title":"Semeval-2014 task 10: Multilingual semantic textual similarity","volume-title":"SemEval@COLING","author":"Agirre","year":"2014"},{"key":"2023050821230224200_bib3","doi-asserted-by":"publisher","first-page":"497","DOI":"10.18653\/v1\/S16-1081","article-title":"Semeval-2016 task 1: Semantic textual similarity, monolingual and cross-lingual evaluation","volume-title":"SemEval@NAACL-HLT","author":"Agirre","year":"2016"},{"key":"2023050821230224200_bib4","first-page":"385","article-title":"Semeval-2012 task 6: A pilot on semantic textual similarity","volume-title":"SemEval@NAACL-HLT","author":"Agirre","year":"2012"},{"key":"2023050821230224200_bib5","first-page":"32","article-title":"*sem 2013 shared task: Semantic textual similarity","volume-title":"*SEM","author":"Agirre","year":"2013"},{"key":"2023050821230224200_bib6","doi-asserted-by":"publisher","first-page":"1415","DOI":"10.3115\/v1\/P14-1133","article-title":"Semantic parsing via paraphrasing","volume-title":"ACL","author":"Berant","year":"2014"},{"key":"2023050821230224200_bib7","doi-asserted-by":"publisher","first-page":"632","DOI":"10.18653\/v1\/D15-1075","article-title":"A large annotated corpus for learning natural language inference","volume-title":"EMNLP","author":"Bowman","year":"2015"},{"key":"2023050821230224200_bib8","article-title":"Language models are few-shot learners","volume-title":"NeurIPS","author":"Brown","year":"2020"},{"key":"2023050821230224200_bib9","first-page":"6806","article-title":"Unsupervised dual paraphrasing for two-stage semantic parsing","volume-title":"ACL","author":"Cao","year":"2020"},{"key":"2023050821230224200_bib10","doi-asserted-by":"publisher","first-page":"6101","DOI":"10.18653\/v1\/2022.acl-long.422","article-title":"KQA pro: A dataset with explicit compositional programs for complex question answering over knowledge base","volume-title":"ACL","author":"Cao","year":"2022"},{"issue":"1","key":"2023050821230224200_bib11","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/2071389.2071390","article-title":"A survey of automatic query expansion in information retrieval","volume":"4","author":"Carpineto","year":"2012","journal-title":"ACM Computing Surveys"},{"key":"2023050821230224200_bib12","first-page":"1","article-title":"Semeval-2017 task 1: Semantic textual similarity multilingual and crosslingual focused evaluation","volume-title":"SemEval@ACL","author":"Cer","year":"2017"},{"key":"2023050821230224200_bib13","article-title":"Evaluating large language models trained on code","author":"Chen","year":"2021","journal-title":"CoRR"},{"key":"2023050821230224200_bib14","article-title":"Zero-shot transfer learning for semantic parsing","author":"Dadashkarimi","year":"2018","journal-title":"CoRR"},{"key":"2023050821230224200_bib15","doi-asserted-by":"publisher","first-page":"4093","DOI":"10.24963\/ijcai.2022\/568","article-title":"Interpretable AMR-based question decomposition for multi-hop question answering","volume-title":"IJCAI","author":"Deng","year":"2022"},{"key":"2023050821230224200_bib16","doi-asserted-by":"publisher","first-page":"169","DOI":"10.18653\/v1\/2021.findings-emnlp.17","article-title":"Decomposing complex questions makes multi-hop QA easier and more interpretable","volume-title":"EMNLP","author":"Ruiliu","year":"2021"},{"key":"2023050821230224200_bib17","first-page":"6894","article-title":"Simcse: Simple contrastive learning of sentence embeddings","volume-title":"EMNLP","author":"Gao","year":"2021"},{"key":"2023050821230224200_bib18","doi-asserted-by":"publisher","first-page":"3919","DOI":"10.48550\/arXiv.2106.12027","article-title":"ABCD: A graph framework to convert complex sentences to a covering set of simple sentences","volume-title":"ACL\/IJCNLP","author":"Gao","year":"2021"},{"key":"2023050821230224200_bib19","doi-asserted-by":"publisher","first-page":"4454","DOI":"10.18653\/v1\/P19-1438","article-title":"Zero-shot semantic parsing for instructions","volume-title":"ACL","author":"Givoli","year":"2019"},{"key":"2023050821230224200_bib20","doi-asserted-by":"publisher","first-page":"3477","DOI":"10.1145\/3442381.3449992","article-title":"Beyond I.I.D.: Three levels of generalization for question answering on knowledge bases","volume-title":"WWW","author":"Yu","year":"2021"},{"key":"2023050821230224200_bib21","doi-asserted-by":"publisher","first-page":"184","DOI":"10.18653\/v1\/2022.nlp4convai-1.15","article-title":"Retronlu: Retrieval augmented task- oriented semantic parsing","volume-title":"ConvAI@ACL","author":"Gupta","year":"2022"},{"key":"2023050821230224200_bib22","doi-asserted-by":"publisher","first-page":"1619","DOI":"10.18653\/v1\/D18-1190","article-title":"Decoupling structure and lexicon for zero-shot semantic parsing","volume-title":"EMNLP","author":"Herzig","year":"2018"},{"key":"2023050821230224200_bib23","article-title":"Lora: Low-rank adaptation of large language models","volume-title":"ICLR","author":"Edward","year":"2022"},{"key":"2023050821230224200_bib24","first-page":"44","article-title":"Large-scale, diverse, paraphrastic bitexts via sampling and clustering","volume-title":"CoNLL","author":"Edward Hu","year":"2019"},{"key":"2023050821230224200_bib25","doi-asserted-by":"publisher","first-page":"9481","DOI":"10.18653\/v1\/2021.emnlp-main.747","article-title":"Neuralizing regular expressions for slot filling","volume-title":"EMNLP","author":"Jiang","year":"2021"},{"key":"2023050821230224200_bib26","doi-asserted-by":"publisher","first-page":"1929","DOI":"10.1145\/2983323.2983876","article-title":"Query expansion using word embeddings","volume-title":"CIKM","author":"Kuzi","year":"2016"},{"key":"2023050821230224200_bib27","first-page":"2879","article-title":"Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks","volume-title":"ICML","author":"Lake","year":"2018"},{"key":"2023050821230224200_bib28","doi-asserted-by":"publisher","first-page":"159","DOI":"10.2307\/2529310","article-title":"The measurement of observer agreement for categorical data","author":"Richard Landis","year":"1977","journal-title":"biometrics"},{"key":"2023050821230224200_bib29","first-page":"2950","article-title":"MTOP: A comprehensive multilingual task-oriented semantic parsing benchmark","volume-title":"EACL","author":"Li","year":"2021"},{"key":"2023050821230224200_bib30","first-page":"1281","article-title":"Few-shot semantic parsing for new predicates","volume-title":"EACL","author":"Li","year":"2021"},{"key":"2023050821230224200_bib31","first-page":"100","article-title":"What makes good in-context examples for gpt-3?","volume-title":"DeeLIO@ACL","author":"Liu","year":"2022"},{"key":"2023050821230224200_bib32","doi-asserted-by":"publisher","first-page":"112","DOI":"10.18653\/v1\/2021.repl4nlp-1.13","article-title":"X2parser: Cross-lingual and cross-domain framework for task-oriented compositional semantic parsing","volume-title":"RepL4NLP@ACL- IJCNLP","author":"Liu","year":"2021"},{"key":"2023050821230224200_bib33","first-page":"216","article-title":"A SICK cure for the evaluation of compositional distributional semantic models","volume-title":"LREC","author":"Marelli","year":"2014"},{"key":"2023050821230224200_bib34","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2004.13645","article-title":"Unnatural language processing: Bridging the gap between synthetic and natural language data","author":"Marzoev","year":"2020","journal-title":"CoRR"},{"key":"2023050821230224200_bib35","doi-asserted-by":"publisher","first-page":"5136","DOI":"10.18653\/v1\/2021.emnlp-main.417","article-title":"Unsupervised paraphrasing with pretrained language models","volume-title":"EMNLP","author":"Niu","year":"2021"},{"key":"2023050821230224200_bib36","doi-asserted-by":"publisher","first-page":"10793","DOI":"10.18653\/v1\/2021.emnlp-main.843","article-title":"Finding needles in a haystack: Sampling structurally-diverse training sets from synthetic data for compositional generalization","volume-title":"EMNLP","author":"Oren","year":"2021"},{"key":"2023050821230224200_bib37","doi-asserted-by":"publisher","first-page":"7683","DOI":"10.18653\/v1\/2021.emnlp-main.607","article-title":"Controllable semantic parsing via retrieval augmentation","volume-title":"EMNLP","author":"Pasupat","year":"2021"},{"key":"2023050821230224200_bib38","doi-asserted-by":"publisher","first-page":"8864","DOI":"10.18653\/v1\/2020.emnlp-main.713","article-title":"Unsupervised question decomposition for question answering","volume-title":"EMNLP","author":"Perez","year":"2020"},{"key":"2023050821230224200_bib39","doi-asserted-by":"publisher","first-page":"1","DOI":"10.3115\/1699510.1699512","article-title":"Unsupervised semantic parsing","volume-title":"EMNLP","author":"Poon","year":"2009"},{"key":"2023050821230224200_bib40","first-page":"140:1","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","author":"Raffel","year":"2020","journal-title":"Journal of Machine Learning Research"},{"key":"2023050821230224200_bib41","doi-asserted-by":"publisher","first-page":"4353","DOI":"10.24963\/ijcai.2022\/604","article-title":"Training naturalized semantic parsers with very little data","volume-title":"IJCAI","author":"Rongali","year":"2022"},{"key":"2023050821230224200_bib42","doi-asserted-by":"publisher","first-page":"8984","DOI":"10.18653\/v1\/2021.emnlp-main.708","article-title":"Sparqling database queries from intermediate question decompositions","volume-title":"EMNLP","author":"Saparina","year":"2021"},{"key":"2023050821230224200_bib43","doi-asserted-by":"publisher","first-page":"148","DOI":"10.18653\/v1\/2022.acl-short.17","article-title":"The power of prompt tuning for low-resource semantic parsing","volume-title":"ACL","author":"Schucher","year":"2022"},{"key":"2023050821230224200_bib44","doi-asserted-by":"publisher","first-page":"4134","DOI":"10.18653\/v1\/2022.acl-long.285","article-title":"Zero-shot cross-lingual semantic parsing","volume-title":"ACL","author":"Sherborne","year":"2022"},{"key":"2023050821230224200_bib45","doi-asserted-by":"publisher","first-page":"7699","DOI":"10.18653\/v1\/2021.emnlp-main.608","article-title":"Constrained language models yield few-shot semantic parsers","volume-title":"EMNLP","author":"Shin","year":"2021"},{"key":"2023050821230224200_bib46","doi-asserted-by":"publisher","first-page":"5417","DOI":"10.18653\/v1\/2022.naacl-main.396","article-title":"Few-shot semantic parsing with language models trained on code","volume-title":"NAACL","author":"Shin","year":"2022"},{"key":"2023050821230224200_bib47","doi-asserted-by":"publisher","first-page":"8960","DOI":"10.1609\/aaai.v34i05.6427","article-title":"Neural semantic parsing in low- resource settings with back-translation and meta-learning","volume-title":"AAAI","author":"Sun","year":"2020"},{"key":"2023050821230224200_bib48","doi-asserted-by":"publisher","first-page":"641","DOI":"10.18653\/v1\/N18-1059","article-title":"The web as a knowledge-base for answering complex questions","volume-title":"NAACL-HLT","author":"Talmor","year":"2018"},{"key":"2023050821230224200_bib49","doi-asserted-by":"publisher","first-page":"366","DOI":"10.18653\/v1\/2021.naacl-main.33","article-title":"Meta-learning for domain generalization in semantic parsing","volume-title":"NAACL-HLT","author":"Wang","year":"2021"},{"key":"2023050821230224200_bib50","doi-asserted-by":"publisher","first-page":"1332","DOI":"10.3115\/v1\/P15-1129","article-title":"Building a semantic parser overnight","volume-title":"ACL","author":"Wang","year":"2015"},{"key":"2023050821230224200_bib51","doi-asserted-by":"publisher","DOI":"10.1145\/3447548.3467235","article-title":"Adaptive self-training for few-shot neural sequence labeling","author":"Wang","year":"2020","journal-title":"CoRR"},{"key":"2023050821230224200_bib52","doi-asserted-by":"publisher","first-page":"2347","DOI":"10.1145\/3318464.3380589","article-title":"Dbpal: A fully pluggable NL2SQL training pipeline","volume-title":"SIGMOD","author":"Weir","year":"2020"},{"key":"2023050821230224200_bib53","doi-asserted-by":"publisher","first-page":"1112","DOI":"10.18653\/v1\/N18-1101","article-title":"A broad-coverage challenge corpus for sentence understanding through inference","volume-title":"NAACL-HLT","author":"Williams","year":"2018"},{"key":"2023050821230224200_bib54","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-naacl.193","article-title":"Weakly supervised text-to-sql parsing through question decomposition","volume-title":"NAACL","author":"Wolfson","year":"2022"},{"key":"2023050821230224200_bib55","doi-asserted-by":"publisher","first-page":"183","DOI":"10.1162\/tacl_a_00309","article-title":"Break it down: A question understanding benchmark","volume":"8","author":"Wolfson","year":"2020","journal-title":"Transactions of the Association for Computational Linguistics"},{"key":"2023050821230224200_bib56","doi-asserted-by":"publisher","first-page":"5110","DOI":"10.18653\/v1\/2021.acl-long.397","article-title":"From paraphrasing to semantic parsing: Unsupervised semantic parsing via synchronous semantic decoding","volume-title":"ACL\/IJCNLP","author":"Shan","year":"2021"},{"key":"2023050821230224200_bib57","article-title":"CONQRR: Conversational query rewriting for retrieval with reinforcement learning","author":"Zeqiu","year":"2021","journal-title":"CoRR"},{"key":"2023050821230224200_bib58","first-page":"185","article-title":"Multilingual neural semantic parsing for low-resourced languages","volume-title":"*SEM","author":"Xia","year":"2021"},{"key":"2023050821230224200_bib59","first-page":"2501","article-title":"Improving AMR parsing with sequence-to-sequence pre-training","volume-title":"EMNLP","author":"Dongqin","year":"2020"},{"key":"2023050821230224200_bib60","doi-asserted-by":"publisher","first-page":"918","DOI":"10.18653\/v1\/D18-1110","article-title":"Exploiting rich syntactic information for semantic parsing with graph-to-sequence model","volume-title":"EMNLP","author":"Kun","year":"2018"},{"key":"2023050821230224200_bib61","first-page":"1685","article-title":"Schema2qa: High- quality and low-cost q&a agents for the structured web","volume-title":"CIKM","author":"Silei","year":"2020"},{"key":"2023050821230224200_bib62","first-page":"422","article-title":"Autoqa: From databases to QA semantic parsers with only synthetic training data","volume-title":"EMNLP","author":"Silei","year":"2020"},{"key":"2023050821230224200_bib63","doi-asserted-by":"publisher","first-page":"49","DOI":"10.18653\/v1\/2022.findings-naacl.5","article-title":"SEQZERO: Few-shot compositional semantic parsing with sequential prompts and zero-shot models","volume-title":"NAACL","author":"Yang","year":"2022"},{"key":"2023050821230224200_bib64","doi-asserted-by":"publisher","first-page":"3685","DOI":"10.18653\/v1\/2022.findings-acl.291","article-title":"Addressing resource and privacy constraints in semantic parsing through data augmentation","volume-title":"ACL","author":"Yang","year":"2022"},{"key":"2023050821230224200_bib65","article-title":"Hierarchical neural data synthesis for semantic parsing","author":"Yang","year":"2021","journal-title":"CoRR"},{"key":"2023050821230224200_bib66","article-title":"Grappa: Grammar-augmented pre-training for table semantic parsing","volume-title":"ICLR","author":"Tao","year":"2021"},{"key":"2023050821230224200_bib67","doi-asserted-by":"publisher","first-page":"4418","DOI":"10.18653\/v1\/2022.naacl-main.328","article-title":"Compositional task- oriented parsing as abstractive question answering","volume-title":"NAACL","author":"Zhao","year":"2022"},{"key":"2023050821230224200_bib68","doi-asserted-by":"publisher","first-page":"6869","DOI":"10.18653\/v1\/2020.emnlp-main.558","article-title":"Grounded adaptation for zero-shot executable semantic parsing","volume-title":"EMNLP","author":"Zhong","year":"2020"}],"container-title":["Transactions of the Association for Computational Linguistics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/direct.mit.edu\/tacl\/article-pdf\/doi\/10.1162\/tacl_a_00552\/2087854\/tacl_a_00552.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/direct.mit.edu\/tacl\/article-pdf\/doi\/10.1162\/tacl_a_00552\/2087854\/tacl_a_00552.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,5,8]],"date-time":"2023-05-08T21:23:21Z","timestamp":1683581001000},"score":1,"resource":{"primary":{"URL":"https:\/\/direct.mit.edu\/tacl\/article\/doi\/10.1162\/tacl_a_00552\/115893\/Bridging-the-Gap-between-Synthetic-and-Natural"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023]]},"references-count":68,"URL":"https:\/\/doi.org\/10.1162\/tacl_a_00552","relation":{},"ISSN":["2307-387X"],"issn-type":[{"value":"2307-387X","type":"electronic"}],"subject":[],"published-other":{"date-parts":[[2023]]},"published":{"date-parts":[[2023]]}}}