{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,5]],"date-time":"2026-07-05T21:53:41Z","timestamp":1783288421944,"version":"3.54.6"},"publisher-location":"New York, NY, USA","reference-count":81,"publisher":"ACM","license":[{"start":{"date-parts":[[2022,11,7]],"date-time":"2022-11-07T00:00:00Z","timestamp":1667779200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2022,11,7]]},"DOI":"10.1145\/3540250.3549145","type":"proceedings-article","created":{"date-parts":[[2022,11,9]],"date-time":"2022-11-09T20:46:22Z","timestamp":1668026782000},"page":"107-119","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":54,"title":["Are we building on the rock? on the importance of data preprocessing for code summarization"],"prefix":"10.1145","author":[{"given":"Lin","family":"Shi","sequence":"first","affiliation":[{"name":"Institute of Software at Chinese Academy of Sciences, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Fangwen","family":"Mu","sequence":"additional","affiliation":[{"name":"Institute of Software at Chinese Academy of Sciences, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xiao","family":"Chen","sequence":"additional","affiliation":[{"name":"Institute of Software at Chinese Academy of Sciences, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Song","family":"Wang","sequence":"additional","affiliation":[{"name":"York University, Canada"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Junjie","family":"Wang","sequence":"additional","affiliation":[{"name":"Institute of Software at Chinese Academy of Sciences, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ye","family":"Yang","sequence":"additional","affiliation":[{"name":"Stevens Institute of Technology, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ge","family":"Li","sequence":"additional","affiliation":[{"name":"Peking University, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xin","family":"Xia","sequence":"additional","affiliation":[{"name":"Huawei, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Qing","family":"Wang","sequence":"additional","affiliation":[{"name":"Institute of Software at Chinese Academy of Sciences, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2022,11,9]]},"reference":[{"key":"e_1_3_2_1_1_1","unstructured":"2017. PCSD Dataset Download. https:\/\/github.com\/wanyao1992\/code_summarization_public\/tree\/master\/dataset\/original \t\t\t\t  2017. PCSD Dataset Download. https:\/\/github.com\/wanyao1992\/code_summarization_public\/tree\/master\/dataset\/original"},{"key":"e_1_3_2_1_2_1","unstructured":"2018. TLC Dataset Download. https:\/\/github.com\/xing-hu\/TL-CodeSum \t\t\t\t  2018. TLC Dataset Download. https:\/\/github.com\/xing-hu\/TL-CodeSum"},{"key":"e_1_3_2_1_3_1","unstructured":"2019. CSN Dataset Download. https:\/\/github.com\/github\/CodeSearchNet \t\t\t\t  2019. CSN Dataset Download. https:\/\/github.com\/github\/CodeSearchNet"},{"key":"e_1_3_2_1_4_1","unstructured":"2019. Funcom Dataset. http:\/\/leclair.tech\/data\/funcom\/ \t\t\t\t  2019. Funcom Dataset. http:\/\/leclair.tech\/data\/funcom\/"},{"key":"e_1_3_2_1_5_1","unstructured":"2020. SIGSOFT Open Science Policies. https:\/\/github.com\/acmsigsoft\/open-science-policies \t\t\t\t  2020. SIGSOFT Open Science Policies. https:\/\/github.com\/acmsigsoft\/open-science-policies"},{"key":"e_1_3_2_1_6_1","unstructured":"2022. CAT Python Library. https:\/\/pypi.org\/project\/FSE22-CAT\/0.0.1\/ \t\t\t\t  2022. CAT Python Library. https:\/\/pypi.org\/project\/FSE22-CAT\/0.0.1\/"},{"key":"e_1_3_2_1_7_1","unstructured":"2022. Project Website. https:\/\/github.com\/BuiltOntheRock\/FSE22_BuiltOntheRock \t\t\t\t  2022. Project Website. https:\/\/github.com\/BuiltOntheRock\/FSE22_BuiltOntheRock"},{"key":"e_1_3_2_1_8_1","volume-title":"Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020. 4998\u20135007","author":"Ahmad Wasi Uddin","unstructured":"Wasi Uddin Ahmad , Saikat Chakraborty , Baishakhi Ray , and Kai-Wei Chang . [n. d.]. A Transformer-based Approach for Source Code Summarization . In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020. 4998\u20135007 . Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, and Kai-Wei Chang. [n. d.]. A Transformer-based Approach for Source Code Summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020. 4998\u20135007."},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1145\/3359591.3359735"},{"key":"e_1_3_2_1_10_1","volume-title":"7th International Conference on Learning Representations, ICLR","author":"Alon Uri","year":"2019","unstructured":"Uri Alon , Shaked Brody , Omer Levy , and Eran Yahav . [n. d.]. code2seq : Generating Sequences from Structured Representations of Code . In 7th International Conference on Learning Representations, ICLR 2019 . Uri Alon, Shaked Brody, Omer Levy, and Eran Yahav. [n. d.]. code2seq: Generating Sequences from Structured Representations of Code. In 7th International Conference on Learning Representations, ICLR 2019."},{"key":"e_1_3_2_1_11_1","volume-title":"Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and\/or Summarization@ACL","author":"Banerjee Satanjeev","year":"2005","unstructured":"Satanjeev Banerjee and Alon Lavie . [n. d.]. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments . In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and\/or Summarization@ACL 2005 . 65\u201372. Satanjeev Banerjee and Alon Lavie. [n. d.]. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. In Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and\/or Summarization@ACL 2005. 65\u201372."},{"key":"e_1_3_2_1_12_1","volume-title":"Project-Level Encoding for Neural Source Code Summarization of Subroutines. In 29th IEEE\/ACM International Conference on Program Comprehension, ICPC","author":"Bansal Aakash","year":"2021","unstructured":"Aakash Bansal , Sakib Haque , and Collin McMillan . [n. d.]. Project-Level Encoding for Neural Source Code Summarization of Subroutines. In 29th IEEE\/ACM International Conference on Program Comprehension, ICPC 2021 . 253\u2013264. Aakash Bansal, Sakib Haque, and Collin McMillan. [n. d.]. Project-Level Encoding for Neural Source Code Summarization of Subroutines. In 29th IEEE\/ACM International Conference on Program Comprehension, ICPC 2021. 253\u2013264."},{"key":"e_1_3_2_1_13_1","volume-title":"TAG: Type auxiliary guiding for code comment generation. arXiv preprint arXiv:2005.02835.","author":"Cai Ruichu","year":"2020","unstructured":"Ruichu Cai , Zhihao Liang , Boyan Xu , Zijian Li , Yuexing Hao , and Yao Chen . 2020 . TAG: Type auxiliary guiding for code comment generation. arXiv preprint arXiv:2005.02835. Ruichu Cai, Zhihao Liang, Boyan Xu, Zijian Li, Yuexing Hao, and Yao Chen. 2020. TAG: Type auxiliary guiding for code comment generation. arXiv preprint arXiv:2005.02835."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1145\/3434280"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1145\/3238147.3240471"},{"key":"e_1_3_2_1_16_1","volume-title":"Boehm","author":"Cheng Junyan","year":"2021","unstructured":"Junyan Cheng , Iordanis Fostiropoulos , and Barry W . Boehm . 2021 . GN-Transformer: Fusing Sequence and Graph Representation for Improved Code Summarization. CoRR , abs\/2111.08874 (2021), arXiv:2111.08874. arxiv:2111.08874 Junyan Cheng, Iordanis Fostiropoulos, and Barry W. Boehm. 2021. GN-Transformer: Fusing Sequence and Graph Representation for Improved Code Summarization. CoRR, abs\/2111.08874 (2021), arXiv:2111.08874. arxiv:2111.08874"},{"key":"e_1_3_2_1_17_1","volume-title":"Massimiliano Di Penta, and Gabriele Bavota","author":"Ciniselli Matteo","year":"2021","unstructured":"Matteo Ciniselli , Nathan Cooper , Luca Pascarella , Antonio Mastropaolo , Emad Aghajani , Denys Poshyvanyk , Massimiliano Di Penta, and Gabriele Bavota . 2021 . An Empirical Study on the Usage of Transformer Models for Code Completion. CoRR , abs\/2108.01585 (2021), arXiv:2108.01585. arxiv:2108.01585 Matteo Ciniselli, Nathan Cooper, Luca Pascarella, Antonio Mastropaolo, Emad Aghajani, Denys Poshyvanyk, Massimiliano Di Penta, and Gabriele Bavota. 2021. An Empirical Study on the Usage of Transformer Models for Code Completion. CoRR, abs\/2108.01585 (2021), arXiv:2108.01585. arxiv:2108.01585"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11219-016-9347-1"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICPC.2013.6613829"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1145\/2797433.2797462"},{"key":"e_1_3_2_1_21_1","volume-title":"CodeBERT: A Pre-Trained Model for Programming and Natural Languages. In Findings of the Association for Computational Linguistics: EMNLP 2020, Online Event, 16-20 November 2020 (Findings of ACL","volume":"1547","author":"Feng Zhangyin","unstructured":"Zhangyin Feng , Daya Guo , Duyu Tang , Nan Duan , Xiaocheng Feng , Ming Gong , Linjun Shou , Bing Qin , Ting Liu , Daxin Jiang , and Ming Zhou . [n. d.]. CodeBERT: A Pre-Trained Model for Programming and Natural Languages. In Findings of the Association for Computational Linguistics: EMNLP 2020, Online Event, 16-20 November 2020 (Findings of ACL , Vol. EMNLP 2020). 1536\u2013 1547 . Zhangyin Feng, Daya Guo, Duyu Tang, Nan Duan, Xiaocheng Feng, Ming Gong, Linjun Shou, Bing Qin, Ting Liu, Daxin Jiang, and Ming Zhou. [n. d.]. CodeBERT: A Pre-Trained Model for Programming and Natural Languages. In Findings of the Association for Computational Linguistics: EMNLP 2020, Online Event, 16-20 November 2020 (Findings of ACL, Vol. EMNLP 2020). 1536\u20131547."},{"key":"e_1_3_2_1_22_1","volume-title":"Lun Yiu Nie, and Xin Xia","author":"Gao Shuzheng","year":"2021","unstructured":"Shuzheng Gao , Cuiyun Gao , Yulan He , Jichuan Zeng , Lun Yiu Nie, and Xin Xia . 2021 . Code Structure Guided Transformer for Source Code Summarization. CoRR , abs\/2104.09340 (2021), arXiv:2104.09340. arxiv:2104.09340 Shuzheng Gao, Cuiyun Gao, Yulan He, Jichuan Zeng, Lun Yiu Nie, and Xin Xia. 2021. Code Structure Guided Transformer for Source Code Summarization. CoRR, abs\/2104.09340 (2021), arXiv:2104.09340. arxiv:2104.09340"},{"key":"e_1_3_2_1_23_1","volume-title":"Baselining & Evaluation. In 35th IEEE\/ACM International Conference on Automated Software Engineering, ASE 2020","author":"Gros David","year":"2020","unstructured":"David Gros , Hariharan Sezhiyan , Prem Devanbu , and Zhou Yu. [n. d.]. Code to Comment \"Translation\": Data, Metrics , Baselining & Evaluation. In 35th IEEE\/ACM International Conference on Automated Software Engineering, ASE 2020 , Melbourne, Australia , September 21-25, 2020 . 746\u2013757. David Gros, Hariharan Sezhiyan, Prem Devanbu, and Zhou Yu. [n. d.]. Code to Comment \"Translation\": Data, Metrics, Baselining & Evaluation. In 35th IEEE\/ACM International Conference on Automated Software Engineering, ASE 2020, Melbourne, Australia, September 21-25, 2020. 746\u2013757."},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1145\/2950290.2950334"},{"key":"e_1_3_2_1_25_1","volume-title":"GraphCodeBERT: Pre-training Code Representations with Data Flow. In 9th International Conference on Learning Representations, ICLR","author":"Guo Daya","year":"2021","unstructured":"Daya Guo , Shuo Ren , Shuai Lu , Zhangyin Feng , Duyu Tang , Shujie Liu , Long Zhou , Nan Duan , Alexey Svyatkovskiy , Shengyu Fu , Michele Tufano , Shao Kun Deng , Colin B. Clement , Dawn Drain , Neel Sundaresan , Jian Yin , Daxin Jiang , and Ming Zhou . [n. d.]. GraphCodeBERT: Pre-training Code Representations with Data Flow. In 9th International Conference on Learning Representations, ICLR 2021 . Daya Guo, Shuo Ren, Shuai Lu, Zhangyin Feng, Duyu Tang, Shujie Liu, Long Zhou, Nan Duan, Alexey Svyatkovskiy, Shengyu Fu, Michele Tufano, Shao Kun Deng, Colin B. Clement, Dawn Drain, Neel Sundaresan, Jian Yin, Daxin Jiang, and Ming Zhou. [n. d.]. GraphCodeBERT: Pre-training Code Representations with Data Flow. In 9th International Conference on Learning Representations, ICLR 2021."},{"key":"e_1_3_2_1_26_1","volume-title":"DeepSumm - Deep Code Summaries using Neural Transformer Architecture. CoRR, abs\/2004.00998","author":"Gupta Vivek","year":"2020","unstructured":"Vivek Gupta . 2020. DeepSumm - Deep Code Summaries using Neural Transformer Architecture. CoRR, abs\/2004.00998 ( 2020 ), arXiv:2004.00998. arxiv:2004.00998 Vivek Gupta. 2020. DeepSumm - Deep Code Summaries using Neural Transformer Architecture. CoRR, abs\/2004.00998 (2020), arXiv:2004.00998. arxiv:2004.00998"},{"key":"e_1_3_2_1_27_1","volume-title":"Supporting program comprehension with source code summarization. In 2010 acm\/ieee 32nd international conference on software engineering. 2, 223\u2013226","author":"Haiduc Sonia","unstructured":"Sonia Haiduc , Jairo Aponte , and Andrian Marcus . 2010. Supporting program comprehension with source code summarization. In 2010 acm\/ieee 32nd international conference on software engineering. 2, 223\u2013226 . Sonia Haiduc, Jairo Aponte, and Andrian Marcus. 2010. Supporting program comprehension with source code summarization. In 2010 acm\/ieee 32nd international conference on software engineering. 2, 223\u2013226."},{"key":"e_1_3_2_1_28_1","volume-title":"Action Word Prediction for Neural Source Code Summarization. In 28th IEEE International Conference on Software Analysis, Evolution and Reengineering, SANER","author":"Haque Sakib","year":"2021","unstructured":"Sakib Haque , Aakash Bansal , Lingfei Wu , and Collin McMillan . [n. d.]. Action Word Prediction for Neural Source Code Summarization. In 28th IEEE International Conference on Software Analysis, Evolution and Reengineering, SANER 2021 . 330\u2013341. Sakib Haque, Aakash Bansal, Lingfei Wu, and Collin McMillan. [n. d.]. Action Word Prediction for Neural Source Code Summarization. In 28th IEEE International Conference on Software Analysis, Evolution and Reengineering, SANER 2021. 330\u2013341."},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1145\/3379597.3387449"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"crossref","unstructured":"Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal and Rifat Shahriyar. [n. d.]. CoDesc: A Large Code-Description Parallel Dataset. In Findings of the Association for Computational Linguistics: ACL\/IJCNLP 2021 (Findings of ACL Vol. ACL\/IJCNLP 2021). 210\u2013218. \t\t\t\t  Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal and Rifat Shahriyar. [n. d.]. CoDesc: A Large Code-Description Parallel Dataset. In Findings of the Association for Computational Linguistics: ACL\/IJCNLP 2021 (Findings of ACL Vol. ACL\/IJCNLP 2021). 210\u2013218.","DOI":"10.18653\/v1\/2021.findings-acl.18"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1145\/3196321.3196334"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1007\/s10664-019-09730-9"},{"key":"e_1_3_2_1_33_1","unstructured":"Xing Hu Ge Li Xin Xia David Lo Shuai Lu and Zhi Jin. 2018. Summarizing source code with transferred api knowledge. \t\t\t\t  Xing Hu Ge Li Xin Xia David Lo Shuai Lu and Zhi Jin. 2018. Summarizing source code with transferred api knowledge."},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1002\/spe.2772"},{"key":"e_1_3_2_1_35_1","unstructured":"Hamel Husain Ho-Hsiang Wu Tiferet Gazit Miltiadis Allamanis and Marc Brockschmidt. 2019. Codesearchnet challenge: Evaluating the state of semantic code search. arXiv preprint arXiv:1909.09436. \t\t\t\t  Hamel Husain Ho-Hsiang Wu Tiferet Gazit Miltiadis Allamanis and Marc Brockschmidt. 2019. Codesearchnet challenge: Evaluating the state of semantic code search. arXiv preprint arXiv:1909.09436."},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P16-1195"},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1109\/ASE.2017.8115626"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1109\/ASE51524.2021.9678927"},{"key":"e_1_3_2_1_39_1","volume-title":"Ensemble Models for Neural Source Code Summarization of Subroutines. In IEEE International Conference on Software Maintenance and Evolution, ICSME","author":"LeClair Alexander","year":"2021","unstructured":"Alexander LeClair , Aakash Bansal , and Collin McMillan . [n. d.]. Ensemble Models for Neural Source Code Summarization of Subroutines. In IEEE International Conference on Software Maintenance and Evolution, ICSME 2021 . 286\u2013297. Alexander LeClair, Aakash Bansal, and Collin McMillan. [n. d.]. Ensemble Models for Neural Source Code Summarization of Subroutines. In IEEE International Conference on Software Maintenance and Evolution, ICSME 2021. 286\u2013297."},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.1145\/3387904.3389268"},{"key":"e_1_3_2_1_41_1","volume-title":"2019 IEEE\/ACM 41st International Conference on Software Engineering (ICSE). 795\u2013806","author":"LeClair Alexander","unstructured":"Alexander LeClair , Siyuan Jiang , and Collin McMillan . [n. d.]. A neural model for generating natural language summaries of program subroutines . In 2019 IEEE\/ACM 41st International Conference on Software Engineering (ICSE). 795\u2013806 . Alexander LeClair, Siyuan Jiang, and Collin McMillan. [n. d.]. A neural model for generating natural language summaries of program subroutines. In 2019 IEEE\/ACM 41st International Conference on Software Engineering (ICSE). 795\u2013806."},{"key":"e_1_3_2_1_42_1","volume-title":"EditSum: A Retrieve-and-Edit Framework for Source Code Summarization. In 36th IEEE\/ACM International Conference on Automated Software Engineering, ASE","author":"Li Jia","year":"2021","unstructured":"Jia Li , Yongmin Li , Ge Li , Xing Hu , Xin Xia , and Zhi Jin . [n. d.]. EditSum: A Retrieve-and-Edit Framework for Source Code Summarization. In 36th IEEE\/ACM International Conference on Automated Software Engineering, ASE 2021 . 155\u2013166. Jia Li, Yongmin Li, Ge Li, Xing Hu, Xin Xia, and Zhi Jin. [n. d.]. EditSum: A Retrieve-and-Edit Framework for Source Code Summarization. In 36th IEEE\/ACM International Conference on Automated Software Engineering, ASE 2021. 155\u2013166."},{"key":"e_1_3_2_1_43_1","volume-title":"Improving Code Summarization with Block-wise Abstract Syntax Tree Splitting. In 29th IEEE\/ACM International Conference on Program Comprehension, ICPC","author":"Lin Chen","year":"2021","unstructured":"Chen Lin , Zhichao Ouyang , Junqing Zhuang , Jianqiang Chen , Hui Li , and Rongxin Wu. [n. d.]. Improving Code Summarization with Block-wise Abstract Syntax Tree Splitting. In 29th IEEE\/ACM International Conference on Program Comprehension, ICPC 2021 . 184\u2013195. Chen Lin, Zhichao Ouyang, Junqing Zhuang, Jianqiang Chen, Hui Li, and Rongxin Wu. [n. d.]. Improving Code Summarization with Block-wise Abstract Syntax Tree Splitting. In 29th IEEE\/ACM International Conference on Program Comprehension, ICPC 2021. 184\u2013195."},{"key":"e_1_3_2_1_44_1","volume-title":"ROUGE: A package for automatic evaluation of summaries. In Text summarization branches out. 74\u201381.","author":"Lin Chin-Yew","year":"2004","unstructured":"Chin-Yew Lin . 2004 . ROUGE: A package for automatic evaluation of summaries. In Text summarization branches out. 74\u201381. Chin-Yew Lin. 2004. ROUGE: A package for automatic evaluation of summaries. In Text summarization branches out. 74\u201381."},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"publisher","DOI":"10.1145\/3238147.3238190"},{"key":"e_1_3_2_1_46_1","volume-title":"Shengyu Fu, and Shujie Liu.","author":"Lu Shuai","year":"2021","unstructured":"Shuai Lu , Daya Guo , Shuo Ren , Junjie Huang , Alexey Svyatkovskiy , Ambrosio Blanco , Colin B. Clement , Dawn Drain , Daxin Jiang , Duyu Tang , Ge Li , Lidong Zhou , Linjun Shou , Long Zhou , Michele Tufano , Ming Gong , Ming Zhou , Nan Duan , Neel Sundaresan , Shao Kun Deng , Shengyu Fu, and Shujie Liu. 2021 . CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation. CoRR , abs\/2102.04664 (2021), arXiv:2102.04664. arxiv:2102.04664 Shuai Lu, Daya Guo, Shuo Ren, Junjie Huang, Alexey Svyatkovskiy, Ambrosio Blanco, Colin B. Clement, Dawn Drain, Daxin Jiang, Duyu Tang, Ge Li, Lidong Zhou, Linjun Shou, Long Zhou, Michele Tufano, Ming Gong, Ming Zhou, Nan Duan, Neel Sundaresan, Shao Kun Deng, Shengyu Fu, and Shujie Liu. 2021. CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation. CoRR, abs\/2102.04664 (2021), arXiv:2102.04664. arxiv:2102.04664"},{"key":"e_1_3_2_1_47_1","volume-title":"Antonios Anastasopoulos, and Kevin Moran.","author":"Mahmud Junayed","year":"2021","unstructured":"Junayed Mahmud , Fahim Faisal , Raihan Islam Arnob , Antonios Anastasopoulos, and Kevin Moran. 2021 . Code to Comment Translation : A Comparative Study on Model Effectiveness & Errors. CoRR , abs\/2106.08415 (2021), arXiv:2106.08415. arxiv:2106.08415 Junayed Mahmud, Fahim Faisal, Raihan Islam Arnob, Antonios Anastasopoulos, and Kevin Moran. 2021. Code to Comment Translation: A Comparative Study on Model Effectiveness & Errors. CoRR, abs\/2106.08415 (2021), arXiv:2106.08415. arxiv:2106.08415"},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICSE43902.2021.00041"},{"key":"e_1_3_2_1_49_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICPC.2013.6613830"},{"key":"e_1_3_2_1_50_1","unstructured":"Oracle. [n. d.]. http:\/\/www.oracle.com\/technetwork\/articles\/java\/index-137868.html \t\t\t\t  Oracle. [n. d.]. http:\/\/www.oracle.com\/technetwork\/articles\/java\/index-137868.html"},{"key":"e_1_3_2_1_51_1","volume-title":"Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics","author":"Papineni Kishore","year":"2002","unstructured":"Kishore Papineni , Salim Roukos , Todd Ward , and Wei-Jing Zhu . [n. d.]. Bleu : a Method for Automatic Evaluation of Machine Translation . In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics , July 6-12, 2002 , Philadelphia, PA, USA. 311\u2013318. Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. [n. d.]. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, July 6-12, 2002, Philadelphia, PA, USA. 311\u2013318."},{"key":"e_1_3_2_1_52_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICST49551.2021.00016"},{"key":"e_1_3_2_1_53_1","doi-asserted-by":"publisher","DOI":"10.1145\/3387904.3389286"},{"key":"e_1_3_2_1_54_1","doi-asserted-by":"publisher","DOI":"10.1109\/SCAM52516.2021.00028"},{"key":"e_1_3_2_1_55_1","doi-asserted-by":"publisher","DOI":"10.1145\/3468264.3468588"},{"key":"e_1_3_2_1_56_1","doi-asserted-by":"publisher","DOI":"10.1111\/j.1468-0394.2005.00300.x"},{"key":"e_1_3_2_1_57_1","doi-asserted-by":"publisher","DOI":"10.1145\/2884781.2884877"},{"key":"e_1_3_2_1_58_1","unstructured":"Abigail See Peter J Liu and Christopher D Manning. 2017. Get to the point: Summarization with pointer-generator networks. arXiv preprint arXiv:1704.04368. \t\t\t\t  Abigail See Peter J Liu and Christopher D Manning. 2017. Get to the point: Summarization with pointer-generator networks. arXiv preprint arXiv:1704.04368."},{"key":"e_1_3_2_1_59_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICPC52881.2021.00049"},{"key":"e_1_3_2_1_60_1","volume-title":"Neural Code Summarization: How Far Are We? CoRR, abs\/2107.07112","author":"Shi Ensheng","year":"2021","unstructured":"Ensheng Shi , Yanlin Wang , Lun Du , Junjie Chen , Shi Han , Hongyu Zhang , Dongmei Zhang , and Hongbin Sun . 2021. Neural Code Summarization: How Far Are We? CoRR, abs\/2107.07112 ( 2021 ), arXiv:2107.07112. arxiv:2107.07112 Ensheng Shi, Yanlin Wang, Lun Du, Junjie Chen, Shi Han, Hongyu Zhang, Dongmei Zhang, and Hongbin Sun. 2021. Neural Code Summarization: How Far Are We? CoRR, abs\/2107.07112 (2021), arXiv:2107.07112. arxiv:2107.07112"},{"key":"e_1_3_2_1_61_1","first-page":"4053","article-title":"Conference on Empirical Methods in Natural Language Processing","volume":"2021","author":"Shi Ensheng","year":"2021","unstructured":"Ensheng Shi , Yanlin Wang , Lun Du , Hongyu Zhang , Shi Han , Dongmei Zhang , and Hongbin Sun . [n. d.]. CAST: Enhancing Code Summarization with Hierarchical Splitting and Reconstruction of Abstract Syntax Trees . In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing , EMNLP 2021. 4053 \u2013 4062 . Ensheng Shi, Yanlin Wang, Lun Du, Hongyu Zhang, Shi Han, Dongmei Zhang, and Hongbin Sun. [n. d.]. CAST: Enhancing Code Summarization with Hierarchical Splitting and Reconstruction of Abstract Syntax Trees. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, EMNLP 2021. 4053\u20134062.","journal-title":"EMNLP"},{"key":"e_1_3_2_1_62_1","doi-asserted-by":"publisher","DOI":"10.1145\/1858996.1859006"},{"key":"e_1_3_2_1_63_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICPC.2013.6613836"},{"key":"e_1_3_2_1_64_1","volume-title":"On the Importance of Building High-quality Training Datasets for Neural Code Search. CoRR, abs\/2202.06649","author":"Sun Zhensu","year":"2022","unstructured":"Zhensu Sun , Li Li , Yan Liu , Xiaoning Du , and Li Li. 2022. On the Importance of Building High-quality Training Datasets for Neural Code Search. CoRR, abs\/2202.06649 ( 2022 ), arXiv:2202.06649. arxiv:2202.06649 Zhensu Sun, Li Li, Yan Liu, Xiaoning Du, and Li Li. 2022. On the Importance of Building High-quality Training Datasets for Neural Code Search. CoRR, abs\/2202.06649 (2022), arXiv:2202.06649. arxiv:2202.06649"},{"key":"e_1_3_2_1_65_1","volume-title":"\u0141 ukasz Kaiser, and Illia Polosukhin","author":"Vaswani Ashish","year":"2017","unstructured":"Ashish Vaswani , Noam Shazeer , Niki Parmar , Jakob Uszkoreit , Llion Jones , Aidan N Gomez , \u0141 ukasz Kaiser, and Illia Polosukhin . 2017 . Attention is all you need. Advances in neural information processing systems, 30 (2017). Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, \u0141 ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. Advances in neural information processing systems, 30 (2017)."},{"key":"e_1_3_2_1_66_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"e_1_3_2_1_67_1","doi-asserted-by":"publisher","DOI":"10.1145\/3238147.3238206"},{"key":"e_1_3_2_1_68_1","doi-asserted-by":"publisher","DOI":"10.1109\/TSE.2020.2979701"},{"key":"e_1_3_2_1_69_1","volume-title":"CoCoSum: Contextual Code Summarization with Multi-Relational Graph Neural Network. CoRR, abs\/2107.01933","author":"Wang Yanlin","year":"2021","unstructured":"Yanlin Wang , Ensheng Shi , Lun Du , Xiaodi Yang , Yuxuan Hu , Shi Han , Hongyu Zhang , and Dongmei Zhang . 2021. CoCoSum: Contextual Code Summarization with Multi-Relational Graph Neural Network. CoRR, abs\/2107.01933 ( 2021 ), arXiv:2107.01933. arxiv:2107.01933 Yanlin Wang, Ensheng Shi, Lun Du, Xiaodi Yang, Yuxuan Hu, Shi Han, Hongyu Zhang, and Dongmei Zhang. 2021. CoCoSum: Contextual Code Summarization with Multi-Relational Graph Neural Network. CoRR, abs\/2107.01933 (2021), arXiv:2107.01933. arxiv:2107.01933"},{"key":"e_1_3_2_1_70_1","first-page":"8708","volume-title":"Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, EMNLP 2021","author":"Wang Yue","unstructured":"Yue Wang , Weishi Wang , Shafiq R. Joty , and Steven C. H. Hoi . [n. d.]. CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation . In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, EMNLP 2021 , pages = 8696\u2013 8708 ,. Yue Wang, Weishi Wang, Shafiq R. Joty, and Steven C. H. Hoi. [n. d.]. CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, EMNLP 2021, pages = 8696\u20138708,."},{"key":"e_1_3_2_1_71_1","doi-asserted-by":"publisher","DOI":"10.1109\/SANER.2016.72"},{"key":"e_1_3_2_1_72_1","volume-title":"Code generation as a dual task of code summarization. Advances in neural information processing systems, 32","author":"Wei Bolin","year":"2019","unstructured":"Bolin Wei , Ge Li , Xin Xia , Zhiyi Fu , and Zhi Jin . 2019. Code generation as a dual task of code summarization. Advances in neural information processing systems, 32 ( 2019 ). Bolin Wei, Ge Li, Xin Xia, Zhiyi Fu, and Zhi Jin. 2019. Code generation as a dual task of code summarization. Advances in neural information processing systems, 32 (2019)."},{"key":"e_1_3_2_1_73_1","doi-asserted-by":"publisher","DOI":"10.1145\/3324884.3416578"},{"key":"e_1_3_2_1_74_1","doi-asserted-by":"publisher","DOI":"10.1109\/SANER.2015.7081848"},{"key":"e_1_3_2_1_75_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-acl.93"},{"key":"e_1_3_2_1_76_1","doi-asserted-by":"publisher","DOI":"10.1145\/3366423.3380295"},{"key":"e_1_3_2_1_77_1","doi-asserted-by":"crossref","unstructured":"Huang Yuchao Wei Moshi Wang Song Wang Junjie and Wang Qing. 2021. Yet Another Combination of IR-and Neural-based Comment Generation. arXiv preprint arXiv:2107.12938. \t\t\t\t  Huang Yuchao Wei Moshi Wang Song Wang Junjie and Wang Qing. 2021. Yet Another Combination of IR-and Neural-based Comment Generation. arXiv preprint arXiv:2107.12938.","DOI":"10.1016\/j.infsof.2022.107001"},{"key":"e_1_3_2_1_78_1","doi-asserted-by":"publisher","DOI":"10.1145\/3377811.3380383"},{"key":"e_1_3_2_1_79_1","doi-asserted-by":"publisher","DOI":"10.1145\/3457913.3457937"},{"key":"e_1_3_2_1_80_1","volume-title":"Gall","author":"Zhou Yu","year":"2021","unstructured":"Yu Zhou , Xiaoqing Zhang , Juanjuan Shen , Tingting Han , Taolue Chen , and Harald C . Gall . 2021 . Adversarial Robustness of Deep Code Comment Generation. CoRR , abs\/2108.00213 (2021), arXiv:2108.00213. arxiv:2108.00213 Yu Zhou, Xiaoqing Zhang, Juanjuan Shen, Tingting Han, Taolue Chen, and Harald C. Gall. 2021. Adversarial Robustness of Deep Code Comment Generation. CoRR, abs\/2108.00213 (2021), arXiv:2108.00213. arxiv:2108.00213"},{"key":"e_1_3_2_1_81_1","doi-asserted-by":"publisher","DOI":"10.1007\/s00521-021-05907-w"}],"event":{"name":"ESEC\/FSE '22: 30th ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering","location":"Singapore Singapore","acronym":"ESEC\/FSE '22","sponsor":["SIGSOFT ACM Special Interest Group on Software Engineering","NUS NUS"]},"container-title":["Proceedings of the 30th ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3540250.3549145","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3540250.3549145","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T17:51:02Z","timestamp":1750182662000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3540250.3549145"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,11,7]]},"references-count":81,"alternative-id":["10.1145\/3540250.3549145","10.1145\/3540250"],"URL":"https:\/\/doi.org\/10.1145\/3540250.3549145","relation":{},"subject":[],"published":{"date-parts":[[2022,11,7]]},"assertion":[{"value":"2022-11-09","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}