{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2023,1,21]],"date-time":"2023-01-21T06:01:42Z","timestamp":1674280902929},"reference-count":76,"publisher":"MIT Press","license":[{"start":{"date-parts":[[2021,12,23]],"date-time":"2021-12-23T00:00:00Z","timestamp":1640217600000},"content-version":"vor","delay-in-days":356,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":["direct.mit.edu"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2021,12,17]]},"abstract":"<jats:title>Abstract<\/jats:title><jats:p>Interpretable rationales for model predictions are crucial in practical applications. We develop neural models that possess an interpretable inference process for dependency parsing. Our models adopt instance-based inference, where dependency edges are extracted and labeled by comparing them to edges in a training set. The training edges are explicitly used for the predictions; thus, it is easy to grasp the contribution of each edge to the predictions. Our experiments show that our instance-based models achieve competitive accuracy with standard neural models and have the reasonable plausibility of instance-based explanations.<\/jats:p>","DOI":"10.1162\/tacl_a_00439","type":"journal-article","created":{"date-parts":[[2021,12,24]],"date-time":"2021-12-24T05:58:37Z","timestamp":1640325517000},"page":"1493-1507","update-policy":"http:\/\/dx.doi.org\/10.1162\/mitpressjournals.corrections.policy","source":"Crossref","is-referenced-by-count":1,"title":["Instance-Based Neural Dependency Parsing"],"prefix":"10.1162","volume":"9","author":[{"given":"Hiroki","family":"Ouchi","sequence":"first","affiliation":[{"name":"NAIST, Japan"},{"name":"RIKEN, Japan. hiroki.ouchi@is.naist.jp"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jun","family":"Suzuki","sequence":"additional","affiliation":[{"name":"Tohoku University, Japan"},{"name":"RIKEN, Japan. sosk@preferred.jp"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sosuke","family":"Kobayashi","sequence":"additional","affiliation":[{"name":"Tohoku University, Japan"},{"name":"Preferred Networks, Inc., Japan. jun.suzuki@tohoku.ac.jp"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sho","family":"Yokoi","sequence":"additional","affiliation":[{"name":"Tohoku University, Japan"},{"name":"RIKEN, Japan. yokoi@tohoku.ac.jp"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tatsuki","family":"Kuribayashi","sequence":"additional","affiliation":[{"name":"Tohoku University, Japan"},{"name":"Langsmith, Inc., Japan. kuribayashi@tohoku.ac.jp"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Masashi","family":"Yoshikawa","sequence":"additional","affiliation":[{"name":"Tohoku University, Japan"},{"name":"RIKEN, Japan. yoshikawa@tohoku.ac.jp"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kentaro","family":"Inui","sequence":"additional","affiliation":[{"name":"Tohoku University, Japan"},{"name":"RIKEN, Japan. inui@tohoku.ac.jp"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"281","published-online":{"date-parts":[[2021,12,17]]},"reference":[{"issue":"1","key":"2021122316153272200_bib1","doi-asserted-by":"publisher","first-page":"37","DOI":"10.1007\/BF00153759","article-title":"Instance-based learning algorithms","volume":"6","author":"Aha","year":"1991","journal-title":"Machine Learning"},{"key":"2021122316153272200_bib2","first-page":"599","article-title":"K-SRL: Instance-based learning for semantic role labeling","volume-title":"Proceedings of COLING","author":"Akbik","year":"2016"},{"issue":"Jun","key":"2021122316153272200_bib3","first-page":"1803","article-title":"How to explain individual classification decisions","volume":"11","author":"Baehrens","year":"2010","journal-title":"Journal of Machine Learning Research"},{"key":"2021122316153272200_bib4","article-title":"A survey on metric learning for feature vectors and structured data","author":"Bellet","year":"2013","journal-title":"arXiv preprint arXiv:1306.6709"},{"issue":"5","key":"2021122316153272200_bib5","doi-asserted-by":"publisher","first-page":"752","DOI":"10.1111\/j.1551-6709.2009.01031.x","article-title":"From exemplar to grammar: A probabilistic analogy-based model of language learning","volume":"33","author":"Bod","year":"2009","journal-title":"Cognitive Science"},{"key":"2021122316153272200_bib6","first-page":"2787","article-title":"Translating embeddings for modeling multi-relational data","volume":"26","author":"Bordes","year":"2013","journal-title":"Proceedings of NIPS"},{"key":"2021122316153272200_bib7","first-page":"212","article-title":"Case-based explanation of non-case- based learning methods.","volume-title":"Proceedings of the AMIA Symposium","author":"Caruana","year":"1999"},{"key":"2021122316153272200_bib8","first-page":"1914","article-title":"Semi-supervised sequence modeling with cross-view training","volume-title":"Proceedings of EMNLP","author":"Clark","year":"2018"},{"key":"2021122316153272200_bib9","doi-asserted-by":"crossref","DOI":"10.1017\/CBO9780511486579","volume-title":"Memory-based Language Processing","author":"Daelemans","year":"2005"},{"key":"2021122316153272200_bib10","article-title":"Memory-based shallow parsing","volume-title":"EACL 1999: CoNLL-99 Computational Natural Language Learning","author":"Daelemans","year":"1999"},{"key":"2021122316153272200_bib11","article-title":"MBT: A memory-based part of speech tagger-generator","volume-title":"Proceedings of Fourth Workshop on Very Large Corpora","author":"Daelemans","year":"1996"},{"key":"2021122316153272200_bib12","doi-asserted-by":"publisher","first-page":"208","DOI":"10.3115\/1119176.1119211","article-title":"Memory-based named entity recognition using unannotated data","volume-title":"Proceedings of HLT-NAACL","author":"Meulder","year":"2003"},{"key":"2021122316153272200_bib13","doi-asserted-by":"publisher","first-page":"4690","DOI":"10.1109\/CVPR.2019.00482","article-title":"Arcface: Additive angular margin loss for deep face recognition","volume-title":"Proceedings of CVPR","author":"Deng","year":"2019"},{"key":"2021122316153272200_bib14","first-page":"4171","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","volume-title":"Proceedings of NAACL-HLT","author":"Devlin","year":"2019"},{"key":"2021122316153272200_bib15","article-title":"Deep biaffine attention for neural dependency parsing","volume-title":"Proceedings of ICLR","author":"Dozat","year":"2017"},{"key":"2021122316153272200_bib16","unstructured":"Jerome H. Friedman . 1994. Flexible metric nearest neighbor classification. Technical report, Stanford University. http:\/\/citeseerx.ist.psu.edu\/viewdoc\/summary?doi=10.1.1.31.2959"},{"key":"2021122316153272200_bib17","first-page":"513","article-title":"Neighbourhood components analysis","volume-title":"Proceedings of NIPS","author":"Goldberger","year":"2005"},{"key":"2021122316153272200_bib18","article-title":"Learning word vectors for 157 languages","volume-title":"Proceedings of LREC","author":"Grave","year":"2018"},{"key":"2021122316153272200_bib19","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2013.6707742","article-title":"Hybrid speech recognition with deep bidirectional LSTM","volume-title":"Proceedings of Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop","author":"Graves","year":"2013"},{"key":"2021122316153272200_bib20","article-title":"Realm: Retrieval-augmented language model pre- training","author":"Guu","year":"2020","journal-title":"arXiv preprint arXiv:2002.08909"},{"key":"2021122316153272200_bib21","first-page":"1735","article-title":"Dimensionality reduction by learning an invariant mapping","volume-title":"Proceedings of CVPR","author":"Hadsell","year":"2006"},{"key":"2021122316153272200_bib22","article-title":"Evaluation of similarity- based explanations","volume-title":"Proceedings of ICLR","author":"Hanawa","year":"2021"},{"key":"2021122316153272200_bib23","doi-asserted-by":"publisher","first-page":"1923","DOI":"10.18653\/v1\/D17-1206","article-title":"A joint many-task model: Growing a neural network for multiple NLP tasks","volume-title":"Proceedings of EMNLP","author":"Hashimoto","year":"2017"},{"key":"2021122316153272200_bib24","volume-title":"The World Atlas of Language Structures","author":"Haspelmath","year":"2005"},{"key":"2021122316153272200_bib25","first-page":"409","article-title":"Discriminant adaptive nearest neighbor classification and regression","volume-title":"Proceedings of NIPS","author":"Hastie","year":"1996"},{"key":"2021122316153272200_bib26","doi-asserted-by":"publisher","first-page":"176","DOI":"10.3115\/1119176.1119203","article-title":"Memory-based one-step named-entity recognition: Effects of seed list features, classifier stacking, and unannotated data","volume-title":"Proceedings of CoNLL","author":"Hendrickx","year":"2003"},{"key":"2021122316153272200_bib27","doi-asserted-by":"publisher","first-page":"84","DOI":"10.1007\/978-3-319-24261-3_7","article-title":"Deep metric learning using triplet network","volume-title":"International Workshop on Similarity-Based Pattern Recognition","author":"Hoffer","year":"2015"},{"key":"2021122316153272200_bib28","doi-asserted-by":"publisher","first-page":"2475","DOI":"10.18653\/v1\/P19-1237","article-title":"Graph-based dependency parsing with graph neural networks","volume-title":"Proceedings of ACL","author":"Ji","year":"2019"},{"key":"2021122316153272200_bib29","article-title":"Nearest neighbor machine translation","author":"Khandelwal","year":"2020","journal-title":"arXiv preprint arXiv:2010.00710"},{"key":"2021122316153272200_bib30","article-title":"Generalization through memorization: Nearest neighbor language models","volume-title":"Proceedings of ICLR","author":"Khandelwal","year":"2019"},{"key":"2021122316153272200_bib31","article-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014","journal-title":"arXiv preprint arXiv:1412.6980"},{"issue":"2","key":"2021122316153272200_bib32","first-page":"52","article-title":"Improving human decision making through case-based decision aiding","volume":"12","author":"Kolodneer","year":"1991","journal-title":"AI Magazine"},{"key":"2021122316153272200_bib33","doi-asserted-by":"publisher","DOI":"10.1075\/nlp.7","volume-title":"Memory-based Parsing","author":"K\u00fcbler","year":"2004"},{"issue":"1","key":"2021122316153272200_bib34","doi-asserted-by":"publisher","first-page":"1","DOI":"10.2200\/S00169ED1V01Y200901HLT002","article-title":"Dependency parsing","volume":"1","author":"K\u00fcbler","year":"2009","journal-title":"Synthesis Lectures on Human Language Technologies"},{"key":"2021122316153272200_bib35","doi-asserted-by":"publisher","first-page":"2755","DOI":"10.18653\/v1\/D19-1277","article-title":"Deep contextualized word embeddings in transition-based and graph-based dependency parsing-a tale of two parsers revisited","volume-title":"Proceedings of EMNLP-IJCNLP","author":"Kulmizev","year":"2019"},{"issue":"4","key":"2021122316153272200_bib36","doi-asserted-by":"publisher","first-page":"363","DOI":"10.1016\/S0004-3702(83)80019-8","article-title":"Memory-based parsing","volume":"21","author":"Lebowitz","year":"1983","journal-title":"Artificial Intelligence"},{"key":"2021122316153272200_bib37","first-page":"107","article-title":"Rationalizing neural predictions","volume-title":"Proceedings of EMNLP","author":"Lei","year":"2016"},{"key":"2021122316153272200_bib38","article-title":"Retrieval-augmented generation for knowledge-intensive NLP tasks","author":"Lewis","year":"2020","journal-title":"arXiv preprint arXiv:2005.11401"},{"key":"2021122316153272200_bib39","first-page":"99","article-title":"Old school vs. new school: Comparing transition-based parsers with and without neural network enhancement","volume-title":"The 15th Treebanks and Linguistic Theories Workshop (TLT)","author":"de Lhoneux","year":"2017"},{"key":"2021122316153272200_bib40","first-page":"212","article-title":"Sphereface: Deep hypersphere embedding for face recognition","volume-title":"Proceedings of CVPR","author":"Liu","year":"2017"},{"issue":"2","key":"2021122316153272200_bib41","doi-asserted-by":"publisher","first-page":"313","DOI":"10.21236\/ADA273556","article-title":"Building a large annotated corpus of English: The Penn Treebank","volume":"19","author":"Marcus","year":"1993","journal-title":"Computational Linguistics"},{"key":"2021122316153272200_bib42","doi-asserted-by":"publisher","first-page":"216","DOI":"10.3115\/1596276.1596317","article-title":"Multilingual dependency analysis with a two-stage discriminative parser","volume-title":"Proceedings of CoNLL-X","author":"McDonald","year":"2006"},{"key":"2021122316153272200_bib43","first-page":"92","article-title":"Universal Dependency annotation for multilingual parsing","volume-title":"Proceedings of ACL","author":"McDonald","year":"2013"},{"key":"2021122316153272200_bib44","doi-asserted-by":"publisher","first-page":"523","DOI":"10.3115\/1220575.1220641","article-title":"Non-projective dependency parsing using spanning tree algorithms","volume-title":"Proceedings of HLT-EMNLP","author":"McDonald","year":"2005"},{"key":"2021122316153272200_bib45","volume-title":"A framework of a mechanical translation between Japanese and English by analogy principle","author":"Nagao","year":"1984"},{"key":"2021122316153272200_bib46","doi-asserted-by":"crossref","DOI":"10.1609\/aaai.v30i1.10314","article-title":"Holographic embeddings of knowledge graphs","volume-title":"Proceedings of AAAI","author":"Nickel","year":"2016"},{"key":"2021122316153272200_bib47","first-page":"149","article-title":"An efficient algorithm for projective dependency parsing","volume-title":"Proceedings of the Eighth International Conference on Parsing Technologies","author":"Nivre","year":"2003"},{"key":"2021122316153272200_bib48","first-page":"49","article-title":"Memory-based dependency parsing","volume-title":"Proceedings of CoNLL","author":"Nivre","year":"2004"},{"key":"2021122316153272200_bib49","article-title":"Representation learning with contrastive predictive coding","author":"Oord","year":"2018","journal-title":"arXiv preprint arXiv:1807.03748"},{"key":"2021122316153272200_bib50","doi-asserted-by":"publisher","first-page":"6452","DOI":"10.18653\/v1\/2020.acl-main.575","article-title":"Instance-based learning of span representations: A case study through named entity recognition","volume-title":"Proceedings of ACL","author":"Ouchi","year":"2020"},{"key":"2021122316153272200_bib51","article-title":"Deep k-nearest neighbors: Towards confident, interpretable and robust deep learning","author":"Papernot","year":"2018","journal-title":"arXiv preprint arXiv:1803.04765"},{"key":"2021122316153272200_bib52","first-page":"1310","article-title":"On the difficulty of training recurrent neural networks","volume-title":"Proceedings of ICML","author":"Pascanu","year":"2013"},{"key":"2021122316153272200_bib53","doi-asserted-by":"publisher","first-page":"1532","DOI":"10.3115\/v1\/D14-1162","article-title":"GloVe: Global vectors for word representation","volume-title":"Proceedings of EMNLP","author":"Pennington","year":"2014"},{"key":"2021122316153272200_bib54","first-page":"2515","article-title":"Model agnostic supervised local explanations","volume-title":"Proceedings of NIPS","author":"Plumb","year":"2018"},{"issue":"sept","key":"2021122316153272200_bib55","first-page":"2487","article-title":"Hubs in space: Popular nearest neighbors in high-dimensional data","volume":"11","author":"Radovanovic","year":"2010","journal-title":"Journal of Machine Learning Research"},{"key":"2021122316153272200_bib56","article-title":"L2-constrained softmax loss for discriminative face verification","author":"Ranjan","year":"2017","journal-title":"arXiv preprint arXiv:1703.09507"},{"key":"2021122316153272200_bib57","first-page":"1135","article-title":"Why should i trust you?: Explaining the predictions of any classifier","volume-title":"Proceedings of KDD","author":"Ribeiro","year":"2016"},{"key":"2021122316153272200_bib58","first-page":"559","article-title":"Memory-based shallow parsing","volume":"2","author":"Sang","year":"2002","journal-title":"Journal of Machine Learning Research"},{"issue":"3","key":"2021122316153272200_bib59","doi-asserted-by":"publisher","first-page":"409","DOI":"10.1080\/095281399146481","article-title":"A memory-based model of syntactic analysis: data-oriented parsing","volume":"11","author":"Scha","year":"1999","journal-title":"Journal of Experimental & Theoretical Artificial Intelligence"},{"issue":"10","key":"2021122316153272200_bib60","article-title":"Local and global scaling reduce hubs in space","volume":"13","author":"Schnitzer","year":"2012","journal-title":"Journal of Machine Learning Research"},{"issue":"5","key":"2021122316153272200_bib61","doi-asserted-by":"publisher","first-page":"622","DOI":"10.1109\/TIT.1981.1056403","article-title":"The optimal distance measure for nearest neighbor classification","volume":"27","author":"Short","year":"1981","journal-title":"IEEE transactions on Information Theory"},{"key":"2021122316153272200_bib62","doi-asserted-by":"publisher","first-page":"2711","DOI":"10.18653\/v1\/D18-1291","article-title":"An investigation of the interactions between pre-trained word embeddings, character models and pos tags in dependency parsing","volume-title":"Proceedings of EMNLP","author":"Smith","year":"2018"},{"key":"2021122316153272200_bib63","first-page":"1857","article-title":"Improved deep metric learning with multi-class n-pair loss objective","volume-title":"Proceedings of NIPS","author":"Sohn","year":"2016"},{"key":"2021122316153272200_bib64","first-page":"185","article-title":"Experiments and prospects of example-based machine translation","volume-title":"Proceedings of ACL","author":"Sumita","year":"1991"},{"key":"2021122316153272200_bib65","doi-asserted-by":"publisher","first-page":"6398","DOI":"10.1109\/CVPR42600.2020.00643","article-title":"Circle loss: A unified perspective of pair similarity optimization","volume-title":"Proceedings of CVPR","author":"Sun","year":"2020"},{"key":"2021122316153272200_bib66","doi-asserted-by":"publisher","DOI":"10.3115\/1118853.1118878","article-title":"Memory- based named entity recognition","volume-title":"Proceedings of CoNLL","author":"Sang","year":"2002"},{"issue":"1","key":"2021122316153272200_bib67","doi-asserted-by":"crossref","first-page":"171","DOI":"10.1023\/A:1002459020102","article-title":"Memory-based word sense disambiguation","volume":"34","author":"Veenstra","year":"2000","journal-title":"Computers and the Humanities"},{"key":"2021122316153272200_bib68","first-page":"5265","article-title":"Cosface: Large margin cosine loss for deep face recognition","volume-title":"Proceedings of CVPR","author":"Wang","year":"2018"},{"key":"2021122316153272200_bib69","doi-asserted-by":"publisher","first-page":"1386","DOI":"10.1109\/CVPR.2014.180","article-title":"Learning fine- grained image similarity with deep ranking","volume-title":"Proceedings of CVPR","author":"Wang","year":"2014"},{"key":"2021122316153272200_bib70","doi-asserted-by":"publisher","first-page":"5022","DOI":"10.1109\/CVPR.2019.00516","article-title":"Multi-similarity loss with general pair weighting for deep metric learning","volume-title":"Proceedings of CVPR","author":"Wang","year":"2019"},{"key":"2021122316153272200_bib71","doi-asserted-by":"publisher","first-page":"5363","DOI":"10.18653\/v1\/P19-1533","article-title":"Label-agnostic sequence labeling by copying nearest neighbors","volume-title":"Proceedings of ACL","author":"Wiseman","year":"2019"},{"key":"2021122316153272200_bib72","first-page":"521","article-title":"Distance metric learning with application to clustering with side- information","volume-title":"Proceedings of NIPS","author":"Xing","year":"2002"},{"key":"2021122316153272200_bib73","first-page":"195","article-title":"Statistical dependency analysis with support vector machines","volume-title":"Proceedings of the Eighth International Conference on Parsing Technologies","author":"Yamada","year":"2003"},{"key":"2021122316153272200_bib74","volume-title":"Embedding entities and relations for learning and inference in knowledge bases","author":"Yang","year":"2015"},{"key":"2021122316153272200_bib75","first-page":"665","article-title":"Dependency parsing as head selection","volume-title":"Proceedings of EACL","author":"Zhang","year":"2017"},{"key":"2021122316153272200_bib76","doi-asserted-by":"publisher","first-page":"3295","DOI":"10.18653\/v1\/2020.acl-main.302","article-title":"Efficient second-order TreeCRF for neural dependency parsing","volume-title":"Proceedings of ACL","author":"Zhang","year":"2020"}],"container-title":["Transactions of the Association for Computational Linguistics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/direct.mit.edu\/tacl\/article-pdf\/doi\/10.1162\/tacl_a_00439\/1979255\/tacl_a_00439.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/direct.mit.edu\/tacl\/article-pdf\/doi\/10.1162\/tacl_a_00439\/1979255\/tacl_a_00439.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,1,20]],"date-time":"2023-01-20T10:19:08Z","timestamp":1674209948000},"score":1,"resource":{"primary":{"URL":"https:\/\/direct.mit.edu\/tacl\/article\/doi\/10.1162\/tacl_a_00439\/108864\/Instance-Based-Neural-Dependency-Parsing"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021]]},"references-count":76,"URL":"https:\/\/doi.org\/10.1162\/tacl_a_00439","relation":{},"ISSN":["2307-387X"],"issn-type":[{"value":"2307-387X","type":"electronic"}],"subject":[],"published-other":{"date-parts":[[2021]]},"published":{"date-parts":[[2021]]}}}