{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,31]],"date-time":"2025-10-31T07:51:34Z","timestamp":1761897094325,"version":"3.37.3"},"reference-count":40,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2019,1,1]],"date-time":"2019-01-01T00:00:00Z","timestamp":1546300800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/501100014857","name":"NSFC-Guangdong Joint Fund","doi-asserted-by":"crossref","award":["U1401257"],"award-info":[{"award-number":["U1401257"]}],"id":[{"id":"10.13039\/501100014857","id-type":"DOI","asserted-by":"crossref"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61300090","61133016","61272527"],"award-info":[{"award-number":["61300090","61133016","61272527"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Science and Technology Plan Projects in Sichuan Province","award":["2014JY0172"],"award-info":[{"award-number":["2014JY0172"]}]},{"name":"Opening Project of Guangdong Provincial Key Laboratory of Electronic Information Products Reliability Technology","award":["2013A061401003"],"award-info":[{"award-number":["2013A061401003"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2019]]},"DOI":"10.1109\/access.2019.2931223","type":"journal-article","created":{"date-parts":[[2019,7,25]],"date-time":"2019-07-25T15:47:14Z","timestamp":1564069634000},"page":"106773-106783","source":"Crossref","is-referenced-by-count":26,"title":["CaptionNet: Automatic End-to-End Siamese Difference Captioning Model With Attention"],"prefix":"10.1109","volume":"7","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-9853-9554","authenticated-orcid":false,"given":"Ariyo","family":"Oluwasanmi","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Muhammad Umar","family":"Aftab","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Eatedal","family":"Alabdulkreem","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bulbula","family":"Kumeda","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Edward Y.","family":"Baagyere","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhiquang","family":"Qin","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"ref38","first-page":"1","article-title":"ROUGE: A package for automatic evaluation of summaries","author":"lin","year":"2004","journal-title":"Proceedings of the workshop on text summarization branches"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.21236\/ADA623249"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.503"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-71589-6_10"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"ref37","first-page":"65","article-title":"METEOR: An automatic metric for MT evaluation with improved correlation with human judgments","author":"banerjee","year":"2005","journal-title":"Proc ACL Workshop Intrinsic Extrinsic Eval Measures Mach Transl Summarization"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.3115\/1073083.1073135"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995586"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN.2018.8489227"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ASAR.2018.8480212"},{"key":"ref40","first-page":"2825","article-title":"Scikit-learn: Machine learning in Python","volume":"12","author":"pedregosa","year":"2011","journal-title":"J Mach Learn Res"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461660"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298959"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.494"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"ref15","first-page":"91","article-title":"Faster R-CNN: Towards real-time object detection with region proposal networks","author":"ren","year":"2015","journal-title":"Proc NIPS"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2001.990994"},{"key":"ref17","first-page":"1107","article-title":"Matching words and pictures","volume":"3","author":"barnard","year":"2003","journal-title":"J Mach Learn Res"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2899752"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2010.5540112"},{"key":"ref28","first-page":"ii-595","article-title":"Multimodal neural language models","author":"kiros","year":"2013","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref4","first-page":"2346","article-title":"Jointly modeling deep video and compositional text to bridge vision and language in a unified framework","volume":"5","author":"xu","year":"2015","journal-title":"Proc 29th AAAI Conf Artif Intell"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1007\/s12652-019-01292-4"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref6","first-page":"1","article-title":"Efficient estimation of word representations in vector space","author":"mikolov","year":"2013","journal-title":"Proc ICLR Workshop"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"ref5","first-page":"1","article-title":"Siamese neural networks for one-shot image recognition","author":"koch","year":"2015","journal-title":"Proc ICML Deep Learn Workshop"},{"key":"ref8","first-page":"2048","article-title":"Show, attend and tell: Neural image caption generation with visual attention","author":"xu","year":"2015","journal-title":"Proc Int Conf Learn Represent"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D16-1137"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/5.726791"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1436"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-015-0816-y"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.220"},{"key":"ref22","first-page":"1","article-title":"One-shot segmentation in clutter","volume":"80","author":"michaelis","year":"2018","journal-title":"Proc 35th Int Conf Mach Learn"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298682"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICBSLP.2018.8554507"},{"key":"ref23","article-title":"Image similarity using deep CNN and curriculum learning","author":"appalaraju","year":"2017","journal-title":"arXiv 1709 08761"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICOSC.2019.8665529"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2594383"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6287639\/8600701\/08776601.pdf?arnumber=8776601","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,12]],"date-time":"2022-01-12T11:32:36Z","timestamp":1641987156000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8776601\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019]]},"references-count":40,"URL":"https:\/\/doi.org\/10.1109\/access.2019.2931223","relation":{},"ISSN":["2169-3536"],"issn-type":[{"type":"electronic","value":"2169-3536"}],"subject":[],"published":{"date-parts":[[2019]]}}}