{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,18]],"date-time":"2026-03-18T13:20:17Z","timestamp":1773840017253,"version":"3.50.1"},"reference-count":56,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2020,1,1]],"date-time":"2020-01-01T00:00:00Z","timestamp":1577836800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2020,1,1]],"date-time":"2020-01-01T00:00:00Z","timestamp":1577836800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2020,1,1]],"date-time":"2020-01-01T00:00:00Z","timestamp":1577836800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61701277"],"award-info":[{"award-number":["61701277"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61771288"],"award-info":[{"award-number":["61771288"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"State Key Development Program in 13th Five-Year","award":["2017YFC0821601"],"award-info":[{"award-number":["2017YFC0821601"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. on Image Process."],"published-print":{"date-parts":[[2020]]},"DOI":"10.1109\/tip.2019.2957850","type":"journal-article","created":{"date-parts":[[2019,12,12]],"date-time":"2019-12-12T20:52:48Z","timestamp":1576183968000},"page":"3092-3103","source":"Crossref","is-referenced-by-count":41,"title":["HAR-Net: Joint Learning of Hybrid Attention for Single-Stage Object Detection"],"prefix":"10.1109","volume":"29","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-6629-7228","authenticated-orcid":false,"given":"Ya-Li","family":"Li","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7809-1932","authenticated-orcid":false,"given":"Shengjin","family":"Wang","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","first-page":"5998","article-title":"Attention is all you need","author":"vaswani","year":"2017","journal-title":"Proc NIPS"},{"key":"ref38","first-page":"451","article-title":"Ask, attend and answer: Exploring question-guided spatial attention for visual question answering","author":"xu","year":"2016","journal-title":"Proc ECCV"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.658"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00745"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.683"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00093"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2019.2928540"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1145\/3240508.3240572"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2018.2872503"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2883522"},{"key":"ref28","article-title":"YOLOv3: An incremental improvement","author":"redmon","year":"2018","journal-title":"arXiv 1804 02767"},{"key":"ref27","first-page":"15.1","article-title":"A multipath network for object detection","author":"zagoruyko","year":"2016","journal-title":"Proc BMVC"},{"key":"ref29","article-title":"DSSD: Deconvolutional single shot detector","author":"fu","year":"2017","journal-title":"arXiv 1701 06659"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2016.2577031"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1989.1.4.541"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995678"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.375"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2013.369"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-013-0620-5"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00644"},{"key":"ref26","first-page":"391","article-title":"Edge boxes: Locating object proposals from edges","volume":"5","author":"zitnick","year":"2014","journal-title":"Proc ECCV"},{"key":"ref25","first-page":"3286","article-title":"BING: Binarized normed gradients for objectness estimation at 300 fps","author":"cheng","year":"2014","journal-title":"Proc CVPR"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.89"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.593"},{"key":"ref56","first-page":"9310","article-title":"Sniper: Efficient multi-scale training","author":"singh","year":"2018","journal-title":"Proc NIPS"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00377"},{"key":"ref54","article-title":"Beyond skip connections: Top-down modulation for object detection","author":"shrivastava","year":"2016","journal-title":"arXiv 1612 06851"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1145\/2647868.2654889"},{"key":"ref52","first-page":"740","article-title":"Microsoft COCO: Common objects in context","author":"lin","year":"2014","journal-title":"Proc ECCV"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.89"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33018577"},{"key":"ref40","first-page":"2048","article-title":"Show, attend and tell: Neural image caption generation with visual attention","author":"xu","year":"2015","journal-title":"Proc ICML"},{"key":"ref12","first-page":"1097","article-title":"ImageNet classification with deep convolutional neural networks","author":"krizhevsky","year":"2012","journal-title":"Proc NIPS"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.81"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.169"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.322"},{"key":"ref18","article-title":"Self-attention generative adversarial networks","author":"zhang","year":"2018","journal-title":"arXiv 1805 08318"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2009.167"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.91"},{"key":"ref3","first-page":"379","article-title":"R-FCN: Object detection via region-based fully convolutional networks","author":"dai","year":"2016","journal-title":"Proc NIPS"},{"key":"ref6","first-page":"21","article-title":"SSD: Single shot multibox detector","author":"liu","year":"2016","journal-title":"Proc ECCV"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.690"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.106"},{"key":"ref7","article-title":"Light-head R-CNN: In defense of two-stage object detector","author":"li","year":"2017","journal-title":"arXiv 1711 07264"},{"key":"ref49","first-page":"3","article-title":"Group normalization","author":"wu","year":"2018","journal-title":"Proc ECCV"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.324"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.249"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2865280"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/WACV.2018.00163"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.75"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.202"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.667"},{"key":"ref44","first-page":"90.1","article-title":"Attend refine repeat: Active box proposal generation via in-out localization","author":"gidaris","year":"2016","journal-title":"Proc BMVC"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00636"}],"container-title":["IEEE Transactions on Image Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/83\/8835130\/08931260.pdf?arnumber=8931260","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,4,27]],"date-time":"2022-04-27T14:39:03Z","timestamp":1651070343000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8931260\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020]]},"references-count":56,"URL":"https:\/\/doi.org\/10.1109\/tip.2019.2957850","relation":{},"ISSN":["1057-7149","1941-0042"],"issn-type":[{"value":"1057-7149","type":"print"},{"value":"1941-0042","type":"electronic"}],"subject":[],"published":{"date-parts":[[2020]]}}}