{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,8]],"date-time":"2025-03-08T05:06:48Z","timestamp":1741410408251,"version":"3.38.0"},"reference-count":56,"publisher":"Tech Science Press","issue":"2","license":[{"start":{"date-parts":[[2024,11,24]],"date-time":"2024-11-24T00:00:00Z","timestamp":1732406400000},"content-version":"vor","delay-in-days":328,"URL":"https:\/\/doi.org\/10.32604\/TSP-CROSSMARKPOLICY"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["CMC"],"published-print":{"date-parts":[[2024]]},"DOI":"10.32604\/cmc.2024.054841","type":"journal-article","created":{"date-parts":[[2024,10,30]],"date-time":"2024-10-30T08:36:33Z","timestamp":1730277393000},"page":"2873-2894","update-policy":"https:\/\/doi.org\/10.32604\/tsp-crossmarkpolicy","source":"Crossref","is-referenced-by-count":0,"title":["A Concise and Varied Visual Features-Based Image Captioning Model with Visual Selection"],"prefix":"10.32604","volume":"81","author":[{"given":"Alaa","family":"Thobhani","sequence":"first","affiliation":[]},{"given":"Beiji","family":"Zou","sequence":"additional","affiliation":[]},{"given":"Xiaoyan","family":"Kui","sequence":"additional","affiliation":[]},{"given":"Amr","family":"Abdussalam","sequence":"additional","affiliation":[]},{"given":"Muhammad","family":"Asim","sequence":"additional","affiliation":[]},{"given":"Naveed","family":"Ahmed","sequence":"additional","affiliation":[]},{"given":"Mohammed Ali","family":"Alshara","sequence":"additional","affiliation":[]}],"member":"17807","published-online":{"date-parts":[[2024]]},"reference":[{"key":"ref1","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1007\/s00521-024-09610-4","article-title":"Efficient CNN-based disaster events classification using UAV-aided images for emergency response application","volume":"36","author":"Bashir","year":"2024","journal-title":"Neural Comput. Appl."},{"key":"ref2","doi-asserted-by":"crossref","first-page":"2027","DOI":"10.1007\/s12596-023-01171-4","article-title":"Efficient color image enhancement using piecewise linear transformation and gamma correction","volume":"53","author":"Ibrahim","year":"2024","journal-title":"J. Opt."},{"key":"ref3","doi-asserted-by":"crossref","first-page":"13525","DOI":"10.1109\/ACCESS.2024.3354706","article-title":"Synergistic integration of transfer learning and deep learning for enhanced object detection in digital images","volume":"12","author":"Waheed","year":"2024","journal-title":"IEEE Access"},{"key":"ref4","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recognit.","first-page":"6077","article-title":"Bottom-up and top-down attention for image captioning and visual question answering","author":"Anderson","year":"2018"},{"key":"ref5","series-title":"Comput. Vis.\u2013ECCV 2014: 13th Eur. Conf.","first-page":"740","article-title":"Microsoft COCO: Common objects in context","author":"Lin"},{"key":"ref6","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recognit.","first-page":"4651","article-title":"Image captioning with semantic attention","author":"You","year":"2016"},{"key":"ref7","series-title":"Int. Conf. on Mach. Learn.","first-page":"2048","article-title":"Show, attend and tell: Neural image caption generation with visual attention","author":"Xu","year":"2015"},{"key":"ref8","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3460474","article-title":"Bi-directional co-attention network for image captioning","volume":"17","author":"Jiang","year":"2021","journal-title":"ACM Trans. Multimedia Comput., Commun., Appl. (TOMM)"},{"key":"ref9","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recognit.","first-page":"375","article-title":"Knowing when to look: Adaptive attention via a visual sentinel for image captioning","author":"Lu","year":"2017"},{"key":"ref10","doi-asserted-by":"crossref","first-page":"7615","DOI":"10.1109\/TIP.2020.3004729","article-title":"Spatio-temporal memory attention for image captioning","volume":"29","author":"Ji","year":"2020","journal-title":"IEEE Trans. Image Process."},{"key":"ref11","doi-asserted-by":"crossref","first-page":"43","DOI":"10.1109\/TCSVT.2021.3067449","article-title":"Task-adaptive attention for image captioning","volume":"32","author":"Yan","year":"2022","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"ref12","doi-asserted-by":"crossref","first-page":"1775","DOI":"10.1109\/TMM.2021.3072479","article-title":"Dual attention on pyramid feature maps for image captioning","volume":"24","author":"Yu","year":"2021","journal-title":"IEEE Trans. Multimedia"},{"key":"ref13","doi-asserted-by":"crossref","first-page":"3920","DOI":"10.1109\/TIP.2022.3177318","article-title":"Visual cluster grounding for image captioning","volume":"31","author":"Jiang","year":"2022","journal-title":"IEEE Trans. Image Process."},{"key":"ref14","doi-asserted-by":"crossref","first-page":"4467","DOI":"10.1109\/TCSVT.2019.2947482","article-title":"Multimodal transformer with multi-view visual representation for image captioning","volume":"30","author":"Yu","year":"2019","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"ref15","doi-asserted-by":"crossref","first-page":"3685","DOI":"10.1109\/TCSVT.2021.3107035","article-title":"Region-aware image captioning via interaction learning","volume":"32","author":"Liu","year":"2021","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"ref16","doi-asserted-by":"crossref","first-page":"733","DOI":"10.1007\/s41095-023-0364-2","article-title":"Visual attention network","volume":"9","author":"Guo","year":"2023","journal-title":"Comput. Vis. Media"},{"key":"ref17","doi-asserted-by":"crossref","DOI":"10.1016\/j.displa.2022.102238","article-title":"Hybrid attention network for image captioning","volume":"73","author":"Jiang","year":"2022","journal-title":"Displays"},{"key":"ref18","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2023.109420","article-title":"Towards local visual modeling for image captioning","volume":"138","author":"Ma","year":"2023","journal-title":"Pattern Recognit."},{"key":"ref19","first-page":"1","article-title":"RVAIC: Refined visual attention for improved image captioning","volume":"46","author":"Al-Qatf","year":"2024","journal-title":"J. Intell. Fuzzy Syst."},{"key":"ref20","doi-asserted-by":"crossref","DOI":"10.1007\/s00530-023-01249-w","article-title":"GVA: Guided visual attention approach for automatic image caption generation","volume":"30","author":"Hossen","year":"2024","journal-title":"Multimed. Syst."},{"key":"ref21","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2022.118474","article-title":"Learning joint relationship attention network for image captioning","volume":"211","author":"Wang","year":"2023","journal-title":"Expert. Syst. Appl."},{"key":"ref22","doi-asserted-by":"crossref","first-page":"32","DOI":"10.1109\/TIP.2018.2855415","article-title":"More is better: Precise and detailed image captioning using online positive recall and missing concepts mining","volume":"28","author":"Zhang","year":"2018","journal-title":"IEEE Trans. Image Process."},{"key":"ref23","doi-asserted-by":"crossref","first-page":"4013","DOI":"10.1109\/TIP.2020.2969330","article-title":"Image captioning with end-to-end attribute detection and subsequent attributes prediction","volume":"29","author":"Huang","year":"2020","journal-title":"IEEE Trans. Image Process."},{"key":"ref24","doi-asserted-by":"crossref","first-page":"45219","DOI":"10.1109\/ACCESS.2022.3169781","article-title":"Image captioning model using part-of-speech guidance module for description with diverse vocabulary","volume":"10","author":"Bae","year":"2022","journal-title":"IEEE Access"},{"key":"ref25","doi-asserted-by":"crossref","first-page":"92","DOI":"10.1109\/TMM.2020.2976552","article-title":"Integrating part of speech guidance for image captioning","volume":"23","author":"Zhang","year":"2020","journal-title":"IEEE Trans. Multimedia"},{"key":"ref26","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2023.107732","article-title":"NPoSC-A3: A novel part of speech clues-aware adaptive attention mechanism for image captioning","volume":"131","author":"Al-Qatf","year":"2024","journal-title":"Eng. Appl. Artif. Intell."},{"key":"ref27","doi-asserted-by":"crossref","first-page":"2743","DOI":"10.1109\/TIP.2018.2889922","article-title":"Topic-oriented image captioning based on order-embedding","volume":"28","author":"Yu","year":"2018","journal-title":"IEEE Trans. Image Process."},{"key":"ref28","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3439734","article-title":"Integrating scene semantic knowledge into image captioning","volume":"17","author":"Wei","year":"2021","journal-title":"ACM Trans. Multimedia Comput., Commun., Appl. (TOMM)"},{"key":"ref29","doi-asserted-by":"crossref","first-page":"1247","DOI":"10.1109\/TCYB.2020.2997034","article-title":"Chinese image caption generation via visual attention and topic modeling","volume":"52","author":"Liu","year":"2020","journal-title":"IEEE Trans. Cybern."},{"key":"ref30","doi-asserted-by":"crossref","first-page":"5984","DOI":"10.1109\/TMM.2022.3202690","article-title":"Image captioning with novel topics guidance and retrieval-based topics re-weighting","volume":"25","author":"Al-Qatf","year":"2023","journal-title":"IEEE Trans. Multimedia"},{"key":"ref31","doi-asserted-by":"crossref","first-page":"694","DOI":"10.1109\/TIP.2019.2928144","article-title":"Re-caption: Saliency-enhanced image captioning through two-phase learning","volume":"29","author":"Zhou","year":"2019","journal-title":"IEEE Trans. Image Process."},{"key":"ref32","doi-asserted-by":"crossref","first-page":"913","DOI":"10.1109\/TCYB.2019.2914351","article-title":"Vision-to-language tasks based on attributes and attention mechanism","volume":"51","author":"Li","year":"2019","journal-title":"IEEE Trans. Cybern."},{"key":"ref33","doi-asserted-by":"crossref","first-page":"154953","DOI":"10.1109\/ACCESS.2020.3018752","article-title":"Stack-VS: Stacked visual-semantic attention for image caption generation","volume":"8","author":"Cheng","year":"2020","journal-title":"IEEE Access"},{"key":"ref34","doi-asserted-by":"crossref","unstructured":"N. Rotstein, D. Bensaid, S. Brody, R. Ganz, and R. Kimmel, \u201cFuseCap: Leveraging large language models to fuse visual data into enriched image captions,\u201d 2023, arXiv:2305.17718.","DOI":"10.1109\/WACV57701.2024.00559"},{"key":"ref35","doi-asserted-by":"crossref","first-page":"40230","DOI":"10.1109\/ACCESS.2023.3268744","article-title":"Semantic representations with attention networks for boosting image captioning","volume":"11","author":"Hafeth","year":"2023","journal-title":"IEEE Access"},{"key":"ref36","unstructured":"N. Haque, I. Labiba, and S. Akter, \u201cFaceAtt: Enhancing image captioning with facial attributes for portrait images,\u201d 2023, arXiv:2309.13601."},{"key":"ref37","series-title":"Proc. of the IEEE Int. Conf. on Comput. Vis.","first-page":"2970","article-title":"Towards diverse and natural image descriptions via a conditional gan","author":"Dai","year":"2017"},{"key":"ref38","first-page":"4258","author":"Mao","year":"2018","journal-title":"IJCAI"},{"key":"ref39","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3576927","article-title":"NumCap: A number-controlled multi-caption image captioning network","volume":"19","author":"Abdussalam","year":"2023","journal-title":"ACM Trans. Multimedia Comput., Commun. Appl."},{"key":"ref40","doi-asserted-by":"crossref","first-page":"2413","DOI":"10.1109\/TMM.2020.3011317","article-title":"Fine-grained image captioning with global-local discriminative objective","volume":"23","author":"Wu","year":"2020","journal-title":"IEEE Trans. Multimedia"},{"key":"ref41","doi-asserted-by":"crossref","first-page":"2450","DOI":"10.1109\/TIP.2021.3051476","article-title":"Vocabulary-wide credit assignment for training image captioning models","volume":"30","author":"Liu","year":"2021","journal-title":"IEEE Trans. Image Process."},{"key":"ref42","doi-asserted-by":"crossref","first-page":"1372","DOI":"10.1109\/TMM.2019.2941820","article-title":"Multi-level policy and reward-based deep reinforcement learning framework for image captioning","volume":"22","author":"Xu","year":"2019","journal-title":"IEEE Trans. Multimedia"},{"key":"ref43","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recognit.","first-page":"7008","article-title":"Self-critical sequence training for image captioning","author":"Rennie","year":"2017"},{"key":"ref44","doi-asserted-by":"crossref","first-page":"43","DOI":"10.1016\/j.patrec.2020.12.020","article-title":"Image captioning with transformer and knowledge graph","volume":"143","author":"Zhang","year":"2021","journal-title":"Pattern Recognit. Lett."},{"key":"ref45","doi-asserted-by":"crossref","first-page":"57943","DOI":"10.1109\/ACCESS.2020.2981513","article-title":"Hierarchical attention-based fusion for image caption with multi-grained rewards","volume":"8","author":"Wu","year":"2020","journal-title":"IEEE Access"},{"key":"ref46","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recognit.","first-page":"3128","article-title":"Deep visual-semantic alignments for generating image descriptions","author":"Karpathy","year":"2015"},{"key":"ref47","series-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recognition","first-page":"4566","article-title":"CIDEr: Consensus-based image description evaluation","author":"Vedantam","year":"2015"},{"key":"ref48","series-title":"Proc. ACL Workshop Intrinsic Extrinsic Eval. Meas. for Mach. Transl. Summarizat.","first-page":"65","article-title":"METEOR: An automatic metric for MT evaluation with improved correlation with human judgments","author":"Banerjee","year":"2005"},{"key":"ref49","series-title":"Proc. 40th Annu. Meet. Assoc. Computat. Linguistics","first-page":"311","article-title":"BLEU: A method for automatic evaluation of machine translation","author":"Papineni","year":"2002"},{"key":"ref50","first-page":"74","author":"Lin","year":"2004","journal-title":"Text Summarization Branches Out"},{"key":"ref51","series-title":"Comput. Vis.\u2013ECCV 2016","first-page":"14","article-title":"Spice: Semantic propositional image caption evaluation","author":"Anderson","year":"2016"},{"key":"ref52","series-title":"Proc. Eur. Conf. Comput. Vis. (ECCV)","first-page":"499","article-title":"Recurrent fusion network for image captioning","author":"Jiang","year":"2018"},{"key":"ref53","doi-asserted-by":"crossref","first-page":"808","DOI":"10.1109\/TMM.2019.2931815","article-title":"Recall what you see continually using gridlstm in image captioning","volume":"22","author":"Wu","year":"2019","journal-title":"IEEE Trans. Multimedia"},{"key":"ref54","doi-asserted-by":"crossref","first-page":"18413","DOI":"10.1007\/s11042-021-10578-9","article-title":"MRRC: Multiple role representation crossover interpretation for image captioning with R-CNN feature distribution composition (FDC)","volume":"80","author":"Sur","year":"2021","journal-title":"Multimed. Tools Appl."},{"key":"ref55","doi-asserted-by":"crossref","first-page":"1665","DOI":"10.1007\/s00530-022-00937-3","article-title":"A reference-based model using deep learning for image captioning","volume":"29","author":"do Carmo Nogueira","year":"2023","journal-title":"Multimed. Syst."},{"key":"ref56","doi-asserted-by":"crossref","first-page":"1223","DOI":"10.1007\/s11042-022-13279-z","article-title":"A cooperative approach based on self-attention with interactive attribute for image caption","volume":"82","author":"Zhao","year":"2023","journal-title":"Multimed. Tools Appl."}],"container-title":["Computers, Materials &amp; Continua"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/www.techscience.com\/files\/cmc\/2024\/TSP_CMC-81-2\/TSP_CMC_54841\/TSP_CMC_54841.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,3,7]],"date-time":"2025-03-07T04:06:52Z","timestamp":1741320412000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.techscience.com\/cmc\/v81n2\/58633"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024]]},"references-count":56,"journal-issue":{"issue":"2","published-online":{"date-parts":[[2024]]},"published-print":{"date-parts":[[2024]]}},"URL":"https:\/\/doi.org\/10.32604\/cmc.2024.054841","relation":{},"ISSN":["1546-2226"],"issn-type":[{"type":"electronic","value":"1546-2226"}],"subject":[],"published":{"date-parts":[[2024]]},"assertion":[{"value":"2024-06-09","order":0,"name":"received","label":"Received","group":{"name":"publication_history","label":"Publication History"}},{"value":"2024-09-29","order":1,"name":"accepted","label":"Accepted","group":{"name":"publication_history","label":"Publication History"}},{"value":"2024-11-18","order":2,"name":"published","label":"Published Online","group":{"name":"publication_history","label":"Publication History"}}]}}