{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,9]],"date-time":"2026-03-09T07:16:19Z","timestamp":1773040579174,"version":"3.50.1"},"reference-count":58,"publisher":"Springer Science and Business Media LLC","issue":"4","license":[{"start":{"date-parts":[[2024,5,21]],"date-time":"2024-05-21T00:00:00Z","timestamp":1716249600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,5,21]],"date-time":"2024-05-21T00:00:00Z","timestamp":1716249600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Machine Vision and Applications"],"published-print":{"date-parts":[[2024,7]]},"DOI":"10.1007\/s00138-024-01544-0","type":"journal-article","created":{"date-parts":[[2024,5,21]],"date-time":"2024-05-21T07:03:35Z","timestamp":1716275015000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":9,"title":["FDT\u2009\u2212\u2009Dr2T: a unified Dense Radiology Report Generation Transformer framework for X-ray images"],"prefix":"10.1007","volume":"35","author":[{"given":"Dhruv","family":"Sharma","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chhavi","family":"Dhiman","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dinesh","family":"Kumar","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,5,21]]},"reference":[{"key":"1544_CR1","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2023.119773","volume":"221","author":"D Sharma","year":"2023","unstructured":"Sharma, D., Dhiman, C., Kumar, D.: Evolution of visual data captioning methods, datasets, and evaluation metrics: a comprehensive survey. Expert Syst. Appl. 221, 119773 (2023)","journal-title":"Expert Syst. Appl."},{"key":"1544_CR2","doi-asserted-by":"crossref","unstructured":"Jing, B., Xie, P., Xing, E.: On the automatic generation of medical imaging reports. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), Melbourne, Australia (2018)","DOI":"10.18653\/v1\/P18-1240"},{"key":"1544_CR3","doi-asserted-by":"publisher","first-page":"4019","DOI":"10.1007\/s10462-022-10270-w","volume":"56","author":"D-R Beddiar","year":"2023","unstructured":"Beddiar, D.-R., Oussalah, M., Sepp\u00e4nen, T.: Automatic captioning for medical imaging (MIC): a rapid review of literature. Artif. Intell. Rev. 56, 4019\u20134076 (2023)","journal-title":"Artif. Intell. Rev."},{"key":"1544_CR4","doi-asserted-by":"crossref","unstructured":"Shin, H.-C., Roberts, K., Lu, L., Demner-Fushman, D., Yao, J., Summers, R.M.: Learning to read chest X-rays: recurrent neural cascade model for automated image annotation. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA (2016)","DOI":"10.1109\/CVPR.2016.274"},{"key":"1544_CR5","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-79942-9","volume-title":"Difficulties in the Interpretation of Chest Radiography, Comparative Interpretation of CT and Standard Radiography of the Chest","author":"E Coche","year":"2011","unstructured":"Coche, E., Ghaye, B., Mey, J., Duyck, P.: Difficulties in the Interpretation of Chest Radiography, Comparative Interpretation of CT and Standard Radiography of the Chest. Springer, Berlin (2011)"},{"key":"1544_CR6","first-page":"3","volume":"81","author":"A Brady","year":"2012","unstructured":"Brady, A., Laoide, R.O., McCarthy, P., McDermott, R.: Discrepancy and error in radiology: concepts, causes and consequences. Ulst. Med. J. 81, 3\u20139 (2012)","journal-title":"Ulst. Med. J."},{"key":"1544_CR7","doi-asserted-by":"crossref","unstructured":"Wang, X., Peng, Y., Lu, L., Lu, Z., Summers, R.M.: TieNet: text-image embedding network for common thorax disease classification and reporting in chest X-rays. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA (2018)","DOI":"10.1109\/CVPR.2018.00943"},{"key":"1544_CR8","unstructured":"Li, Y., Liang, X., Hu, Z., Xing, E.P.: Hybrid retrieval-generation reinforced agent for medical image. In: Conference on Neural Information Processing Systems, Montreal Convention Centre (2018)"},{"key":"1544_CR9","doi-asserted-by":"crossref","unstructured":"Li, C.Y., Liang, X., Hu, Z., Xing, E.P.: Knowledge-Driven Encode, Retrieve, Paraphrase for Medical Image Report Generation. arXiv:1903.10122 (2019)","DOI":"10.1609\/aaai.v33i01.33016666"},{"key":"1544_CR10","unstructured":"Li, M., Wang, F., Chang, X., Liang, X.: Auxiliary Signal-Guided Knowledge Encoder\u2013Decoder for Medical Report Generation. arXiv:2006.03744 (2020)"},{"key":"1544_CR11","doi-asserted-by":"publisher","first-page":"4219","DOI":"10.1007\/s11042-023-15291-3","volume":"83","author":"D Sharma","year":"2024","unstructured":"Sharma, D., Dhiman, C., Kumar, D.: XGL-T transformer model for intelligent image captioning. Multimed. Tools Appl. 83, 4219\u20134240 (2024)","journal-title":"Multimed. Tools Appl."},{"key":"1544_CR12","doi-asserted-by":"crossref","unstructured":"Vinyals, O., Toshev, A., Bengio, S., Erhan, D.: Show and tell: a neural image caption generator. In: IEEE Conference on Computer Vision and Pattern Recognition, Boston (2015)","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"1544_CR13","doi-asserted-by":"crossref","unstructured":"Anderson, P., He, X., Buehler, C., Teney, D., Johnson, M., Gould, S., Zhang, L.: Bottom-up and top-down attention for image captioning and visual question answering. In: IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City (2018)","DOI":"10.1109\/CVPR.2018.00636"},{"key":"1544_CR14","doi-asserted-by":"crossref","unstructured":"Krause, J., Johnson, J., Krishna, R., Fei-Fei, L.: A hierarchical approach for generating descriptive image paragraphs. arXiv:1611.06607 (2016)","DOI":"10.1109\/CVPR.2017.356"},{"key":"1544_CR15","doi-asserted-by":"crossref","unstructured":"Yang, L.-C., Yang, C.-Y., Hsu, J.Y.-J.: Object relation attention for image paragraph captioning. In: The Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21) (2021)","DOI":"10.1609\/aaai.v35i4.16423"},{"key":"1544_CR16","doi-asserted-by":"crossref","unstructured":"Yuan, J., Liao, H., Luo, R., Luo, J.: Automatic radiology report generation based on multi-view image fusion and medical concept enrichment. arXiv:1907.09085 (2019)","DOI":"10.1007\/978-3-030-32226-7_80"},{"key":"1544_CR17","doi-asserted-by":"crossref","unstructured":"Xue, Y., Xu, T., Long, L.R., Xue, Z., Antani, S., Thoma, G.R., Huang, X.: Multimodal recurrent model with attention for automated radiology report generation. In: Medical Image Computing and Computer Assisted Intervention \u2013 MICCAI 2018 (2018).","DOI":"10.1007\/978-3-030-00928-1_52"},{"key":"1544_CR18","doi-asserted-by":"crossref","unstructured":"Jing, B., Wang, Z., Xing, E.: Show, describe and conclude: on exploiting the structure information of chest X-ray reports. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy (2019)","DOI":"10.18653\/v1\/P19-1657"},{"key":"1544_CR19","doi-asserted-by":"crossref","unstructured":"Chen, Z., Song, Y., Chang, T.-H., Wan, X.: Generating radiology reports via memory-driven transformer. arXiv:2010.16056 (2020)","DOI":"10.18653\/v1\/2020.emnlp-main.112"},{"key":"1544_CR20","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Wang, X., Xu, Z., Yu, Q., Yuille, A., Xu, D.: When radiology report generation meets knowledge graph. arXiv:2002.08277v1 (2020)","DOI":"10.1609\/aaai.v34i07.6989"},{"key":"1544_CR21","doi-asserted-by":"crossref","unstructured":"Srinivasan, P., Thapar, D., Bhavsar, A., Nigam, A.: Hierarchical X-ray report generation via pathology tags and multi head attention. In: Asian Conference on Computer Vision, Kyoto, Japan (2021)","DOI":"10.1007\/978-3-030-69541-5_36"},{"key":"1544_CR22","unstructured":"Liu, G., Hsu, T.-M.H., McDermott, M., Boag, W., Weng, W.-H., Szolovits, P., Ghassemi, M.: Clinically accurate chest X-ray report generation. In: Proceedings of the 4th Machine Learning for Healthcare Conference, PMLR (2019)"},{"key":"1544_CR23","doi-asserted-by":"crossref","unstructured":"Lovelace, J., Mortazavi, B.: Learning to generate clinically coherent chest X-ray reports. In: Findings of the Association for Computational Linguistics: EMNLP 2020 (2020)","DOI":"10.18653\/v1\/2020.findings-emnlp.110"},{"key":"1544_CR24","doi-asserted-by":"crossref","unstructured":"Chollet, F.: Xception: Deep Learning with Depthwise Separable Convolutions. arXiv:1610.02357 (2016)","DOI":"10.1109\/CVPR.2017.195"},{"key":"1544_CR25","doi-asserted-by":"crossref","unstructured":"Liu, J., Tang, J., Wu, G.: Residual Feature Distillation Network for Lightweight Image Super-Resolution. arXiv:2009.11551 (2020)","DOI":"10.1109\/CVPR42600.2020.00243"},{"issue":"2","key":"1544_CR26","doi-asserted-by":"publisher","first-page":"545","DOI":"10.1007\/s00371-023-02800-6","volume":"40","author":"Q Liu","year":"2023","unstructured":"Liu, Q., Song, Y., Tang, Q., Bu, X., Hanajima, N.: Wire rope defect identification based on ISCM-LBP and GLCM features. Vis. Comput. 40(2), 545\u2013557 (2023)","journal-title":"Vis. Comput."},{"key":"1544_CR27","unstructured":"Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection. In: IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), San Diego, CA, USA (2005)"},{"key":"1544_CR28","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep Residual Learning for Image Recognition. arXiv:1512.03385 (2015)","DOI":"10.1109\/CVPR.2016.90"},{"key":"1544_CR29","unstructured":"Klambauer, G., Unterthiner, T., Mayr, A., Hochreiter, S.: Self-Normalizing Neural Networks. arXiv:1706.02515 (2017)"},{"key":"1544_CR30","doi-asserted-by":"crossref","unstructured":"Misra, D., Nalamada, T., Arasanipalai, A.U., Hou, Q.: Rotate to Attend: Convolutional Triplet Attention Module. arXiv:2010.03045 (2020)","DOI":"10.1109\/WACV48630.2021.00318"},{"key":"1544_CR31","doi-asserted-by":"crossref","unstructured":"Woo, S., Park, J., Lee, J.-Y., Kweon, I.S.: CBAM: Convolutional Block Attention Module. arXiv:1807.06521 (2018)","DOI":"10.1007\/978-3-030-01234-2_1"},{"key":"1544_CR32","doi-asserted-by":"crossref","unstructured":"Korschens, M., Bodesheim, P., Denzler, J.: Beyond global average pooling: alternative feature aggregations for weakly supervised localization. In: Proceedings of the 17th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications, Online (2022)","DOI":"10.5220\/0010871700003124"},{"key":"1544_CR33","doi-asserted-by":"crossref","unstructured":"Hadid, A.: The local binary pattern approach and its applications to face analysis. In: First Workshops on Image Processing Theory, Tools and Applications, Sousse, Tunisia (2008)","DOI":"10.1109\/IPTA.2008.4743795"},{"key":"1544_CR34","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2021.115123","volume":"180","author":"Z Pan","year":"2021","unstructured":"Pan, Z., Hu, S., Wu, X., Wang, P.: Adaptive center pixel selection strategy in local binary pattern for texture classification. Expert Syst. Appl. 180, 115123 (2021)","journal-title":"Expert Syst. Appl."},{"key":"1544_CR35","doi-asserted-by":"crossref","unstructured":"Bojanowski, P., Grave, E., Joulin, A., Mikolov, T.: Enriching Word Vectors with Subword Information. arXiv:1607.04606 (2017)","DOI":"10.1162\/tacl_a_00051"},{"issue":"2","key":"1544_CR36","doi-asserted-by":"publisher","first-page":"304","DOI":"10.1093\/jamia\/ocv080","volume":"23","author":"DD Fushman","year":"2016","unstructured":"Fushman, D.D., Kohli, M.D., Rosenman, M.B., Shooshan, S.E., Rodriguez, L., Antani, S., Thoma, G.R., McDonals, C.J.: Preparing a collection of radiology examinations for distribution and retrieval. J. Am. Med. Inform. Assoc. 23(2), 304\u2013310 (2016)","journal-title":"J. Am. Med. Inform. Assoc."},{"key":"1544_CR37","doi-asserted-by":"crossref","unstructured":"Najdenkoska, I., Zhen, X., Worring, M., Shao, L.: Variational Topic Inference for Chest X-Ray Report Generation. arXiv:2107.07314 (2021)","DOI":"10.1007\/978-3-030-87199-4_59"},{"key":"1544_CR38","doi-asserted-by":"crossref","unstructured":"Papineni, K., Roukos, S., Ward, T., Zhu, W.-J.: Bleu: a method for automatic evaluation of machine. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (2002)","DOI":"10.3115\/1073083.1073135"},{"key":"1544_CR39","unstructured":"Banerjee, S., Lavie, A.: Meteor: an automatic metric for MT evaluation with improved correlation with human judgments. In: Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and\/or Summarization (2005)"},{"key":"1544_CR40","doi-asserted-by":"crossref","unstructured":"Vedantam, R., Zitnick, C.L., Parikh, D.: Cider: consensus-based image description evaluation. In: IEEE Conference on Computer Vision and Pattern Recognition, Boston, (2015)","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"1544_CR41","unstructured":"Lin, C.-Y.: ROUGE: a package for automatic evaluation of summaries. In: Association for Computational Linguistics, Barcelona, Spain (2004)"},{"key":"1544_CR42","unstructured":"Kingma, D.P., Ba, J.: Adam: A Method for Stochastic. arXiv:1412.6980 (2014)"},{"key":"1544_CR43","unstructured":"Simonyan, K., Zisserman, A.: Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556 (2014)"},{"key":"1544_CR44","unstructured":"Krizhevsky, A., Sutskever, I., Hinton, G.E.: ImageNet classification with deep convolutional neural networks. In: Advances in Neural Information Processing Systems 25 (NIPS 2012) (2012)"},{"key":"1544_CR45","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., Wojna, Z.: Rethinking the inception architecture for computer vision. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA (2016)","DOI":"10.1109\/CVPR.2016.308"},{"key":"1544_CR46","doi-asserted-by":"crossref","unstructured":"Huang, G., Liu, Z., Maaten, L.V.D., Weinberger, K.Q.: Densely Connected Convolutional Networks. arXiv:1608.06993 (2018)","DOI":"10.1109\/CVPR.2017.243"},{"key":"1544_CR47","unstructured":"Wang, S., Tang, L., Lin, M., Shih, G., Ding, Y., Peng, Y.: Prior knowledge enhances Radiology Report Generation. arXiv:2201.03761 (2022)"},{"key":"1544_CR48","doi-asserted-by":"crossref","unstructured":"Chen, Z., Shen, Y., Song, Y., Wan, X.: Cross-Modal Memory Networks for Radiology Report Generation. arXiv:2204.13258 (2022)","DOI":"10.18653\/v1\/2021.acl-long.459"},{"key":"1544_CR49","doi-asserted-by":"crossref","unstructured":"Nguyen, H.T., Nie, D., Badamdorj, T., Liu, Y., Hong, L., Truong, J., Cheng, L.: EDDIE-transformer: enriched disease embedding transformer for X-ray report generation, Kolkata, India. In: IEEE 19th International Symposium on Biomedical Imaging (ISBI) (2022)","DOI":"10.1109\/ISBI52829.2022.9761459"},{"key":"1544_CR50","unstructured":"Wu, X., Yang, S., Qiu, Z., Ge, S., Yan, Y., Wu, X., Zheng, Y., Zhou, S.K., Xiao, L.: DeltaNet: conditional medical report generation for COVID-19 diagnosis, Gyeongju, Republic of Korea. In: Proceedings of the 29th International Conference on Computational Linguistics (2022)"},{"key":"1544_CR51","doi-asserted-by":"crossref","unstructured":"Fan, K., Cai, X., Niranjan, M.: IIHT: Medical Report Generation with Image-to-Indicator Hierarchical Transformer. arXiv:2308.05633 (2023)","DOI":"10.1007\/978-981-99-8076-5_5"},{"key":"1544_CR52","doi-asserted-by":"crossref","unstructured":"Liu, F., Wu, X., Ge, S., Fan, W., Zou, Y.: Exploring and distilling posterior and prior knowledge for radiology report generation, online. In: EEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021)","DOI":"10.1109\/CVPR46437.2021.01354"},{"key":"1544_CR53","volume-title":"Reinforced Transformer for Medical Image Captioning, Machine Learning in Medical Imaging","author":"Y Xiong","year":"2019","unstructured":"Xiong, Y., Du, B., Yan, P.: Reinforced Transformer for Medical Image Captioning, Machine Learning in Medical Imaging. Springer, Berlin (2019)"},{"key":"1544_CR54","doi-asserted-by":"crossref","unstructured":"Wijerathna, V., Raveen, H., Abeygunawardhana, S., Ambegoda, T.D.: Chest X-ray caption generation with CheXNet. In: Moratuwa Engineering Research Conference (MERCon), Moratuwa, Sri Lanka (2022)","DOI":"10.1109\/MERCon55799.2022.9906263"},{"key":"1544_CR55","doi-asserted-by":"crossref","unstructured":"Voutharoja, B.P., Wang, L., Zhou, L.: Automatic Radiology Report Generation by Learning with Increasingly Hard Negatives. arXiv:2305.07176 (2023)","DOI":"10.3233\/FAIA230545"},{"key":"1544_CR56","unstructured":"Song, X., Zhang, X., Ji, J., Liu, Y., Wei, P.: Cross-modal contrastive attention model for medical report generation. In Proceedings of the 29th International Conference on Computational Linguistics, Gyeongju, Republic of Korea (2022)"},{"key":"1544_CR57","doi-asserted-by":"crossref","unstructured":"Hou, W., Xu, K., Cheng, Y., Li, W., Liu, J.: ORGAN: observation-guided radiology report generation via tree reasoning. In: Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, Toronto, Canada (2023)","DOI":"10.18653\/v1\/2023.acl-long.451"},{"key":"1544_CR58","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., Polosukhin, I.: Attention is all you need. In: NIPS (2017)"}],"container-title":["Machine Vision and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00138-024-01544-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00138-024-01544-0\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00138-024-01544-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,7,31]],"date-time":"2024-07-31T19:20:33Z","timestamp":1722453633000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00138-024-01544-0"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5,21]]},"references-count":58,"journal-issue":{"issue":"4","published-print":{"date-parts":[[2024,7]]}},"alternative-id":["1544"],"URL":"https:\/\/doi.org\/10.1007\/s00138-024-01544-0","relation":{},"ISSN":["0932-8092","1432-1769"],"issn-type":[{"value":"0932-8092","type":"print"},{"value":"1432-1769","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,5,21]]},"assertion":[{"value":"16 November 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"24 March 2024","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 April 2024","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 May 2024","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors whose names are listed immediately below certify that they have NO affiliations with or involvement in any organization or entity with any financial interest or non-financial interest in the subject matter or materials discussed in this manuscript.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}],"article-number":"68"}}