{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,11]],"date-time":"2025-09-11T18:56:16Z","timestamp":1757616976049,"version":"3.44.0"},"reference-count":67,"publisher":"Springer Science and Business Media LLC","issue":"23","license":[{"start":{"date-parts":[[2024,9,16]],"date-time":"2024-09-16T00:00:00Z","timestamp":1726444800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,9,16]],"date-time":"2024-09-16T00:00:00Z","timestamp":1726444800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"DOI":"10.1007\/s11042-024-20206-x","type":"journal-article","created":{"date-parts":[[2024,9,15]],"date-time":"2024-09-15T23:13:42Z","timestamp":1726442022000},"page":"27029-27043","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["DMR$$^2$$G: diffusion model for radiology report generation"],"prefix":"10.1007","volume":"84","author":[{"given":"Huan","family":"Ouyang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zheng","family":"Chang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Binghao","family":"Tang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9823-3870","authenticated-orcid":false,"given":"Si","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,9,16]]},"reference":[{"key":"20206_CR1","doi-asserted-by":"crossref","unstructured":"Zhang Y, Wang X, Xu Z, Yu Q, Yuille A, Xu D (2020) When radiology report generation meets knowledge graph. In: Proceedings of the AAAI conference on artificial intelligence 34:12910\u201312917","DOI":"10.1609\/aaai.v34i07.6989"},{"key":"20206_CR2","unstructured":"Li Y, Liang X, Hu Z, Xing EP (2018) Hybrid retrieval-generation reinforced agent for medical image report generation. Adv Neural Inf Process Syst 31"},{"key":"20206_CR3","doi-asserted-by":"crossref","unstructured":"Wang X, Peng Y, Lu L, Lu Z, Summers RM (2018) Tienet: text-image embedding network for common thorax disease classification and reporting in chest x-rays. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 9049\u20139058","DOI":"10.1109\/CVPR.2018.00943"},{"key":"20206_CR4","doi-asserted-by":"crossref","unstructured":"Jing B, Wang Z, Xing E (2020) Show, describe and conclude: on exploiting the structure information of chest x-ray reports. arXiv:2004.12274","DOI":"10.18653\/v1\/P19-1657"},{"key":"20206_CR5","doi-asserted-by":"crossref","unstructured":"Chen Z, Song Y, Chang T-H, Wan X (2020) Generating radiology reports via memory-driven transformer. arXiv:2010.16056","DOI":"10.18653\/v1\/2020.emnlp-main.112"},{"key":"20206_CR6","doi-asserted-by":"crossref","unstructured":"Liu F, Yin C, Wu X, Ge S, Zou Y, Zhang P, Sun X (2021) Contrastive attention for automatic chest x-ray report generation. arXiv:2106.06965","DOI":"10.18653\/v1\/2021.findings-acl.23"},{"key":"20206_CR7","doi-asserted-by":"crossref","unstructured":"Jing B, Xie P, Xing E (2017) On the automatic generation of medical imaging reports. arXiv:1711.08195","DOI":"10.18653\/v1\/P18-1240"},{"key":"20206_CR8","doi-asserted-by":"crossref","unstructured":"Liang X, Hu Z, Zhang H, Gan C, Xing EP (2017) Recurrent topic-transition GAN for visual paragraph generation","DOI":"10.1109\/ICCV.2017.364"},{"issue":"1","key":"20206_CR9","doi-asserted-by":"publisher","first-page":"253","DOI":"10.1007\/s11280-022-01013-6","volume":"26","author":"M Li","year":"2023","unstructured":"Li M, Liu R, Wang F, Chang X, Liang X (2023) Auxiliary signal-guided knowledge encoder-decoder for medical report generation. World Wide Web 26(1):253\u2013270","journal-title":"World Wide Web"},{"key":"20206_CR10","unstructured":"Chen Y-J, Shen W-H, Chung H-W, Chiu C-H, Juan D-C, Ho T-Y, Cheng C-T, Li M-L, Ho T-Y (2022) Representative image feature extraction via contrastive learning pretraining for chest x-ray report generation. arXiv:2209.01604"},{"key":"20206_CR11","unstructured":"Endo M, Krishnan R, Krishna V, Ng AY, Rajpurkar P (2021) Retrieval-based chest x-ray report generation using a pre-trained contrastive language-image model. In: Machine learning for health, PMLR, pp 209\u2013219"},{"key":"20206_CR12","doi-asserted-by":"crossref","unstructured":"Liu F, Yin C, Wu X, Ge S, Zou Y, Zhang P, Sun X (2021) Contrastive attention for automatic chest x-ray report generation. arXiv:2106.06965","DOI":"10.18653\/v1\/2021.findings-acl.23"},{"key":"20206_CR13","unstructured":"Gao J, Meng X, Wang S, Li X, Wang S, Ma S, Gao W (2019) Masked non-autoregressive image captioning"},{"key":"20206_CR14","unstructured":"Gu J, Bradbury J, Xiong C, Li VO, Socher R (2017) Non-autoregressive neural machine translation. arXiv:1711.02281"},{"key":"20206_CR15","unstructured":"Qin L, Welleck S, Khashabi D, Choi Y (2022) COLD decoding: energy-based constrained text generation with Langevin dynamics"},{"key":"20206_CR16","doi-asserted-by":"crossref","unstructured":"Ren Y, Liu J, Tan X, Zhao Z, Zhao S, Liu T-Y (2020) A study of non-autoregressive model for sequence generation. arXiv:2004.10454","DOI":"10.18653\/v1\/2020.acl-main.15"},{"key":"20206_CR17","first-page":"6840","volume":"33","author":"J Ho","year":"2020","unstructured":"Ho J, Jain A, Abbeel P (2020) Denoising diffusion probabilistic models. Adv Neural Inf Process Syst 33:6840\u20136851","journal-title":"Adv Neural Inf Process Syst"},{"key":"20206_CR18","first-page":"4328","volume":"35","author":"X Li","year":"2022","unstructured":"Li X, Thickstun J, Gulrajani I, Liang PS, Hashimoto TB (2022) Diffusion-lm improves controllable text generation. Adv Neural Inf Process Syst 35:4328\u20134343","journal-title":"Adv Neural Inf Process Syst"},{"key":"20206_CR19","unstructured":"Gong S, Li M, Feng J, Wu Z, Kong L (2022) Diffuseq: Sequence to sequence text generation with diffusion models. arXiv:2210.08933"},{"key":"20206_CR20","unstructured":"Liu G, Li Y, Fei Z, Fu H, Luo X, Guo Y (2023) Prefix-diffusion: a lightweight diffusion model for diverse image captioning"},{"key":"20206_CR21","unstructured":"Song J, Meng C, Ermon S (2020) Denoising diffusion implicit models. arXiv:2010.02502"},{"issue":"2","key":"20206_CR22","doi-asserted-by":"publisher","first-page":"304","DOI":"10.1093\/jamia\/ocv080","volume":"23","author":"D Demner-Fushman","year":"2016","unstructured":"Demner-Fushman D, Kohli MD, Rosenman MB, Shooshan SE, Rodriguez L, Antani S, Thoma GR, McDonald CJ (2016) Preparing a collection of radiology examinations for distribution and retrieval. J Am Med Inf Assoc 23(2):304\u2013310","journal-title":"J Am Med Inf Assoc"},{"key":"20206_CR23","unstructured":"Johnson AE, Pollard TJ, Greenbaum NR, Lungren MP, Deng C-y, Peng Y, Lu Z, Mark RG, Berkowitz SJ, Horng S (2019) Mimic-cxr-jpg, a large publicly available database of labeled chest radiographs. arXiv:1901.07042"},{"key":"20206_CR24","unstructured":"Chen X, Fang H, Lin T-Y, Vedantam R, Gupta S, Dollar P, Zitnick CL (2015) Microsoft COCO captions: data collection and evaluation server"},{"key":"20206_CR25","doi-asserted-by":"crossref","unstructured":"Vinyals O, Toshev A, Bengio S, Erhan D (2015) Show and tell: a neural image caption generator","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"20206_CR26","doi-asserted-by":"crossref","unstructured":"Anderson P, He X, Buehler C, Teney D, Johnson M, Gould S, Zhang L (2018) Bottom-up and top-down attention for image captioning and visual question answering","DOI":"10.1109\/CVPR.2018.00636"},{"key":"20206_CR27","doi-asserted-by":"crossref","unstructured":"Karpathy A, Fei-Fei L (2015) Deep visual-semantic alignments for generating image descriptions","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"20206_CR28","doi-asserted-by":"crossref","unstructured":"Rennie SJ, Marcheret E, Mroueh Y, Ross J, Goel V (2017) Self-critical sequence training for image captioning","DOI":"10.1109\/CVPR.2017.131"},{"key":"20206_CR29","doi-asserted-by":"crossref","unstructured":"Huang L, Wang W, Chen J, Wei X-Y (2019) Attention on attention for image captioning","DOI":"10.1109\/ICCV.2019.00473"},{"key":"20206_CR30","doi-asserted-by":"crossref","unstructured":"Lu J, Xiong C, Parikh D, Socher R (2017) Knowing when to look: adaptive attention via a visual sentinel for image captioning","DOI":"10.1109\/CVPR.2017.345"},{"key":"20206_CR31","unstructured":"Xu K, Ba J, Kiros R, Cho K, Courville A, Salakhutdinov R, Zemel R, Bengio Y (2016) Show neural image caption generation with visual attention, attend and tell"},{"key":"20206_CR32","doi-asserted-by":"crossref","unstructured":"Yao T, Pan Y, Li Y, Mei T (2018) Exploring visual relationship for image captioning","DOI":"10.1007\/978-3-030-01264-9_42"},{"key":"20206_CR33","doi-asserted-by":"crossref","unstructured":"Yao T, Pan Y, Li Y, Mei T (2019) Hierarchy parsing for image captioning","DOI":"10.1109\/ICCV.2019.00271"},{"key":"20206_CR34","doi-asserted-by":"crossref","unstructured":"Gan Z, Gan C, He X, Pu Y, Tran K, Gao J, Carin L, Deng L (2017) Semantic compositional networks for visual captioning","DOI":"10.1109\/CVPR.2017.127"},{"key":"20206_CR35","doi-asserted-by":"crossref","unstructured":"Wu Q, Shen C, Liu L, Dick A, Hengel A (2016) What value do explicit high level concepts have in vision to language problems?","DOI":"10.1109\/CVPR.2016.29"},{"key":"20206_CR36","doi-asserted-by":"crossref","unstructured":"Yao T, Pan Y, Li Y, Qiu Z, Mei T (2016) Boosting image captioning with attributes","DOI":"10.1109\/ICCV.2017.524"},{"key":"20206_CR37","doi-asserted-by":"crossref","unstructured":"You Q, Jin H, Wang Z, Fang C, Luo J (2016) Image captioning with semantic attention","DOI":"10.1109\/CVPR.2016.503"},{"key":"20206_CR38","doi-asserted-by":"crossref","unstructured":"Yang X, Tang K, Zhang H, Cai J (2018) Auto-encoding scene graphs for image captioning","DOI":"10.1109\/CVPR.2019.01094"},{"key":"20206_CR39","doi-asserted-by":"crossref","unstructured":"Wang Z, Liu L, Wang L, Zhou L (2023) R2GenGPT: radiology report generation with frozen LLMs. arXiv:2309.09812","DOI":"10.1016\/j.metrad.2023.100033"},{"key":"20206_CR40","doi-asserted-by":"crossref","unstructured":"Liu C, Tian Y, Chen W, Song Y, Zhang Y (2024) Bootstrapping large language models for radiology report generation. In: Wooldridge MJ, Dy JG, Natarajan S (eds.) AAAI, pp 18635\u201318643","DOI":"10.1609\/aaai.v38i17.29826"},{"issue":"11","key":"20206_CR41","doi-asserted-by":"publisher","first-page":"139","DOI":"10.1145\/3422622","volume":"63","author":"I Goodfellow","year":"2020","unstructured":"Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A, Bengio Y (2020) Generative adversarial networks. Commun ACM 63(11):139\u2013144","journal-title":"Commun ACM"},{"key":"20206_CR42","unstructured":"Kingma DP, Welling M (2013) Auto-encoding variational bayes. arXiv:1312.6114"},{"issue":"1","key":"20206_CR43","first-page":"2249","volume":"23","author":"J Ho","year":"2022","unstructured":"Ho J, Saharia C, Chan W, Fleet DJ, Norouzi M, Salimans T (2022) Cascaded diffusion models for high fidelity image generation. J Mach Learn Res 23(1):2249\u20132281","journal-title":"J Mach Learn Res"},{"key":"20206_CR44","first-page":"8780","volume":"34","author":"P Dhariwal","year":"2021","unstructured":"Dhariwal P, Nichol A (2021) Diffusion models beat gans on image synthesis. Adv Neural Inf Process Syst 34:8780\u20138794","journal-title":"Adv Neural Inf Process Syst"},{"key":"20206_CR45","unstructured":"Nichol A, Dhariwal P, Ramesh A, Shyam P, Mishkin P, McGrew B, Sutskever I, Chen M (2021) Glide: towards photorealistic image generation and editing with text-guided diffusion models. arXiv:2112.10741"},{"key":"20206_CR46","unstructured":"Hoogeboom E, Gritsenko AA, Bastings J, Poole B, Berg Rvd, Salimans T (2021) Autoregressive diffusion models. arXiv:2110.02037"},{"key":"20206_CR47","unstructured":"Chen T, Zhang R, Hinton G (2022) Analog bits: Generating discrete data using diffusion models with self-conditioning. arXiv:2208.04202"},{"key":"20206_CR48","unstructured":"He Y, Cai Z, Gan X, Chang B (2023) DiffCap: exploring continuous diffusion on image captioning"},{"key":"20206_CR49","unstructured":"Song Y, Ermon S (2020) Generative modeling by estimating gradients of the data distribution"},{"key":"20206_CR50","doi-asserted-by":"crossref","unstructured":"Wang Z, Wu Z, Agarwal D, Sun J (2022) Medclip: contrastive learning from unpaired medical images and text. arXiv:2210.10163","DOI":"10.18653\/v1\/2022.emnlp-main.256"},{"key":"20206_CR51","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser \u0141, Polosukhin I (2017) Attention is all you need. Adv Neural Inf Process Syst 30"},{"key":"20206_CR52","unstructured":"Ba JL, Kiros JR, Hinton GE (2016) Layer normalization"},{"key":"20206_CR53","unstructured":"Devlin J, Chang M-W, Lee K, Toutanova K (2019) BERT: pre-training of deep bidirectional transformers for language understanding"},{"key":"20206_CR54","doi-asserted-by":"crossref","unstructured":"Liu F, Wu X, Ge S, Fan W, Zou Y (2021) Exploring and distilling posterior and prior knowledge for radiology report generation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 13753\u201313762","DOI":"10.1109\/CVPR46437.2021.01354"},{"key":"20206_CR55","doi-asserted-by":"crossref","unstructured":"Smit A, Jain S, Rajpurkar P, Pareek A, Ng AY, Lungren MP (2020) Chexbert: combining automatic labelers and expert annotations for accurate radiology report labeling using bert. arXiv:2004.09167","DOI":"10.18653\/v1\/2020.emnlp-main.117"},{"key":"20206_CR56","doi-asserted-by":"crossref","unstructured":"Wang J, Bhalerao A, He Y (2022) Cross-modal prototype driven network for radiology report generation","DOI":"10.1007\/978-3-031-19833-5_33"},{"key":"20206_CR57","doi-asserted-by":"crossref","unstructured":"Wang Z, Liu L, Wang L, Zhou L (2023) METransformer: radiology report generation by transformer with multiple learnable expert tokens","DOI":"10.1109\/CVPR52729.2023.01112"},{"key":"20206_CR58","doi-asserted-by":"crossref","unstructured":"Papineni K, Roukos S, Ward T, Zhu W-J (2002) Bleu: a method for automatic evaluation of machine translation. In: Proceedings of the 40th annual meeting of the association for computational linguistics, pp 311\u2013318","DOI":"10.3115\/1073083.1073135"},{"key":"20206_CR59","unstructured":"Lin C-Y (2004) Rouge: A package for automatic evaluation of summaries. In: Text summarization branches out, pp 74\u201381"},{"key":"20206_CR60","doi-asserted-by":"crossref","unstructured":"Vedantam R, Lawrence\u00a0Zitnick C, Parikh D (2015) Cider: consensus-based image description evaluation. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4566\u20134575","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"20206_CR61","doi-asserted-by":"crossref","unstructured":"Lewis M, Liu Y, Goyal N, Ghazvininejad M, Mohamed A, Levy O, Stoyanov V, Zettlemoyer L (2019) Bart: denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. arXiv:1910.13461","DOI":"10.18653\/v1\/2020.acl-main.703"},{"key":"20206_CR62","unstructured":"Koehn P (2004) Statistical significance tests for machine translation evaluation. In: Proceedings of the 2004 conference on empirical methods in natural language processing, pp 388\u2013395"},{"key":"20206_CR63","doi-asserted-by":"crossref","unstructured":"Chen Z, Shen Y, Song Y, Wan X (2022) Cross-modal memory networks for radiology report generation","DOI":"10.18653\/v1\/2021.acl-long.459"},{"key":"20206_CR64","doi-asserted-by":"crossref","unstructured":"Zhou Y, Zhang Y, Hu Z, Wang M (2021) Semi-autoregressive transformer for image captioning","DOI":"10.1109\/ICCVW54120.2021.00350"},{"key":"20206_CR65","doi-asserted-by":"crossref","unstructured":"Guo L, Liu J, Zhu X, He X, Jiang J, Lu H (2020) Non-autoregressive image captioning with counterfactuals-critical multi-agent learning","DOI":"10.24963\/ijcai.2020\/107"},{"key":"20206_CR66","doi-asserted-by":"crossref","unstructured":"Rennie SJ, Marcheret E, Mroueh Y, Ross J, Goel V (2017) Self-critical sequence training for image captioning. In: Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR)","DOI":"10.1109\/CVPR.2017.131"},{"key":"20206_CR67","doi-asserted-by":"crossref","unstructured":"Tang Y, Wang D, Zhang L, Yuan Y (2024) An efficient but effective writer: diffusion-based semi-autoregressive transformer for automated radiology report generation. Biomed Signal Process Control 88:105651","DOI":"10.1016\/j.bspc.2023.105651"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-024-20206-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-024-20206-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-024-20206-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,5]],"date-time":"2025-09-05T22:40:08Z","timestamp":1757112008000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-024-20206-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,9,16]]},"references-count":67,"journal-issue":{"issue":"23","published-online":{"date-parts":[[2025,7]]}},"alternative-id":["20206"],"URL":"https:\/\/doi.org\/10.1007\/s11042-024-20206-x","relation":{},"ISSN":["1573-7721"],"issn-type":[{"type":"electronic","value":"1573-7721"}],"subject":[],"published":{"date-parts":[[2024,9,16]]},"assertion":[{"value":"2 June 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"10 August 2024","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"29 August 2024","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"16 September 2024","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they have no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of Interest"}},{"value":"In this paper, all the conditions specified for the use of the open datasets taken as a source for the generative process are satisfied.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethics for Obtaining the Data"}}]}}