{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T10:10:07Z","timestamp":1773137407328,"version":"3.50.1"},"reference-count":74,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62376070"],"award-info":[{"award-number":["62376070"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62076195"],"award-info":[{"award-number":["62076195"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"National Key R&amp;D Program of China","award":["2025YFC3811300"],"award-info":[{"award-number":["2025YFC3811300"]}]},{"DOI":"10.13039\/501100012226","name":"Fundamental Research Funds for the Central Universities","doi-asserted-by":"publisher","award":["AUGA5710011522"],"award-info":[{"award-number":["AUGA5710011522"]}],"id":[{"id":"10.13039\/501100012226","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Multimedia"],"published-print":{"date-parts":[[2026]]},"DOI":"10.1109\/tmm.2025.3645642","type":"journal-article","created":{"date-parts":[[2025,12,18]],"date-time":"2025-12-18T18:34:14Z","timestamp":1766082854000},"page":"1860-1872","source":"Crossref","is-referenced-by-count":0,"title":["Hierarchical Concept Bottleneck With Compensation Concept Learning"],"prefix":"10.1109","volume":"28","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-8009-0330","authenticated-orcid":false,"given":"Chenhao","family":"Wang","sequence":"first","affiliation":[{"name":"Faculty of Computing, Harbin Institute of Technology, Harbin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Miao","family":"Shang","sequence":"additional","affiliation":[{"name":"Faculty of Computing, Harbin Institute of Technology, Harbin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-3757-7114","authenticated-orcid":false,"given":"Kaige","family":"Mao","sequence":"additional","affiliation":[{"name":"Faculty of Computing, Harbin Institute of Technology, Harbin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0611-0636","authenticated-orcid":false,"given":"Xiaopeng","family":"Hong","sequence":"additional","affiliation":[{"name":"Faculty of Computing, Harbin Institute of Technology, Harbin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jinpeng","family":"Zhang","sequence":"additional","affiliation":[{"name":"Intelligent Science &amp; Technology, Academy Limited of CASIC, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xuhui","family":"Huang","sequence":"additional","affiliation":[{"name":"Intelligent Science &amp; Technology, Academy Limited of CASIC, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2021.3060483"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3084827"},{"key":"ref3","first-page":"28492","article-title":"Robust speech recognition via large-scale weak supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford","year":"2023"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-65981-7_12"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICME51207.2021.9428234"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1016\/j.asoc.2020.106384"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00266"},{"key":"ref8","first-page":"2668","article-title":"Interpretability beyond feature attribution: Quantitative testing with concept activation vectors (TCAV)","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Kim","year":"2018"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2019.2902099"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00269"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2020.3027314"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2020.2976985"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2024.3411166"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2022.3171398"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2024.3453058"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3267884"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1145\/2939672.2939778"},{"key":"ref18","article-title":"SmoothGrad: Removing noise by adding noise","author":"Smilkov","year":"2017"},{"key":"ref19","first-page":"3319","article-title":"Axiomatic attribution for deep networks","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Sundararajan","year":"2017"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.74"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/WACV.2018.00097"},{"key":"ref22","first-page":"1","article-title":"Post hoc explanations may be ineffective for detecting unknown spurious correlation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Adebayo","year":"2022"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00998"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01035"},{"key":"ref25","first-page":"5338","article-title":"Concept bottleneck models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Koh","year":"2020"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01008"},{"key":"ref27","first-page":"8930","article-title":"This looks like that: Deep learning for interpretable image recognition","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Chen","year":"2019"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01055"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i19.30109"},{"key":"ref30","first-page":"21400","article-title":"Concept embedding models: Beyond the accuracy-explainability trade-off","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"35","author":"Zarlenga","year":"2022"},{"key":"ref31","first-page":"1877","article-title":"Language models are few-shot learners","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Brown","year":"2020"},{"key":"ref32","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford","year":"2021"},{"key":"ref33","first-page":"1","article-title":"Post-hoc concept bottleneck models","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Yuksekgonul","year":"2023"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01049"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72980-5_26"},{"key":"ref36","first-page":"1","article-title":"Label-free concept bottleneck models","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Oikarinen","year":"2023"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01839"},{"key":"ref38","article-title":"The Caltech-UCSD birds-200-2011 dataset","author":"Wah","year":"2011"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.1524685113"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1126\/science.aav8911"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1523\/JNEUROSCI.0657-21.2021"},{"key":"ref42","article-title":"The cognitive and neural basis of complex decision-making in the primate brain","author":"Ramadan","year":"2024"},{"key":"ref43","article-title":"GPT-4 technical report","author":"Achiam","year":"2023"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2024.3352100"},{"key":"ref45","first-page":"4765","article-title":"A unified approach to interpreting model predictions","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"30","author":"Lundberg","year":"2017"},{"key":"ref46","first-page":"1","article-title":"Interpreting CLIPs image representation via text-based decomposition","volume-title":"Proc. 12th Int. Conf. Learn. Representations","author":"Gandelsman","year":"2024"},{"key":"ref47","first-page":"1","article-title":"CLIP-Dissect: Automatic description of neuron representations in deep vision networks","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Oikarinen","year":"2023"},{"key":"ref48","first-page":"15623","article-title":"Identifying interpretable subspaces in image representations","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Kalibhat","year":"2023"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.354"},{"key":"ref50","first-page":"1","article-title":"Natural language descriptions of deep visual features","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Hernandez","year":"2021"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01469"},{"key":"ref52","first-page":"17153","article-title":"Compositional explanations of neurons","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Mu","year":"2020"},{"key":"ref53","article-title":"Explaining patterns in data with language models via interpretable autoprompting","author":"Singh","year":"2022"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.319"},{"key":"ref55","first-page":"4768","article-title":"A unified approach to interpreting model predictions","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"30","author":"Lundberg","year":"2017"},{"key":"ref56","article-title":"CHAIN: Concept-harmonized hierarchical inference interpretation of deep convolutional neural networks","author":"Wang","year":"2020"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01001"},{"key":"ref58","first-page":"1","article-title":"Interpreting CLIPs image representation via text-based decomposition","volume-title":"Proc. 12th Int. Conf. Learn. Representations","author":"Gandelsman","year":"2024"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01036"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1038\/s42256-019-0048-x"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i5.25736"},{"key":"ref62","first-page":"1","article-title":"Faithful vision-language interpretation via concept bottleneck models","volume-title":"Proc. 12th Int. Conf. Learn. Representations","author":"Lai","year":"2023"},{"key":"ref63","first-page":"16521","article-title":"Probabilistic concept bottleneck models","volume-title":"Proc. Int. Conf. Mach. Learn.","volume":"202","author":"Kim","year":"2023"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW60793.2023.00292"},{"key":"ref65","first-page":"1","article-title":"Visual classification via description from large language models","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Menon","year":"2023"},{"key":"ref66","first-page":"26966","article-title":"Auxiliary losses for learning generalizable concept-based models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"36","author":"Sheth","year":"2024"},{"key":"ref67","article-title":"Understanding multimodal deep neural networks: A concept selection view","author":"Shang","year":"2024"},{"issue":"10","key":"ref68","doi-asserted-by":"crossref","first-page":"622","DOI":"10.1038\/nrrheum.2012.113","volume":"8","author":"Eckstein","year":"2012","journal-title":"Nature Rev. Rheumatology"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v31i1.11164"},{"key":"ref70","article-title":"Eliminating information leakage in hard concept bottleneck models with supervised, hierarchical concept learning","author":"Sun","year":"2024"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1145\/3331184.3331203"},{"key":"ref72","article-title":"Learning multiple layers of features from tiny images","author":"Krizhevsky","year":"2009"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref74","first-page":"1","article-title":"Concept bottleneck generative models","volume-title":"Proc. 12th Int. Conf. Learn. Representations","author":"Ismail","year":"2023"}],"container-title":["IEEE Transactions on Multimedia"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6046\/11342315\/11303609.pdf?arnumber=11303609","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,9]],"date-time":"2026-03-09T19:59:00Z","timestamp":1773086340000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11303609\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"references-count":74,"URL":"https:\/\/doi.org\/10.1109\/tmm.2025.3645642","relation":{},"ISSN":["1520-9210","1941-0077"],"issn-type":[{"value":"1520-9210","type":"print"},{"value":"1941-0077","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]}}}