{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,4]],"date-time":"2026-06-04T03:04:23Z","timestamp":1780542263168,"version":"3.54.1"},"reference-count":45,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,5,26]],"date-time":"2026-05-26T00:00:00Z","timestamp":1779753600000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by-nc\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100007928","name":"Ningbo Science and Technology Bureau","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100007928","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Signal Processing: Image Communication"],"published-print":{"date-parts":[[2026,9]]},"DOI":"10.1016\/j.image.2026.117603","type":"journal-article","created":{"date-parts":[[2026,5,25]],"date-time":"2026-05-25T16:12:23Z","timestamp":1779725543000},"page":"117603","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Balancing framework: Enhanced performance through contrastive masked encoders and gradient feature"],"prefix":"10.1016","volume":"147","author":[{"given":"Enhui","family":"Chai","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Tianxiang","family":"Cui","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Li","family":"Chen","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.image.2026.117603_b1","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2026.131298","article-title":"CellMixer: Pathological image classification using dual-branch vmamba with randomly mixing gradient features data augmentation","author":"Chai","year":"2026","journal-title":"Expert Syst. Appl."},{"issue":"11","key":"10.1016\/j.image.2026.117603_b2","doi-asserted-by":"crossref","first-page":"4037","DOI":"10.1109\/TPAMI.2020.2992393","article-title":"Self-supervised visual feature learning with deep neural networks: A survey","volume":"43","author":"Jing","year":"2020","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.image.2026.117603_b3","series-title":"International Conference on Machine Learning","first-page":"1597","article-title":"A simple framework for contrastive learning of visual representations","author":"Chen","year":"2020"},{"key":"10.1016\/j.image.2026.117603_b4","series-title":"ibot: Image bert pre-training with online tokenizer","author":"Zhou","year":"2021"},{"key":"10.1016\/j.image.2026.117603_b5","doi-asserted-by":"crossref","DOI":"10.1016\/j.displa.2023.102607","article-title":"SEACC: Self-evolving and adaptive contrastive learning for classification of pediatric pneumonia and anteroposterior\/posteroanterior chest radiographs","volume":"81","author":"Zheng","year":"2024","journal-title":"Displays"},{"key":"10.1016\/j.image.2026.117603_b6","doi-asserted-by":"crossref","DOI":"10.1016\/j.displa.2022.102162","article-title":"Cross attention redistribution with contrastive learning for few shot object detection","volume":"72","author":"Quan","year":"2022","journal-title":"Displays"},{"key":"10.1016\/j.image.2026.117603_b7","unstructured":"Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Doll\u00e1r, Ross Girshick, Masked autoencoders are scalable vision learners, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 16000\u201316009."},{"key":"10.1016\/j.image.2026.117603_b8","doi-asserted-by":"crossref","first-page":"154","DOI":"10.1016\/j.neucom.2021.11.031","article-title":"Contrastive predictive coding with transformer for video representation learning","volume":"482","author":"Liu","year":"2022","journal-title":"Neurocomputing"},{"key":"10.1016\/j.image.2026.117603_b9","unstructured":"Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, Ross Girshick, Momentum contrast for unsupervised visual representation learning, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 9729\u20139738."},{"issue":"7","key":"10.1016\/j.image.2026.117603_b10","doi-asserted-by":"crossref","first-page":"5977","DOI":"10.1109\/TCSVT.2023.3344097","article-title":"Momentum cross-modal contrastive learning for video moment retrieval","volume":"34","author":"Han","year":"2023","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.image.2026.117603_b11","doi-asserted-by":"crossref","unstructured":"Xinlei Chen, Saining Xie, Kaiming He, An empirical study of training self-supervised vision transformers, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 9640\u20139649.","DOI":"10.1109\/ICCV48922.2021.00950"},{"key":"10.1016\/j.image.2026.117603_b12","series-title":"International Conference on Machine Learning","first-page":"1597","article-title":"A simple framework for contrastive learning of visual representations","author":"Chen","year":"2020"},{"key":"10.1016\/j.image.2026.117603_b13","first-page":"21271","article-title":"Bootstrap your own latent-a new approach to self-supervised learning","volume":"33","author":"Grill","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.image.2026.117603_b14","doi-asserted-by":"crossref","unstructured":"Xinlei Chen, Kaiming He, Exploring simple siamese representation learning, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 15750\u201315758.","DOI":"10.1109\/CVPR46437.2021.01549"},{"key":"10.1016\/j.image.2026.117603_b15","doi-asserted-by":"crossref","unstructured":"Xinlong Wang, Rufeng Zhang, Chunhua Shen, Tao Kong, Lei Li, Dense contrastive learning for self-supervised visual pre-training, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 3024\u20133033.","DOI":"10.1109\/CVPR46437.2021.00304"},{"key":"10.1016\/j.image.2026.117603_b16","doi-asserted-by":"crossref","unstructured":"Fuhua Jia, Xiaoying Yang, Jiamin Wang, Ning Xue, Jiawei Li, Tianxiang Cui, Marker-Free Multi-Modal Motion Capture for 6-DoF Object Position and Orientation Estimation, in: 2025 IEEE Symposium on Computational Intelligence in Image, Signal Processing and Synthetic Media, CISM, 2025, pp. 1\u20137.","DOI":"10.1109\/CISM64958.2025.11060859"},{"key":"10.1016\/j.image.2026.117603_b17","doi-asserted-by":"crossref","unstructured":"Fuhua Jia, Kai Yang, Junlin Xiao, Tuo Hu, Xiaoying Yang, Adam Rushworth, Heng Yu, Tianxiang Cui, Safety-Driven AMR End-to-End Navigation Framework Based on Sparse Sensor Human Behavior Prediction, in: 2025 IEEE Symposium on Computational Intelligence on Engineering\/Cyber Physical Systems, CIES, 2025, pp. 1\u20137.","DOI":"10.1109\/CIES64955.2025.11007636"},{"key":"10.1016\/j.image.2026.117603_b18","unstructured":"Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Jianmin Bao, Zhuliang Yao, Qi Dai, Han Hu, Simmim: A simple framework for masked image modeling, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 9653\u20139663."},{"key":"10.1016\/j.image.2026.117603_b19","doi-asserted-by":"crossref","unstructured":"Wele Gedara Chaminda Bandara, Naman Patel, Ali Gholami, Mehdi Nikkhah, Motilal Agrawal, Vishal M Patel, AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with Masked Autoencoders, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 14507\u201314517.","DOI":"10.1109\/CVPR52729.2023.01394"},{"key":"10.1016\/j.image.2026.117603_b20","doi-asserted-by":"crossref","unstructured":"Haoqing Wang, Yehui Tang, Yunhe Wang, Jianyuan Guo, Zhi-Hong Deng, Kai Han, Masked Image Modeling with Local Multi-Scale Reconstruction, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 2122\u20132131.","DOI":"10.1109\/CVPR52729.2023.00211"},{"key":"10.1016\/j.image.2026.117603_b21","series-title":"Computer Vision\u2013ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23\u201327, 2022, Proceedings, Part XXXI","first-page":"456","article-title":"Masked siamese networks for label-efficient learning","author":"Assran","year":"2022"},{"key":"10.1016\/j.image.2026.117603_b22","doi-asserted-by":"crossref","unstructured":"Chenxin Tao, Xizhou Zhu, Weijie Su, Gao Huang, Bin Li, Jie Zhou, Yu Qiao, Xiaogang Wang, Jifeng Dai, Siamese image modeling for self-supervised vision representation learning, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 2132\u20132141.","DOI":"10.1109\/CVPR52729.2023.00212"},{"key":"10.1016\/j.image.2026.117603_b23","doi-asserted-by":"crossref","unstructured":"Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan Yuille, Christoph Feichtenhofer, Masked feature prediction for self-supervised visual pre-training, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 14668\u201314678.","DOI":"10.1109\/CVPR52688.2022.01426"},{"issue":"5","key":"10.1016\/j.image.2026.117603_b24","doi-asserted-by":"crossref","DOI":"10.3390\/sym14051027","article-title":"An efficient asymmetric nonlinear activation function for deep neural networks","volume":"14","author":"Chai","year":"2022","journal-title":"Symmetry"},{"key":"10.1016\/j.image.2026.117603_b25","doi-asserted-by":"crossref","unstructured":"Xinyu Gu, Chao Gao, Zheng Lu, Tianxiang Cui, You Get What You Focus on: A Weighting Factor for IoU-based Regression Loss, in: 2021 International Joint Conference on Neural Networks, IJCNN, 2021, pp. 1\u20138.","DOI":"10.1109\/IJCNN52387.2021.9534463"},{"key":"10.1016\/j.image.2026.117603_b26","series-title":"2009 IEEE Conference on Computer Vision and Pattern Recognition","first-page":"248","article-title":"Imagenet: A large-scale hierarchical image database","author":"Deng","year":"2009"},{"key":"10.1016\/j.image.2026.117603_b27","doi-asserted-by":"crossref","unstructured":"Thomas Berg, Jiongxin Liu, Seung Woo Lee, Michelle L Alexander, David W Jacobs, Peter N Belhumeur, Birdsnap: Large-scale fine-grained visual categorization of birds, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 2011\u20132018.","DOI":"10.1109\/CVPR.2014.259"},{"key":"10.1016\/j.image.2026.117603_b28","series-title":"International Conference on Machine Learning","first-page":"5907","article-title":"Selfie: Refurbishing unclean samples for robust deep learning","author":"Song","year":"2019"},{"key":"10.1016\/j.image.2026.117603_b29","doi-asserted-by":"crossref","unstructured":"Davinder Singh, Naman Jain, Pranjali Jain, Pratik Kayal, Sudhakar Kumawat, Nipun Batra, PlantDoc: A dataset for visual plant disease detection, in: Proceedings of the 7th ACM IKDD CoDS and 25th COMAD, 2020, pp. 249\u2013253.","DOI":"10.1145\/3371158.3371196"},{"key":"10.1016\/j.image.2026.117603_b30","series-title":"Microsoft COCO: Common Objects in Context","author":"Lin","year":"2014"},{"key":"10.1016\/j.image.2026.117603_b31","doi-asserted-by":"crossref","first-page":"303","DOI":"10.1007\/s11263-009-0275-4","article-title":"The pascal visual object classes (voc) challenge","volume":"88","author":"Everingham","year":"2010","journal-title":"Int. J. Comput. Vis."},{"key":"10.1016\/j.image.2026.117603_b32","series-title":"Decoupled weight decay regularization","author":"Loshchilov","year":"2017"},{"key":"10.1016\/j.image.2026.117603_b33","doi-asserted-by":"crossref","unstructured":"Enhui Chai, Xingyu Li, Tianxiang Cui, Zheng Lu, Fiseha Berhanu Tesema, Accelerating Convergence in Bounding Box Regression with a Refined IoU Loss Function, in: ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP, 2025, pp. 1\u20135.","DOI":"10.1109\/ICASSP49660.2025.10889366"},{"key":"10.1016\/j.image.2026.117603_b34","doi-asserted-by":"crossref","unstructured":"Qilong Wang, Banggu Wu, Pengfei Zhu, Peihua Li, Wangmeng Zuo, Qinghua Hu, ECA-Net: Efficient channel attention for deep convolutional neural networks, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 11534\u201311542.","DOI":"10.1109\/CVPR42600.2020.01155"},{"key":"10.1016\/j.image.2026.117603_b35","doi-asserted-by":"crossref","unstructured":"Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Yunchao Wei, Wenyu Liu, Ccnet: Criss-cross attention for semantic segmentation, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2019, pp. 603\u2013612.","DOI":"10.1109\/ICCV.2019.00069"},{"key":"10.1016\/j.image.2026.117603_b36","doi-asserted-by":"crossref","unstructured":"Sanghyun Woo, Jongchan Park, Joon-Young Lee, In So Kweon, Cbam: Convolutional block attention module, in: Proceedings of the European Conference on Computer Vision, ECCV, 2018, pp. 3\u201319.","DOI":"10.1007\/978-3-030-01234-2_1"},{"key":"10.1016\/j.image.2026.117603_b37","doi-asserted-by":"crossref","unstructured":"Qibin Hou, Daquan Zhou, Jiashi Feng, Coordinate Attention for Efficient Mobile Network Design, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2021, pp. 13713\u201313722.","DOI":"10.1109\/CVPR46437.2021.01350"},{"key":"10.1016\/j.image.2026.117603_b38","first-page":"9912","article-title":"Unsupervised learning of visual features by contrasting cluster assignments","volume":"33","author":"Caron","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.image.2026.117603_b39","doi-asserted-by":"crossref","unstructured":"Mathilde Caron, Hugo Touvron, Ishan Misra, Herv\u00e9 J\u00e9gou, Julien Mairal, Piotr Bojanowski, Armand Joulin, Emerging properties in self-supervised vision transformers, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 9650\u20139660.","DOI":"10.1109\/ICCV48922.2021.00951"},{"key":"10.1016\/j.image.2026.117603_b40","series-title":"Corrupted image modeling for self-supervised visual pre-training","author":"Fang","year":"2022"},{"key":"10.1016\/j.image.2026.117603_b41","doi-asserted-by":"crossref","unstructured":"Zhanzhou Feng, Shiliang Zhang, Evolved part masking for self-supervised learning, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 10386\u201310395.","DOI":"10.1109\/CVPR52729.2023.01001"},{"key":"10.1016\/j.image.2026.117603_b42","article-title":"Evolved hierarchical masking for self-supervised learning","author":"Feng","year":"2024","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.image.2026.117603_b43","doi-asserted-by":"crossref","unstructured":"Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan Yuille, Christoph Feichtenhofer, Masked feature prediction for self-supervised visual pre-training, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 14668\u201314678.","DOI":"10.1109\/CVPR52688.2022.01426"},{"issue":"4","key":"10.1016\/j.image.2026.117603_b44","doi-asserted-by":"crossref","first-page":"2506","DOI":"10.1109\/TPAMI.2023.3336525","article-title":"Contrastive masked autoencoders are stronger vision learners","volume":"46","author":"Huang","year":"2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"1","key":"10.1016\/j.image.2026.117603_b45","doi-asserted-by":"crossref","first-page":"208","DOI":"10.1007\/s11263-023-01852-4","article-title":"Context autoencoder for self-supervised representation learning","volume":"132","author":"Chen","year":"2024","journal-title":"Int. J. Comput. Vis."}],"container-title":["Signal Processing: Image Communication"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0923596526001268?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0923596526001268?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,6,4]],"date-time":"2026-06-04T02:38:01Z","timestamp":1780540681000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0923596526001268"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,9]]},"references-count":45,"alternative-id":["S0923596526001268"],"URL":"https:\/\/doi.org\/10.1016\/j.image.2026.117603","relation":{},"ISSN":["0923-5965"],"issn-type":[{"value":"0923-5965","type":"print"}],"subject":[],"published":{"date-parts":[[2026,9]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Balancing framework: Enhanced performance through contrastive masked encoders and gradient feature","name":"articletitle","label":"Article Title"},{"value":"Signal Processing: Image Communication","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.image.2026.117603","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 The Authors. Published by Elsevier B.V.","name":"copyright","label":"Copyright"}],"article-number":"117603"}}