{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,2]],"date-time":"2026-01-02T07:39:49Z","timestamp":1767339589183,"version":"3.45.0"},"reference-count":42,"publisher":"Tech Science Press","issue":"2","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["CMC"],"published-print":{"date-parts":[[2025]]},"DOI":"10.32604\/cmc.2025.060252","type":"journal-article","created":{"date-parts":[[2025,4,2]],"date-time":"2025-04-02T05:44:36Z","timestamp":1743572676000},"page":"2087-2107","source":"Crossref","is-referenced-by-count":1,"title":["Frequency-Quantized Variational Autoencoder Based on 2D-FFT for Enhanced Image Reconstruction and Generation"],"prefix":"10.32604","volume":"83","author":[{"given":"Jianxin","family":"Feng","sequence":"first","affiliation":[]},{"given":"Xiaoyao","family":"Liu","sequence":"additional","affiliation":[]}],"member":"17807","published-online":{"date-parts":[[2025]]},"reference":[{"key":"ref1","unstructured":"Kingma DP, Welling M. Auto-encoding variational bayes. arXiv:1312.6114. 2013."},{"key":"ref2","doi-asserted-by":"crossref","first-page":"139","DOI":"10.1145\/3422622","article-title":"Generative adversarial networks","volume":"63","author":"Goodfellow","year":"2020","journal-title":"Commun ACM"},{"key":"ref3","series-title":"NIPS\u201917: Proceedings of the 31st International Conference on Neural Information Processing Systems","first-page":"3","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017 Dec 4\u20139"},{"key":"ref4","series-title":"2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"12868","article-title":"Taming transformers for high-resolution image synthesis","author":"Esser","year":"2021 Jun 20\u201325"},{"key":"ref5","series-title":"2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"10696","article-title":"Vector quantized diffusion model for text-to-image synthesis","author":"Gu","year":"2022 Jun 18\u201324"},{"key":"ref6","series-title":"NIPS\u201917: Proceedings of the 31st International Conference on Neural Information Processing Systems","first-page":"6309","article-title":"Neural discrete representation learning","author":"Oord","year":"2017 Dec 4\u20139"},{"key":"ref7","doi-asserted-by":"crossref","first-page":"1777","DOI":"10.3390\/math11081777","article-title":"Auto-encoders in deep learning\u2014a review with new perspectives","volume":"11","author":"Chen","year":"2023","journal-title":"Mathematics"},{"key":"ref8","doi-asserted-by":"crossref","unstructured":"Tian K, Jiang Y, Yuan Z, Peng B, Wang L. Visual autoregressive modeling: scalable image generation via next-scale prediction. arXiv:2404.02905. 2024.","DOI":"10.52202\/079017-2694"},{"key":"ref9","series-title":"2024 IEEE\/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)","first-page":"7550","article-title":"PQ-VAE: learning hierarchical discrete representations with progressive quantization","author":"Huang","year":"2024 Jun 17\u201318"},{"key":"ref10","unstructured":"Takida Y, Shibuya T, Liao W, Lai CH, Ohmura J, Uesaka T, et al. SQ-VAE: variational bayes on discrete representation with self-annealed stochastic quantization. arXiv:2205.07547. 2022."},{"key":"ref11","series-title":"NIPS\u201920: Proceedings of the 34th International Conference on Neural Information Processing Systems","first-page":"4524","article-title":"Hierarchical quantized autoencoders","author":"Williams","year":"2020 Dec 6\u201312"},{"key":"ref12","series-title":"2023 IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"22741","article-title":"Online clustered codebook","author":"Zheng","year":"2023 Oct 1\u20136"},{"key":"ref13","series-title":"2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"11513","article-title":"Autoregressive image generation using residual quantization","author":"Lee","year":"2022 Jun 18\u201324"},{"key":"ref14","unstructured":"Yan W, Zhang Y, Abbeel P, Srinivas A. VideoGPT: video generation using VQ-VAE and transformers. arXiv:2104.10157. 2021."},{"key":"ref15","series-title":"ICASSP 2024\u20142024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"866","article-title":"Enhancing audio generation diversity with visual information","author":"Xie","year":"2024 Apr 14\u201319"},{"key":"ref16","series-title":"ICASSP 2024\u20142024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"13021","article-title":"Enhancing semantic communication with deep generative models: an overview","author":"Grassucci","year":"2024 Apr 14\u201319"},{"key":"ref17","unstructured":"Mao C, Jiang L, Dehghani M, Vondrick C, Sukthankar R, Essa I. Discrete representations strengthen vision transformer robustness. arXiv:2111.10493. 2021."},{"key":"ref18","series-title":"Proceedings of the 33rd International Conference on Neural Information Processing Systems","first-page":"14866","article-title":"Generating diverse high-fidelity images with VQ-VAE-2","author":"Razavi","year":"2019 Dec 8\u201314"},{"key":"ref19","unstructured":"Yu J, Li X, Koh JY, Zhang H, Pang R, Qin J, et al. Vector-quantized image modeling with improved VQGAN. arXiv:2110.04627. 2021."},{"key":"ref20","series-title":"NIPS\u201922: Proceedings of the 36th International Conference on Neural Information Processing Systems","first-page":"23412","article-title":"Movq: modulating quantized vectors for high-fidelity image generation","author":"Zheng","year":"2022 Nov 28\u2013Dec 9"},{"key":"ref21","unstructured":"Dhariwal P, Jun H, Payne C, Kim JW, Radford A, Sutskever I. Jukebox: a generative model for music. arXiv:2005.00341. 2020."},{"key":"ref22","unstructured":"Vuong TL, Le T, Zhao H, Zheng C, Harandi M, Cai J, et al. Vector quantized Wasserstein auto-encoder. arXiv:2302.05917. 2023."},{"key":"ref23","doi-asserted-by":"crossref","unstructured":"Lee-Thorp J, Ainslie J, Eckstein I, Ontanon S. FNet: mixing tokens with Fourier transforms. arXiv:2105.03824. 2021.","DOI":"10.18653\/v1\/2022.naacl-main.319"},{"key":"ref24","doi-asserted-by":"crossref","unstructured":"Sevim N, \u00d6zyedek EO, \u015eahinu\u00e7 F, Ko\u00e7 A. Fast-FNet: accelerating transformer encoder models via efficient Fourier layers. arXiv:2209.12816. 2022.","DOI":"10.2139\/ssrn.4566618"},{"key":"ref25","series-title":"NIPS\u201921: Proceedings of the 35th International Conference on Neural Information Processing Systems","first-page":"980","article-title":"Global filter networks for image classification","author":"Rao","year":"2021 Dec 6\u201314"},{"key":"ref26","doi-asserted-by":"crossref","first-page":"10960","DOI":"10.1109\/TPAMI.2023.3263824","article-title":"GFNet: global filter networks for visual recognition","volume":"45","author":"Rao","year":"2023","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"ref27","doi-asserted-by":"crossref","first-page":"2728","DOI":"10.1109\/JSTARS.2023.3246564","article-title":"Multi-scale fast Fourier transform based attention network for remote-sensing image super-resolution","volume":"16","author":"Wang","year":"2023","journal-title":"IEEE J Sel Top Appl Earth Obs Remote Sens"},{"key":"ref28","first-page":"15328","article-title":"FFT-based dynamic token mixer for vision","volume":"38","author":"Tatsunami","year":"2024","journal-title":"Proc AAAI Conf Artif Intell"},{"key":"ref29","doi-asserted-by":"crossref","first-page":"5966","DOI":"10.1109\/TGRS.2020.3015157","article-title":"Graph convolutional networks for hyperspectral image classification","volume":"59","author":"Hong","year":"2020","journal-title":"IEEE Trans Geosci Remote Sens"},{"key":"ref30","doi-asserted-by":"crossref","first-page":"110065","DOI":"10.1016\/j.patcog.2023.110065","article-title":"Deep image clustering with contrastive learning and multi-scale graph convolutional networks","volume":"146","author":"Xu","year":"2024","journal-title":"Pattern Recognit"},{"key":"ref31","doi-asserted-by":"crossref","first-page":"109","DOI":"10.1016\/j.inffus.2023.02.013","article-title":"Learnable graph convolutional network and feature fusion for multi-view learning","volume":"95","author":"Chen","year":"2023","journal-title":"Inf Fusio"},{"key":"ref32","first-page":"1","article-title":"Remote sensing image classification based on a cross-attention mechanism and graph convolution","volume":"19","author":"Cai","year":"2020","journal-title":"IEEE Geosci Remote Sens Lett"},{"key":"ref33","doi-asserted-by":"crossref","first-page":"619","DOI":"10.1007\/s00371-023-02805-1","article-title":"Relation-consistency graph convolutional network for image super-resolution","volume":"40","author":"Yang","year":"2024","journal-title":"Vis Comput"},{"key":"ref34","doi-asserted-by":"crossref","first-page":"1975","DOI":"10.1109\/TMI.2022.3151666","article-title":"Dual encoder-based dynamic-channel graph convolutional network with edge enhancement for retinal vessel segmentation","volume":"41","author":"Li","year":"2022","journal-title":"IEEE Trans Med Imaging"},{"key":"ref35","doi-asserted-by":"crossref","first-page":"5008812","DOI":"10.1109\/TIM.2023.3248111","article-title":"AGCA: an adaptive graph channel attention module for steel surface defect detection","volume":"72","author":"Xiang","year":"2023","journal-title":"IEEE Trans Instrum Meas"},{"key":"ref36","doi-asserted-by":"crossref","first-page":"2278","DOI":"10.1109\/5.726791","article-title":"Gradient-based learning applied to document recognition","volume":"86","author":"LeCun","year":"2002","journal-title":"Proc IEEE"},{"key":"ref37","unstructured":"Krizhevsky A, Hinton G. Learning multiple layers of features from tiny images. In: Technical report. Toronto, ON, Canada: University of Toronto; 2009."},{"key":"ref38","series-title":"2015 IEEE International Conference on Computer Vision (ICCV)","first-page":"3730","article-title":"Deep learning face attributes in the wild","author":"Liu","year":"2015 Dec 7\u201313"},{"key":"ref39","unstructured":"Yu F, Seff A, Zhang Y, Song S, Funkhouser T, Xiao J. LSUN: construction of a large-scale image dataset using deep learning with humans in the loop. arXiv:1506.03365. 2015."},{"key":"ref40","series-title":"IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"586","article-title":"The unreasonable effectiveness of deep features as a perceptual metric","author":"Zhang","year":"2018 Jun 18\u201323"},{"key":"ref41","series-title":"NIPS\u201917: Proceedings of the 31st International Conference on Neural Information Processing Systems","first-page":"6629","article-title":"Gans trained by a two time-scale update rule converge to a local nash equilibrium","author":"Heusel","year":"2017 Dec 4\u20139"},{"key":"ref42","series-title":"2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"10674","article-title":"High-resolution image synthesis with latent diffusion models","author":"Rombach","year":"2022 Jun 18\u201324"}],"container-title":["Computers, Materials &amp; Continua"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/cdn.techscience.cn\/files\/cmc\/2025\/TSP_CMC-83-2\/TSP_CMC_60252\/TSP_CMC_60252.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,17]],"date-time":"2025-11-17T01:04:14Z","timestamp":1763341454000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.techscience.com\/cmc\/v83n2\/60526"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":42,"journal-issue":{"issue":"2","published-online":{"date-parts":[[2025]]},"published-print":{"date-parts":[[2025]]}},"URL":"https:\/\/doi.org\/10.32604\/cmc.2025.060252","relation":{},"ISSN":["1546-2226"],"issn-type":[{"type":"electronic","value":"1546-2226"}],"subject":[],"published":{"date-parts":[[2025]]}}}