{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,9]],"date-time":"2025-12-09T19:30:56Z","timestamp":1765308656978,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":51,"publisher":"ACM","funder":[{"DOI":"10.13039\/501100000923","name":"Australian Research Council","doi-asserted-by":"publisher","award":["DP240101211, DP220101823"],"award-info":[{"award-number":["DP240101211, DP220101823"]}],"id":[{"id":"10.13039\/501100000923","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3755043","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T05:50:47Z","timestamp":1761371447000},"page":"277-285","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":1,"title":["Querying Autonomous Vehicle Point Clouds: Enhanced by 3D Object Counting with CounterNet"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-2728-3533","authenticated-orcid":false,"given":"Xiaoyu","family":"Zhang","sequence":"first","affiliation":[{"name":"RMIT University, Melbourne, VIC, Australia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2477-381X","authenticated-orcid":false,"given":"Zhifeng","family":"Bao","sequence":"additional","affiliation":[{"name":"The University of Queensland, Brisbane, QLD, Australia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7033-5688","authenticated-orcid":false,"given":"Hai","family":"Dong","sequence":"additional","affiliation":[{"name":"RMIT University, Melbourne, VIC, Australia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0107-7347","authenticated-orcid":false,"given":"Ziwei","family":"Wang","sequence":"additional","affiliation":[{"name":"Data61, CSIRO, Brisbane, QLD, Australia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8160-1796","authenticated-orcid":false,"given":"Jiajun","family":"Liu","sequence":"additional","affiliation":[{"name":"Data61, CSIRO, Brisbane, QLD, Australia"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","unstructured":"Authors. 2025. Code. https:\/\/github.com\/PetalZh\/PCQuery."},{"key":"e_1_3_2_1_2_1","first-page":"1090","article-title":"Transfusion: Robust lidar-camera fusion for 3d object detection with transformers","author":"Bai Xuyang","year":"2022","unstructured":"Xuyang Bai, Zeyu Hu, Xinge Zhu, Qingqiu Huang, Yilun Chen, Hongbo Fu, and Chiew-Lan Tai. 2022. Transfusion: Robust lidar-camera fusion for 3d object detection with transformers. In CVPR. 1090-1099.","journal-title":"CVPR."},{"key":"e_1_3_2_1_3_1","first-page":"2289","article-title":"Seiden","volume":"16","author":"Bang Jaeho","year":"2023","unstructured":"Jaeho Bang, Gaurav Tarlok Kakkar, Pramod Chunduri, Subrata Mitra, and Joy Arulraj. 2023. Seiden: Revisiting Query Processing in Video Database Systems. VLDB, Vol. 16, 9 (2023), 2289-2301.","journal-title":"Revisiting Query Processing in Video Database Systems. VLDB"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"crossref","unstructured":"J. Behley M. Garbade A. Milioto J. Quenzel S. Behnke C. Stachniss and J. Gall. 2019. SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences. In ICCV.","DOI":"10.1109\/ICCV.2019.00939"},{"key":"e_1_3_2_1_5_1","volume-title":"Qiang Xu, Anush Krishnan, Yu Pan, Giancarlo Baldan, and Oscar Beijbom.","author":"Caesar Holger","year":"2019","unstructured":"Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora, Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Giancarlo Baldan, and Oscar Beijbom. 2019. nuScenes: A multimodal dataset for autonomous driving. arXiv preprint arXiv:1903.11027 (2019)."},{"key":"e_1_3_2_1_6_1","first-page":"559","article-title":"Figo: Fine-grained query optimization in video analytics","author":"Cao Jiashen","year":"2022","unstructured":"Jiashen Cao, Karan Sarkar, Ramyad Hadidi, Joy Arulraj, and Hyesoon Kim. 2022. Figo: Fine-grained query optimization in video analytics. In SIGMOD. 559-572.","journal-title":"SIGMOD."},{"key":"e_1_3_2_1_7_1","first-page":"1135","article-title":"Counting everyday objects in everyday scenes","author":"Chattopadhyay Prithvijit","year":"2017","unstructured":"Prithvijit Chattopadhyay, Ramakrishna Vedantam, Ramprasaath R Selvaraju, Dhruv Batra, and Devi Parikh. 2017. Counting everyday objects in everyday scenes. In CVPR. 1135-1144.","journal-title":"CVPR."},{"key":"e_1_3_2_1_8_1","first-page":"1907","article-title":"Multi-view 3d object detection network for autonomous driving","author":"Chen Xiaozhi","year":"2017","unstructured":"Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, and Tian Xia. 2017. Multi-view 3d object detection network for autonomous driving. In CVPR. 1907-1915.","journal-title":"CVPR."},{"key":"e_1_3_2_1_9_1","first-page":"21674","article-title":"Voxelnext: Fully sparse voxelnet for 3d object detection and tracking","author":"Chen Yukang","year":"2023","unstructured":"Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, and Jiaya Jia. 2023. Voxelnext: Fully sparse voxelnet for 3d object detection and tracking. In CVPR. 21674-21683.","journal-title":"CVPR."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2020.3021025"},{"key":"e_1_3_2_1_11_1","first-page":"138144","article-title":"Clustering and the continuous k-means algorithm","volume":"22","author":"Vance Faber","year":"1994","unstructured":"Vance Faber et al., 1994. Clustering and the continuous k-means algorithm. Los Alamos Science, Vol. 22, 138144.21 (1994), 67.","journal-title":"Los Alamos Science"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.14778\/3503585.3503586"},{"key":"e_1_3_2_1_13_1","first-page":"2961","article-title":"Mask r-cnn","author":"He Kaiming","year":"2017","unstructured":"Kaiming He, Georgia Gkioxari, Piotr Doll\u00e1r, and Ross Girshick. 2017. Mask r-cnn. In ICCV. 2961-2969.","journal-title":"ICCV."},{"key":"e_1_3_2_1_14_1","first-page":"770","article-title":"Deep residual learning for image recognition","author":"He Kaiming","year":"2016","unstructured":"Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep residual learning for image recognition. In CVPR. 770-778.","journal-title":"CVPR."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIT.1970.1054466"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.1109\/WACV56688.2023.00302"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3611789"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","unstructured":"Glenn Jocher Alex Stoken Jirka Borovec NanoCode012 ChristopherSTAN Liu Changyu Laughing tkianai Adam Hogan lorenzomammana yxNONG AlexWang1900 Laurentiu Diaconu Marc wanghaoyang0106 ml5ah Doug Francisco Ingham Frederik Guilhen Hatovix Jake Poznanski Jiacong Fang Lijun Yu changyu98 Mingyu Wang Naman Gupta Osama Akhtar PetrDvoracek and Prashant Rai. 2020. ultralytics\/yolov5: v3.1. doi:10.5281\/zenodo.4154370","DOI":"10.5281\/zenodo.4154370"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.14778\/3372716.3372725"},{"key":"e_1_3_2_1_20_1","first-page":"1934","article-title":"Tasti: Semantic indexes for machine learning-based queries over unstructured data","author":"Kang Daniel","year":"2022","unstructured":"Daniel Kang, John Guibas, Peter D Bailis, Tatsunori Hashimoto, and Matei Zaharia. 2022. Tasti: Semantic indexes for machine learning-based queries over unstructured data. In SIGMOD. 1934-1947.","journal-title":"SIGMOD."},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i3.28050"},{"key":"e_1_3_2_1_22_1","unstructured":"Fiodar Kazhamiaka Matei Zaharia and Peter Bailis. 2021. Challenges and Opportunities for Autonomous Vehicle Query Systems. In CIDR."},{"key":"e_1_3_2_1_23_1","first-page":"17545","article-title":"Spherical transformer for lidar-based 3d recognition","author":"Lai Xin","year":"2023","unstructured":"Xin Lai, Yukang Chen, Fanbin Lu, Jianhui Liu, and Jiaya Jia. 2023. Spherical transformer for lidar-based 3d recognition. In CVPR. 17545-17555.","journal-title":"CVPR."},{"key":"e_1_3_2_1_24_1","first-page":"12697","article-title":"Pointpillars: Fast encoders for object detection from point clouds","author":"Lang Alex H","year":"2019","unstructured":"Alex H Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, and Oscar Beijbom. 2019. Pointpillars: Fast encoders for object detection from point clouds. In CVPR. 12697-12705.","journal-title":"CVPR."},{"key":"e_1_3_2_1_25_1","first-page":"547","article-title":"Where are the blobs: Counting by localization with point supervision","author":"Laradji Issam H","year":"2018","unstructured":"Issam H Laradji, Negar Rostamzadeh, Pedro O Pinheiro, David Vazquez, and Mark Schmidt. 2018. Where are the blobs: Counting by localization with point supervision. In ECCV. 547-562.","journal-title":"ECCV."},{"key":"e_1_3_2_1_26_1","first-page":"734","article-title":"Cornernet: Detecting objects as paired keypoints","author":"Law Hei","year":"2018","unstructured":"Hei Law and Jia Deng. 2018. Cornernet: Detecting objects as paired keypoints. In ECCV. 734-750.","journal-title":"ECCV."},{"key":"e_1_3_2_1_27_1","volume-title":"Development and evaluation of a real-time pedestrian counting system for high-volume conditions based on 2D LiDAR. Transportation research part C: emerging technologies","author":"Lesani Asad","year":"2020","unstructured":"Asad Lesani, Ehsan Nateghinia, and Luis F Miranda-Moreno. 2020. Development and evaluation of a real-time pedestrian counting system for high-volume conditions based on 2D LiDAR. Transportation research part C: emerging technologies, Vol. 114 (2020), 20-35."},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1145\/3709702"},{"key":"e_1_3_2_1_29_1","first-page":"2980","article-title":"Focal loss for dense object detection","author":"Lin Tsung-Yi","year":"2017","unstructured":"Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Doll\u00e1r. 2017. Focal loss for dense object detection. In ICCV. 2980-2988.","journal-title":"ICCV."},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2019.2915983"},{"key":"e_1_3_2_1_31_1","first-page":"8552","article-title":"Pvnas: 3d neural architecture search with point-voxel convolution","volume":"44","author":"Liu Zhijian","year":"2021","unstructured":"Zhijian Liu, Haotian Tang, Shengyu Zhao, Kevin Shao, and Song Han. 2021. Pvnas: 3d neural architecture search with point-voxel convolution. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 44, 11 (2021), 8552-8568.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0281294"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2019.00321"},{"key":"e_1_3_2_1_34_1","first-page":"285","article-title":"A threshold selection method from gray-level histograms","volume":"11","author":"Nobuyuki Otsu","year":"1975","unstructured":"Nobuyuki Otsu et al., 1975. A threshold selection method from gray-level histograms. Automatica, Vol. 11, 285-296 (1975), 23-27.","journal-title":"Automatica"},{"key":"e_1_3_2_1_35_1","first-page":"652","article-title":"Pointnet: Deep learning on point sets for 3d classification and segmentation","author":"Qi Charles R","year":"2017","unstructured":"Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas. 2017a. Pointnet: Deep learning on point sets for 3d classification and segmentation. In CVPR. 652-660.","journal-title":"CVPR."},{"key":"e_1_3_2_1_36_1","volume-title":"NeurIPS","volume":"30","author":"Qi Charles Ruizhongtai","year":"2017","unstructured":"Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. 2017b. Pointnet: Deep hierarchical feature learning on point sets in a metric space. NeurIPS, Vol. 30 (2017)."},{"key":"e_1_3_2_1_37_1","first-page":"10529","article-title":"Pv-rcnn: Point-voxel feature set abstraction for 3d object detection","author":"Shi Shaoshuai","year":"2020","unstructured":"Shaoshuai Shi, Chaoxu Guo, Li Jiang, Zhe Wang, Jianping Shi, Xiaogang Wang, and Hongsheng Li. 2020. Pv-rcnn: Point-voxel feature set abstraction for 3d object detection. In CVPR. 10529-10538.","journal-title":"CVPR."},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2875353"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"crossref","unstructured":"Pei Sun Henrik Kretzschmar Xerxes Dotiwalla Aurelien Chouard Vijaysai Patnaik Paul Tsui James Guo Yin Zhou Yuning Chai Benjamin Caine Vijay Vasudevan Wei Han Jiquan Ngiam Hang Zhao Aleksei Timofeev Scott Ettinger Maxim Krivokon Amy Gao Aditya Joshi Yu Zhang Jonathon Shlens Zhifeng Chen and Dragomir Anguelov. 2020. Scalability in Perception for Autonomous Driving: Waymo Open Dataset. In CVPR.","DOI":"10.1109\/CVPR42600.2020.00252"},{"volume-title":"SWFormer: Sparse Window Transformer for 3D Object Detection in Point Clouds","author":"Sun Pei","key":"e_1_3_2_1_40_1","unstructured":"Pei Sun, Mingxing Tan, Weiyue Wang, Chenxi Liu, Fei Xia, Zhaoqi Leng, and Dragomir Anguelov. 2022. SWFormer: Sparse Window Transformer for 3D Object Detection in Point Clouds. In ECCV, Shai Avidan, Gabriel J. Brostow, Moustapha Ciss\u00e9, Giovanni Maria Farinella, and Tal Hassner (Eds.), Vol. 13670. Springer, 426-442."},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"publisher","DOI":"10.1109\/EDGE53862.2021.00019"},{"key":"e_1_3_2_1_42_1","unstructured":"OpenPCDet Development Team. 2020. OpenPCDet: An Open-source Toolbox for 3D Object Detection from Point Clouds. https:\/\/github.com\/open-mmlab\/OpenPCDet."},{"key":"e_1_3_2_1_43_1","first-page":"15548","article-title":"Zero-shot object counting","author":"Xu Jingyi","year":"2023","unstructured":"Jingyi Xu, Hieu Le, Vu Nguyen, Viresh Ranjan, and Dimitris Samaras. 2023. Zero-shot object counting. In CVPR. 15548-15557.","journal-title":"CVPR."},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"publisher","DOI":"10.3390\/s18103337"},{"key":"e_1_3_2_1_45_1","first-page":"11040","article-title":"3dssd: Point-based 3d single stage object detector","author":"Yang Zetong","year":"2020","unstructured":"Zetong Yang, Yanan Sun, Shu Liu, and Jiaya Jia. 2020. 3dssd: Point-based 3d single stage object detector. In CVPR. 11040-11048.","journal-title":"CVPR."},{"key":"e_1_3_2_1_46_1","first-page":"11784","article-title":"Center-based 3d object detection and tracking","author":"Yin Tianwei","year":"2021","unstructured":"Tianwei Yin, Xingyi Zhou, and Philipp Krahenbuhl. 2021. Center-based 3d object detection and tracking. In CVPR. 11784-11793.","journal-title":"CVPR."},{"key":"e_1_3_2_1_47_1","first-page":"14477","article-title":"SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection","author":"Zhang Gang","year":"2024","unstructured":"Gang Zhang, Junnan Chen, Guohuan Gao, Jianmin Li, Si Liu, and Xiaolin Hu. 2024. SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection. In CVPR. IEEE, 14477-14486.","journal-title":"CVPR. IEEE"},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"crossref","unstructured":"Xiaoyu Zhang Zhifeng Bao Hai Dong Ziwei Wang and Jiajun Liu. 2025. Querying Autonomous Vehicle Point Clouds: Enhanced by 3D Object Counting with CounterNet. arXiv:2507.19209 [cs.CV] https:\/\/arxiv.org\/abs\/2507.19209","DOI":"10.1145\/3746027.3755043"},{"key":"e_1_3_2_1_49_1","volume-title":"Cylinder3d: An effective 3d framework for driving-scene lidar semantic segmentation. arXiv preprint arXiv:2008.01550","author":"Zhou Hui","year":"2020","unstructured":"Hui Zhou, Xinge Zhu, Xiao Song, Yuexin Ma, Zhe Wang, Hongsheng Li, and Dahua Lin. 2020b. Cylinder3d: An effective 3d framework for driving-scene lidar semantic segmentation. arXiv preprint arXiv:2008.01550 (2020)."},{"volume-title":"Tracking Objects as Points","author":"Zhou Xingyi","key":"e_1_3_2_1_50_1","unstructured":"Xingyi Zhou, Vladlen Koltun, and Philipp Kr\u00e4henb\u00fchl. 2020a. Tracking Objects as Points. In ECCV, Andrea Vedaldi, Horst Bischof, Thomas Brox, and Jan-Michael Frahm (Eds.), Vol. 12349. Springer, 474-490."},{"key":"e_1_3_2_1_51_1","first-page":"4490","article-title":"Voxelnet: End-to-end learning for point cloud based 3d object detection","author":"Zhou Yin","year":"2018","unstructured":"Yin Zhou and Oncel Tuzel. 2018. Voxelnet: End-to-end learning for point cloud based 3d object detection. In CVPR. 4490-4499.","journal-title":"CVPR."}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Dublin Ireland","acronym":"MM '25"},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3755043","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,9]],"date-time":"2025-12-09T19:27:22Z","timestamp":1765308442000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3755043"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":51,"alternative-id":["10.1145\/3746027.3755043","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3755043","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}