{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:57:46Z","timestamp":1781539066492,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":37,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"the National Natural Science Foundation of China","award":["61672128"],"award-info":[{"award-number":["61672128"]}]},{"name":"Dalian Key Field Innovation Team Support Plan","award":["2020RT07"],"award-info":[{"award-number":["2020RT07"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810858","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"88-98","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["BiOVQL: Brain-inspired One-stage Egocentric Visual Query Localization"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1431-5551","authenticated-orcid":false,"given":"Yifei","family":"Cao","sequence":"first","affiliation":[{"name":"Dalian University of Technology, Dalian, Liaoning, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4874-2639","authenticated-orcid":false,"given":"Guolong","family":"Wang","sequence":"additional","affiliation":[{"name":"University of International Business and Economics, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5225-2195","authenticated-orcid":false,"given":"Mingliang","family":"Hou","sequence":"additional","affiliation":[{"name":"Jinan University, teemohold@outlook.com, Guangzhou, Guangdong, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-8365-2317","authenticated-orcid":false,"given":"Jizhe","family":"Yu","sequence":"additional","affiliation":[{"name":"Dalian University of Technology, Dalian, Liaoning, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0546-8801","authenticated-orcid":false,"given":"Xianjie","family":"Zhang","sequence":"additional","affiliation":[{"name":"Academy of Satellite Application Innovation, CASC, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-8324-2422","authenticated-orcid":false,"given":"Xiya","family":"Bu","sequence":"additional","affiliation":[{"name":"School of Software Engineering, Dalian University of Technology, Dalian, Liaoning, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-1118-0966","authenticated-orcid":false,"given":"Zhizhen","family":"Li","sequence":"additional","affiliation":[{"name":"School of Software Engineering, Dalian University of Technology, Dalian, Liaoning, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8013-4372","authenticated-orcid":false,"given":"Yu","family":"Liu","sequence":"additional","affiliation":[{"name":"School of Software Engineering, Dalian University of Technology, Dalian, Liaoning, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"Dosovitskiy Alexey. 2020. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/ 2010.11929 (2020)."},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511759185"},{"key":"e_1_3_3_1_4_2","doi-asserted-by":"crossref","unstructured":"Juraj Bevandi\u0107 Lo\u00efc\u00a0J Chareyron Jocelyne Bachevalier Francesca Cacucci Lisa Genzel Nora\u00a0S Newcombe Faraneh Vargha-Khadem and H\u00a0Freyja \u00d3lafsd\u00f3ttir. 2024. Episodic memory development: Bridging animal and human research. Neuron 112 7 (2024) 1060\u20131080.","DOI":"10.1016\/j.neuron.2024.01.020"},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2014.6907435"},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v40i4.37251"},{"key":"e_1_3_3_1_7_2","unstructured":"Joohyun Chang Soyeon Hong Hyogun Lee Seong\u00a0Jong Ha Dongho Lee Seong\u00a0Tae Kim and Jinwoo Choi. 2025. HERO-VQL: Hierarchical Egocentric and Robust Visual Query Localization. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2509.00385 (2025)."},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01816"},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"crossref","unstructured":"Alexandra\u00a0O Constantinescu Jill\u00a0X O\u2019Reilly and Timothy\u00a0EJ Behrens. 2016. Organizing conceptual knowledge in humans with a gridlike code. Science 352 6292 (2016) 1464\u20131468.","DOI":"10.1126\/science.aaf0941"},{"key":"e_1_3_3_1_10_2","volume-title":"International Conference on Machine Learning (ICML)","author":"Dao Tri","year":"2024","unstructured":"Tri Dao and Albert Gu. 2024. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. In International Conference on Machine Learning (ICML)."},{"key":"e_1_3_3_1_11_2","first-page":"57","volume-title":"European Conference on Computer Vision","author":"Deng Jiacheng","year":"2024","unstructured":"Jiacheng Deng, Jiahao Lu, and Tianzhu Zhang. 2024. Diff3detr: Agent-based diffusion model for semi-supervised 3d object detection. In European Conference on Computer Vision. Springer, 57\u201373."},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"crossref","unstructured":"Bradford\u00a0C Dickerson and Howard Eichenbaum. 2010. The episodic memory system: neurocircuitry and disorders. Neuropsychopharmacology 35 1 (2010) 86\u2013104.","DOI":"10.1038\/npp.2009.126"},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51701.2025.00490"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"crossref","unstructured":"Jiaqi Fan Enming Zhang Ying Wei Yuefeng Wang Jiakun Xia Junwei Liu Xinghong Liu and Shuailei Ma. 2024. DDOWOD: DiffusionDet for open-world object detection. Pattern Recognition Letters 186 (2024) 170\u2013177.","DOI":"10.1016\/j.patrec.2024.10.002"},{"key":"e_1_3_3_1_15_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01777"},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01842"},{"key":"e_1_3_3_1_17_2","unstructured":"Albert Gu and Tri Dao. 2023. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2312.00752 (2023)."},{"key":"e_1_3_3_1_18_2","unstructured":"Jonathan Ho Ajay Jain and Pieter Abbeel. 2020. Denoising diffusion probabilistic models. Advances in neural information processing systems 33 (2020) 6840\u20136851."},{"key":"e_1_3_3_1_19_2","unstructured":"Hanwen Jiang Santhosh\u00a0Kumar Ramakrishnan and Kristen Grauman. 2024. Single-stage visual query localization in egocentric videos. Advances in Neural Information Processing Systems 36 (2024)."},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51701.2025.00152"},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00350"},{"key":"e_1_3_3_1_22_2","unstructured":"Simiao Lai Chang Liu Jiawen Zhu Ben Kang Yang Liu Dong Wang and Huchuan Lu. 2025. Mambavt: Spatio-temporal contextual modeling for robust rgb-t tracking. IEEE Transactions on Circuits and Systems for Video Technology (2025)."},{"key":"e_1_3_3_1_23_2","first-page":"237","volume-title":"European conference on computer vision","author":"Li Kunchang","year":"2024","unstructured":"Kunchang Li, Xinhao Li, Yi Wang, Yinan He, Yali Wang, Limin Wang, and Yu Qiao. 2024. Videomamba: State space model for efficient video understanding. In European conference on computer vision. Springer, 237\u2013255."},{"key":"e_1_3_3_1_24_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.106"},{"key":"e_1_3_3_1_25_2","unstructured":"Xiao Liu Chenxu Zhang Fuxiang Huang Shuyin Xia Guoyin Wang and Lei Zhang. 2025. Vision mamba: A comprehensive survey and taxonomy. IEEE Transactions on Neural Networks and Learning Systems (2025)."},{"key":"e_1_3_3_1_26_2","doi-asserted-by":"crossref","unstructured":"Valerio Mante David Sussillo Krishna\u00a0V Shenoy and William\u00a0T Newsome. 2013. Context-dependent computation by recurrent dynamics in prefrontal cortex. nature 503 7474 (2013) 78\u201384.","DOI":"10.1038\/nature12742"},{"key":"e_1_3_3_1_27_2","unstructured":"Maxime Oquab Timoth\u00e9e Darcet Th\u00e9o Moutakanni Huy Vo Marc Szafraniec Vasil Khalidov Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby et\u00a0al. 2023. Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2304.07193 (2023)."},{"key":"e_1_3_3_1_28_2","unstructured":"Chiara Plizzari Gabriele Goletto Antonino Furnari Siddhant Bansal Francesco Ragusa Giovanni\u00a0Maria Farinella Dima Damen and Tatiana Tommasi. 2024. An outlook into the future of egocentric vision. International Journal of Computer Vision (2024) 1\u201357."},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"crossref","unstructured":"Alison\u00a0R Preston and Howard Eichenbaum. 2013. Interplay of hippocampus and prefrontal cortex in memory. Current biology 23 17 (2013) R764\u2013R773.","DOI":"10.1016\/j.cub.2013.05.041"},{"key":"e_1_3_3_1_30_2","unstructured":"Jiaming Song Chenlin Meng and Stefano Ermon. 2020. Denoising diffusion implicit models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2010.02502 (2020)."},{"key":"e_1_3_3_1_31_2","doi-asserted-by":"publisher","DOI":"10.1109\/WACV61041.2025.00176"},{"key":"e_1_3_3_1_32_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49660.2025.10890178"},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3680944"},{"key":"e_1_3_3_1_34_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i8.32943"},{"key":"e_1_3_3_1_35_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72111-3_54"},{"key":"e_1_3_3_1_36_2","unstructured":"Mengmeng Xu Cheng-Yang Fu Yanghao Li Bernard Ghanem Juan-Manuel Perez-Rua and Tao Xiang. 2022. Negative Frames Matter in Egocentric Visual Query 2D Localization. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2208.01949 (2022)."},{"key":"e_1_3_3_1_37_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00255"},{"key":"e_1_3_3_1_38_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i9.33019"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:46:18Z","timestamp":1781538378000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810858"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":37,"alternative-id":["10.1145\/3805622.3810858","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810858","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}