{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,27]],"date-time":"2025-03-27T13:00:39Z","timestamp":1743080439341,"version":"3.40.3"},"publisher-location":"Singapore","reference-count":40,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819787913"},{"type":"electronic","value":"9789819787920"}],"license":[{"start":{"date-parts":[[2024,11,9]],"date-time":"2024-11-09T00:00:00Z","timestamp":1731110400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,11,9]],"date-time":"2024-11-09T00:00:00Z","timestamp":1731110400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-981-97-8792-0_2","type":"book-chapter","created":{"date-parts":[[2024,11,8]],"date-time":"2024-11-08T06:55:50Z","timestamp":1731048950000},"page":"18-32","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["ViPro-BEV: Few-Shot Visual Prompting for Bird\u2019s-Eye-View Perception"],"prefix":"10.1007","author":[{"given":"Guorong","family":"Yuan","sequence":"first","affiliation":[]},{"given":"Huaibo","family":"Huang","sequence":"additional","affiliation":[]},{"given":"Qihang","family":"Fan","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,11,9]]},"reference":[{"key":"2_CR1","doi-asserted-by":"crossref","unstructured":"Ai, Y., Huang, H., Zhou, X., Wang, J., He, R.: Multimodal prompt perceiver: empower adaptiveness, generalizability and fidelity for all-in-one image restoration. In: CVPR (2024)","DOI":"10.1109\/CVPR52733.2024.02403"},{"key":"2_CR2","doi-asserted-by":"crossref","unstructured":"Ai, Y., Zhou, X., Huang, H., Zhang, L., He, R.: Uncertainty-aware source-free adaptive image super-resolution with wavelet augmentation transformer. In: CVPR (2024)","DOI":"10.1109\/CVPR52733.2024.00778"},{"key":"2_CR3","unstructured":"Bahng, H., Jahanian, A., Sankaranarayanan, S., Isola, P.: Visual prompting: modifying pixel space to adapt pre-trained models. arXiv:2203.17274 (2022)"},{"key":"2_CR4","unstructured":"Bartoccioni, F., Zablocki, \u00c9., Bursuc, A., P\u00e9rez, P., Cord, M., Alahari, K.: Lara: Latents and rays for multi-camera bird\u2019s-eye-view semantic segmentation. In: Conference on Robot Learning, pp. 1\u201321 (2022)"},{"key":"2_CR5","doi-asserted-by":"crossref","unstructured":"Caesar, H., Bankiti, V., Lang, A.H., Vora, S., Liong, V.E., Xu, Q., Krishnan, A., Pan, Y., Baldan, G., Beijbom, O.: nuscenes: A multimodal dataset for autonomous driving. In: CVPR, pp. 11621\u201311631 (2020)","DOI":"10.1109\/CVPR42600.2020.01164"},{"key":"2_CR6","doi-asserted-by":"crossref","unstructured":"Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., Zagoruyko, S.: End-to-end object detection with transformers. In: ECCV, pp. 213\u2013229. Springer (2020)","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"2_CR7","unstructured":"Christy, M., NikiNikatos, P.C., Vinay, S., Vladimir, I.: Lyft 3d object detection for autonomous vehicles (2019). https:\/\/kaggle.com\/competitions\/3d-object-detection-for-autonomous-vehicles"},{"key":"2_CR8","unstructured":"Darcet, T., Oquab, M., Mairal, J., Bojanowski, P.: Vision transformers need registers. arXiv:2309.16588 (2023)"},{"key":"2_CR9","unstructured":"Dong, B., Zhou, P., Yan, S., Zuo, W.: Lpt: long-tailed prompt tuning for image classification. In: ICLR (2022)"},{"key":"2_CR10","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et\u00a0al.: An image is worth 16x16 words: transformers for image recognition at scale. arXiv:2010.11929 (2020)"},{"key":"2_CR11","unstructured":"Erhan, D., Courville, A., Bengio, Y., Vincent, P.: Why does unsupervised pre-training help deep learning? In: Proceedings of the thirteenth international conference on artificial intelligence and statistics, pp. 201\u2013208. JMLR Workshop and Conference Proceedings (2010)"},{"key":"2_CR12","doi-asserted-by":"crossref","unstructured":"Fan, Q., Huang, H., Chen, M., Liu, H., He, R.: Rmt: retentive networks meet vision transformers. In: CVPR (2024)","DOI":"10.1109\/CVPR52733.2024.00539"},{"key":"2_CR13","unstructured":"Fan, Q., Huang, H., Zhou, X., He, R.: Lightweight vision transformer with bidirectional interaction. In: NeurIPS (2023)"},{"key":"2_CR14","unstructured":"He, R., Hu, B., Yuan, X., Wang, L., et\u00a0al.: Robust recognition via information theoretic learning. Springer"},{"key":"2_CR15","doi-asserted-by":"crossref","unstructured":"Hu, A., Murez, Z., Mohan, N., Dudas, S., Hawke, J., Badrinarayanan, V., Cipolla, R., Kendall, A.: Fiery: future instance prediction in bird\u2019s-eye view from surround monocular cameras. In: ICCV, pp. 15273\u201315282 (2021)","DOI":"10.1109\/ICCV48922.2021.01499"},{"key":"2_CR16","unstructured":"Hu, E.J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., Chen, W.: Lora: low-rank adaptation of large language models. arXiv:2106.09685 (2021)"},{"key":"2_CR17","doi-asserted-by":"crossref","unstructured":"Huang, H., Luo, M., He, R.: Memory uncertainty learning for real-world single image deraining. TPAMI (2023)","DOI":"10.1109\/TPAMI.2022.3180560"},{"key":"2_CR18","doi-asserted-by":"crossref","unstructured":"Huang, H., Yu, A., He, R.: Memory oriented transfer learning for semi-supervised image deraining. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00764"},{"key":"2_CR19","unstructured":"Huang, H., Zhou, X., Cao, J., He, R., Tan, T.: Vision transformer with super token sampling. In: CVPR (2023)"},{"key":"2_CR20","unstructured":"Huang, H., Zhou, X., He, R.: Orthogonal transformer: An efficient vision transformer backbone with token orthogonalization. In: NeurIPS (2022)"},{"key":"2_CR21","doi-asserted-by":"crossref","unstructured":"Huang, J., Rathod, V., Sun, C., Zhu, M., Korattikara, A., Fathi, A., Fischer, I., Wojna, Z., Song, Y., Guadarrama, S., et\u00a0al.: Speed\/accuracy trade-offs for modern convolutional object detectors. In: CVPR, pp. 7310\u20137311 (2017)","DOI":"10.1109\/CVPR.2017.351"},{"key":"2_CR22","doi-asserted-by":"crossref","unstructured":"Huang, Q., Dong, X., Chen, D., Zhang, W., Wang, F., Hua, G., Yu, N.: Diversity-aware meta visual prompting. In: CVPR, pp. 10878\u201310887 (2023)","DOI":"10.1109\/CVPR52729.2023.01047"},{"key":"2_CR23","doi-asserted-by":"crossref","unstructured":"Jia, M., Tang, L., Chen, B.C., Cardie, C., Belongie, S., Hariharan, B., Lim, S.N.: Visual prompt tuning. In: ECCV (2022)","DOI":"10.1007\/978-3-031-19827-4_41"},{"key":"2_CR24","doi-asserted-by":"crossref","unstructured":"Jiang, Y., Zhang, L., Miao, Z., Zhu, X., Gao, J., Hu, W., Jiang, Y.G.: Polarformer: Multi-camera 3d object detection with polar transformer. In: AAAI, vol.\u00a037, pp. 1042\u20131050 (2023)","DOI":"10.1609\/aaai.v37i1.25185"},{"key":"2_CR25","doi-asserted-by":"crossref","unstructured":"Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A.C., Lo, W.Y., et\u00a0al.: Segment anything. In: ICCV, pp. 4015\u20134026 (2023)","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"2_CR26","doi-asserted-by":"crossref","unstructured":"Li, X.L., Liang, P.: Prefix-tuning: Optimizing continuous prompts for generation. arXiv:2101.00190 (2021)","DOI":"10.18653\/v1\/2021.acl-long.353"},{"key":"2_CR27","doi-asserted-by":"crossref","unstructured":"Li, Z., Wang, W., Li, H., Xie, E., Sima, C., Lu, T., Qiao, Y., Dai, J.: Bevformer: Learning bird\u2019s-eye-view representation from multi-camera images via spatiotemporal transformers. In: ECCV, pp. 1\u201318. Springer (2022)","DOI":"10.1007\/978-3-031-20077-9_1"},{"key":"2_CR28","first-page":"1950","volume":"35","author":"H Liu","year":"2022","unstructured":"Liu, H., Tam, D., Muqeeth, M., Mohta, J., Huang, T., Bansal, M., Raffel, C.A.: Few-shot parameter-efficient fine-tuning is better and cheaper than in-context learning. NeurIPS 35, 1950\u20131965 (2022)","journal-title":"NeurIPS"},{"issue":"9","key":"2_CR29","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3560815","volume":"55","author":"P Liu","year":"2023","unstructured":"Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H., Neubig, G.: Pre-train, prompt, and predict: a systematic survey of prompting methods in natural language processing. ACM Comput. Surv. 55(9), 1\u201335 (2023)","journal-title":"ACM Comput. Surv."},{"key":"2_CR30","doi-asserted-by":"crossref","unstructured":"Liu, X., Ji, K., Fu, Y., Tam, W.L., Du, Z., Yang, Z., Tang, J.: P-tuning v2: prompt tuning can be comparable to fine-tuning universally across scales and tasks. arXiv:2110.07602 (2021)","DOI":"10.18653\/v1\/2022.acl-short.8"},{"key":"2_CR31","unstructured":"Liu, Z., Chen, S., Guo, X., Wang, X., Cheng, T., Zhu, H., Zhang, Q., Liu, W., Zhang, Y.: Vision-based uneven bev representation learning with polar rasterization and surface estimation. In: Conference on Robot Learning, pp. 437\u2013446. PMLR (2023)"},{"key":"2_CR32","doi-asserted-by":"crossref","unstructured":"Nie, X., Ni, B., Chang, J., Meng, G., Huo, C., Xiang, S., Tian, Q.: Pro-tuning: Unified prompt tuning for vision tasks. IEEE Trans. Circuits Syst. Video Technol. (2023)","DOI":"10.1109\/TCSVT.2023.3327605"},{"key":"2_CR33","doi-asserted-by":"crossref","unstructured":"Philion, J., Fidler, S.: Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d. In: ECCV, pp. 194\u2013210. Springer (2020)","DOI":"10.1007\/978-3-030-58568-6_12"},{"key":"2_CR34","doi-asserted-by":"crossref","unstructured":"Ran, H., Man, Z., Liang, W., Ye, J., Qiyue, Y.: Cross-modal subspace learning via pairwise constraints, vol.\u00a024, pp. 5543\u20135556. IEEE (2015)","DOI":"10.1109\/TIP.2015.2466106"},{"key":"2_CR35","doi-asserted-by":"crossref","unstructured":"Sohn, K., Chang, H., Lezama, J., Polania, L., Zhang, H., Hao, Y., Essa, I., Jiang, L.: Visual prompt tuning for generative transfer learning. In: CVPR, pp. 19840\u201319851 (2023)","DOI":"10.1109\/CVPR52729.2023.01900"},{"key":"2_CR36","doi-asserted-by":"crossref","unstructured":"Sun, Q., Ma, L., Oh, S.J., Van\u00a0Gool, L., Schiele, B., Fritz, M.: Natural and effective obfuscation by head inpainting. In: CVPR, pp. 5050\u20135059 (2018)","DOI":"10.1109\/CVPR.2018.00530"},{"key":"2_CR37","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, \u0141., Polosukhin, I.: Attention is all you need. NeurIPS 30 (2017)"},{"key":"2_CR38","unstructured":"Wang, R., Li, P.P., Huang, H., Ca, C., He, R., He, Z.: Learning-to-rank meets language: Boosting language-driven ordering alignment for ordinal classification. In: NeurIPS (2023)"},{"key":"2_CR39","first-page":"16158","volume":"34","author":"C Wei","year":"2021","unstructured":"Wei, C., Xie, S.M., Ma, T.: Why do pretrained language models help in downstream tasks? an analysis of head and prompt tuning. NeurIPS 34, 16158\u201316170 (2021)","journal-title":"NeurIPS"},{"key":"2_CR40","doi-asserted-by":"crossref","unstructured":"Zhou, B., Kr\u00e4henb\u00fchl, P.: Cross-view transformers for real-time map-view semantic segmentation. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.01339"}],"container-title":["Lecture Notes in Computer Science","Pattern Recognition and Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-97-8792-0_2","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,8]],"date-time":"2024-11-08T07:04:31Z","timestamp":1731049471000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-97-8792-0_2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,11,9]]},"ISBN":["9789819787913","9789819787920"],"references-count":40,"URL":"https:\/\/doi.org\/10.1007\/978-981-97-8792-0_2","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,11,9]]},"assertion":[{"value":"9 November 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"PRCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Chinese Conference on Pattern Recognition and Computer Vision  (PRCV)","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Urumqi","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18 October 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"20 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"7","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"ccprcv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/2024.prcv.cn\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}