{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,27]],"date-time":"2025-03-27T11:35:29Z","timestamp":1743075329635,"version":"3.40.3"},"publisher-location":"Cham","reference-count":60,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783031727740"},{"type":"electronic","value":"9783031727757"}],"license":[{"start":{"date-parts":[[2024,9,30]],"date-time":"2024-09-30T00:00:00Z","timestamp":1727654400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,9,30]],"date-time":"2024-09-30T00:00:00Z","timestamp":1727654400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-72775-7_8","type":"book-chapter","created":{"date-parts":[[2024,9,29]],"date-time":"2024-09-29T07:01:50Z","timestamp":1727593310000},"page":"124-141","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Take a Step Back: Rethinking the\u00a0Two Stages in\u00a0Visual Reasoning"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0009-4174-9601","authenticated-orcid":false,"given":"Mingyu","family":"Zhang","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0006-4716-8144","authenticated-orcid":false,"given":"Jiting","family":"Cai","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0006-1379-2846","authenticated-orcid":false,"given":"Mingyu","family":"Liu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7489-7269","authenticated-orcid":false,"given":"Yue","family":"Xu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1533-8576","authenticated-orcid":false,"given":"Cewu","family":"Lu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0478-0692","authenticated-orcid":false,"given":"Yong-Lu","family":"Li","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,9,30]]},"reference":[{"key":"8_CR1","doi-asserted-by":"crossref","unstructured":"Akiba, T., Sano, S., Yanase, T., Ohta, T., Koyama, M.: Optuna: a next-generation hyperparameter optimization framework. In: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 2623\u20132631 (2019)","DOI":"10.1145\/3292500.3330701"},{"key":"8_CR2","unstructured":"Amizadeh, S., Palangi, H., Polozov, A., Huang, Y., Koishida, K.: Neuro-symbolic visual reasoning: disentangling. In: ICML, pp. 279\u2013290. PMLR (2020)"},{"key":"8_CR3","doi-asserted-by":"crossref","unstructured":"Antol, S., et al.: VQA: visual question answering. In: ICCV, December 2015","DOI":"10.1109\/ICCV.2015.279"},{"key":"8_CR4","unstructured":"Baradel, F., Neverova, N., Mille, J., Mori, G., Wolf, C.: CoPhy: counterfactual learning of physical dynamics. arXiv preprint arXiv:1909.12000 (2019)"},{"key":"8_CR5","unstructured":"Chen, J., et al.: MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning. arXiv preprint arXiv:2310.09478 (2023)"},{"key":"8_CR6","unstructured":"Cornelio, C., Stuehmer, J., Hu, S.X., Hospedales, T.: Learning where and when to reason in neuro-symbolic inference. In: ICLR (2022)"},{"key":"8_CR7","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: ImageNet: a large-scale hierarchical image database. In: 2009 CVPR, pp. 248\u2013255. IEEE (2009)","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"8_CR8","doi-asserted-by":"publisher","unstructured":"Duan, J., Yu, S., Poria, S., Wen, B., Tan, C.: PIP: physical interaction prediction via mental simulation with span selection. In: Avidan, S., Brostow, G., Cisse, M., Farinella, G.M., Hassner, T. (eds.) Computer Vision \u2013 ECCV 2022. ECCV 2022. LNCS, vol. 13695, pp. 405\u2013421. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19833-5_24","DOI":"10.1007\/978-3-031-19833-5_24"},{"key":"8_CR9","doi-asserted-by":"crossref","unstructured":"Duan, J., Yu, S., Tan, C.: Space: a simulator for physical interactions and causal learning in 3D environments. In: ICCV, pp. 2058\u20132063 (2021)","DOI":"10.1109\/ICCVW54120.2021.00233"},{"issue":"12","key":"8_CR10","doi-asserted-by":"publisher","first-page":"1682","DOI":"10.1038\/nn.4390","volume":"19","author":"A Funamizu","year":"2016","unstructured":"Funamizu, A., Kuhn, B., Doya, K.: Neural substrate of dynamic Bayesian inference in the cerebral cortex. Nat. Neurosci. 19(12), 1682\u20131689 (2016)","journal-title":"Nat. Neurosci."},{"key":"8_CR11","unstructured":"Garcez, A.D., et al.: Neural-symbolic learning and reasoning: contributions and challenges. In: 2015 AAAI (2015)"},{"key":"8_CR12","unstructured":"Garcez, A.D., et al.: Neural-symbolic learning and reasoning: a survey and interpretation. Neuro-Symbolic Artif. Intell. State Art 342(1), 327 (2022)"},{"key":"8_CR13","unstructured":"Gong, T., et al.: Multimodal-GPT: a vision and language model for dialogue with humans. arXiv preprint arXiv:2305.04790 (2023)"},{"key":"8_CR14","doi-asserted-by":"crossref","unstructured":"Gori, M., Monfardini, G., Scarselli, F.: A new model for learning in graph domains. In: Proceedings of 2005 IEEE International Joint Conference on Neural Networks, vol.\u00a02, pp. 729\u2013734. IEEE (2005)","DOI":"10.1109\/IJCNN.2005.1555942"},{"key":"8_CR15","doi-asserted-by":"crossref","unstructured":"Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., Parikh, D.: Making the V in VQA matter: elevating the role of image understanding in visual question answering. In: CVPR, July 2017","DOI":"10.1109\/CVPR.2017.670"},{"key":"8_CR16","doi-asserted-by":"crossref","unstructured":"Gupta, T., Kembhavi, A.: Visual programming: compositional visual reasoning without training. In: CVPR, pp. 14953\u201314962 (2023)","DOI":"10.1109\/CVPR52729.2023.01436"},{"key":"8_CR17","doi-asserted-by":"crossref","unstructured":"Hamilton, K., Nayak, A., Bo\u017ei\u0107, B., Longo, L.: Is neuro-symbolic AI meeting its promises in natural language processing? A structured review. Semant. Web (Preprint), 1\u201342 (2022)","DOI":"10.3233\/SW-223228"},{"key":"8_CR18","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"8_CR19","first-page":"17427","volume":"34","author":"Y Hong","year":"2021","unstructured":"Hong, Y., Yi, L., Tenenbaum, J., Torralba, A., Gan, C.: PTR: a benchmark for part-based conceptual, relational, and physical reasoning. NeurIPS 34, 17427\u201317440 (2021)","journal-title":"NeurIPS"},{"key":"8_CR20","doi-asserted-by":"crossref","unstructured":"Hudson, D.A., Manning, C.D.: GQA: a new dataset for real-world visual reasoning and compositional question answering. In: CVPR, June 2019","DOI":"10.1109\/CVPR.2019.00686"},{"key":"8_CR21","unstructured":"Janny, S., Baradel, F., Neverova, N., Nadri, M., Mori, G., Wolf, C.: Filtered-CoPhy: unsupervised learning of counterfactual physics in pixel space. In: ICLR (2022)"},{"key":"8_CR22","doi-asserted-by":"crossref","unstructured":"Ji, Z., Tiezheng, Y., Xu, Y., Lee, N., Ishii, E., Fung, P.: Towards mitigating LLM hallucination via self reflection. In: The 2023 Conference on Empirical Methods in Natural Language Processing (2023)","DOI":"10.18653\/v1\/2023.findings-emnlp.123"},{"key":"8_CR23","doi-asserted-by":"crossref","unstructured":"Jiang, H., Ma, X., Nie, W., Yu, Z., Zhu, Y., Anandkumar, A.: Bongard-HOI: benchmarking few-shot visual reasoning for human-object interactions. In: CVPR, pp. 19056\u201319065 (2022)","DOI":"10.1109\/CVPR52688.2022.01847"},{"key":"8_CR24","doi-asserted-by":"crossref","unstructured":"Jiang, H., Misra, I., Rohrbach, M., Learned-Miller, E., Chen, X.: In defense of grid features for visual question answering. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.01028"},{"key":"8_CR25","doi-asserted-by":"crossref","unstructured":"Johnson, J., Hariharan, B., van\u00a0der Maaten, L., Fei-Fei, L., Lawrence\u00a0Zitnick, C., Girshick, R.: CLEVR: a diagnostic dataset for compositional language and elementary visual reasoning. In: CVPR, July 2017","DOI":"10.1109\/CVPR.2017.215"},{"key":"8_CR26","unstructured":"Kingma, D.P., Ba, J.: Adam: a method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)"},{"key":"8_CR27","doi-asserted-by":"publisher","unstructured":"Kroshchanka, A., Golovko, V., Mikhno, E., Kovalev, M., Zahariev, V., Zagorskij, A.: A neural-symbolic approach to computer vision. In: Golenkov, V., Krasnoproshin, V., Golovko, V., Shunkevich, D. (eds.) Open Semantic Technologies for Intelligent Systems, OSTIS 2021. CCIS, vol. 1625, pp. 282\u2013309. Springer, Cham (2021). https:\/\/doi.org\/10.1007\/978-3-031-15882-7_15","DOI":"10.1007\/978-3-031-15882-7_15"},{"key":"8_CR28","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"647","DOI":"10.1007\/978-3-030-61609-0_51","volume-title":"Artificial Neural Networks and Machine Learning \u2013 ICANN 2020","author":"H Lemos","year":"2020","unstructured":"Lemos, H., Avelar, P., Prates, M., Garcez, A., Lamb, L.: Neural-symbolic relational reasoning on graph models: effective link inference and computation from knowledge bases. In: Farka\u0161, I., Masulli, P., Wermter, S. (eds.) ICANN 2020. LNCS, vol. 12396, pp. 647\u2013659. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-61609-0_51"},{"key":"8_CR29","unstructured":"Li, T., Dubout, C., Wampler, E.K., Yantis, S., Geman, D., et\u00a0al.: Comparing machines and humans on a visual categorization test (2011)"},{"issue":"7","key":"8_CR30","first-page":"8494","volume":"45","author":"YL Li","year":"2022","unstructured":"Li, Y.L., et al.: HAKE: a knowledge engine foundation for human activity understanding. TPAMI 45(7), 8494\u20138506 (2022)","journal-title":"TPAMI"},{"key":"8_CR31","doi-asserted-by":"crossref","unstructured":"Li, Y.L., et al.: Beyond object recognition: a new benchmark towards object concept learning. In: ICCV (2023)","DOI":"10.1109\/ICCV51070.2023.01833"},{"key":"8_CR32","doi-asserted-by":"crossref","unstructured":"Liu, H., Li, C., Li, Y., Lee, Y.J.: Improved baselines with visual instruction tuning. arXiv preprint arXiv:2310.03744 (2023)","DOI":"10.1109\/CVPR52733.2024.02484"},{"key":"8_CR33","doi-asserted-by":"crossref","unstructured":"Liu, Z., Wang, Z., Lin, Y., Li, H.: A neural-symbolic approach to natural language understanding. arXiv preprint arXiv:2203.10557 (2022)","DOI":"10.18653\/v1\/2022.findings-emnlp.158"},{"key":"8_CR34","unstructured":"Mao, J., Gan, C., Kohli, P., Tenenbaum, J.B., Wu, J.: The neuro-symbolic concept learner: interpreting scenes, words, and sentences from natural supervision. In: ICLR (2019). https:\/\/openreview.net\/forum?id=rJgMlhRctm"},{"key":"8_CR35","unstructured":"McDuff, D., et al.: CausalCity: complex simulations with agency for causal discovery and reasoning. In: Conference on Causal Learning and Reasoning, pp. 559\u2013575. PMLR (2022)"},{"key":"8_CR36","doi-asserted-by":"publisher","unstructured":"Messina, N., Amato, G., Carrara, F., Gennaro, C., Falchi, F.: Recurrent vision transformer for solving visual reasoning problems. In: Sclaroff, S., Distante, C., Leo, M., Farinella, G.M., Tombari, F. (eds.) Image Analysis and Processing \u2013 ICIAP 2022. LNCS, vol. 13233, pp. 50\u201361. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-06433-3_5","DOI":"10.1007\/978-3-031-06433-3_5"},{"key":"8_CR37","unstructured":"Nie, W., Yu, Z., Mao, L., Patel, A.B., Zhu, Y., Anandkumar, A.: BONGARD-LOGO: a new benchmark for human-level concept learning and reasoning. In: NeurIPS (2020)"},{"key":"8_CR38","unstructured":"Pearl, J., Mackenzie, D.: The Book of Why: The New Science of Cause and Effect. Basic Books, New York (2018)"},{"key":"8_CR39","unstructured":"Radford, A., et\u00a0al.: Learning transferable visual models from natural language supervision. In: ICML, pp. 8748\u20138763. PMLR (2021)"},{"key":"8_CR40","unstructured":"Raghuraman, N., Harley, A.W., Guibas, L.: Cross-image context matters for Bongard problems (2023)"},{"key":"8_CR41","first-page":"14274","volume":"35","author":"M Shu","year":"2022","unstructured":"Shu, M., et al.: Test-time prompt tuning for zero-shot generalization in vision-language models. NeurIPS 35, 14274\u201314289 (2022)","journal-title":"NeurIPS"},{"key":"8_CR42","doi-asserted-by":"publisher","unstructured":"Spratley, S., Ehinger, K., Miller, T.: A closer look at generalisation in RAVEN. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.M. (eds.) Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, 23\u201328 August 2020, Proceedings, Part XXVII 16, pp. 601\u2013616. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58583-9_36","DOI":"10.1007\/978-3-030-58583-9_36"},{"key":"8_CR43","doi-asserted-by":"crossref","unstructured":"Sur\u00eds, D., Menon, S., Vondrick, C.: ViperGPT: visual inference via python execution for reasoning. arXiv preprint arXiv:2303.08128 (2023)","DOI":"10.1109\/ICCV51070.2023.01092"},{"key":"8_CR44","unstructured":"Tsai, C.F., Zhou, X., Liu, S.S., Li, J., Yu, M., Mei, H.: Can large language models play text games well? Current state-of-the-art and open questions. arXiv preprint arXiv:2304.02868 (2023)"},{"key":"8_CR45","unstructured":"Vaswani, A., et al.: Attention is all you need. In: NeurIPS, vol. 30 (2017)"},{"issue":"3","key":"8_CR46","doi-asserted-by":"publisher","first-page":"1042","DOI":"10.1109\/TCSVT.2020.2991866","volume":"31","author":"Z Wen","year":"2020","unstructured":"Wen, Z., Peng, Y.: Multi-level knowledge injecting for visual commonsense reasoning. IEEE Trans. Circuits Syst. Video Technol. 31(3), 1042\u20131054 (2020)","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"8_CR47","doi-asserted-by":"publisher","unstructured":"Wu, Q., Teney, D., Wang, P., Shen, C., Dick, A., van den Hengel, A.: Visual question answering: a survey of methods and datasets. Comput. Vis. Image Underst. 163, 21\u201340 (2017). https:\/\/doi.org\/10.1016\/j.cviu.2017.05.001, Language in Vision","DOI":"10.1016\/j.cviu.2017.05.001"},{"key":"8_CR48","unstructured":"Wu, X., Li, Y.L., Sun, J., Lu, C.: Symbol-LLM: leverage language models for symbolic system in visual human activity reasoning. In: NeurIPS (2023)"},{"key":"8_CR49","unstructured":"Xu, Z., Jain, S., Kankanhalli, M.: Hallucination is inevitable: an innate limitation of large language models. arXiv preprint arXiv:2401.11817 (2024)"},{"key":"8_CR50","unstructured":"Yang, L., et al.: Neural prediction errors enable analogical visual reasoning in human standard intelligence tests (2023)"},{"key":"8_CR51","unstructured":"Yao, J.Y., Ning, K.P., Liu, Z.H., Ning, M.N., Yuan, L.: LLM lies: hallucinations are not bugs, but features as adversarial examples. arXiv preprint arXiv:2310.01469 (2023)"},{"key":"8_CR52","unstructured":"Yi, K., et al.: CLEVRER: collision events for video representation and reasoning. arXiv preprint arXiv:1910.01442 (2019)"},{"key":"8_CR53","unstructured":"Yi, K., Wu, J., Gan, C., Torralba, A., Kohli, P., Tenenbaum, J.: Neural-symbolic VQA: disentangling reasoning from vision and language understanding. In: NeurIPS, vol. 31 (2018)"},{"key":"8_CR54","doi-asserted-by":"publisher","first-page":"105","DOI":"10.1016\/j.neunet.2023.06.028","volume":"166","author":"D Yu","year":"2023","unstructured":"Yu, D., Yang, B., Liu, D., Wang, H., Pan, S.: A survey on neural-symbolic learning systems. Neural Networks 166, 105\u2013126 (2023)","journal-title":"Neural Networks"},{"key":"8_CR55","doi-asserted-by":"crossref","unstructured":"Yu, D., Yang, B., Wei, Q., Li, A., Pan, S.: A probabilistic graphical model based on neural-symbolic reasoning for visual relationship detection. In: CVPR, pp. 10609\u201310618 (2022)","DOI":"10.1109\/CVPR52688.2022.01035"},{"key":"8_CR56","unstructured":"Zerroug, A., Vaishnav, M., Colin, J., Musslick, S., Serre, T.: A benchmark for compositional visual reasoning. arXiv preprint arXiv:2206.05379 (2022)"},{"key":"8_CR57","doi-asserted-by":"crossref","unstructured":"Zhang, C., Gao, F., Jia, B., Zhu, Y., Zhu, S.C.: RAVEN: a dataset for relational and analogical visual reasoning. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00546"},{"key":"8_CR58","doi-asserted-by":"publisher","first-page":"14","DOI":"10.1016\/j.aiopen.2021.03.001","volume":"2","author":"J Zhang","year":"2021","unstructured":"Zhang, J., Chen, B., Zhang, L., Ke, X., Ding, H.: Neural, symbolic and neural-symbolic reasoning on knowledge graphs. AI Open 2, 14\u201335 (2021)","journal-title":"AI Open"},{"key":"8_CR59","unstructured":"Zhao, H., et al.: MMICL: empowering vision-language model with multi-modal in-context learning. arXiv preprint arXiv:2309.07915 (2023)"},{"key":"8_CR60","unstructured":"Zhu, D., Chen, J., Shen, X., Li, X., Elhoseiny, M.: MiniGPT-4: enhancing vision-language understanding with advanced large language models. arXiv preprint arXiv:2304.10592 (2023)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-72775-7_8","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,29]],"date-time":"2024-09-29T07:37:41Z","timestamp":1727595461000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-72775-7_8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,9,30]]},"ISBN":["9783031727740","9783031727757"],"references-count":60,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-72775-7_8","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,9,30]]},"assertion":[{"value":"30 September 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}