{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,8]],"date-time":"2026-06-08T15:07:38Z","timestamp":1780931258482,"version":"3.54.1"},"reference-count":55,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Pattern Recognition"],"published-print":{"date-parts":[[2026,12]]},"DOI":"10.1016\/j.patcog.2026.114060","type":"journal-article","created":{"date-parts":[[2026,5,25]],"date-time":"2026-05-25T16:04:42Z","timestamp":1779725082000},"page":"114060","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"PA","title":["Implicit Chain-of-Thought Reasoning via Task-Aware Latent Motion for transferable VLA"],"prefix":"10.1016","volume":"180","author":[{"given":"Ya","family":"Jing","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xinghang","family":"Li","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xinlong","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7209-0215","authenticated-orcid":false,"given":"Lifang","family":"Wu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.patcog.2026.114060_b1","unstructured":"H. Wu, Y. Jing, C. Cheang, G. Chen, J. Xu, X. Li, M. Liu, H. Li, T. Kong, Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation, in: ICLR, 2024."},{"key":"10.1016\/j.patcog.2026.114060_b2","doi-asserted-by":"crossref","unstructured":"Y. Chen, Y. Ge, Y. Li, Y. Ge, M. Ding, Y. Shan, X. Liu, Moto: Latent Motion Token as the Bridging Language for Robot Manipulation, in: ICCV, 2025.","DOI":"10.1109\/ICCV51701.2025.01837"},{"key":"10.1016\/j.patcog.2026.114060_b3","doi-asserted-by":"crossref","unstructured":"Q. Bu, Y. Yang, J. Cai, S. Gao, G. Ren, M. Yao, P. Luo, H. Li, Learning to Act Anywhere with Task-centric Latent Actions, in: RSS, 2025.","DOI":"10.15607\/RSS.2025.XXI.014"},{"key":"10.1016\/j.patcog.2026.114060_b4","unstructured":"B. Zitkovich, T. Yu, S. Xu, P. Xu, T. Xiao, F. Xia, J. Wu, P. Wohlhart, S. Welker, A. Wahid, et al., Rt-2: Vision-language-action models transfer web knowledge to robotic control, in: CoRL, 2023, pp. 2165\u20132183."},{"key":"10.1016\/j.patcog.2026.114060_b5","unstructured":"Q. Vuong, S. Levine, H.R. Walke, K. Pertsch, A. Singh, R. Doshi, C. Xu, J. Luo, L. Tan, D. Shah, et al., Open x-embodiment: Robotic learning datasets and RT-X models, in: Towards Generalist Robots: Learning Paradigms for Scalable Skill Acquisition@ CoRL2023, 2023, pp. 6892\u20136903."},{"key":"10.1016\/j.patcog.2026.114060_b6","doi-asserted-by":"crossref","unstructured":"K. Grauman, A. Westbury, E. Byrne, Z. Chavis, A. Furnari, R. Girdhar, J. Hamburger, H. Jiang, M. Liu, X. Liu, et al., Ego4d: Around the world in 3,000 hours of egocentric video, in: CVPR, 2022, pp. 18995\u201319012.","DOI":"10.1109\/CVPR52688.2022.01842"},{"key":"10.1016\/j.patcog.2026.114060_b7","doi-asserted-by":"crossref","unstructured":"T.-S. Chen, A. Siarohin, W. Menapace, E. Deyneka, H.-w. Chao, B.E. Jeon, Y. Fang, H.-Y. Lee, J. Ren, M.-H. Yang, et al., Panda-70m: Captioning 70m videos with multiple cross-modality teachers, in: CVPR, 2024, pp. 13320\u201313331.","DOI":"10.1109\/CVPR52733.2024.01265"},{"key":"10.1016\/j.patcog.2026.114060_b8","doi-asserted-by":"crossref","unstructured":"A. Miech, D. Zhukov, J.-B. Alayrac, M. Tapaswi, I. Laptev, J. Sivic, Howto100m: Learning a text-video embedding by watching hundred million narrated video clips, in: ICCV, 2019, pp. 2630\u20132640.","DOI":"10.1109\/ICCV.2019.00272"},{"key":"10.1016\/j.patcog.2026.114060_b9","unstructured":"T. Brown, B. Mann, N. Ryder, M. Subbiah, J.D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, et al., Language models are few-shot learners, in: NeurIPS, 2020, pp. 1877\u20131901."},{"key":"10.1016\/j.patcog.2026.114060_b10","unstructured":"H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozi\u00e8re, N. Goyal, E. Hambro, F. Azhar, et al., Llama: Open and efficient foundation language models, 2023, arXiv preprint arXiv:2302.13971."},{"key":"10.1016\/j.patcog.2026.114060_b11","series-title":"Palm 2 technical report","author":"Anil","year":"2023"},{"key":"10.1016\/j.patcog.2026.114060_b12","unstructured":"M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan, I. Sutskever, Generative pretraining from pixels, in: ICML, 2020, pp. 1691\u20131703."},{"key":"10.1016\/j.patcog.2026.114060_b13","doi-asserted-by":"crossref","unstructured":"K. He, X. Chen, S. Xie, Y. Li, P. Doll\u00e1r, R. Girshick, Masked autoencoders are scalable vision learners, in: CVPR, 2022, pp. 16000\u201316009.","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"10.1016\/j.patcog.2026.114060_b14","doi-asserted-by":"crossref","unstructured":"C. Lin, Y. Jiang, L. Qu, Z. Yuan, J. Cai, Generative region-language pretraining for open-ended object detection, in: CVPR, 2024, pp. 13958\u201313968.","DOI":"10.1109\/CVPR52733.2024.01324"},{"key":"10.1016\/j.patcog.2026.114060_b15","series-title":"Gr-2: A generative video-language-action model with web-scale knowledge for robot manipulation","author":"Cheang","year":"2024"},{"key":"10.1016\/j.patcog.2026.114060_b16","doi-asserted-by":"crossref","unstructured":"A. Escontrela, A. Adeniji, W. Yan, A. Jain, X.B. Peng, K. Goldberg, Y. Lee, D. Hafner, P. Abbeel, Video prediction models as rewards for reinforcement learning, in: NeurIPS, 2023, pp. 68760\u201368783.","DOI":"10.52202\/075280-3009"},{"key":"10.1016\/j.patcog.2026.114060_b17","unstructured":"S. Ye, J. Jang, B. Jeon, S.J. Joo, J. Yang, B. Peng, A. Mandlekar, R. Tan, Y.-W. Chao, B.Y. Lin, et al., Latent Action Pretraining from Videos, in: ICLR, 2025."},{"key":"10.1016\/j.patcog.2026.114060_b18","doi-asserted-by":"crossref","unstructured":"J. Wei, X. Wang, D. Schuurmans, M. Bosma, F. Xia, E. Chi, Q.V. Le, D. Zhou, et al., Chain-of-thought prompting elicits reasoning in large language models, in: NeurIPS, 2022, pp. 24824\u201324837.","DOI":"10.52202\/068431-1800"},{"key":"10.1016\/j.patcog.2026.114060_b19","unstructured":"X. Chen, H. Wei, P. Zhang, C. Zhang, K. Wang, Y. Guo, R. Yang, Y. Wang, X. Xiao, L. Zhao, et al., villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models, in: ICLR, 2026."},{"key":"10.1016\/j.patcog.2026.114060_b20","unstructured":"X. Li, K. Hsu, J. Gu, O. Mees, K. Pertsch, H.R. Walke, C. Fu, I. Lunawat, I. Sieh, S. Kirmani, et al., Evaluating Real-World Robot Manipulation Policies in Simulation, in: CoRL, 2025, pp. 3705\u20133728."},{"key":"10.1016\/j.patcog.2026.114060_b21","doi-asserted-by":"crossref","unstructured":"B. Liu, Y. Zhu, C. Gao, Y. Feng, Q. Liu, Y. Zhu, P. Stone, Libero: Benchmarking knowledge transfer for lifelong robot learning, in: NeurIPS, 2023, pp. 44776\u201344791.","DOI":"10.52202\/075280-1939"},{"key":"10.1016\/j.patcog.2026.114060_b22","series-title":"Qwen2-vl: Enhancing vision-language model\u2019s perception of the world at any resolution","author":"Wang","year":"2024"},{"key":"10.1016\/j.patcog.2026.114060_b23","unstructured":"C. Jia, Y. Yang, Y. Xia, Y.-T. Chen, Z. Parekh, H. Pham, Q. Le, Y.-H. Sung, Z. Li, T. Duerig, Scaling up visual and vision-language representation learning with noisy text supervision, in: ICML, 2021, pp. 4904\u20134916."},{"key":"10.1016\/j.patcog.2026.114060_b24","unstructured":"J. Li, D. Li, C. Xiong, S. Hoi, Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation, in: ICML, 2022, pp. 12888\u201312900."},{"key":"10.1016\/j.patcog.2026.114060_b25","article-title":"Parameter-efficient action planning with large language models for vision-and-language navigation","author":"Mohammadi","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114060_b26","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111558","article-title":"FILP-3D: Enhancing 3D few-shot class-incremental learning with pre-trained vision-language models","volume":"165","author":"Xu","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114060_b27","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.111080","article-title":"Semantic-aware frame-event fusion based pattern recognition via large vision-language models","volume":"158","author":"Li","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114060_b28","unstructured":"M.J. Kim, K. Pertsch, S. Karamcheti, T. Xiao, A. Balakrishna, S. Nair, R. Rafailov, E.P. Foster, P.R. Sanketi, Q. Vuong, et al., OpenVLA: An Open-Source Vision-Language-Action Model, in: CoRL, 2025, pp. 2679\u20132713."},{"key":"10.1016\/j.patcog.2026.114060_b29","article-title":"SVA: Towards speech-enabled vision-language-action model","author":"Li","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114060_b30","unstructured":"X. Li, M. Liu, H. Zhang, C. Yu, J. Xu, H. Wu, C. Cheang, Y. Jing, W. Zhang, H. Liu, H. Li, T. Kong, Vision-Language Foundation Models as Effective Robot Imitators, in: ICLR, 2024."},{"key":"10.1016\/j.patcog.2026.114060_b31","unstructured":"D. Driess, F. Xia, M.S. Sajjadi, C. Lynch, A. Chowdhery, B. Ichter, A. Wahid, J. Tompson, Q. Vuong, T. Yu, et al., PaLM-E: an embodied multimodal language model, in: ICML, 2023, pp. 8469\u20138488."},{"key":"10.1016\/j.patcog.2026.114060_b32","doi-asserted-by":"crossref","unstructured":"D. Ghosh, H.R. Walke, K. Pertsch, K. Black, O. Mees, S. Dasari, J. Hejna, T. Kreiman, C. Xu, J. Luo, et al., Octo: An Open-Source Generalist Robot Policy, in: RSS, 2024.","DOI":"10.15607\/RSS.2024.XX.090"},{"key":"10.1016\/j.patcog.2026.114060_b33","unstructured":"D. Niu, Y. Sharma, G. Biamby, J. Quenum, Y. Bai, B. Shi, T. Darrell, R. Herzig, LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning, in: CoRL, 2025, pp. 3333\u20133355."},{"key":"10.1016\/j.patcog.2026.114060_b34","unstructured":"M. Zawalski, W. Chen, K. Pertsch, O. Mees, C. Finn, S. Levine, Robotic Control via Embodied Chain-of-Thought Reasoning, in: CoRL, 2025, pp. 3157\u20133181."},{"key":"10.1016\/j.patcog.2026.114060_b35","unstructured":"S. Nair, A. Rajeswaran, V. Kumar, C. Finn, A. Gupta, R3M: A Universal Visual Representation for Robot Manipulation, in: CoRL, 2023, pp. 892\u2013909."},{"key":"10.1016\/j.patcog.2026.114060_b36","doi-asserted-by":"crossref","unstructured":"Y. Jing, X. Zhu, X. Liu, Q. Sima, T. Yang, Y. Feng, T. Kong, Exploring visual pre-training for robot manipulation: Datasets, models and methods, in: IROS, 2023, pp. 11390\u201311395.","DOI":"10.1109\/IROS55552.2023.10342201"},{"key":"10.1016\/j.patcog.2026.114060_b37","doi-asserted-by":"crossref","unstructured":"S. Bahl, R. Mendonca, L. Chen, U. Jain, D. Pathak, Affordances from human videos as a versatile representation for robotics, in: CVPR, 2023, pp. 13778\u201313790.","DOI":"10.1109\/CVPR52729.2023.01324"},{"key":"10.1016\/j.patcog.2026.114060_b38","doi-asserted-by":"crossref","unstructured":"M.K. Srirama, S. Dasari, S. Bahl, A. Gupta, HRP: Human Affordances for Robotic Pre-Training, in: RSS, 2024.","DOI":"10.15607\/RSS.2024.XX.068"},{"key":"10.1016\/j.patcog.2026.114060_b39","doi-asserted-by":"crossref","unstructured":"J. Zeng, Q. Bu, B. Wang, W. Xia, L. Chen, H. Dong, H. Song, D. Wang, D. Hu, P. Luo, et al., Learning Manipulation by Predicting Interaction, in: RSS, 2024.","DOI":"10.15607\/RSS.2024.XX.123"},{"key":"10.1016\/j.patcog.2026.114060_b40","unstructured":"J. Bruce, M.D. Dennis, A. Edwards, J. Parker-Holder, Y. Shi, E. Hughes, M. Lai, A. Mavalankar, R. Steigerwald, C. Apps, et al., Genie: Generative interactive environments, in: ICML, 2024, pp. 4603\u20134623."},{"key":"10.1016\/j.patcog.2026.114060_b41","doi-asserted-by":"crossref","unstructured":"A. Mete, H. Xue, A. Wilcox, Y. Chen, A. Garg, Quest: Self-supervised skill abstractions for learning continuous control, in: NeurIPS, 2024, pp. 4062\u20134089.","DOI":"10.52202\/079017-0133"},{"key":"10.1016\/j.patcog.2026.114060_b42","series-title":"Clam: Continuous latent action models for robot learning from unlabeled demonstrations","author":"Liang","year":"2025"},{"issue":"04","key":"10.1016\/j.patcog.2026.114060_b43","article-title":"High-frequency CSI300 spot and futures price predictions via the neural network","volume":"18","author":"Jin","year":"2025","journal-title":"J. Uncertain Syst."},{"issue":"Suppl 2","key":"10.1016\/j.patcog.2026.114060_b44","doi-asserted-by":"crossref","first-page":"1481","DOI":"10.1007\/s11135-025-02080-3","article-title":"Predictions of residential property price indices for China via machine learning models: B. Jin, X. Xu","volume":"59","author":"Jin","year":"2025","journal-title":"Qual. Quant."},{"key":"10.1016\/j.patcog.2026.114060_b45","doi-asserted-by":"crossref","DOI":"10.1142\/S1752890926500042","article-title":"Contemporaneous causal analysis of housing prices across Guangdong\u2019s major cities: Employing vector error-correction modeling and directed acyclic graphs","author":"Jin","year":"2026","journal-title":"J. Uncertain Syst."},{"key":"10.1016\/j.patcog.2026.114060_b46","article-title":"Individual time series and composite forecasting of the Chinese stock index","volume":"5","author":"Xu","year":"2021","journal-title":"Mach. Learn. Appl."},{"key":"10.1016\/j.patcog.2026.114060_b47","unstructured":"A. Radford, J.W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, et al., Learning transferable visual models from natural language supervision, in: ICML, 2021, pp. 8748\u20138763."},{"key":"10.1016\/j.patcog.2026.114060_b48","unstructured":"A. Van Den Oord, O. Vinyals, et al., Neural discrete representation learning, in: NeurIPS, 2017."},{"key":"10.1016\/j.patcog.2026.114060_b49","series-title":"Paligemma: A versatile 3b vlm for transfer","author":"Beyer","year":"2024"},{"issue":"7553","key":"10.1016\/j.patcog.2026.114060_b50","doi-asserted-by":"crossref","first-page":"436","DOI":"10.1038\/nature14539","article-title":"Deep learning","volume":"521","author":"LeCun","year":"2015","journal-title":"Nature"},{"key":"10.1016\/j.patcog.2026.114060_b51","doi-asserted-by":"crossref","unstructured":"R. Girshick, Fast r-cnn, in: ICCV, 2015, pp. 1440\u20131448.","DOI":"10.1109\/ICCV.2015.169"},{"key":"10.1016\/j.patcog.2026.114060_b52","first-page":"1","article-title":"What matters in building vision-language-action models for generalist robots","author":"Li","year":"2026","journal-title":"Nat. Mach. Intell."},{"key":"10.1016\/j.patcog.2026.114060_b53","doi-asserted-by":"crossref","unstructured":"D. Qu, H. Song, Q. Chen, Y. Yao, X. Ye, Y. Ding, Z. Wang, J. Gu, B. Zhao, D. Wang, et al., SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Models, in: RSS, 2026.","DOI":"10.15607\/RSS.2025.XXI.011"},{"issue":"10\u201311","key":"10.1016\/j.patcog.2026.114060_b54","first-page":"1684","article-title":"Diffusion policy: Visuomotor policy learning via action diffusion","volume":"44","author":"Chi","year":"2025","journal-title":"IJRR"},{"key":"10.1016\/j.patcog.2026.114060_b55","unstructured":"M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, S. Hochreiter, Gans trained by a two time-scale update rule converge to a local nash equilibrium, in: NeurIPS, 2017."}],"container-title":["Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326010253?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326010253?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,6,8]],"date-time":"2026-06-08T14:55:13Z","timestamp":1780930513000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0031320326010253"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,12]]},"references-count":55,"alternative-id":["S0031320326010253"],"URL":"https:\/\/doi.org\/10.1016\/j.patcog.2026.114060","relation":{},"ISSN":["0031-3203"],"issn-type":[{"value":"0031-3203","type":"print"}],"subject":[],"published":{"date-parts":[[2026,12]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Implicit Chain-of-Thought Reasoning via Task-Aware Latent Motion for transferable VLA","name":"articletitle","label":"Article Title"},{"value":"Pattern Recognition","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.patcog.2026.114060","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"114060"}}