{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,8]],"date-time":"2026-04-08T05:59:07Z","timestamp":1775627947499,"version":"3.50.1"},"reference-count":31,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,12,3]],"date-time":"2025-12-03T00:00:00Z","timestamp":1764720000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,12,3]],"date-time":"2025-12-03T00:00:00Z","timestamp":1764720000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100018696","name":"Health","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100018696","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,12,3]]},"DOI":"10.1109\/icmla66185.2025.00016","type":"proceedings-article","created":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T19:54:58Z","timestamp":1775591698000},"page":"67-74","source":"Crossref","is-referenced-by-count":0,"title":["PEPS: Quantum-Inspired Reinforcement Learning for Coherent Reasoning Traces in LLMs"],"prefix":"10.1109","author":[{"given":"Venkat","family":"Margapuri","sequence":"first","affiliation":[{"name":"Villanova University,Department of Computing Sciences"}]},{"given":"Garik","family":"Kazanjian","sequence":"additional","affiliation":[{"name":"Villanova University,Department of Computing Sciences"}]},{"given":"Naren","family":"Kosaraju","sequence":"additional","affiliation":[{"name":"Villanova University,Department of Computing Sciences"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.307"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00646"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/3747588"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/MedAI59581.2023.00044"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00702"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/3771090"},{"key":"ref7","article-title":"Label supervised llama finetuning","author":"Li","year":"2023","journal-title":"preprint arXiv:2310.01208"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/s13347-025-00861-0"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.52202\/075280-2338"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1145\/3696410.3714705"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1103\/RevModPhys.93.045003"},{"key":"ref12","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017"},{"key":"ref13","article-title":"Quantum-enhanced llm efficient fine tuning","author":"Kong","year":"2025"},{"issue":"2","key":"ref14","first-page":"3","article-title":"Lora: Low-rank adaptation of large language models","volume":"1","author":"Hu","year":"2022","journal-title":"ICLR"},{"key":"ref15","article-title":"Quantum large language models via tensor network disentanglers","author":"Aizpurua","year":"2024"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.52202\/079017-2928"},{"key":"ref17","article-title":"Quantum-inspired techniques in tensor networks for industrial contexts","author":"Ali","year":"2024"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1140\/epjqt\/s40507-025-00334-5"},{"key":"ref19","article-title":"Fine-tuning language models from human preferences","author":"Ziegler","year":"2019"},{"key":"ref20","first-page":"3008","article-title":"Learning to summarize with human feedback","volume":"33","author":"Stiennon","year":"2020","journal-title":"Advances in neural information processing systems"},{"key":"ref21","article-title":"Training language models with language feedback at scale","author":"Scheurer","year":"2023"},{"key":"ref22","article-title":"Constitutional ai: Harmlessness from ai feedback","author":"Bai","year":"2022"},{"key":"ref23","article-title":"Llms are greedy agents: Effects of rl fine-tuning on decision-making abilities","author":"Schmied","year":"2025"},{"key":"ref24","article-title":"e-snli: Natural language inference with natural language explanations","volume":"31","author":"Camburu","year":"2018","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1145\/3769994.3770004"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.52202\/075280-1580"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-emnlp.94"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.585"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00370"},{"key":"ref30","article-title":"Training verifiers to solve math word problems","author":"Cobbe","year":"2021"},{"key":"ref31","article-title":"Tinyllama: An open-source small language model","author":"Zhang","year":"2024"}],"event":{"name":"2025 International Conference on Machine Learning and Applications (ICMLA)","location":"Boca Raton, FL, USA","start":{"date-parts":[[2025,12,3]]},"end":{"date-parts":[[2025,12,5]]}},"container-title":["2025 International Conference on Machine Learning and Applications (ICMLA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11471302\/11471304\/11471457.pdf?arnumber=11471457","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,8]],"date-time":"2026-04-08T05:19:50Z","timestamp":1775625590000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11471457\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,3]]},"references-count":31,"URL":"https:\/\/doi.org\/10.1109\/icmla66185.2025.00016","relation":{},"subject":[],"published":{"date-parts":[[2025,12,3]]}}}