{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,9,9]],"date-time":"2024-09-09T01:50:35Z","timestamp":1725846635281},"publisher-location":"Cham","reference-count":16,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783319275420"},{"type":"electronic","value":"9783319275437"}],"license":[{"start":{"date-parts":[[2015,1,1]],"date-time":"2015-01-01T00:00:00Z","timestamp":1420070400000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2015]]},"DOI":"10.1007\/978-3-319-27543-7_5","type":"book-chapter","created":{"date-parts":[[2016,1,5]],"date-time":"2016-01-05T10:48:46Z","timestamp":1451990926000},"page":"99-116","source":"Crossref","is-referenced-by-count":1,"title":["Scalarized and Pareto Knowledge Gradient for Multi-objective Multi-armed Bandits"],"prefix":"10.1007","author":[{"given":"Saba","family":"Yahyaa","sequence":"first","affiliation":[]},{"given":"Madalina M.","family":"Drugan","sequence":"additional","affiliation":[]},{"given":"Bernard","family":"Manderick","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2016,1,6]]},"reference":[{"key":"5_CR1","volume-title":"Reinforcement Learning: An Introduction","author":"RS Sutton","year":"1998","unstructured":"Sutton, R.S., Barto, A.G.: Reinforcement Learning: An Introduction. MIT Press, Cambridge (1998)"},{"key":"5_CR2","unstructured":"Yahyaa, S.Q., Manderick, B.: The exploration vs exploitation trade-off in the multi-armed bandit problem: an empirical study. In: 20th European Symposium on Artificial Neural Networks (ESANN), pp. 549\u2013554 (2012)"},{"key":"5_CR3","unstructured":"Ryzhov, I.O., Powell, W.B., Frazier, P.I.: The knowledge-gradient policy for a general class of online learning problems. J. Oper. Res. (2011)"},{"issue":"2\u20133","key":"5_CR4","doi-asserted-by":"publisher","first-page":"235","DOI":"10.1023\/A:1013689704352","volume":"47","author":"P Auer","year":"2002","unstructured":"Auer, P., Cesa-Bianchi, N., Fischer, P.: Finite-time analysis of the multiarmed bandit problem. J. Mach. Learn. 47(2\u20133), 235\u2013256 (2002)","journal-title":"J. Mach. Learn."},{"key":"5_CR5","doi-asserted-by":"crossref","unstructured":"Drugan, M.M., Nowe, A.: Designing multi-objective multi-armed bandits algorithms: a study. In: International Joint Conference on Neural Networks (IJCNN), pp. 1\u20138 (2013)","DOI":"10.1109\/IJCNN.2013.6707036"},{"key":"5_CR6","doi-asserted-by":"crossref","unstructured":"Yahyaa, S.Q., Drugan, M.M., Manderick, B.: The scalarized multi-objective multi-armed bandit problem: an empirical study of its exploration vs. exploration tradeoff. In: International Joint Conference on Neural Networks (IJCNN), pp. 2290\u20132297 (2014)","DOI":"10.1109\/IJCNN.2014.6889390"},{"key":"5_CR7","doi-asserted-by":"crossref","unstructured":"Yahyaa, S.Q., Drugan, M.M., Manderick, B.: Linear scalarized knowledge gradient in the multi-objective multi-armed bandits problem. In: 22th European Symposium on Artificial Neural Networks (ESANN) (2014)","DOI":"10.1007\/978-3-319-27543-7_5"},{"key":"5_CR8","doi-asserted-by":"crossref","unstructured":"Yahyaa, S.Q., Drugan, M.M., Manderick, B.: Annealing-pareto multi-objective multi-armed bandits algorithm. In: IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL), pp. 1\u20138 (2014)","DOI":"10.1109\/ADPRL.2014.7010619"},{"key":"5_CR9","doi-asserted-by":"publisher","first-page":"117","DOI":"10.1109\/TEVC.2003.810758","volume":"7","author":"E Zitzler","year":"2002","unstructured":"Zitzler, E., Thiele, L., Laumanns, M., Fonseca, C.M., Da Fonseca, V.G.: Performance assessment of multiobjective optimizers: an analysis and review. IEEE Trans. Evol. Comput. 7, 117\u2013132 (2002)","journal-title":"IEEE Trans. Evol. Comput."},{"key":"5_CR10","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-79159-1","volume-title":"Adaptive Scalarization Methods in Multiobjective Optimization","author":"G Eichfelder","year":"2008","unstructured":"Eichfelder, G.: Adaptive Scalarization Methods in Multiobjective Optimization. Springer, Heidelberg (2008)"},{"key":"5_CR11","doi-asserted-by":"publisher","DOI":"10.1002\/9781118309858","volume-title":"Optimal Learning","author":"WB Powell","year":"2012","unstructured":"Powell, W.B., Ryzhov, I.O.: Optimal Learning. Willey, Canada (2012)"},{"key":"5_CR12","unstructured":"Kuleshov, V., Precup, D.: Algorithms for multi-armed bandit problems. J. (2014). CoRR \n                    abs\/1402.6028"},{"key":"5_CR13","doi-asserted-by":"publisher","DOI":"10.1002\/9780470182963","volume-title":"Approximate Dynamic Programming: Solving the Curses of Dimensionality","author":"WB Powell","year":"2007","unstructured":"Powell, W.B.: Approximate Dynamic Programming: Solving the Curses of Dimensionality. Wiley, New York (2007)"},{"issue":"1","key":"5_CR14","doi-asserted-by":"publisher","first-page":"63","DOI":"10.1007\/BF01197559","volume":"14","author":"I Das","year":"1997","unstructured":"Das, I., Dennis, J.E.: A closer look at drawbacks of minimizing weighted sums of objectives for pareto set generation in multicriteria optimization problems. Struct. Optim. 14(1), 63\u201369 (1997)","journal-title":"Struct. Optim."},{"key":"5_CR15","series-title":"International Series in Operations Research and Management Science","volume-title":"Nonlinear Multiobjective Optimization","author":"K Miettinen","year":"1999","unstructured":"Miettinen, K.: Nonlinear Multiobjective Optimization. International Series in Operations Research and Management Science. Springer, Heidelberg (1999)"},{"key":"5_CR16","doi-asserted-by":"crossref","unstructured":"Yahyaa, S.Q., Drugan, M.M., Manderick, B.: Knowledge gradient for multi-objective multi-armed bandit algorithms. In: 6th International Conference on Agents and Artificial Intelligence (ICAART) (2014)","DOI":"10.1109\/ADPRL.2014.7010619"}],"container-title":["Lecture Notes in Computer Science","Transactions on Computational Collective Intelligence XX"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-27543-7_5","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,6,1]],"date-time":"2019-06-01T04:28:25Z","timestamp":1559363305000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-27543-7_5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015]]},"ISBN":["9783319275420","9783319275437"],"references-count":16,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-27543-7_5","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2015]]}}}