{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,21]],"date-time":"2026-01-21T06:49:49Z","timestamp":1768978189302,"version":"3.49.0"},"publisher-location":"New York, NY, USA","reference-count":34,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,9,11]],"date-time":"2024-09-11T00:00:00Z","timestamp":1726012800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,9,11]]},"DOI":"10.1145\/3688671.3688770","type":"proceedings-article","created":{"date-parts":[[2024,12,27]],"date-time":"2024-12-27T13:06:21Z","timestamp":1735304781000},"page":"1-7","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":2,"title":["The Large Language Model GreekLegalRoBERTa"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-8205-4528","authenticated-orcid":false,"given":"Vasileios","family":"Saketos","sequence":"first","affiliation":[{"name":"KTH Royal Institute of Technology, Stockholm, SE"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9961-8617","authenticated-orcid":false,"given":"Despina-Athanasia","family":"Pantazi","sequence":"additional","affiliation":[{"name":"National and Kapodistrian University of Athens, Athens, GR"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1954-8338","authenticated-orcid":false,"given":"Manolis","family":"Koubarakis","sequence":"additional","affiliation":[{"name":"National and Kapodistrian University of Athens, Athens, GR"}]}],"member":"320","published-online":{"date-parts":[[2024,12,27]]},"reference":[{"key":"e_1_3_3_2_2_2","doi-asserted-by":"publisher","DOI":"10.3233\/978-1-61499-935-5-1"},{"key":"e_1_3_3_2_3_2","unstructured":"Alexandra Apostolopoulou and Spyridon Mpriakos. 2022. NLP Tasks with GreekLegalBERT v2. https:\/\/pergamos.lib.uoa.gr\/uoa\/dl\/frontend\/el\/browse\/2971631. Undergraduate dissertation. Dept. Informatics and Telecommunication National and Kapodistrian University of Athens."},{"key":"e_1_3_3_2_4_2","unstructured":"Konstaninos Athinaios. 2020. Named Entity Recognition using a Novel Linguistic Model for Greek Legal Corpora based on BERT model. https:\/\/pergamos.lib.uoa.gr\/uoa\/dl\/object\/2927727. Undergraduate dissertation. Dept. Informatics and Telecommunication National and Kapodistrian University of Athens."},{"key":"e_1_3_3_2_5_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.700"},{"key":"e_1_3_3_2_6_2","unstructured":"Tom\u00a0B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan Prafulla Dhariwal Arvind Neelakantan Pranav Shyam Girish Sastry Amanda Askell Sandhini Agarwal Ariel Herbert-Voss Gretchen Krueger Tom Henighan Rewon Child Aditya Ramesh Daniel\u00a0M. Ziegler Jeffrey Wu Clemens Winter Christopher Hesse Mark Chen Eric Sigler Mateusz Litwin Scott Gray Benjamin Chess Jack Clark Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever and Dario Amodei. 2020. Language Models are Few-Shot Learners. CoRR abs\/2005.14165 (2020). arXiv:https:\/\/arXiv.org\/abs\/2005.14165https:\/\/arxiv.org\/abs\/2005.14165"},{"key":"e_1_3_3_2_7_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.559"},{"key":"e_1_3_3_2_8_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.findings-emnlp.261"},{"key":"e_1_3_3_2_9_2","doi-asserted-by":"publisher","unstructured":"Ilias Chalkidis Nicolas Garneau Catalina Goanta Daniel\u00a0Martin Katz and Anders S\u00f8gaard. 2023. LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development. CoRR abs\/2305.07507 (2023). 10.48550\/arXiv.2305.07507 arXiv:https:\/\/arXiv.org\/abs\/2305.07507","DOI":"10.48550\/arXiv.2305.07507"},{"key":"e_1_3_3_2_10_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.297"},{"key":"e_1_3_3_2_11_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-58068-5_36"},{"key":"e_1_3_3_2_12_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.747"},{"key":"e_1_3_3_2_13_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N19-1423"},{"key":"e_1_3_3_2_14_2","first-page":"28874","volume-title":"Advances in Neural Information Processing Systems","volume":"35","author":"Dritsa Konstantina","year":"2022","unstructured":"Konstantina Dritsa, Aikaterini Thoma, Ioannis Pavlopoulos, and Panos Louridas. 2022. A Greek Parliament Proceedings Dataset for Computational Linguistics and Political Analysis. In Advances in Neural Information Processing Systems, S.\u00a0Koyejo, S.\u00a0Mohamed, A.\u00a0Agarwal, D.\u00a0Belgrave, K.\u00a0Cho, and A.\u00a0Oh (Eds.), Vol.\u00a035. Curran Associates, Inc., 28874\u201328888. https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2022\/file\/b96ce67b2f2d45e4ab315e13a6b5b9c5-Paper-Datasets_and_Benchmarks.pdf"},{"key":"e_1_3_3_2_15_2","doi-asserted-by":"crossref","unstructured":"Charles Goddard Shamane Siriwardhana Malikeh Ehghaghi Luke Meyers Vlad Karpukhin Brian Benedict Mark McQuade and Jacob Solawetz. 2024. Arcee\u2019s MergeKit: A Toolkit for Merging Large Language Models. arxiv:https:\/\/arXiv.org\/abs\/2403.13257\u00a0[cs.CL]","DOI":"10.18653\/v1\/2024.emnlp-industry.36"},{"key":"e_1_3_3_2_16_2","doi-asserted-by":"crossref","unstructured":"Neel Guha Julian Nyarko Daniel\u00a0E. Ho Christopher R\u00e9 Adam Chilton Aditya Narayana Alex Chohlas-Wood Austin Peters Brandon Waldon Daniel\u00a0N. Rockmore Diego Zambrano Dmitry Talisman Enam Hoque Faiz Surani Frank Fagan Galit Sarfaty Gregory\u00a0M. Dickinson Haggai Porat Jason Hegland Jessica Wu Joe Nudell Joel Niklaus John Nay Jonathan\u00a0H. Choi Kevin Tobia Margaret Hagan Megan Ma Michael Livermore Nikon Rasumov-Rahe Nils Holzenberger Noam Kolt Peter Henderson Sean Rehaag Sharad Goel Shang Gao Spencer Williams Sunny Gandhi Tom Zur Varun Iyer and Zehua Li. 2023. LegalBench: A Collaboratively Built Benchmark for Measuring Legal Reasoning in Large Language Models. arxiv:https:\/\/arXiv.org\/abs\/2308.11462\u00a0[cs.CL]","DOI":"10.2139\/ssrn.4583531"},{"key":"e_1_3_3_2_17_2","doi-asserted-by":"publisher","unstructured":"Jordan Hoffmann Sebastian Borgeaud Arthur Mensch Elena Buchatskaya Trevor Cai Eliza Rutherford Diego de Las\u00a0Casas Lisa\u00a0Anne Hendricks Johannes Welbl Aidan Clark Tom Hennigan Eric Noland Katie Millican George van\u00a0den Driessche Bogdan Damoc Aurelia Guy Simon Osindero Karen Simonyan Erich Elsen Jack\u00a0W. Rae Oriol Vinyals and Laurent Sifre. 2022. Training Compute-Optimal Large Language Models. CoRR abs\/2203.15556 (2022). 10.48550\/ARXIV.2203.15556 arXiv:https:\/\/arXiv.org\/abs\/2203.15556","DOI":"10.48550\/ARXIV.2203.15556"},{"key":"e_1_3_3_2_18_2","unstructured":"Yacine Jernite Samuel\u00a0R. Bowman and David\u00a0A. Sontag. 2017. Discourse-Based Objectives for Fast Unsupervised Sentence Representation Learning. CoRR abs\/1705.00557 (2017). arXiv:https:\/\/arXiv.org\/abs\/1705.00557http:\/\/arxiv.org\/abs\/1705.00557"},{"key":"e_1_3_3_2_19_2","doi-asserted-by":"crossref","unstructured":"Vladimir Karpukhin Barlas O\u011fuz Sewon Min Patrick Lewis Ledell\u00a0Yu Wu Sergey Edunov Danqi Chen and Wen tau Yih. 2020. Dense Passage Retrieval for Open-Domain Question Answering. ArXiv abs\/2004.04906 (2020). https:\/\/api.semanticscholar.org\/CorpusID:215737187","DOI":"10.18653\/v1\/2020.emnlp-main.550"},{"key":"e_1_3_3_2_20_2","first-page":"79","volume-title":"https:\/\/aclanthology.org\/2005.mtsummit-papers.11Proceedings of Machine Translation Summit X: Papers","author":"Koehn Philipp","year":"2005","unstructured":"Philipp Koehn. 2005. Europarl: A Parallel Corpus for Statistical Machine Translation. https:\/\/aclanthology.org\/2005.mtsummit-papers.11. In Proceedings of Machine Translation Summit X: Papers. Phuket, Thailand, 79\u201386."},{"key":"e_1_3_3_2_21_2","doi-asserted-by":"publisher","DOI":"10.1145\/3411408.3411440"},{"key":"e_1_3_3_2_22_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.703"},{"key":"e_1_3_3_2_23_2","first-page":"9459","volume-title":"Advances in Neural Information Processing Systems","author":"Lewis Patrick","year":"2020","unstructured":"Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich K\u00fcttler, Mike Lewis, Wen-tau Yih, Tim Rockt\u00e4schel, Sebastian Riedel, and Douwe Kiela. 2020. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In Advances in Neural Information Processing Systems, H.\u00a0Larochelle, M.\u00a0Ranzato, R.\u00a0Hadsell, M. F. Balcan, and H.\u00a0Lin (Eds.), Vol.\u00a033. Curran Associates, Inc., 9459\u20139474. https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2020\/file\/6b493230205f780e1bc26945df7481e5-Paper.pdf"},{"key":"e_1_3_3_2_24_2","unstructured":"Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy Mike Lewis Luke Zettlemoyer and Veselin Stoyanov. 2019. RoBERTa: A Robustly Optimized BERT Pretraining Approach. CoRR abs\/1907.11692 (2019). arXiv:https:\/\/arXiv.org\/abs\/1907.11692http:\/\/arxiv.org\/abs\/1907.11692"},{"key":"e_1_3_3_2_25_2","doi-asserted-by":"publisher","unstructured":"Joel Niklaus Veton Matoshi Pooja Rani Andrea Galassi Matthias St\u00fcrmer and Ilias Chalkidis. 2023. LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain. CoRR abs\/2301.13126 (2023). 10.48550\/arXiv.2301.13126 arXiv:https:\/\/arXiv.org\/abs\/2301.13126","DOI":"10.48550\/arXiv.2301.13126"},{"key":"e_1_3_3_2_26_2","unstructured":"Zach Nussbaum John\u00a0X. Morris Brandon Duderstadt and Andriy Mulyar. 2024. Nomic Embed: Training a Reproducible Long Context Text Embedder. ArXiv abs\/2402.01613 (2024). https:\/\/api.semanticscholar.org\/CorpusID:267406738"},{"key":"e_1_3_3_2_27_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.156"},{"key":"e_1_3_3_2_28_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.nllp-1.6"},{"key":"e_1_3_3_2_29_2","doi-asserted-by":"publisher","unstructured":"Teven\u00a0Le Scao Angela Fan Christopher Akiki Ellie Pavlick Suzana Ilic Daniel Hesslow Roman Castagn\u00e9 Alexandra\u00a0Sasha Luccioni Fran\u00e7ois Yvon Matthias Gall\u00e9 Jonathan Tow Alexander\u00a0M. Rush Stella Biderman Albert Webson Pawan\u00a0Sasanka Ammanamanchi Thomas Wang Beno\u00eet Sagot Niklas Muennighoff Albert\u00a0Villanova del Moral Olatunji Ruwase Rachel Bawden Stas Bekman Angelina McMillan-Major Iz Beltagy Huu Nguyen Lucile Saulnier Samson Tan Pedro\u00a0Ortiz Suarez Victor Sanh Hugo Lauren\u00e7on Yacine Jernite Julien Launay Margaret Mitchell Colin Raffel Aaron Gokaslan Adi Simhi Aitor Soroa Alham\u00a0Fikri Aji Amit Alfassy Anna Rogers Ariel\u00a0Kreisberg Nitzav Canwen Xu Chenghao Mou Chris Emezue Christopher Klamm Colin Leong Daniel van Strien David\u00a0Ifeoluwa Adelani and et al.2022. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. CoRR abs\/2211.05100 (2022). 10.48550\/ARXIV.2211.05100 arXiv:https:\/\/arXiv.org\/abs\/2211.05100","DOI":"10.48550\/ARXIV.2211.05100"},{"key":"e_1_3_3_2_30_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P16-1162"},{"key":"e_1_3_3_2_31_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.findings-emnlp.320"},{"key":"e_1_3_3_2_32_2","unstructured":"Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux Timoth\u00e9e Lacroix Baptiste Rozi\u00e8re Naman Goyal Eric Hambro Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave and Guillaume Lample. 2023. LLaMA: Open and Efficient Foundation Language Models. arxiv:https:\/\/arXiv.org\/abs\/2302.13971\u00a0[cs.CL]"},{"key":"e_1_3_3_2_33_2","unstructured":"Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan\u00a0N. Gomez Lukasz Kaiser and Illia Polosukhin. 2017. Attention Is All You Need. CoRR abs\/1706.03762 (2017). arXiv:https:\/\/arXiv.org\/abs\/1706.03762http:\/\/arxiv.org\/abs\/1706.03762"},{"key":"e_1_3_3_2_34_2","unstructured":"Liang Wang Nan Yang Xiaolong Huang Binxing Jiao Linjun Yang Daxin Jiang Rangan Majumder and Furu Wei. 2024. Text Embeddings by Weakly-Supervised Contrastive Pre-training. arxiv:https:\/\/arXiv.org\/abs\/2212.03533\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2212.03533"},{"key":"e_1_3_3_2_35_2","doi-asserted-by":"publisher","unstructured":"Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen Shuohui Chen Christopher Dewan Mona\u00a0T. Diab Xian Li Xi\u00a0Victoria Lin Todor Mihaylov Myle Ott Sam Shleifer Kurt Shuster Daniel Simig Punit\u00a0Singh Koura Anjali Sridhar Tianlu Wang and Luke Zettlemoyer. 2022. OPT: Open Pre-trained Transformer Language Models. CoRR abs\/2205.01068 (2022). 10.48550\/ARXIV.2205.01068 arXiv:https:\/\/arXiv.org\/abs\/2205.01068","DOI":"10.48550\/ARXIV.2205.01068"}],"event":{"name":"SETN 2024: 13th Hellenic Conference on Artificial Intelligence","location":"Piraeus Greece","acronym":"SETN 2024"},"container-title":["Proceedings of the 13th Hellenic Conference on Artificial Intelligence"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3688671.3688770","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3688671.3688770","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T01:10:31Z","timestamp":1750295431000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3688671.3688770"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,9,11]]},"references-count":34,"alternative-id":["10.1145\/3688671.3688770","10.1145\/3688671"],"URL":"https:\/\/doi.org\/10.1145\/3688671.3688770","relation":{},"subject":[],"published":{"date-parts":[[2024,9,11]]},"assertion":[{"value":"2024-12-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}