{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,2]],"date-time":"2025-08-02T14:19:08Z","timestamp":1754144348605,"version":"3.41.2"},"reference-count":25,"publisher":"Oxford University Press (OUP)","issue":"Supplement_1","license":[{"start":{"date-parts":[[2025,7,15]],"date-time":"2025-07-15T00:00:00Z","timestamp":1752537600000},"content-version":"vor","delay-in-days":14,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"name":"Bio & Medical Technology Development"},{"DOI":"10.13039\/501100001321","name":"National Research Foundation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001321","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100014188","name":"Ministry of Science and ICT","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100014188","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Republic of Korea","award":["RS-2022-NR067933"],"award-info":[{"award-number":["RS-2022-NR067933"]}]},{"DOI":"10.13039\/100007431","name":"NRF","doi-asserted-by":"publisher","award":["RS-2023-00257479"],"award-info":[{"award-number":["RS-2023-00257479"]}],"id":[{"id":"10.13039\/100007431","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Institute of Information & communications Technology Planning & Evaluation"},{"DOI":"10.13039\/501100014188","name":"MSIT","doi-asserted-by":"publisher","award":["RS-2021-II211343"],"award-info":[{"award-number":["RS-2021-II211343"]}],"id":[{"id":"10.13039\/501100014188","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Artificial Intelligence Graduate School Program"},{"DOI":"10.13039\/501100002551","name":"Seoul National University","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002551","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100031757","name":"AIGENDRUG Co., Ltd.","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100031757","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002551","name":"Seoul National University","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002551","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,7,1]]},"abstract":"<jats:title>Abstract<\/jats:title>\n               <jats:sec>\n                  <jats:title>Summary<\/jats:title>\n                  <jats:p>Drug\u2013target affinity (DTA) prediction is an important regression task for drug discovery, which can provide richer information than traditional drug\u2013target interaction prediction as a binary prediction task. To achieve accurate DTA prediction, quite large amount of data are required for each drug, which is not available as of now. Thus, data scarcity and sparsity is a major challenge. Another important task is \u201ccold-start\u201d DTA prediction for unseen drug or protein. In this work, we introduce MixingDTA, a novel framework to tackle data scarcity by incorporating domain-specific pretrained language models for molecules and proteins with our MEETA (MolFormer and ESM-based Efficient aggregation Transformer for Affinity) model. We further address the label sparsity and cold-start challenges through a novel data augmentation strategy named GBA-Mixup, which interpolates embeddings of neighboring entities based on the guilt-by-association (GBA) principle, to improve prediction accuracy even in sparse regions of DTA space. Our experiments on benchmark datasets demonstrate that the MEETA backbone alone provides up to a 19% improvement of mean squared error over current state-of-the-art baseline, and the addition of GBA-Mixup contributes a further 8.4% improvement. Importantly, GBA-Mixup is model-agnostic, delivering performance gains across all tested backbone models of up to 16.9%. Case studies shows how MixingDTA interpolates between drugs and targets in the embedding space, demonstrating generalizability for unseen drug\u2013target pairs while effectively focusing on functionally critical residues. These results highlight MixingDTA\u2019s potential to accelerate drug discovery by offering accurate, scalable, and biologically informed DTA predictions.<\/jats:p>\n               <\/jats:sec>\n               <jats:sec>\n                  <jats:title>Availability and implementation<\/jats:title>\n                  <jats:p>The code for MixingDTA is available at https:\/\/github.com\/rokieplayer20\/MixingDTA.<\/jats:p>\n               <\/jats:sec>","DOI":"10.1093\/bioinformatics\/btaf238","type":"journal-article","created":{"date-parts":[[2025,7,15]],"date-time":"2025-07-15T13:01:55Z","timestamp":1752584515000},"page":"i105-i114","source":"Crossref","is-referenced-by-count":0,"title":["MixingDTA: improved drug\u2013target affinity prediction by extending mixup with guilt-by-association"],"prefix":"10.1093","volume":"41","author":[{"ORCID":"https:\/\/orcid.org\/0009-0005-0456-4385","authenticated-orcid":false,"given":"Youngoh","family":"Kim","sequence":"first","affiliation":[{"name":"Bio-MAX Institute, Seoul National University , Seoul, 08826,","place":["Republic of Korea"]}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9217-8380","authenticated-orcid":false,"given":"Dongmin","family":"Bang","sequence":"additional","affiliation":[{"name":"Interdisciplinary Program in Bioinformatics, Seoul National University , Seoul, 08826,","place":["Republic of Korea"]},{"name":"AIGENDRUG Co., Ltd. , Seoul, 08758,","place":["Republic of Korea"]}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4357-1850","authenticated-orcid":false,"given":"Bonil","family":"Koo","sequence":"additional","affiliation":[{"name":"Interdisciplinary Program in Bioinformatics, Seoul National University , Seoul, 08826,","place":["Republic of Korea"]},{"name":"AIGENDRUG Co., Ltd. , Seoul, 08758,","place":["Republic of Korea"]}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5127-7224","authenticated-orcid":false,"given":"Jungseob","family":"Yi","sequence":"additional","affiliation":[{"name":"Interdisciplinary Program in Artificial Intelligence, Seoul National University , Seoul, 08826,","place":["Republic of Korea"]}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8585-4026","authenticated-orcid":false,"given":"Changyun","family":"Cho","sequence":"additional","affiliation":[{"name":"Interdisciplinary Program in Bioinformatics, Seoul National University , Seoul, 08826,","place":["Republic of Korea"]},{"name":"AIGENDRUG Co., Ltd. , Seoul, 08758,","place":["Republic of Korea"]}]},{"given":"Jeonguk","family":"Choi","sequence":"additional","affiliation":[{"name":"Interdisciplinary Program in Artificial Intelligence, Seoul National University , Seoul, 08826,","place":["Republic of Korea"]}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5385-9546","authenticated-orcid":false,"given":"Sun","family":"Kim","sequence":"additional","affiliation":[{"name":"Interdisciplinary Program in Bioinformatics, Seoul National University , Seoul, 08826,","place":["Republic of Korea"]},{"name":"AIGENDRUG Co., Ltd. , Seoul, 08758,","place":["Republic of Korea"]},{"name":"Interdisciplinary Program in Artificial Intelligence, Seoul National University , Seoul, 08826,","place":["Republic of Korea"]},{"name":"Department of Computer Science and Engineering, Seoul National University , Seoul, 08826,","place":["Republic of Korea"]}]}],"member":"286","published-online":{"date-parts":[[2025,7,15]]},"reference":[{"key":"2025071509014851600_btaf238-B1","doi-asserted-by":"crossref","first-page":"1046","DOI":"10.1038\/nbt.1990","article-title":"Comprehensive analysis of kinase inhibitor selectivity","volume":"29","author":"Davis","year":"2011","journal-title":"Nat Biotechnol"},{"key":"2025071509014851600_btaf238-B2","doi-asserted-by":"crossref","first-page":"eads0018","DOI":"10.1126\/science.ads0018","article-title":"Simulating 500 million years of evolution with a language model","volume":"387","author":"Hayes","year":"2025","journal-title":"Science"},{"year":"2021","author":"Huang","key":"2025071509014851600_btaf238-B3"},{"year":"2020","author":"Katharopoulos","key":"2025071509014851600_btaf238-B4"},{"key":"2025071509014851600_btaf238-B5","doi-asserted-by":"crossref","first-page":"50","DOI":"10.1021\/acs.jcim.4c01255","article-title":"Residue-level multiview deep learning for ATP binding site prediction and applications in kinase inhibitors","volume":"65","author":"Lee","year":"2025","journal-title":"J Chem Inf Model"},{"key":"2025071509014851600_btaf238-B6","doi-asserted-by":"crossref","first-page":"1541","DOI":"10.1016\/j.csbj.2021.03.004","article-title":"A review on compound-protein interaction prediction methods: data, format, representation and model","volume":"19","author":"Lim","year":"2021","journal-title":"Comput Struct Biotechnol J"},{"key":"2025071509014851600_btaf238-B7","doi-asserted-by":"crossref","first-page":"D198","DOI":"10.1093\/nar\/gkl999","article-title":"BindingDB: a web-accessible database of experimentally determined protein\u2013ligand binding affinities","volume":"35","author":"Liu","year":"2006","journal-title":"Nucleic Acids Res"},{"key":"2025071509014851600_btaf238-B8","doi-asserted-by":"crossref","first-page":"405","DOI":"10.1093\/bioinformatics\/btu626","article-title":"PDB-wide collection of binding data: current status of the PDBbind database","volume":"31","author":"Liu","year":"2014","journal-title":"Bioinformatics"},{"key":"2025071509014851600_btaf238-B9","doi-asserted-by":"crossref","first-page":"1140","DOI":"10.1093\/bioinformatics\/btaa921","article-title":"GraphDTA: predicting drug\u2013target binding affinity with graph neural networks","volume":"37","author":"Nguyen","year":"2021","journal-title":"Bioinformatics"},{"key":"2025071509014851600_btaf238-B10","doi-asserted-by":"crossref","first-page":"i821","DOI":"10.1093\/bioinformatics\/bty593","article-title":"DeepDTA: deep drug\u2013target binding affinity prediction","volume":"34","author":"\u00d6zt\u00fcrk","year":"2018","journal-title":"Bioinformatics"},{"key":"2025071509014851600_btaf238-B11","doi-asserted-by":"crossref","first-page":"bbad386","DOI":"10.1093\/bib\/bbad386","article-title":"Breaking the barriers of data scarcity in drug\u2013target affinity prediction","volume":"24","author":"Pei","year":"2023","journal-title":"Brief Bioinform"},{"first-page":"1","year":"2007","author":"Ranzato","key":"2025071509014851600_btaf238-B12"},{"key":"2025071509014851600_btaf238-B13","doi-asserted-by":"crossref","first-page":"1256","DOI":"10.1038\/s42256-022-00580-7","article-title":"Large-scale chemical language representations capture molecular structure and properties","volume":"4","author":"Ross","year":"2022","journal-title":"Nat Mach Intell"},{"key":"2025071509014851600_btaf238-B14","doi-asserted-by":"crossref","first-page":"735","DOI":"10.1021\/ci400709d","article-title":"Making sense of large-scale kinase inhibitor bioactivity data sets: a comparative and integrative analysis","volume":"54","author":"Tang","year":"2014","journal-title":"J Chem Inf Model"},{"key":"2025071509014851600_btaf238-B15","doi-asserted-by":"crossref","first-page":"4751","DOI":"10.1038\/s41598-022-08787-9","article-title":"Affinity2vec: drug-target binding affinity prediction through representation learning, graph mining, and machine learning","volume":"12","author":"Thafar","year":"2022","journal-title":"Sci Rep"},{"author":"Vaswani","key":"2025071509014851600_btaf238-B16","article-title":"Attention is all you need"},{"key":"2025071509014851600_btaf238-B17","doi-asserted-by":"crossref","first-page":"bbad516","DOI":"10.1093\/bib\/bbae516","article-title":"Predicting drug\u2013target binding affinity with cross-scale graph contrastive learning","volume":"25","author":"Wang","year":"2024","journal-title":"Brief Bioinform"},{"key":"2025071509014851600_btaf238-B18","doi-asserted-by":"crossref","first-page":"4247","DOI":"10.1021\/acs.jpclett.1c00867","article-title":"DTI: mutual learning mechanism for interpretable drug\u2013target interaction prediction","volume":"12","author":"Yang","year":"2021","journal-title":"J Phys Chem Lett"},{"key":"2025071509014851600_btaf238-B19","doi-asserted-by":"crossref","first-page":"816","DOI":"10.1039\/D1SC05180F","article-title":"MGraphDTA: deep multiscale graph neural network for explainable drug\u2013target binding affinity prediction","volume":"13","author":"Yang","year":"2022","journal-title":"Chem Sci"},{"key":"2025071509014851600_btaf238-B20","first-page":"3361","volume-title":"Advances in Neural Information Processing Systems","author":"Yao","year":"2022"},{"key":"2025071509014851600_btaf238-B21","doi-asserted-by":"crossref","first-page":"1775","DOI":"10.1039\/C9SC04336E","article-title":"Target identification among known drugs by deep learning from heterogeneous networks","volume":"11","author":"Zeng","year":"2020","journal-title":"Chem Sci"},{"year":"2021","author":"Zhai","key":"2025071509014851600_btaf238-B22"},{"year":"2018","author":"Zhang","key":"2025071509014851600_btaf238-B23"},{"key":"2025071509014851600_btaf238-B24","doi-asserted-by":"crossref","first-page":"852","DOI":"10.1109\/TCBB.2022.3170365","article-title":"AttentionDTA: drug\u2013target binding affinity prediction by sequence-based deep learning with attention mechanism","volume":"20","author":"Zhao","year":"2023","journal-title":"IEEE\/ACM Trans Comput Biol Bioinform"},{"key":"2025071509014851600_btaf238-B25","doi-asserted-by":"crossref","first-page":"124647","DOI":"10.1016\/j.eswa.2024.124647","article-title":"Drug\u2013target binding affinity prediction model based on multi-scale diffusion and interactive learning","volume":"255","author":"Zhu","year":"2024","journal-title":"Expert Syst Appl"}],"container-title":["Bioinformatics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/41\/Supplement_1\/i105\/63745679\/btaf238.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/41\/Supplement_1\/i105\/63745679\/btaf238.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,7,15]],"date-time":"2025-07-15T13:01:58Z","timestamp":1752584518000},"score":1,"resource":{"primary":{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article\/41\/Supplement_1\/i105\/8199404"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,7,1]]},"references-count":25,"journal-issue":{"issue":"Supplement_1","published-print":{"date-parts":[[2025,7,1]]}},"URL":"https:\/\/doi.org\/10.1093\/bioinformatics\/btaf238","relation":{},"ISSN":["1367-4803","1367-4811"],"issn-type":[{"type":"print","value":"1367-4803"},{"type":"electronic","value":"1367-4811"}],"subject":[],"published-other":{"date-parts":[[2025,7]]},"published":{"date-parts":[[2025,7,1]]}}}