{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,28]],"date-time":"2025-09-28T20:44:38Z","timestamp":1759092278023},"reference-count":39,"publisher":"Oxford University Press (OUP)","issue":"13","license":[{"start":{"date-parts":[[2016,10,2]],"date-time":"2016-10-02T00:00:00Z","timestamp":1475366400000},"content-version":"vor","delay-in-days":3015,"URL":"http:\/\/creativecommons.org\/licenses\/by-nc\/2.0\/uk\/"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2008,7,1]]},"abstract":"<jats:title>Abstract<\/jats:title>\n               <jats:p>Motivation: The flexibility in gap cost enjoyed by hidden Markov models (HMMs) is expected to afford them better retrieval accuracy than position-specific scoring matrices (PSSMs). We attempt to quantify the effect of more general gap parameters by separately examining the influence of position- and composition-specific gap scores, as well as by comparing the retrieval accuracy of the PSSMs constructed using an iterative procedure to that of the HMMs provided by Pfam and SUPERFAMILY, curated ensembles of multiple alignments.<\/jats:p>\n               <jats:p>Results: We found that position-specific gap penalties have an advantage over uniform gap costs. We did not explore optimizing distinct uniform gap costs for each query. For Pfam, PSSMs iteratively constructed from seeds based on HMM consensus sequences perform equivalently to HMMs that were adjusted to have constant gap transition probabilities, albeit with much greater variance. We observed no effect of composition-specific gap costs on retrieval performance. These results suggest possible improvements to the PSI-BLAST protein database search program.<\/jats:p>\n               <jats:p>Availability: The scripts for performing evaluations are available upon request from the authors.<\/jats:p>\n               <jats:p>Contact: \u00a0yyu@ncbi.nlm.nih.gov<\/jats:p>","DOI":"10.1093\/bioinformatics\/btn171","type":"journal-article","created":{"date-parts":[[2008,6,27]],"date-time":"2008-06-27T07:43:13Z","timestamp":1214552593000},"page":"i15-i23","source":"Crossref","is-referenced-by-count":6,"title":["The effectiveness of position- and composition-specific gap costs for protein similarity searches"],"prefix":"10.1093","volume":"24","author":[{"given":"Aleksandar","family":"Stojmirovi\u0107","sequence":"first","affiliation":[{"name":"National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD 20894, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"E. Michael","family":"Gertz","sequence":"additional","affiliation":[{"name":"National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD 20894, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Stephen F.","family":"Altschul","sequence":"additional","affiliation":[{"name":"National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD 20894, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yi-Kuo","family":"Yu","sequence":"additional","affiliation":[{"name":"National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD 20894, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"286","published-online":{"date-parts":[[2008,7,1]]},"reference":[{"key":"2023020210344372100_B1","doi-asserted-by":"crossref","first-page":"3389","DOI":"10.1093\/nar\/25.17.3389","article-title":"Gapped BLAST and PSI\u2013BLAST: a new generation of protein database search programs","volume":"25","author":"Altschul","year":"1997","journal-title":"Nucleic Acids Res"},{"issue":"Database issue","key":"2023020210344372100_B2","doi-asserted-by":"crossref","first-page":"D419","DOI":"10.1093\/nar\/gkm993","article-title":"Data growth and its impact on the SCOP database: new developments","volume":"36","author":"Andreeva","year":"2007","journal-title":"Nucleic Acids Res"},{"key":"2023020210344372100_B3","first-page":"191","article-title":"Scoring hidden Markov models","volume":"13","author":"Barrett","year":"1997","journal-title":"Comput. Appl. Biosci"},{"key":"2023020210344372100_B4","doi-asserted-by":"crossref","first-page":"1065","DOI":"10.1006\/jmbi.1993.1105","article-title":"Empirical and structural models for insertions and deletions in the divergent evolution of proteins","volume":"229","author":"Benner","year":"1993","journal-title":"J. Mol. Biol"},{"key":"2023020210344372100_B5","doi-asserted-by":"crossref","first-page":"D189","DOI":"10.1093\/nar\/gkh034","article-title":"The ASTRAL Compendium in 2004","volume":"32","author":"Chandonia","year":"2004","journal-title":"Nucleic Acids Res"},{"key":"2023020210344372100_B6","doi-asserted-by":"crossref","first-page":"617","DOI":"10.1016\/j.jmb.2004.05.045","article-title":"Empirical analysis of protein insertions and deletions determining parameters for the correct placement of gaps in protein sequence alignments","volume":"341","author":"Chang","year":"2004","journal-title":"J. Mol. Biol"},{"key":"2023020210344372100_B7","doi-asserted-by":"crossref","DOI":"10.1017\/CBO9780511790492","volume-title":"Biological Sequence Analysis","author":"Durbin","year":"1998"},{"key":"2023020210344372100_B8","doi-asserted-by":"crossref","first-page":"755","DOI":"10.1093\/bioinformatics\/14.9.755","article-title":"Profile hidden Markov models","volume":"14","author":"Eddy","year":"1998","journal-title":"Bioinformatics"},{"key":"2023020210344372100_B9","unstructured":"Eddy\n              SR\n            \n          \n          HMMER user's guide\n          2003\n          \n            ftp:\/\/selab.janelia.org\/pub\/software\/hmmer\/CURRENT\/Userguide.pdf"},{"key":"2023020210344372100_B10","doi-asserted-by":"crossref","first-page":"D247","DOI":"10.1093\/nar\/gkj149","article-title":"Pfam: clans, web tools and services","volume":"34","author":"Finn","year":"2006","journal-title":"Nucleic Acids Res"},{"key":"2023020210344372100_B11","doi-asserted-by":"crossref","first-page":"705","DOI":"10.1016\/0022-2836(82)90398-9","article-title":"An improved algorithm for matching biological sequences","volume":"162","author":"Gotoh","year":"1982","journal-title":"J. Mol. Biol"},{"key":"2023020210344372100_B12","doi-asserted-by":"crossref","first-page":"903","DOI":"10.1006\/jmbi.2001.5080","article-title":"Assignment of homology to genome sequences using a library of hidden Markov models that represent all proteins of known structure","volume":"313","author":"Gough","year":"2001","journal-title":"J. Mol. Biol"},{"issue":"12","key":"2023020210344372100_B13","doi-asserted-by":"crossref","first-page":"1834","DOI":"10.1109\/JPROC.2002.805303","article-title":"Bootstrapping and normalization for enhanced evaluations of pairwise sequence comparison","volume":"90","author":"Green","year":"2002","journal-title":"Proc. IEEE"},{"key":"2023020210344372100_B14","doi-asserted-by":"crossref","first-page":"25","DOI":"10.1016\/S0097-8485(96)80004-0","article-title":"Use of receiver operating characteristic (ROC) analysis to evaluate sequence matching","volume":"20","author":"Gribskov","year":"1996","journal-title":"Comput. Chem"},{"key":"2023020210344372100_B15","doi-asserted-by":"crossref","first-page":"4355","DOI":"10.1073\/pnas.84.13.4355","article-title":"Profile analysis: detection of distantly related proteins","volume":"84","author":"Gribskov","year":"1987","journal-title":"Proc. Natl Acad. Sci. USA"},{"key":"2023020210344372100_B16","doi-asserted-by":"crossref","DOI":"10.7312\/gumb92958","volume-title":"Statistics of Extremes","author":"Gumbel","year":"1958"},{"key":"2023020210344372100_B17","doi-asserted-by":"crossref","first-page":"1278","DOI":"10.1016\/S1076-6332(03)80561-5","article-title":"Comparison of three methods for estimating the standard error of the area under the curve in ROC analysis of quantitative data","volume":"9","author":"Hajian-Tilaki","year":"2002","journal-title":"Acad. Radiol"},{"key":"2023020210344372100_B18","doi-asserted-by":"crossref","first-page":"29","DOI":"10.1148\/radiology.143.1.7063747","article-title":"The meaning and use of the area under a receiver operating characteristic (ROC) curve","volume":"143","author":"Hanley","year":"1982","journal-title":"Radiology"},{"key":"2023020210344372100_B19","doi-asserted-by":"crossref","first-page":"10915","DOI":"10.1073\/pnas.89.22.10915","article-title":"Amino acid substitution matrices from protein blocks","volume":"89","author":"Henikoff","year":"1992","journal-title":"Proc. Natl Acad. Sci. USA"},{"key":"2023020210344372100_B20","first-page":"95","article-title":"Hidden Markov models for sequence analysis: extension and analysis of the basic method","volume":"12","author":"Hughey","year":"1996","journal-title":"Comput. Appl. Biosci"},{"key":"2023020210344372100_B21","doi-asserted-by":"crossref","first-page":"4107","DOI":"10.1093\/bioinformatics\/bti629","article-title":"Calibrating E-values for hidden Markov models using reverse-sequence null models","volume":"21","author":"Karplus","year":"2005","journal-title":"Bioinformatics"},{"key":"2023020210344372100_B22","doi-asserted-by":"crossref","first-page":"1501","DOI":"10.1006\/jmbi.1994.1104","article-title":"Hidden Markov models in computational biology: applications to protein modeling","volume":"235","author":"Krogh","year":"1994","journal-title":"J. Mol. Biol"},{"key":"2023020210344372100_B23","doi-asserted-by":"crossref","first-page":"4321","DOI":"10.1093\/nar\/gkf544","article-title":"A comparison of profile hidden Markov model procedures for remote homology detection","volume":"30","author":"Madera","year":"2002","journal-title":"Nucleic Acids Res"},{"key":"2023020210344372100_B24","doi-asserted-by":"crossref","first-page":"536","DOI":"10.1016\/S0022-2836(05)80134-2","article-title":"SCOP: a structural classification of proteins database for the investigation of sequences and structures","volume":"247","author":"Murzin","year":"1995","journal-title":"J. Mol. Biol"},{"key":"2023020210344372100_B25","doi-asserted-by":"crossref","first-page":"461","DOI":"10.1016\/0022-2836(92)91008-D","article-title":"Analysis of insertions\/deletions in protein structures","volume":"224","author":"Pascarella","year":"1992","journal-title":"J. Mol. Biol"},{"key":"2023020210344372100_B26","doi-asserted-by":"crossref","first-page":"3824","DOI":"10.1093\/bioinformatics\/bti627","article-title":"Statistical evaluation of pairwise protein sequence comparison with the Bayesian bootstrap","volume":"21","author":"Price","year":"2005","journal-title":"Bioinformatics"},{"key":"2023020210344372100_B27","doi-asserted-by":"crossref","first-page":"881","DOI":"10.1002\/prot.20854","article-title":"SSALN: an alignment algorithm using structure-dependent substitution matrices and gap penalties learned from structurally aligned protein pairs","volume":"62","author":"Qiu","year":"2006","journal-title":"Proteins"},{"key":"2023020210344372100_B28","doi-asserted-by":"crossref","first-page":"1500","DOI":"10.1093\/bioinformatics\/18.11.1500","article-title":"Empirical determination of effective gap penalties for sequence comparison","volume":"18","author":"Reese","year":"2002","journal-title":"Bioinformatics"},{"key":"2023020210344372100_B29","doi-asserted-by":"crossref","first-page":"2994","DOI":"10.1093\/nar\/29.14.2994","article-title":"Improving the accuracy of PSI-BLAST protein database searches with composition-based statistics and other refinements","volume":"29","author":"Sch\u00e4ffer","year":"2001","journal-title":"Nucleic Acids Res"},{"key":"2023020210344372100_B30","doi-asserted-by":"crossref","first-page":"195","DOI":"10.1016\/0022-2836(81)90087-5","article-title":"Identification of common molecular subsequences","volume":"147","author":"Smith","year":"1981","journal-title":"J. Mol. Biol"},{"key":"2023020210344372100_B31","doi-asserted-by":"crossref","first-page":"206","DOI":"10.1093\/bioinformatics\/btg392","article-title":"Comparative evaluation of word composition distances for the recognition of SCOP relationships","volume":"20","author":"Vinga","year":"2004","journal-title":"Bioinformatics"},{"key":"2023020210344372100_B32","doi-asserted-by":"crossref","first-page":"D5","DOI":"10.1093\/nar\/gkl1031","article-title":"Database resources of the National Center for Biotechnology Information","volume":"35","author":"Wheeler","year":"2007","journal-title":"Nucleic Acids Res"},{"key":"2023020210344372100_B33","doi-asserted-by":"crossref","first-page":"D308","DOI":"10.1093\/nar\/gkl910","article-title":"The SUPERFAMILY database in 2007: families and functions","volume":"35","author":"Wilson","year":"2007","journal-title":"Nucleic Acids Res"},{"key":"2023020210344372100_B34","doi-asserted-by":"crossref","first-page":"99","DOI":"10.1186\/1471-2105-6-99","article-title":"Improved profile HMM performance by assessment of critical algorithmic features in SAM and HMMER","volume":"6","author":"Wistrand","year":"2005","journal-title":"BMC Bioinformatics"},{"key":"2023020210344372100_B35","doi-asserted-by":"crossref","first-page":"71","DOI":"10.1002\/prot.10508","article-title":"Gaps in structurally similar proteins: towards improvement of multiple sequence alignment","volume":"54","author":"Wrabl","year":"2004","journal-title":"Proteins"},{"key":"2023020210344372100_B36","doi-asserted-by":"crossref","first-page":"249","DOI":"10.1089\/10665270152530845","article-title":"Statistical significance of probabilistic sequence alignment and related local hidden Markov models","volume":"8","author":"Yu","year":"2001","journal-title":"J. Comput. Biol"},{"key":"2023020210344372100_B37","doi-asserted-by":"crossref","first-page":"864","DOI":"10.1093\/bioinformatics\/18.6.864","article-title":"Hybrid alignment: high-performance with universal statistics","volume":"18","author":"Yu","year":"2002","journal-title":"Bioinformatics"},{"key":"2023020210344372100_B38","doi-asserted-by":"crossref","first-page":"15688","DOI":"10.1073\/pnas.2533904100","article-title":"The compositional adjustment of amino acid substitution matrices","volume":"100","author":"Yu","year":"2003","journal-title":"Proc. Natl Acad. Sci. USA"},{"key":"2023020210344372100_B39","doi-asserted-by":"crossref","first-page":"5966","DOI":"10.1093\/nar\/gkl731","article-title":"Retrieval accuracy, statistical significance and compositional similarity in protein sequence database searches","volume":"34","author":"Yu","year":"2006","journal-title":"Nucleic Acids Res"}],"container-title":["Bioinformatics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/24\/13\/i15\/49049707\/bioinformatics_24_13_i15.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/24\/13\/i15\/49049707\/bioinformatics_24_13_i15.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,2,2]],"date-time":"2023-02-02T12:08:06Z","timestamp":1675339686000},"score":1,"resource":{"primary":{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article\/24\/13\/i15\/233618"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2008,7,1]]},"references-count":39,"journal-issue":{"issue":"13","published-print":{"date-parts":[[2008,7,1]]}},"URL":"https:\/\/doi.org\/10.1093\/bioinformatics\/btn171","relation":{},"ISSN":["1367-4811","1367-4803"],"issn-type":[{"value":"1367-4811","type":"electronic"},{"value":"1367-4803","type":"print"}],"subject":[],"published-other":{"date-parts":[[2008,7,1]]},"published":{"date-parts":[[2008,7,1]]}}}