Салмақ матрицасы - Position weight matrix

PWM көбінесе графикалық түрде келесі түрінде ұсынылады логотиптер.

A салмақ матрицасы (PWM), сондай-ақ а салмаққа арналған матрица (PSWM) немесе баллға арналған матрица (PSSM), әдетте қолданылатын мотивтер (заңдылықтар) биологиялық тізбектегі.

PWM көбінесе функционалды байланысты деп есептелген және есептеу мотивін ашудың көптеген бағдарламалық құралдарының маңызды бөлігіне айналған реттелген тізбектер жиынтығынан алынады.

Фон

PWM-ді американдық генетик енгізді Гари Стормо.

Позициялық салмақ матрицасын американдық генетик енгізген Гари Стормо және әріптестері 1982 ж[1] балама ретінде консенсус дәйектілігі. Консенсус дәйектілігі бұрын биологиялық тізбектегі заңдылықтарды бейнелеу үшін қолданылған, бірақ бұл заңдылықтардың жаңа пайда болуын болжауда қиындықтар туғызды.[2] PWM-ді алғашқы қолдану ашуда болды РНҚ ретінде жұмыс істейтін сайттар аударма бастамашылық сайттар. The перцептрондық алгоритм ұсынған болатын Поляк американдық математик Анджей Эренфехт құру мақсатында матрица салмақ, олар шынайы байланыстыру учаскелерін басқа бірізділігі бар функционалды емес учаскелерден ажырата алады. Персептронды сайттардың екі жиынына да жаттықтыру екі жиынтықты ажырату үшін матрица мен шекті нәтижеге әкелді.[1] Матрицаны жаттығулар жиынтығына енбеген жаңа реттіктерді сканерлеу үшін қолдану бұл әдіс ең жақсы консенсус дәйектілігіне қарағанда сезімтал әрі дәл екенін көрсетті.[2]

PWM-дің консенсус дәйектілігінен артықшылығы PWM-ді үлгілерді биологиялық тізбектерде ұсынудың танымал әдісі және заманауи алгоритмдердің маңызды компоненті етті. мотивтің ашылуы.[3][4]

Құру

Ықтималдық матрицасына реттілікті түрлендіру

PWM-де алфавиттің әр белгісі үшін бір жол бар (үшін 4 жол нуклеотидтер жылы ДНҚ реті немесе 20 жол аминқышқылдары жылы ақуыз реттіліктер) және үлгінің әр позициясы үшін бір баған. PWM құрудың алғашқы қадамында әр позицияда әрбір нуклеотидтің пайда болуын санау арқылы негізгі позициялық жиілік матрицасы (PFM) құрылады. PFM-ден позицияның ықтималдық матрицасын (PPM) енді бұрынғы позициядағы нуклеотидтердің әр позициядағы тізбектің санына бөлу арқылы құруға болады, осылайша мәндерді қалыпқа келтіреді. Ресми түрде жиынтық берілген X туралы N ұзындықтың реттелген тізбектері л, PPM элементтері М есептеледі:

қайда мен (1,...,N), j (1,...,л), к - алфавиттегі белгілер жиынтығы және I (a = k) болып табылады индикатор функциясы қайда I (a = k) егер 1 болса a = k ал 0 әйтпесе.

Мысалы, келесі ДНҚ тізбектері берілген:

GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTATAC
TGTGTGAGT
AAGGTAAGT

Сәйкес PFM:

Демек, PPM нәтижесі:[5]

PPM де, PWM де болжайды статистикалық тәуелсіздік өрнектегі позициялар арасында, өйткені әр позиция үшін ықтималдықтар басқа позицияларға тәуелсіз есептеледі. Жоғарыдағы анықтамадан белгілі бір позиция үшін мәндердің қосындысы шығады (яғни барлық шартты белгілердің жиынтығы) 1-ге тең, сондықтан әрбір бағанды ​​тәуелсіз деп санауға болады. көпмоминалды таралу. Бұл әр позицияға сәйкес ықтималдықтарды көбейту арқылы PPM берілген реттіліктің ықтималдығын есептеуді жеңілдетеді. Мысалы, реттіліктің ықтималдығы S = GAGGTAAAC жоғарыдағы PPM берілген М есептеуге болады:

Жалған есептер (немесе Лаплас бағалаушылары ) мәні 0-ге тең матрицалық жазбалардан аулақ болу үшін PPM-ді есептеу кезінде кішігірім деректер базасына негізделген жағдайда қолданылады.[6] Бұл PPM әрбір бағанын а-ға көбейтуге тең Дирихлеттің таралуы және ықтималдықты жаңа тізбектер үшін есептеуге мүмкіндік береді (яғни, бастапқы деректер жиынтығына кірмеген тізбектер). Жоғарыда келтірілген мысалда, жалған есепшотсыз, кез-келген а G 4-ші позицияда немесе а Т 5 позицияда басқа позицияларға қарамастан 0 ықтималдығы болады.

Позиция ықтималдығы матрицасын позиция салмақ матрицасына түрлендіру

Көбінесе PWM элементтері журналдың ықтималдығы ретінде есептеледі. Яғни, PPM элементтері фондық модель көмегімен түрлендіріледі сондай-ақ:

қалай сипаттайды PWM элементі (сол жақта), Қарапайым фон моделі әр әріп жиынтықта бірдей жиі пайда болады деп болжайды. Яғни, мәні алфавиттегі барлық белгілер үшін (0,25 нуклеотидтер үшін және 0,05 аминқышқылдар үшін). Осы трансформацияны PPM-ге қолдану М жоғарыдан (жалған есепшоттар қосылмаған) береді:

The матрицадағы жазбалар жалған есепшоттарды қосудың артықшылығын анықтайды, әсіресе шағын деректер жиынтығын құру үшін М. Фондық модельде әр таңба үшін тең мәндердің болуы қажет емес: мысалы, организмдерді жоғары деңгейде зерттегенде GC-мазмұны, үшін мәндер C және G үшін төмендеуі мүмкін A және Т құндылықтар.

PWM элементтері журнал ықтималдығын пайдаланып есептелген кезде, дәйектіліктің балын PWM-дегі әр позицияға сәйкес мәндерді қосу (көбейтудің орнына) арқылы есептеуге болады. Кезектілік ұпайы реттіліктің кездейсоқ реттіліктен қаншалықты өзгеше екендігін көрсетеді. Егер жүйенің функционалды сайт және кездейсоқ сайт болу ықтималдығы бірдей болса, балл 0-ге тең. Егер кездейсоқ сайтқа қарағанда функционалды сайт болуы ықтимал болса, балл 0-ден үлкен, ал егер функционалды сайтқа қарағанда кездейсоқ сайт болса, 0-ден аз.[5] Кезектілік ұпайын физикалық шеңберде осы реттіліктің байланыстырушы энергиясы ретінде түсіндіруге болады.

Ақпараттық мазмұн

The ақпарат мазмұны PWM (IC) кейде қызығушылық тудырады, өйткені берілген PWM а-дан қаншалықты өзгеше екендігі туралы айтады біркелкі үлестіру.

The өзін-өзі ақпараттандыру мотивтің белгілі бір позициясында белгілі бір символды байқау:

PWM белгілі бір элементінің күтілетін (орташа) өзіндік ақпараты келесідей:

Сонымен, PWM IC - бұл әр элементтің күтілетін өзіндік ақпаратының жиынтығы:

Ақпараттың мазмұнын әр әріптің тең ықтималдығын (мысалы, ДНҚ-ның GC-мазмұны) қабылдағаннан гөрі, сіз оқып жатқан тізбектің фондық әріптік жиіліктерімен есептеу пайдалы болады. термофильді бактериялар 65,3-тен 70,8-ге дейін,[7] осылайша ATAT мотиві CCGG мотивіне қарағанда әлдеқайда көп ақпаратты қамтуы мүмкін). Ақпараттық мазмұнның теңдеуі осылай болады

қайда бұл әріптің фондық жиілігі . Бұл сәйкес келеді Каллбэк - Лейблер дивергенциясы немесе салыстырмалы энтропия. Алайда, геномдық реттілікті іздеу үшін PSSM-ді қолданған кезде (төменде қараңыз) бұл біркелкі түзету нақты геномдарда n-мерстің біркелкі таралмауы салдарынан мотивтегі әртүрлі негіздердің маңыздылығын асыра бағалауға әкелуі мүмкін екендігі дәлелденді жалған позитивтердің айтарлықтай көп санына.[8]

Қолданады

PWM хиттерін ретімен іздеудің әртүрлі алгоритмдері бар. Бір мысал - MATCH алгоритмі[9] ол ModuleMaster-те енгізілген.[10] Деректер базасын нуклеотидпен, сондай-ақ PWM / PSSM аминқышқылымен іздеудің неғұрлым күрделі алгоритмдері бағдарламалық қамтамасыздандыруда енгізілген.[11]

Әдебиеттер тізімі

  1. ^ а б Стормо, Гари Д .; Шнайдер, Томас Д .; Алтын, Ларри; Эренфехт, Анджей (1982). «» Перцептрон «алгоритмін қолдану арқылы аударма бастамашылық сайттарын ажырату E. coli". Нуклеин қышқылдарын зерттеу. 10 (9): 2997–3011. дои:10.1093 / нар / 10.9.2997 ж. PMC  320670. PMID  7048259.
  2. ^ а б Stormo, G. D. (1 қаңтар 2000). «ДНҚ-ны байланыстыратын орындар: ұсыну және табу». Биоинформатика. 16 (1): 16–23. дои:10.1093 / биоинформатика / 16.1.16. PMID  10812473.
  3. ^ Sinha, S. (27 шілде 2006). «Матрицалық жағдайды дискриминациялық мотивті табуға қолдана отырып, бірізділікті есептеу кезінде». Биоинформатика. 22 (14): e454 – e463. дои:10.1093 / биоинформатика / btl227. PMID  16873507.
  4. ^ Ся, Сюхуа (2012). «Мотивтің салмақтық матрицасы, Гиббстің үлгі алушысы және мотивті сипаттаудағы және болжаудағы онымен байланысты маңыздылық сынақтары». Scientifica. 2012: 1–15. дои:10.6064/2012/917540. PMC  3820676. PMID  24278755.
  5. ^ а б Гуйго, Родерик. «Ерекше баллдық матрицаларға кіріспе». bioinformatica.upf.edu. Алынған 12 қараша 2013.
  6. ^ Нишида, К .; Фрит, М .; Накай, К. (23 желтоқсан 2008). «Транскрипция коэффициентін байланыстыратын сайттар үшін псевдоконстар». Нуклеин қышқылдарын зерттеу. 37 (3): 939–944. дои:10.1093 / nar / gkn1019. PMC  2647310. PMID  19106141.
  7. ^ Александрушкина Н.И., Егорова Л.А. (1978). «Термофилді бактериялардың термофильді бактерияларының ДНҚ-ның нуклеотидтік құрамы». Микробиология. 47 (2): 250–2. PMID  661633.
  8. ^ Эрилл I, О'Нил MC (2009). «ДНҚ-байланыстыратын орынды идентификациялаудың ақпараттық теориясына негізделген әдістерін қайта қарау». BMC Биоинформатика. 10: 57. дои:10.1186/1471-2105-10-57. PMC  2680408. PMID  19210776.
  9. ^ Kel AE және басқалар. (2003). «MATCHTM: ДНҚ тізбектеріндегі транскрипция факторларының байланысатын орындарын іздеуге арналған құрал». Нуклеин қышқылдарын зерттеу. 31 (13): 3576–3579. дои:10.1093 / nar / gkg585. PMC  169193. PMID  12824369.
  10. ^ Врзодек, Клеменс; Шредер, Адриан; Драгер, Андреас; Ванке, Диерк; Берендзен, Кеннет В. Кронфельд, Марсель; Хартер, Клаус; Zell, Andreas (9 қазан 2009). «ModuleMaster: транскрипциялық реттеуші желілерді шешудің жаңа құралы». Биожүйелер. 99 (1): 79–81. дои:10.1016 / j.biosystems.2009.09.005. ISSN  0303-2647. PMID  19819296.
  11. ^ Бекстетт, М .; т.б. (2006). «Жылдам индекске негізделген алгоритмдер және нақты матрицалық матрицаларды сәйкестендіруге арналған бағдарламалық жасақтама». BMC Биоинформатика. 7: 389. дои:10.1186/1471-2105-7-389. PMC  1635428. PMID  16930469.

Сыртқы сілтемелер

  • 3PFDB - ақуыздарды жинаудың жаңа әдісін қолдана отырып құрылған ақуызды отбасылардың ең жақсы өкілдік PSSM профильдерінің (BRP) мәліметтер базасы.
  • УГЕНЕ - PSS матрицаларын жобалау, JASPAR үшін интеграцияланған интерфейс, UniPROBE және SITECON дерекқорлары.