VII Научно-практическая конференция "Спецпроект: анализ научных исследований" (14-15 июня 2012г.)

Миргородська Н. А.

Київський національний університет імені Т.Шевченка, Україна

ФУНКЦІОНУВАННЯ АЛГОРИТМУ FASTA ТА ОСНОВНІ АЛГОРИТМИ МНОЖИННОГО ВИРІВНЮВАННЯ

 

Робота присвячена дослідженню впровадження в комп'ютерну науку «біологічних» методів аналізу інформації та генетичних алгоритмів, а саме до задачі моделювання просторової структури білка. Розглядається функціонування алгоритму FASTA на послідовності взятій з електронної бібліотеки NCBI GenBank та основні алгоритмів множинного вирівнювання з використанням серверу CLUSTALW .

(3 D-Фолдинг ) – пророкування просторової структури білків по амінокислотній послідовності, тобто по послідовності нуклеотидних пар в ДНК , є на сьогодні найактуальнішим питанням комп'ютерної біології, оскільки потребує величезних затрат сучасних технологій та застосувань великої кількості знань. Важливість його рішення складається ще й у тім, що число відомих первинних білкових структур, установлених по відомим нуклеотидним послідовностям ДНК , набагато перевершує число відомих просторових білкових структур. Ген лише кодує набір амінокислот, що лежать в основі молекули білка. У свою чергу, лінійна послідовність амінокислот у живій клітині згортаються в білкову молекулу зі строго певною просторовою структурою. Саме ця структура робить білок настільки вагомою складовою будь-якого живого організму. 

Визначення просторової (тривимірної, 3D) структури білків є необхідним етапом для встановлення взаємозв‘язку між структурою та функцією білків і саме застосування молекулярного комп'ютерного моделювання дозволяє пророкувати багато властивостей білкових макромолекул. 

При біохімічному синтезі білків організму використовується генетична інформація, закодована в головному "спадковому матеріалі" – дезоксирибонуклеїновій кислоті ( ДНК ) [1], що є двонитковою спіраллю з послідовно зв'язаних нуклеотидів , кожен з яких містить одну із 4 азотистих основ – аденін (А), гуанін (G), цитозин (С) і тімін (T). Ці літери складають «алфавіт» генетичного коду. Можна визначити «генетичну мову» з наступним алфавітом Х , де: D умовне позначення ДНК .

Х   = { A , C , G , T } – алфавіт основ ДНК .     (1)

  Алфавіт основ ДНК (1) породжує алфавіт основ РНК виду, де: R умовне позначення РНК :

Х   = { A , C , G , U } – алфавіт основ РНК .      (2)

Відбувається процес транскрипції, тобто перенесення генетичної інформації на РНК з ДНК . Цей процес забезпечує "перекодування" інформації з перетворенням основ T ? U. Словами в алфавітах є послідовності букв – кодони – це впорядковані трійки (триплети), що кодують деяку амінокислоту . Результатом цих операцій є речення: AGTCCATGGTAC , а фрагментом опису синтезованої РНК , за допомогою правила комплементарності – речення : AGUCCUGGUAC . Оскільки білки організмів складаються з 20 амінокислот, тому з них можна закодувати словами з алфавіту амінокислот:

Х = { a 1, a 2,..., a 20}.   (3)

Білок виконує метаболічні, структурні, або регуляторні функції в клітині, а 3-d структура визначає його функції. Для пророкування даних структур вирізняють [2]: квантово-механічний метод розрахунку ab initio ; напівемпіричний та методи класичної молекулярної механіки. Для білка, структуру якого моделюють, існує гомологічний білок, для яко­го вже експериментально встановлено просторову структуру, то атомні координати останнього можна використати як просторову матрицю для моделю­вання за гомологією. Він включає етапи [1]: пошук у банках даних білків-матриць з експериментально визначеною просторовою структурою, які мають високий ступінь гомології з АК-послідовністю білка-мішені, для якого будується структурна модель; вирівнювання послідовності з однією чи декількома послідовностями-матрицями; корекція вирівнювання; генерація ковалентно-неперервного ланцюга (каркаса) моделі на основі вирівнювання"; генерація "канонічних" поверхневих петель, отриманих з банків даних; " вбудова " бічних радикалів у каркас та їх оптимізації; добудова петель ab initio ; мінімізація вільної енергії всієї моделі, іноді з використанням молекулярної динаміки; перевірка моделі вибірковим повторенням попередніх етапів. З даним алгоритмом проведені експерименти за результатами яких отримані білки CTRB2 _ HUMAN Q6GPI1 та CTRB1 _ HUMAN P17538 [3] . Виконаний пошук у головному всесвітньому репозиторії PDB ( Protein Data Bank ) та побудовані моделі даних білків.

 

Список використаних джерел:

1. Bradley P. Toward High-Resolution de Novo Structure Prediction for Small Proteins . Science / P. Bradley , K.M.S . Misura , D Baker . – 2005. – С. 309, 1868 – 1871.

2. Advanced Computational Structural Genomics infection [Електронний ресурс]. – Режим доступу: http://cbcg.lbl.gov/ssi-csb/Meso.html

3. Електронний ресурс. – Режим доступу: http://www.uniprot.org/uniprot/Q6GPI1.html

4. Analysis of Genes and Genomes Richard J. Reece University of Manchester , UK /2004.

5. The protein folding problem : when will it be solved ? Curr . Opin . Struct . Biol . / K.A. Dill , S.B. Ozkan , T.R. Weikl , J.D. Chodera , V.A. Voelz . – 2007. – №17. – С. 342 – 346.

6. Assigning Amino Acid Sequences To 3-Dimensional Protein Folds , Faseb Journal / D. Fischer , Rice ., U. Bowie , Eisenberg . – 1996. – № 10. – С. 126 – 136 3.