De novo transkriptomlar yig'ilishi - De novo transcriptome assembly

De novo transkripsiyali yig'ilish bo'ladi de novo ketma-ketlik yig'ilishi yaratish usuli transkriptom a yordamisiz mos yozuvlar genomi.

Kirish

Yangi sekvensiya texnologiyalarining rivojlanishi natijasida 2008-2012 yillar oralig'ida ketma-ketlik narxining katta pasayishi kuzatildi. Megabaza va genom uchun narx mos ravishda narxning 1/100000 va 1/10000 qismiga tushdi.[1] Bungacha faqat ilmiy tadqiqotlar uchun katta qiziqish va foydali bo'lgan organizmlarning transkriptomlari ketma-ketlikda bo'lgan; ammo, bu 2010-yillarda ishlab chiqilgan yuqori o'tkazuvchanlik ketma-ketligi (keyingi avlodlar ketma-ketligi deb ham yuritiladi) texnologiyalari ham iqtisodiy, ham mehnatga yaroqli bo'lib, ushbu usullar yordamida o'rganilayotgan organizmlar doirasi kengaymoqda.[2] Keyinchalik transkriptomlar yaratildi nohut,[3] planariyalar,[4] Parhyale Hawaiensis,[5] shuningdek, miya Nil timsoh, makkajo'xori iloni, soqolli ajdaho, va qizil quloqli slayder, bir nechtasini nomlash uchun.[6]

Model bo'lmagan organizmlarni o'rganish, Yer sayyorasida hayotning mo'l-ko'l bo'lishiga imkon bergan "maftunkor morfologik yangiliklarning xilma-xilligi" mexanizmlari to'g'risida yangi tushunchalar berishi mumkin.[7] Hayvon va o'simliklarda umumiy model organizmlarda tekshirib bo'lmaydigan "yangiliklar" kiradi taqlid, mutalizm, parazitizm va jinssiz ko'payish. De novo transkriptomni yig'ish ko'pincha model bo'lmagan organizmlarni o'rganish uchun afzal usul hisoblanadi, chunki bu genomni yaratishdan ko'ra arzonroq va osonroqdir, va mavjud genomisiz ma'lumotlarga asoslangan usullar mumkin emas. Shunday qilib, ushbu organizmlarning transkriptomlari bunday noyob biologik hodisalarda ishtirok etadigan yangi oqsillarni va ularning izoformalarini ochib berishi mumkin.

De novo mos yozuvlar asosida yig'ilish

O'rnatilgan transkriptlar to'plami dastlabki ekspression tadqiqotlarini o'tkazishga imkon beradi. Transkriptomni yig'ish uchun kompyuter dasturlari ishlab chiqilishidan oldin transkriptom ma'lumotlari asosan mos yozuvlar genomiga xaritalash orqali tahlil qilingan. Genomning hizalanishi transkripsiya ketma-ketligini tavsiflashning ishonchli usuli bo'lsa-da, bu usul mRNA transkriptlarining strukturaviy o'zgarishlarini, masalan, strukturaviy o'zgarishlarni hisobga olmasligi bilan noqulay hisoblanadi. muqobil qo'shish.[8] Genom tarkibida transkriptda mavjud bo'lishi mumkin bo'lgan barcha intron va ekzonlar yig'indisi mavjud bo'lganligi sababli, genom bo'ylab uzluksiz hizalanmagan birlashtirilgan variantlar haqiqiy protein izoformlari sifatida diskontlangan bo'lishi mumkin. Yo'naltiruvchi genom mavjud bo'lsa ham, de novo assambleyasini bajarish kerak, chunki u genom assambleyasida etishmayotgan genom segmentlaridan transkripsiyani tiklashi mumkin.[9]

Transkriptom va genom assambleyasi

Genomning ketma-ketlik qamrovi darajasidan farqli o'laroq - bu kodlashsiz takroriy tarkib natijasida tasodifiy o'zgarishi mumkin intron DNK-transkriptomiya ketma-ketligini qamrab olish darajalari genlarning ekspression darajalarini bevosita ko'rsatishi mumkin. Ushbu takrorlangan ketma-ketliklar, shuningdek, shakllanishida noaniqliklar yaratadi qo'shni genom yig'ilishida, transkriptomik yig'ilishdagi noaniqliklar odatda qo'shilganga to'g'ri keladi izoformlar yoki genlar oilasi a'zolarining ozgina o'zgarishi.[8] Genom assambleyerini bir nechta sabablarga ko'ra transkriptomizatsiyalashda to'g'ridan-to'g'ri ishlatish mumkin emas. Birinchidan, genomni sekvensiya chuqurligi odatda genom bo'yicha bir xil bo'ladi, ammo transkriptlarning chuqurligi har xil bo'lishi mumkin. Ikkinchidan, har ikkala ip har doim genomlar ketma-ketligida ketma-ketlikda bo'ladi, ammo RNK-seq iplarga xos bo'lishi mumkin. Uchinchidan, transkriptomni yig'ish ancha qiyin, chunki bir xil genning transkript variantlari ekzonlar bilan bo'lishishi mumkin va ularni birma-bir hal qilish qiyin.[9]

Usul

RNK-seq

RNK ajratib olinib, hujayralardan tozalanganidan so'ng, u birinchi bo'lib yuqori o'tkazuvchanlik sekanslash moslamasiga yuboriladi. teskari transkriptsiya qilingan cDNA kutubxonasini yaratish. Keyinchalik, bu cDNA sekvensiya uchun ishlatiladigan platformaga qarab turli uzunliklarga bo'linishi mumkin. Quyidagi platformalarning har biri millionlab qisqa o'qishlar ketma-ketligini ta'minlash uchun turli xil texnologiyalardan foydalanadi: 454 Tartiblash, Illumina va SOLID.

Yig'ish algoritmlari

Shuningdek qarang RNK-Seq bioinformatika vositalari ro'yxati.

CDNA ketma-ketligi o'qilishi transkriptlarga qisqa o'qiladigan transkriptlarni yig'ish dasturi orqali yig'iladi. Ehtimol, transkriptlar orasida ba'zi bir aminokislota o'zgarishlari, aks holda o'xshashdir, turli xil protein izoformlarini aks ettiradi. Shuningdek, ular bir xil genlar oilasida turli xil genlarni, hatto o'zgaruvchanlik darajasiga qarab, faqat konservalangan domenga ega bo'lgan genlarni ifodalashlari mumkin.

Bir qator montaj dasturlari mavjud (qarang Yig'uvchilar ). Garchi ushbu dasturlar odatda genomlarni yig'ishda muvaffaqiyat qozongan bo'lsa-da, transkriptom assambleyasi o'ziga xos muammolarni keltirib chiqaradi. Genom uchun yuqori ketma-ketlik qamrovi takrorlanadigan ketma-ketliklarning mavjudligini (va shu tariqa maskalanadigan), transkriptom uchun esa ularning ko'pligini ko'rsatishi mumkin. Bundan tashqari, genomlar ketma-ketligidan farqli o'laroq, ikkalasining ham imkoniyati tufayli transkriptom sekvensiyasi strandga xos bo'lishi mumkin sezgi va antisensiya stenogrammalar. Va nihoyat, barcha izoformlarni birlashtirish va ularni chayqash qiyin bo'lishi mumkin.[9]

Qisqa o'qiydigan montajchilar odatda ikkita asosiy algoritmdan birini qo'llaydilar: bir-birining ustiga chiqadigan grafikalar va de Bryuyn grafikalari.[10] Bir-birining ustiga tushgan grafikalar uchun mo'ljallangan ko'plab montajchilar uchun foydalaniladi Sanger ketma-ketligi o'qiydi. Har bir o'qish juftligi orasidagi o'zaro bog'liqliklar hisoblab chiqiladi va grafikada to'planadi, unda har bir tugun o'qilgan bitta ketma-ketlikni aks ettiradi. Ushbu algoritm de Bruijn grafikalaridan ko'ra hisoblash uchun juda intensivdir va eng kam o'qishlarni yuqori darajada bir-biri bilan qoplashda eng samarali hisoblanadi.[10]De Bryuyn grafikalari tekislang k-mers (odatda 25-50 bp) tutashuvlarni yaratish uchun k-1 ketma-ketligini saqlashga asoslangan. K-mers o'qish uzunligidan qisqa bo'lib, tez xeshlash imkoniyatini beradi, shuning uchun de Bruijn grafikalaridagi operatsiyalar, umuman, hisoblash uchun juda intensiv emas.[10]

Funktsional izoh

O'rnatilgan transkriptlarning funktsional annotatsiyasi ma'lum molekulyar funktsiyalar, hujayra tarkibiy qismlari va taxminiy oqsillar ishtirok etadigan biologik jarayonlar to'g'risida tushuncha olishga imkon beradi. Blast2GO (B2G) imkon beradi Gen ontologiyasi hali GO izohi mavjud bo'lmagan ketma-ketlik ma'lumotlarini izohlash uchun ma'lumot qazib olish. Bu ko'pincha model bo'lmagan turlarga nisbatan funktsional genomika tadqiqotlarida ishlatiladigan tadqiqot vositasidir.[11] Bu ishlaydi portlash ortiqcha bo'lmagan oqsillar bazasiga (NCBI da) qarshi birikmalar, so'ngra ularni ketma-ketlik o'xshashligiga qarab izohlash. GOanna - shunga o'xshash tarzda ishlaydigan hayvon va qishloq xo'jaligi o'simliklarining gen mahsulotlariga xos bo'lgan yana bir GO annotatsiya dasturi. Bu GO izohlash va tahlil qilish uchun hisoblangan vositalar to'plami, hammaga ochiq bo'lgan AgBase ma'lumotlar bazasining bir qismidir.[12] Izohdan so'ng, KEGG (Genlar va Genomlarning Kioto Entsiklopediyasi) transkriptomda olingan metabolik yo'llar va molekulyar o'zaro ta'sir tarmoqlarini vizuallashtirishga imkon beradi.[13]

GO shartlariga izoh berishdan tashqari, kontiglar ham tekshirilishi mumkin ochiq o'qish ramkalari Ushbu transkriptlardan olingan oqsillarning aminokislota ketma-ketligini taxmin qilish uchun (ORF). Yana bir yondashuv - ma'lum genlarni emas, balki oqsil domenlarini izohlash va genlar oilalarining mavjudligini aniqlash.

Tekshirish va sifat nazorati

Yo'naltiruvchi genom mavjud emasligi sababli, kompyuterda yig'ilgan kontiglarning sifati yoki ularni hosil qilish uchun ishlatilgan ko'rsatkichlar bilan taqqoslash orqali (mos yozuvlarsiz) yoki mRNA transkriptlarida saqlangan genlar domenlarining ketma-ketligini moslashtirish orqali tekshirilishi mumkin. transkriptomlar yoki bir-biriga yaqin turlarning genomlariga (mos yozuvlar asosida). Tarjima qilish kabi vositalar[14] va DETONATE[15] ushbu usullar bilan montaj sifatini statistik tahlil qilishga imkon beradi. Yana bir usul - bu dizayn PCR bashorat qilingan transkriptlar uchun primerlar, keyin ularni cDNA kutubxonasidan kuchaytirishga harakat qiling. Ko'pincha, juda qisqa o'qishlar filtrlanadi. Qisqa ketma-ketliklar (<40 ta aminokislotalar) funktsional oqsillarni namoyon etishi ehtimoldan yiroq, chunki ular mustaqil ravishda katlanamaz va hidrofob yadrolarni hosil qila olmaydi.[16]

Yig'uvchilar

Quyida transkriptomlarni yaratish uchun ishlatilgan va ilmiy adabiyotlarda keltirilgan montaj dasturlarining qisman kompendiumi keltirilgan.

SeqMan NGen

SeqMan NGen, qismi DNASTAR dasturiy ta'minot quvuri, kichik yoki katta transkriptom ma'lumot to'plamlari uchun de novo transkriptomik assambleyasini o'z ichiga oladi. SeqMan NGen foydalanadigan patentlangan algoritmdan foydalanadi RefSeq transkriptlarni aniqlash va birlashtirish uchun va ma'lum bo'lgan va yangi genlarni aniqlash va ajratib ko'rsatish uchun DNASTAR-ning mulkiy transkript izohlash vositasi yordamida yig'ilgan transkriptlarni avtomatik ravishda izohlaydi.[17]

SOAPdenovo-Trans

SOAPdenovo-Trans - bu SOAPdenovo2 ramkasidan meros bo'lib olingan, boshqa nusxa ko'chirish va turli xil ifoda darajalari bilan transkriptomni yig'ish uchun mo'ljallangan de-novo transkriptomli yig'uvchi. Assembler SOAPdenovo2 bilan taqqoslaganda to'liq metrajli transkript to'plamlarini yaratishning yanada keng qamrovli usulini taqdim etadi.

Velvet / Oases

Velvet algoritmi transkriptlarni yig'ishda de Bryuyn grafikalaridan foydalanadi. Simulyatsiyalarda Velvet prokaryotik ma'lumotlardan foydalangan holda 50 kb N50 uzunlikgacha va sutemizuvchilardan 3 kb N50 gacha bo'lgan qo'shni hosil qilishi mumkin. bakterial sun'iy xromosomalar (BAC).[18] Ushbu dastlabki transkriptlar o'tkaziladi Oazislar, ishlatadigan juftlik oxiri o'qildi va transkript izoformalarini yaratish uchun uzoq o'qilgan ma'lumotlar.[19]

Trans-ABySS

ABySS parallel, juft uchli ketma-ketlik yig'uvchisi. Trans-ABySS (Assamble by Short Sequences) - bu dasturiy ta'minot liniyasi Python va Perl ABySS-yig'ilgan transkriptomik koniglarni tahlil qilish uchun. Ushbu quvur liniyasi k qiymatlarining keng diapazonida hosil bo'lgan yig'ilishlarga qo'llanilishi mumkin. Dastlab u ma'lumotlar to'plamini keraksiz bo'lmagan qo'shimchalarning kichik to'plamlariga qisqartiradi va ekzip o'tish, yangi ekzonlar, saqlanib qolgan intronlar, yangi intronlar va muqobil qo'shimchalar kabi splicing hodisalarini aniqlaydi. Trans-ABySS algoritmlari gen ekspression darajasini baholashga, potentsialni aniqlashga qodir poliadenillanish saytlar, shuningdek nomzodlarning gen-termoyadroviy hodisalari.[20]

Uchbirlik

Uchbirlik[21] birinchi navbatda ketma-ketlik ma'lumotlarini de Bruijn grafikalari, ularning har biri bitta gen yoki lokusda transkripsiyaviy o'zgarishlarni ifodalaydi. So'ngra izoformlarning to'liq uzunligini birlashtirish va olingan transkriptlarni ajratish paralog genlar har bir grafikadan alohida. Trinity transkriptlarni ishlab chiqarish uchun ketma-ket ishlatiladigan uchta mustaqil dasturiy ta'minot modulidan iborat:

  • Inchworm RNK-Seq ma'lumotlarini transkript ketma-ketliklariga to'playdi, ko'pincha dominant izoform uchun to'liq uzunlikdagi transkriptlarni yaratadi, ammo keyinchalik muqobil ravishda qo'shilgan transkriptlarning noyob qismlari haqida xabar beradi.
  • Krizalis Inchworm kontiglarini to'playdi va har bir klaster uchun to'liq Bruijn grafikalarini tuzadi. Har bir klaster ma'lum bir gen uchun to'liq transkripsiya murakkabligini anglatadi (yoki konservalangan ketma-ketlikni taqsimlaydigan oila yoki genlar to'plami). Keyin Chrysalis to'liq o'qilgan to'plamni ushbu alohida grafikalar qatoriga ajratadi.
  • Kelebek keyin individual grafiklarni parallel ravishda qayta ishlaydi, grafadagi o'qish yo'llarini kuzatib boradi, natijada muqobil ravishda birlashtirilgan izoformalar uchun to'liq metrajli transkriptlar haqida xabar beradi va paralog genlarga mos keladigan transkriptlarni masxara qiladi.[22]

Shuningdek qarang

Adabiyotlar

  1. ^ Vetstrand KA. "DNKning ketma-ketligi bo'yicha xarajatlar: NHGRI Genomni ketma-ketlikda ketma-ketligini aniqlash dasturining ma'lumotlari: www.genome.gov/sequencingcosts". Genome.gov. Yo'qolgan yoki bo'sh | url = (Yordam bering)
  2. ^ Surget-Groba Y, Montoya-Burgos JI (2010). "Yangi avlod ketma-ketligi ma'lumotlaridan de novo transkriptomlar yig'ilishini optimallashtirish". Genom Res. 20 (10): 1432–1440. doi:10.1101 / gr.103846.109. PMC  2945192. PMID  20693479.
  3. ^ Garg R, Patel RK, Tyagi AK, Jain M (2011). "Genlarni aniqlash va markerni aniqlash uchun qisqa o'qishlar yordamida nohut transkriptomini yig'ish". DNK rez. 18 (1): 53–63. doi:10.1093 / dnares / dsq028. PMC  3041503. PMID  21217129.
  4. ^ Adamidi C; va boshq. (2011). "Planariya transkriptomini massiv parallel ketma-ketlik va ov miltig'ining proteomikasi yordamida yig'ish va tasdiqlash". Genom Res. 21 (7): 1193–1200. doi:10.1101 / gr.113779.110. PMC  3129261. PMID  21536722.
  5. ^ Zeng V; va boshq. (2011). "Parhyale Hawaiensis yangi paydo bo'lgan qisqichbaqasimon modeli uchun onalik va rivojlanish transkriptomini yig'ish va tavsifi" (PDF). BMC Genomics. 12: 581. doi:10.1186/1471-2164-12-581. PMC  3282834. PMID  22118449.
  6. ^ Tsika AC; va boshq. (2011). "Reptilian transcriptome v1.0, beshta turli xil bo'lgan Sauropsida nasllari va toshbaqalarning filogenetik holati miya transkriptomidagi ko'rinish" (PDF). EvoDevo. 2 (1): 19. doi:10.1186/2041-9139-2-19. PMC  3192992. PMID  21943375.
  7. ^ Rowan BA, Weigel D, Koenig D (2011). "Rivojlanish genetikasi va ketma-ketlikning yangi texnologiyalari: model bo'lmagan organizmlarning ko'payishi". Rivojlanish hujayrasi. 21 (1): 65–76. doi:10.1016 / j.devcel.2011.05.021. PMID  21763609.
  8. ^ a b Birol I; va boshq. (2009). "ABySS bilan jihozlangan transkriptomlar to'plami". Bioinformatika. 25 (21): 2872–7. doi:10.1093 / bioinformatika / btp367. PMID  19528083.
  9. ^ a b v Martin, Jeffri A.; Vang, Zhong (2011). "Yangi avlod transkriptomi yig'ilishi". Genetika haqidagi sharhlar. 12 (10): 671–682. doi:10.1038 / nrg3068. PMID  21897427. S2CID  3447321.
  10. ^ a b v Illumina, Inc. (2010). "Illumina Reads yordamida De Novo Assambleyasi" (PDF). Iqtibos jurnali talab qiladi | jurnal = (Yordam bering)
  11. ^ Konesa A; va boshq. (2005). "Blast2GO: funktsional genomika tadqiqotlarida izohlash, vizualizatsiya va tahlil qilish uchun universal vosita". Bioinformatika. 21 (18): 3674–3676. doi:10.1093 / bioinformatika / bti610. PMID  16081474.
  12. ^ Makkarti FM; va boshq. (2006). "AgBase: qishloq xo'jaligi uchun funktsional genomika manbai". BMC Genomics. 7: 229. doi:10.1186/1471-2164-7-229. PMC  1618847. PMID  16961921.
  13. ^ "KEGG PATHWAY ma'lumotlar bazasi".
  14. ^ Tarjima qiling: transkriptomizni tushunib oling. http://hibberdlab.com/transrate
  15. ^ Li B; va boshq. (2014). "RNK-Seq ma'lumotlaridan de novo transkriptomik yig'ilishlarni baholash". Genom biologiyasi. 15 (12): 553. doi:10.1186 / s13059-014-0553-5. PMC  4298084. PMID  25608678.
  16. ^ Karplus, K. pdb-1: Proteinlar ketma-ketligining minimal uzunligi. https://lists.sdsc.edu/pipermail/pdb-l/2011-January/005317.html.
  17. ^ "DNASTAR".
  18. ^ Zerbino DR, Birney E (2008). "Velvet: de Bruijn grafikalari yordamida de novo qisqa o'qiladigan yig'ilish algoritmlari". Genom Res. 18 (5): 821–829. doi:10.1101 / gr.074492.107. PMC  2336801. PMID  18349386.
  19. ^ "Oases: juda qisqa o'qish uchun de novo transkriptomli montajchi".
  20. ^ "Trans-ABySS: ABySS multi-k to'plangan avtomat transkriptom ma'lumotlarini tahlil qilish".
  21. ^ "Uchlik". 2018-11-24.
  22. ^ "Trinity RNA-Seq Assambleyasi - to'liq metrajli transkriptlarni va muqobil ravishda birlashtirilgan izoformlarni qayta tiklash uchun dasturiy ta'minot". Arxivlandi asl nusxasi 2011 yil 12 iyulda.