Binning (metagenomika) - Binning (metagenomics)

Yilda metagenomika, otish o'qiganlarni guruhlash jarayoni yoki qo'shni va ularni tayinlash operatsion taksonomik birliklar. Binning usullari yoki kompozitsion xususiyatlarga asoslangan bo'lishi mumkin hizalama (o'xshashlik) yoki ikkalasi.

Kirish

Metagenomik namunalarda ko'plab organizmlarning o'qishlari bo'lishi mumkin. Masalan, bir gramm tuproqda har biri o'ziga xos genomga ega bo'lgan 18000 gacha turli xil turdagi organizmlar bo'lishi mumkin.[1] Metagenomik tadqiqotlar natijasida butun DNK namunalari olinadi va uni nukleotidlar ketma-ketligi sifatida taqdim etiladi ma'lum uzunlik. Ko'pgina hollarda, olingan ketma-ketliklarning to'liq bo'lmaganligi alohida genlarni to'plashni qiyinlashtiradi,[2] to'liq kamroq tiklash genomlar har bir organizmning. Shunday qilib, binning texnikasi o'qish yoki aniqlash uchun "eng yaxshi harakat" ni anglatadi qo'shni sifatida belgilangan organizmlarning ma'lum guruhlari bilan operatsion taksonomik birliklar (OTU).[3]

Ko'pgina organizmlardan DNKni tanlagan birinchi tadqiqotlar har bir namunaning xilma-xilligi va kelib chiqishini baholash uchun maxsus genlardan foydalangan.[4][5] Bular marker genlari ilgari ma'lum bo'lgan organizmlarning klonli madaniyatlaridan ketma-ketlik bilan ajralib turar edi, shuning uchun har doim bunday genlardan biri metagenomik namunadagi o'qishda yoki o'qishda paydo bo'lganda, ma'lum bo'lgan turga yoki ushbu turdagi OTUga tayinlanishi mumkin edi. Ushbu usul bilan bog'liq muammo shundaki, ketma-ketliklarning faqat kichik bir qismi marker geniga ega bo'lib, ma'lumotlarning aksariyati tayinlanmagan.

Zamonaviy binning texnikasi namunadan mustaqil ravishda ilgari mavjud bo'lgan ma'lumotlardan va namunadagi mavjud bo'lgan ichki ma'lumotlardan foydalanadi. Tanlanishning xilma-xilligi va murakkabligiga qarab, ularning muvaffaqiyat darajasi turlicha: ba'zi hollarda ular ketma-ketlikni alohida turlarga qarab echishi mumkin, boshqalarda esa ketma-ketliklar eng yaxshi holatda juda keng taksonomik guruhlar bilan aniqlanadi.

Algoritmlar

Binning algoritmlari avvalgi ma'lumotlarni ishlatishi va shu tariqa harakat qilishi mumkin boshqariladigan klassifikatorlar yoki ular yangi guruhlarni topishga harakat qilishlari mumkin, ular vazifasini bajaradi nazoratsiz tasniflagichlar. Ko'pchilik, albatta, ikkalasini ham bajaradi. Tasniflagichlar ilgari ma'lum bo'lgan ketma-ketliklarni bajarish orqali ekspluatatsiya qilishadi hizalamalar qarshi ma'lumotlar bazalari va DNKning organizmga xos xususiyatlariga asoslangan ketma-ketlikni ajratishga harakat qiling,[6] kabi GK-tarkib.

Mande va boshq., (2012) [7] ov miltig'ini ketma-ketlik yondashuvi yordamida olingan metagenomik ma'lumotlar to'plamlarini yig'ish uchun mavjud bo'lgan turli xil usullarning asoslari, metodologiyalari, afzalliklari, cheklovlari va qiyinchiliklarini ko'rib chiqishni ta'minlaydi. Taniqli binning algoritmlaridan ba'zilari quyida tavsiflangan.

TETRA

TETRA - genomik bo'laklarda tetranukleotiddan foydalanish usullaridan foydalanadigan statistik tasniflovchi.[8] Tarkibida to'rtta nukleotid mavjud DNK, shuning uchun bo'lishi mumkin ketma-ket to'rtta nukleotidning turli xil qismlari; bu bo'laklarga tetramerlar deyiladi. TETRA har bir tetramerning chastotalarini berilgan ketma-ketlik uchun jadvallar yordamida ishlaydi. Ushbu chastotalardan z-ballar tetramerning individual yoki nukleotidli kompozitsiyalarga qarab kutilgan narsaga zid bo'lganligini ko'rsatadigan hisoblab chiqiladi. Har bir tetramer uchun z-ballar vektorda yig'iladi va har xil ketma-ketliklarga mos keladigan vektorlar juftlik nuqtai nazaridan taqqoslanib, namunadagi har xil ketma-ketliklar qanchalik o'xshashligini o'lchash mumkin. Eng o'xshash ketma-ketliklar bir xil OTU tarkibidagi organizmlarga tegishli bo'lishi kutilmoqda.

MEGAN

DIAMOND ichida[9]+ MEGAN[10] yondashuv, barcha o'qishlar avval NCBI-nr kabi oqsil ma'lumot bazasiga to'g'ri keladi, so'ngra hosil bo'lgan hizalamalar LCA algoritmi yordamida tahlil qilinadi, bu esa NCBI taksonomiyasining eng past taksonomik tuguniga o'qishni joylashtiradi, bu esa barcha taksonlardan yuqori unga o'qish sezilarli darajada mos keladi. Bu erda hizalama odatda "muhim" deb hisoblanadi, agar uning bit darajasi berilgan chegaradan yuqori bo'lsa (o'qish uzunligiga bog'liq bo'lsa) va o'qish uchun ko'rilgan eng yaxshi ballning 10% atrofida bo'lsa. DNKning mos yozuvlar ketma-ketligini emas, balki oqsil mos yozuvlar ketma-ketliklaridan foydalanishning mantiqiy asosi shundaki, hozirgi DNK ma'lumot bazalari faqat atrof-muhitda mavjud bo'lgan genomlarning haqiqiy xilma-xilligining kichik qismini qamrab oladi.

Filopitiya

Filopitiya - bu IBM laboratoriyalari tadqiqotchilari tomonidan ishlab chiqilgan va asosan a qo'llab-quvvatlash vektor mashinasi ma'lum ketma-ketliklardan DNK-kmerlar bilan mashq qilingan.[5]

SOrt-ITEMS

SOrt-ITEMS (Monzoorul va boshq., 2009) [11] Tata Consultancy Services (TCS) Ltd., Hindistonning Innovations Labs tomonidan ishlab chiqilgan hizalanmaya asoslangan binning algoritmi. Foydalanuvchilar BLASTx qidiruvi yordamida kirish metagenomik ketma-ketliklarini (o'qish) nr protein bazasi bilan o'xshashligini qidirishlari kerak. Keyinchalik hosil bo'lgan blastx chiqishi SOrt-ITEMS dasturi tomonidan kirish sifatida qabul qilinadi. Usul birinchi navbatda o'qishni tayinlashi mumkin bo'lgan tegishli taksonomik darajani (yoki darajani) aniqlash uchun BLAST hizalama parametrlari chegaralaridan foydalanadi. Keyinchalik metagenomik o'qishni yakuniy tayinlash uchun ortologiyaga asoslangan yondashuv qabul qilinadi. Tata Consultancy Services (TCS) Innovatsion laboratoriyalari tomonidan ishlab chiqilgan boshqa hizalamaga asoslangan binning algoritmlari DiScRIBinATE,[12] ProViDE [13] va SPHINX.[14] Ushbu algoritmlarning metodologiyalari quyida keltirilgan.

DiScRIBinATE

DiScRIBinATE (Ghosh va boshq., 2010) [12] Hindistonning Tata Consultancy Services (TCS) Ltd kompaniyasining Innovations Labs tomonidan ishlab chiqilgan hizalanishga asoslangan binning algoritmlari. DiScRIBinATE, SOrt-ITEMS ning orfologik yondashuvini tezroq "tekislashsiz" yondashuv bilan almashtiradi. Ushbu muqobil strategiyani o'z ichiga olgan holda, topshiriqlarning aniqligi va o'ziga xosligi sezilarli darajada yo'qolmasdan, ishdan bo'shatish vaqtini ikki baravar qisqartirishi kuzatildi. Bundan tashqari, DiScRIBinATE-ga kiritilgan yangi qayta tasniflash strategiyasi umumiy noto'g'ri tasniflash darajasini pasaytirgandek edi.

ProViDE

ProViDE (Ghosh va boshq., 2011) [13] metagenomik namunalardagi virus xilma-xilligini baholash uchun Tata Consultancy Services (TCS) Ltd kompaniyasining Innovatsion laboratoriyalari tomonidan ishlab chiqilgan hizalanishga asoslangan binning yondashuvi. ProViDE, virom ma'lumot to'plamlaridan olingan metagenomik ketma-ketliklarning taksonomik tasnifi uchun SOrt-ITEMS-ga o'xshash teskari ortologiyaga asoslangan yondashuvni qo'llaydi. Virusli metagenomik ketma-ketliklar uchun juda mos bo'lgan BLAST parametr chegaralarining moslashtirilgan to'plami. Ushbu chegaralar ketma-ketlik divergensiyasi va viruslar qirolligining turli taksonomik guruhlari ichida / bo'ylab kuzatilgan bir xil bo'lmagan taksonomik ierarxiyani aks ettiradi.

PCAHIER

PCAHIER (Zheng va boshq., 2010),[15] Jorjiya Texnologiya Instituti tomonidan ishlab chiqilgan yana bir binning algoritmi. xususiyatlari sifatida n-mer oligonukleotid chastotalarini qo'llaydi va qisqa metagenomik parchalarni tozalash uchun ierarxik klassifikatorni (PCAHIER) qabul qiladi. Asosiy komponentlar tahlili xususiyatlar maydonining yuqori o'lchovliligini kamaytirish uchun ishlatilgan. PCAHIER samaradorligi ierarxik bo'lmagan klassifikator bilan taqqoslash va mavjud ikkita binoning algoritmlari (TETRA va Filopitiya) orqali namoyish etildi.

SPHINX

SPHINX (Muhammad va boshq., 2011),[14] Tata Consultancy Services (TCS) Ltd kompaniyasining Innovatsion laboratoriyalari tomonidan ishlab chiqilgan yana bir binoning algoritmi, "kompozitsion" va "hizalamak" asosidagi binning algoritmlari printsiplaridan foydalangan holda yuqori darajadagi samaradorlikka erishadigan gibrid strategiyani qabul qiladi. Ushbu yondashuv metagenomik ma'lumotlar to'plamlarini kompozitsiyaga asoslangan yondashuvlar kabi tezkor ravishda tahlil qilish maqsadida ishlab chiqilgan, ammo shunga qaramay, hizalamaga asoslangan algoritmlarning aniqligi va o'ziga xosligi bilan. SPHINX metagenomik ketma-ketlikni kompozitsiyaga asoslangan algoritmlar kabi tez tasniflagani kuzatilgan. Bundan tashqari, SPHINX-ning binoning samaradorligi (topshiriqlarning aniqligi va o'ziga xosligi jihatidan) hizalamaya asoslangan algoritmlar yordamida olingan natijalar bilan taqqoslanishi kuzatildi.

INDUS[16] va TWARIT[17]

Tata Consultancy Services (TCS) Ltd kompaniyasining Innovatsion laboratoriyalari tomonidan ishlab chiqilgan kompozitsiyalarga asoslangan boshqa binoning algoritmlarini namoyish eting. Ushbu algoritmlar taksonomik topshiriqlarning aniqligi va o'ziga xosligini saqlab, vaqtni yaxshilash uchun bir qator oligonukleotid kompozitsion (shuningdek statistik) parametrlaridan foydalanadi.

Boshqa algoritmlar

Ushbu ro'yxat to'liq emas:

  • TACOA (Diaz va boshq., 2009)
  • Parallel-META (Su va boshq., 2011)
  • PhyloPythiaS (Patil va boshq., 2011)
  • RITA (MacDonald va boshq., 2012)[18]
  • BiMeta (Le va boshq., 2015) [19]
  • MetaPhlAn (Segata va boshq., 2012)[20]
  • SeMeta (Le va boshq., 2016) [21]
  • Quikr (Koslicki va boshq., 2013)[22]
  • Taxoner (Pongor va boshq., 2014)[23]

Ushbu algoritmlarning barchasi ketma-ketlikni ketma-ketlik uchun turli xil sxemalardan foydalanadi, masalan ierarxik tasnif, va ikkalasida ham ishlaydi a nazorat qilingan yoki nazoratsiz uslubi. Ushbu algoritmlar namunalarning qanchalik xilma-xilligi to'g'risida global ko'rinishni taqdim etadi va potentsial ravishda metagenomalarda jamoat tarkibi va funktsiyalarini birlashtirishi mumkin.

Adabiyotlar

  1. ^ Daniel, Rolf (2005-06-01). "Tuproqning metagenomikasi". Tabiat sharhlari Mikrobiologiya. 3 (6): 470–478. doi:10.1038 / nrmicro1160. ISSN  1740-1526. PMID  15931165. S2CID  32604394.
  2. ^ Vuli, Jon S.; Adam Godzik; Iddo Fridberg (2010-02-26). "Metagenomika bo'yicha asarlar". PLOS Comput Biol. 6 (2): e1000667. Bibcode:2010PLSCB ... 6E0667W. doi:10.1371 / journal.pcbi.1000667. PMC  2829047. PMID  20195499.
  3. ^ Tomas, T .; Gilbert, J .; Meyer, F. (2012). "Metagenomika - namuna olishdan ma'lumotlarni tahlil qilishga ko'rsatma". Mikrobial informatika va tajriba. 2 (1): 3. doi:10.1186/2042-5783-2-3. PMC  3351745. PMID  22587947.
  4. ^ Jovannoni, Stiven J.; Tereza B. Britshgi; Kreyg L. Moyer; Katarin G. Fild (1990-05-03). "Sargasso dengizi bakteriyoplanktonidagi genetik xilma-xillik". Tabiat. 345 (6270): 60–63. Bibcode:1990 yil Natur.345 ... 60G. doi:10.1038 / 345060a0. PMID  2330053. S2CID  4370502.
  5. ^ a b MakKardi, Elis Kerolin; Ektor Garsiya Martin; Aristotelis Tsirigos; Filipp Xyugenxots; Isidore Rigoutsos (2007 yil yanvar). "O'zgaruvchan uzunlikdagi DNK bo'laklarining aniq filogenetik tasnifi". Tabiat usullari. 4 (1): 63–72. doi:10.1038 / nmeth976. ISSN  1548-7091. PMID  17179938. S2CID  28797816.
  6. ^ Karlin, S .; I. Ladunga; B. E. Blezdell (1994). "Genomlarning bir xilligi: o'lchovlar va qadriyatlar". Milliy fanlar akademiyasi materiallari. 91 (26): 12837–12841. Bibcode:1994 yil PNAS ... 9112837K. doi:10.1073 / pnas.91.26.12837. PMC  45535. PMID  7809131.
  7. ^ Mande, Sharmila S.; Monzoorul Haque Muhammad; Tarini Shankar Ghosh (2012). "Metagenomik ketma-ketliklar tasnifi: usullari va muammolari". Bioinformatika bo'yicha brifinglar. 13 (6): 669–81. doi:10.1093 / bib / bbs054. PMID  22962338.
  8. ^ Tishlash, Hanno; Jost Waldmann; Thierry Lombardot; Margarete Bauer; Frank Glockner (2004). "TETRA: veb-xizmat va DNK ketma-ketliklarida tetranukleotidlardan foydalanish tartiblarini tahlil qilish va taqqoslash uchun mustaqil dastur". BMC Bioinformatika. 5 (1): 163. doi:10.1186/1471-2105-5-163. PMC  529438. PMID  15507136.
  9. ^ Buchfink, Xie va Xusson (2015). "DIAMOND yordamida tez va sezgir oqsillarni tekislash". Tabiat usullari. 12 (1): 59–60. doi:10.1038 / nmeth.3176. PMID  25402007. S2CID  5346781.
  10. ^ Xusson, Doniyor H; S. Beier; I. Fleyd; A. Gorska; M. El-Xadidi; H. Ruscheweyh; R. Tappu (2016). "MEGAN Community Edition - keng miqyosli mikrobioma ketma-ketligini ma'lumotlarni interaktiv ravishda o'rganish va tahlil qilish". PLOS hisoblash biologiyasi. 12 (6): e1004957. Bibcode:2016PLSCB..12E4957H. doi:10.1371 / journal.pcbi.1004957. PMC  4915700. PMID  27327495.
  11. ^ Haque M, Monzoorul; Tarini Shankar Ghosh; Dinakar Komanduri; Sharmila S Mande (2009). "SOrt-ITEMS: metagenomik ketma-ketlikni taksonomik baholashni takomillashtirish uchun ketma-ketlik orlogiyasiga asoslangan yondashuv". Bioinformatika. 25 (14): 1722–30. doi:10.1093 / bioinformatika / btp317. PMID  19439565.
  12. ^ a b Ghosh, Tarini Shankar; Monzoorul Haque M; Sharmila S Mande (2010). "DiScRIBinATE: metagenomik ketma-ketlikni aniq taksonomik tasniflashning tezkor usuli". BMC Bioinformatika. 11 (S7): S14. doi:10.1186 / 1471-2105-11-s7-s14. PMC  2957682. PMID  21106121.
  13. ^ a b Ghosh, Tarini Shankar; Monzoorul Haque Muhammad; Dinakar Komanduri; Sharmila S Mande (2011). "ProViDE: metagenomik namunalardagi virus xilma-xilligini aniq baholash uchun dasturiy ta'minot". Bioinformatsiya. 6 (2): 91–94. doi:10.6026/97320630006091. PMC  3082859. PMID  21544173.
  14. ^ a b Mohammed, Monzoorul Haque; Tarini Shankar Ghosh; Nitin Kumar Singx; Sharmila S Mande (2011). "SPHINX - metagenomik ketma-ketliklarni taksonomik ravishda yo'q qilish algoritmi". Bioinformatika. 27 (1): 22–30. doi:10.1093 / bioinformatika / btq608. PMID  21030462.
  15. ^ Chjen, Xao; Hongwei Wu (2010). "Qisqa prokaryotik DNK fragmentini chiziqli diskriminantli tahlil va asosiy komponentlar tahliliga asoslangan ierarxik klassifikator yordamida yig'ish". J Bioinform Comput Biol. 8 (6): 995–1011. doi:10.1142 / s0219720010005051. PMID  21121023.
  16. ^ Mohammed, Monzoorul Haque; Tarini Shankar Ghosh; Rachamalla Maedxar Reddi; Tarjimai hol Reddi; Nitin Kumar Singx; Sharmila S Mande (2011). "INDUS - metagenomik ketma-ketlikni tezkor va aniq taksonomik tasniflash uchun kompozitsiyaga asoslangan yondashuv". BMC Genomics. 12 (S3): S4. doi:10.1186 / 1471-2164-12-s3-s4. PMC  3333187. PMID  22369237.
  17. ^ Reddi, Rachamalla Maheedhar; Monzoorul Haque Muhammad; Sharmila S Mande (2013). "TWARIT: metagenomik sekanslarning filogenetik tasnifi uchun juda tez va samarali yondashuv". Gen. 505 (2): 259–65. doi:10.1016 / j.gene.2012.06.014. PMID  22710135.
  18. ^ Makdonald, Norman J.; Donovan H. Parklar; Robert G. Beiko (2012). "Metagenomik mikroblar birlashmasining profilaktikasi o'ziga xos o'ziga xos marker genlaridan foydalangan holda". Nuklein kislotalarni tadqiq qilish. 40 (14): e111. doi:10.1093 / nar / gks335. PMC  3413139. PMID  22532608.
  19. ^ Van Vinh, Le, Van Lang, Tran va Tran Van Xoy. "Ikki fazali tozalash algoritmi bir-biriga mos kelmaydigan o'qishlar guruhlarida l-mer chastotasidan foydalanadi." Molekulyar biologiya algoritmlari 10.1 (2015): 1.
  20. ^ Nikola, Segata; Levi Voldron; Annalisa Ballarini; Vagesh Narasimxon; Olivier Jusson; Kertis Xuttenxauer (2012). "Metagenomik mikroblar birlashmasining profilaktikasi o'ziga xos o'ziga xos marker genlaridan foydalangan holda". Tabiat usullari. 9 (8): 811–814. doi:10.1038 / nmeth.2066. PMC  3443552. PMID  22688413.
  21. ^ Van Vinh, Le, Van Lang, Tran va Tran Van Xoy. "Metagenomik o'qishni taksonomik tayinlash uchun yangi yarim nazorat ostida algoritm". BMC bioinformatika, 17 (1), 2016 yil.
  22. ^ Koslicki, Devid; Simon Fukart; Geyl Rozen (2013). "Quikr: kompressiv sezgi orqali bakteriyalar birlashmalarini tezkor tiklash usuli". Bioinformatika. 29 (17): 2096–2102. doi:10.1093 / bioinformatics / btt336. PMID  23786768.
  23. ^ Pongor, Lrinc; Roberto Vera; Balázs Ligeti1 (2014). "Mikrobial genom ketma-ketligini tezkor va sezgir hizalamasi ish stoli kompyuteridagi katta ketma-ketlik ma'lumotlarini o'qiydi: metagenomik ma'lumotlar to'plamiga dastur va patogenlarni aniqlash". PLOS ONE. 9 (7): e103441. Bibcode:2014PLoSO ... 9j3441P. doi:10.1371 / journal.pone.0103441. PMC  4117525. PMID  25077800.