Ma'lumotlar oqimini boshqarish tizimi - Data stream management system

A ma'lumotlar oqimini boshqarish tizimi (DSMS) bu uzluksiz boshqarish uchun kompyuter dasturiy ta'minot tizimi ma'lumotlar oqimlari. Bu o'xshash ma'lumotlar bazasini boshqarish tizimi (DBMS), ammo odatdagi statik ma'lumotlar uchun mo'ljallangan ma'lumotlar bazalari. DSMS shuningdek, kerakli ma'lumotlarni so'rovlar yordamida ifodalash uchun moslashuvchan so'rovlarni qayta ishlashni taklif etadi. Biroq, DBMSdan farqli o'laroq, DSMS a-ni bajaradi doimiy so'rov bu faqat bir marta bajarilmaydi, balki doimiy ravishda o'rnatiladi. Shuning uchun, so'rov aniq o'chirilmaguncha doimiy ravishda bajariladi. DSMSlarning aksariyati ma'lumotlarga asoslanganligi sababli, tizimga yangi ma'lumotlar kelguncha doimiy so'rov yangi natijalarni beradi. Ushbu asosiy tushuncha o'xshashdir Voqeani kompleks qayta ishlash shunda ikkala texnologiya ham qisman birlashadi.

Funktsional printsip

DSMS-ning muhim xususiyatlaridan biri bu bir vaqtning o'zida egiluvchan ishlov berishni taklif qilish orqali potentsial cheksiz va tez o'zgaruvchan ma'lumotlar oqimlarini boshqarish imkoniyatidir, garchi faqat asosiy xotira kabi cheklangan manbalar mavjud. Quyidagi jadval DSMS ning turli tamoyillarini taqdim etadi va ularni an'anaviy DBMS bilan taqqoslaydi.

Ma'lumotlar bazasini boshqarish tizimi (DBMS)Ma'lumotlar oqimini boshqarish tizimi (DSMS)
Doimiy ma'lumotlar (munosabatlar)o'zgaruvchan ma'lumotlar oqimlari
Tasodifiy kirishKetma-ket kirish
Bir martalik so'rovlarDoimiy so'rovlar
(nazariy jihatdan) cheksiz ikkilamchi saqlashcheklangan asosiy xotira
Faqatgina hozirgi holat dolzarbdirKirish tartibini ko'rib chiqish
yangilanish darajasi nisbatan pastpotentsial ravishda juda yuqori yangilanish darajasi
Vaqt talablari kam yoki umuman yo'qHaqiqiy vaqt talablari
Aniq ma'lumotlarni qabul qiladiEskirgan / noto'g'ri ma'lumotlarni taxmin qiladi
Rejalashtirilgan so'rovlarni qayta ishlashO'zgaruvchan ma'lumotlarning kelishi va ma'lumotlar xususiyatlari

Qayta ishlash va oqim modellari

DSMS uchun eng katta muammolardan biri bu doimiy xotirani va ma'lumotlarga tasodifiy kirish huquqini ishlatmasdan potentsial cheksiz ma'lumotlar oqimlarini boshqarishdir. Ikki sinfga bo'linishi mumkin bo'lgan bitta o'tkazmada ma'lumotlarning miqdorini cheklash uchun turli xil yondashuvlar mavjud. Bir tomondan, ma'lumotlarni umumlashtirishga urinadigan siqish texnikasi, boshqa tomondan ma'lumotlarni (cheklangan) qismlarga bo'lishga harakat qiladigan oyna texnikasi mavjud.

Sinoplar

Siqish texnikasi g'oyasi faqat ma'lumotlarning konspektini saqlab qolishdir, lekin ma'lumotlar oqimining barcha ma'lumotlarini (xom) emas. Algoritmlar namuna olish deb nomlangan tasodifiy ma'lumotlarni tanlashdan tortib gistogrammalar, to'lqinlar yoki eskizlar yordamida umumlashtirishgacha. Siqishni oddiy misollaridan biri bu o'rtacha qiymatni uzluksiz hisoblash. Har bir ma'lumot punktini yodlash o'rniga, konspekt faqat elementlarning yig'indisi va sonini o'z ichiga oladi. O'rtachani yig'indini songa bo'lish yo'li bilan hisoblash mumkin. Ammo shuni ta'kidlash kerakki, sinoptiklar ma'lumotlarni aniq aks ettira olmaydi. Shunday qilib, sinoptiklar asosida qayta ishlash noto'g'ri natijalarga olib kelishi mumkin.

Windows

Ma'lumot oqimlarining xususiyatlarini siqish uchun sinopslardan foydalanish o'rniga, oyna texnikasi faqat ma'lumotlarning bir qismiga qaraydi. Ushbu yondashuv faqat so'nggi ma'lumotlarning dolzarbligi haqidagi g'oyadan kelib chiqadi. Shuning uchun, oyna doimiy ravishda ma'lumotlar oqimining bir qismini kesib tashlaydi, masalan. ma'lumotlar oqimining so'nggi o'n elementi va faqat ushbu elementlarni qayta ishlash jarayonida ko'rib chiqadi. Shunga o'xshash oynalar kabi har xil oynalar mavjud FIFO ajratilgan qismlarni kesib tashlaydigan ro'yxatlar yoki oynalar oynalari. Bundan tashqari, derazalarni elementlarga asoslangan derazalarga ham ajratish mumkin, masalan, so'nggi o'nta elementni yoki vaqtga asoslangan oynalarni, masalan, ma'lumotlarning oxirgi o'n soniyasini hisobga olish uchun. Shuningdek, derazalarni amalga oshirishda turli xil yondashuvlar mavjud. Masalan, har bir ishlov berish bosqichida tizim tamoyillari yoki buferga asoslangan oynalar uchun vaqt tamg'alarini yoki vaqt oralig'ini ishlatadigan yondashuvlar mavjud. Slayd-derazadan so'rovlarni qayta ishlash, har xil oynalar orasidagi va / yoki har bir oyna oralig'idagi parallellikdan foydalanib, parallel protsessorlarda amalga oshirishga mos keladi.[1]

So'rovlarni qayta ishlash

Prototiplar juda ko'p bo'lgani uchun standartlashtirilgan arxitektura mavjud emas. Biroq, DSMSlarning aksariyati so'rov operatorlar rejasiga tarjima qilingan so'rovlarni ifodalash uchun deklarativ tillar yordamida DBMSda ishlov berish. Ushbu rejalar optimallashtirilishi va bajarilishi mumkin. So'rovlarni qayta ishlash ko'pincha quyidagi bosqichlardan iborat.

Uzluksiz so'rovlarni shakllantirish

So'rovlarni shakllantirish asosan deklarativ tillar yordamida amalga oshiriladi SQL ma'lumotlar bazasida. Uzluksiz so'rovlarni ifodalash uchun standartlashtirilgan so'rovlar tillari mavjud emasligi sababli, juda ko'p tillar va farqlar mavjud. Biroq, ularning aksariyati asoslanadi SQL kabi Uzluksiz so'rovlar tili (CQL), StreamSQL va ESP. Bundan tashqari, har bir ishlov berish bosqichi quti bo'lgan va ishlov berish oqimi qutilar orasidagi o'qlar bilan ifodalangan grafik yondashuvlar mavjud.

Til ishlash modeliga juda bog'liq. Masalan, agar ishlov berish uchun derazalar ishlatilsa, derazaning ta'rifi ifodalanishi kerak. Yilda StreamSQL, so'nggi 10 ta element uchun surma oynali so'rov quyidagicha ko'rinadi:

SELECT AVG(narx) Dan namunaviy oqim [OLcham 10 Oldinga 1 TUPLES] Qaerda qiymat > 100.0

Ushbu oqim doimiy ravishda so'nggi 10 ta "narx" ning o'rtacha qiymatini hisoblab chiqadi, lekin faqat 100.0 dan yuqori bo'lgan narxlarni hisobga oladi.

Keyingi bosqichda deklarativ so'rov mantiqiy so'rovlar rejasiga o'tkaziladi. So'rov rejasi - bu tugunlar operatorlar va qirralar ishlov berish oqimini tavsiflaydigan yo'naltirilgan grafik. So'rovlar rejasidagi har bir operator filtrlash yoki yig'ish kabi ma'lum bir operatsiyaning semantikasini qamrab oladi. Ma'lumotlarning relyatsion oqimlarini qayta ishlovchi DSMSlarda operatorlar the operatorlariga teng yoki o'xshashdir Aloqaviy algebra, shuning uchun operatsiyalarni tanlash, proektsiyalash, birlashtirish va sozlash bo'yicha operatorlar mavjud. Ushbu operator kontseptsiyasi DSMSni juda moslashuvchan va ko'p qirrali qayta ishlashga imkon beradi.

So'rovlarni optimallashtirish

Mantiqiy so'rovlar rejasini optimallashtirish mumkin, bu oqim oqimining modeliga juda bog'liq. Uzluksiz so'rovlarni optimallashtirish uchun asosiy tushunchalar so'ralganlarga teng ma'lumotlar bazasi tizimlari. Agar ma'lumotlarning relyatsion oqimlari mavjud bo'lsa va mantiqiy so'rovlar rejasi Aloqaviy algebra, so'rovni optimallashtiruvchi rejani optimallashtirish uchun algebraik ekvivalentlardan foydalanishi mumkin. Bu, masalan, tanlov operatorlarini manbalarga tushirish uchun bo'lishi mumkin, chunki ular qo'shilish operatorlari kabi juda zich emas.

Bundan tashqari, ma'lumotlar bazasini optimallashtirish texnikasi ham mavjud, ular orasida eng past xarajatlarga ega bo'lgan so'rovlar rejasi har xil ekvivalent so'rov rejalaridan tanlanadi. Bir misol - ketma-ket qo'shiladigan ikkita operatorning tartibini tanlash. Ma'lumotlar bazasi bazasida ushbu qaror asosan ma'lumotlar bazalarining ma'lum statistikasi tomonidan qabul qilinadi. Ma'lumot oqimlarining ma'lumotlari oldindan noma'lum bo'lganligi sababli, DSMSda bunday statistika mavjud emas. Shu bilan birga, ba'zi bir statistik ma'lumotlarni olish uchun ma'lum vaqt davomida ma'lumotlar oqimini kuzatish mumkin. Ushbu statistikadan foydalanib, so'rov keyinroq optimallashtirilishi mumkin. Shunday qilib, DBMSdan farqli o'laroq, ba'zi DSMSlar so'rovni ish vaqtida ham optimallashtirishga imkon beradi. Shu sababli, DSMS uchun amaldagi so'rovlar rejasini yangi bilan almashtirish uchun ba'zi rejalarni ko'chirish strategiyalari kerak.

So'rovlarni o'zgartirish

Mantiqiy operator faqat operatsiya semantikasi uchun javobgardir, lekin har qanday algoritmlardan iborat emasligi sababli, mantiqiy so'rovlar rejasi bajariladigan hamkasbga aylantirilishi kerak. Bunga fizik so'rovlar rejasi deyiladi. Mantiqiy va jismoniy operator rejasini farqlash bir xil mantiqiy operator uchun bir nechta amalga oshirishga imkon beradi. Masalan, qo'shilish mantiqan bir xil, garchi uni a kabi turli algoritmlar amalga oshirishi mumkin Ichki halqani birlashtirish yoki a Birlashtirishni saralash-birlashtirish. E'tibor bering, ushbu algoritmlar ishlatilgan oqim va ishlov berish modeliga juda bog'liq bo'lib, nihoyat, so'rov fizik so'rovlar rejasi sifatida mavjud.

So'rovlarni bajarish

Jismoniy so'rovlar rejasi bajariladigan algoritmlardan iborat bo'lganligi sababli, uni to'g'ridan-to'g'ri bajarish mumkin. Buning uchun jismoniy so'rovlar rejasi tizimga o'rnatiladi. Grafikning pastki qismi (so'rovlar rejasining) kiruvchi manbalarga ulangan bo'lib, ular datchiklarga ulagich kabi hamma narsa bo'lishi mumkin. Grafikning yuqori qismi chiqadigan lavabolar bilan bog'langan, masalan, ingl. DSMSlarning aksariyati ma'lumotlarga asoslanganligi sababli, so'rovlar kelib tushgan ma'lumotlar elementlarini so'rovlar rejasi orqali lavabonga surish orqali amalga oshiriladi. Har safar ma'lumotlar elementi operatordan o'tganida, operator ma'lumotlar elementida o'ziga xos operatsiyani bajaradi va natijani barcha ketma-ket operatorlarga yuboradi.

Misollar

Shuningdek qarang

Adabiyotlar

  1. ^ De Matteis, Tiziano; Menkagli, Gabriele (2016 yil 25 mart). "Ma'lumot oqimlari bo'yicha oynaga asoslangan davlat operatorlari uchun parallel naqshlar: skeletga algoritmik yondashuv". Xalqaro parallel dasturlash jurnali. 45 (2): 382–401. doi:10.1007 / s10766-016-0413-x. S2CID  255600.
  2. ^ Abadi; va boshq. Avrora: Ma'lumotlar oqimini boshqarish tizimi. SIGMOD 2003 yil. CiteSeerX  10.1.1.67.8671.
  3. ^ Dzyanjun Chen; Devid J. Devit; Feng Tian; Yuan Vang (2000). "NiagaraCQ: Internet-ma'lumotlar bazalari uchun kengaytiriladigan doimiy so'rovlar tizimi" (PDF). Kompyuter fanlari kafedrasi. Viskonsin universiteti - Medison. SIGMOD. Olingan 21 noyabr 2018.
  4. ^ Arasu, A. va boshqalar. al. STREAM: Stenford ma'lumotlar oqimini boshqarish tizimi. Texnik hisobot. 2004 yil, Stenford InfoLab.
  5. ^ Chandrasekaran, S. va boshqalar, "TelegraphCQ: noaniq dunyo uchun doimiy ravishda ma'lumotlar oqimini qayta ishlash." CIDR 2003 yil.
  • Aggarval, Charu S (2007). Ma'lumot oqimlari: modellar va algoritmlar. Nyu-York: Springer. ISBN  978-0-387-47534-9.
  • Golab, Lukas; O'zsu, M. Tamer (2010). Ma'lumotlar oqimini boshqarish. Vaterloo, AQSh: Morgan va Kleypul. ISBN  978-1-608-45272-9.

Tashqi havolalar