VTD-XML - VTD-XML

VTD-XML
Tuzuvchi (lar)XimpleWare
Barqaror chiqish
2.12 / 2015 yil 19-noyabr; 5 yil oldin (2015-11-19)
Operatsion tizimPortativ
PlatformaJava, C #, C va C ++
TuriXML parser / indexer / slicer / editor kutubxona
LitsenziyaGPL va mulkiy litsenziya
Veb-saytvtd-xml.sourceforge.io ximpleware.wordpress.com

Kengaytirilgan formatlash tili uchun virtual token identifikatori (VTD-XML) o'zaro faoliyat platformalar to'plamiga ishora qiladi XML ekstraktiv bo'lmagan markazga asoslangan qayta ishlash texnologiyalari[1][2] XML, Virtual Token Descriptor (VTD) deb nomlangan "hujjatlarga asoslangan" ajralish texnikasi. VTD-XML istiqbolga qarab, quyidagilardan biri sifatida qaralishi mumkin:

VTD-XML XimpleWare tomonidan ishlab chiqilgan va ikkita litsenziyaga ega GPL va mulkiy litsenziya. Dastlab u yozilgan Java, lekin hozirda mavjud C,[14] C ++ va C #.

Asosiy tushuncha

Ekstraktiv bo'lmagan, hujjat asosida tahlil qilish

An'anaga ko'ra, a leksik analizator jetonlarni (bo'linmas belgilar qiymatlarining kichik birliklari) diskret qator ob'ektlari sifatida ifodalaydi. Ushbu yondashuv belgilangan qazib chiqaruvchi tahlil qilish. Farqli o'laroq, qazib olinmaydigan tokenizatsiya manba matnini saqlab qolish majburiyatini beradi va ushbu belgilarni tavsiflash uchun ofset va uzunliklardan foydalanadi.

Virtual token identifikatori

Virtual Token Descriptor (VTD) ekstraktiv bo'lmagan, hujjat asosida tahlil qilish kontseptsiyasini XML-ga ishlov berishda qo'llaydi. VTD yozuvi XML hujjatidagi belgining ofsetini, uzunligini, token turini va joylashish chuqurligini kodlash uchun 64 bitli butun sonni ishlatadi. Barcha VTD yozuvlari 64 bit uzunlikda bo'lganligi sababli ularni samarali saqlash va massiv sifatida boshqarish mumkin.[15]

Joylashuv keshi

Joylashuv keshlari (LC) samarali tasodifiy kirishni ta'minlash uchun VTD yozuvlarini yaratish. Jadval sifatida tashkil etilgan, har bir chuqurlik uchun bitta jadvalga ega bo'lgan LC-larda XML hujjati elementlari ierarxiyasini modellashtirish yozuvlari mavjud. LC yozuvi - bu 32-bitli juftlik kodlangan 64-bitli butun son. Yuqori 32 bit mos keladigan element uchun VTD yozuvini aniqlaydi. Pastki 32 bit ushbu elementning LCdagi birinchi bolasini keyingi quyi uyalash darajasida aniqlaydi.

Foyda

Umumiy nuqtai

VTD-XML-ning deyarli barcha asosiy afzalliklari ekstraktiv bo'lmagan, hujjatga asoslangan tahlilga xosdir, bu quyidagi xususiyatlarni beradi:

  • Dastlabki XML matni hal qilinmasdan xotirada saqlanib qoladi.
  • VTD-XML ning ichki vakili tabiiydir doimiy.
  • Yo'q qiladi ob'ektga yo'naltirilgan ierarxik namoyishni modellashtirish, chunki u XML iyerarxiyasini aks ettirish uchun ibtidoiy ma'lumotlar turlariga (masalan, 64 bitli tamsayılar) tayanadi va shu bilan ob'ekt yaratish narxini deyarli nolga kamaytiradi.[16]

Ushbu xususiyatlarni birlashtirish XML-ni faqat sintaksis (bitlar, baytlar, ofsetlar, uzunliklar, bo'laklar, nom maydoni bilan to'ldirilgan qismlar va hujjat tarkibi) sifatida o'ylashga imkon beradi. seriyalash / ob'ektlarni deserializatsiya qilish. Bu XML haqida o'ylashning kuchli usuli /SOA ilovalar.

Muvofiqlik

VTD-XML XML 1.0 (DTD qismidan tashqari) va XML Namespace 1.0 ga to'liq mos keladi. Bu XPath 2.0 o'rnatilgan funktsiyalariga kengaytirilgan holda XPath 1.0 spetsifikatsiyasiga mos keladi (asosiy ma'lumotlar modeli jihatidan ba'zi bir farqlar mavjud).

Oddiylik

Tahlilchi sifatida

VTD-XML tahlil qilish rejimida ishlatilganda umumiy maqsadga muvofiq, juda yuqori ishlashga ega[17] Boshqalar bilan taqqoslanadigan XML tahlilchisi:

  • VTD-XML odatda to'liq tasodifiy kirish va ichki ta'minotni ta'minlagan holda, SAX-dan (NULL tarkib bilan ishlov beruvchidan) ustun turadi XPath qo'llab-quvvatlash.[iqtibos kerak ]
  • VTD-XML odatda XML hujjatining hajmini 1,3-1,5 baravar ko'p sarflaydi, bu DOM xotirasining 1/5 qismidan iborat.[iqtibos kerak ]
  • VTD-XML-da yozilgan dasturlar odatda DOM yoki SAX versiyalariga qaraganda ancha qisqa va toza.[iqtibos kerak ]

Indeksator sifatida

VTD-XML ajralmas qat'iyligi tufayli ishlab chiquvchilar ajralgan XML hujjatining ichki ko'rinishini diskka yozishlari va keyinchalik takrorlanuvchi ajralishdan saqlanish uchun uni qayta yuklashlari mumkin. Shu maqsadda XimpleWare taqdim etdi VTD + XML VTD, LC va XML matnlarini birlashtirgan ikkilik qadoqlash formati sifatida. Uni odatda quyidagi ikki usuldan biri bilan ko'rish mumkin:

  • Xml-ning ajralmas qiymatini butunlay yo'q qiladigan va shuningdek, XML-ning barcha afzalliklarini saqlaydigan mahalliy XML indeksi. Bu inson tomonidan o'qilishi mumkin bo'lgan va XML bilan orqaga qarab mos keladigan fayl formatidir.[iqtibos kerak ]
  • A ikkilik XML XML matnini qayta ishlashni kuchaytirish uchun ikkilik ma'lumotlardan foydalanadigan format.

XML tarkibini o'zgartiruvchi

VTD-XML XML matnini dekodlashsiz saqlaganligi sababli, dastur XML tarkibini o'zgartirmoqchi bo'lganda, faqat o'zgarishlarga eng mos qismlarini o'zgartirishi kerak. Bu DOM, SAX yoki StAx ajralishidan keskin farq qiladi, bu o'zgarishlar qanchalik kichik bo'lmasin, tahlil qilish va qayta seriyalashga sarflanadi.

VTD'lar hujjat elementlarini o'zlarining siljishlariga qarab nazarda tutganligi sababli, avvalroq hujjat elementlari uzunligini o'zgartirish, barcha keyingi elementlarga tegishli VTD-larga tuzatishlarni kiritishni talab qiladi. Shu bilan birga, ushbu tuzatishlar bir nechta jadvallarda ko'plab tamsayılar bo'lsa ham, butun sonli qo'shimchalar, shuning uchun ular tezdir.

XML slicer / splitter / assembler

VTD-XML-ga asoslangan dastur, shuningdek, tokenlarni yoki element qismlarini yo'naltirish uchun ofset va uzunliklardan foydalanishi mumkin. Bu XML hujjatlarini baytlar qatori kabi boshqarishga imkon beradi.

  • VTD-XML kesuvchi sifatida "tilim"XML hujjatidagi belgi yoki element qismidan o'chirib qo'ying, keyin uni o'sha hujjatning boshqa joyiga yoki boshqa hujjatga qaytarib qo'ying.
  • Splitter sifatida VTD-XML mumkin Split XML hujjatidagi sub-elementlar va har birini alohida XML hujjatiga tashlash.
  • VTD-XML birlashtiruvchi sifatida "kesilgan"bir nechta XML hujjatlaridan qismlar va yig'moq ularni yangi XML hujjatiga qo'shish.

XML muharriri / o'chiruvchi

VTD-XML tahrirchi / o'chiruvchi sifatida ishlatiladi, token uzunligi mo'ljallangan yangi tarkibdan kengroq bo'lishi sharti bilan to'g'ridan-to'g'ri XML matnining asosiy bayt tarkibini o'zgartirishi / o'chirishi mumkin. Ushbu yondashuvning darhol foydasi shundaki, dastur darhol asl VTD va LC-ni qayta ishlatishi mumkin. Aksincha, XML hujjatini bosqichma-bosqich yangilash uchun VTD-XML dan foydalanilganda, dastur uni qayta ishlashidan oldin yangilangan hujjatni qayta to'ldirishi kerak.

Tahrirlovchini har bir jetonning joylashishini kuzatish uchun etarlicha aqlli qilish mumkin, chunki yangi, uzoqroq jetonlarning o'rnini bosishga imkon beradi, bu esa qisqa, jetonlarni almashtirishga imkon beradi. Xuddi shunday, hujjatni qayta tartiblashda element matnini nusxalash shart emas; faqat LC-larni yangilash kerak. To'liq, tutashgan XML hujjati kerak bo'lganda, masalan, uni saqlashda, bir-biridan ajratilgan qismlarni yangi, qo'shni hujjatga yig'ish mumkin.

Boshqa imtiyozlar

VTD-XML shuningdek, blokirovka qilmaydigan, fuqaroligi bo'lmagan XPath baholash yondashuvining kashshofidir.[iqtibos kerak ]

Zaif tomonlari

VTD-XML-da bir nechta sezilarli kamchiliklar mavjud:

  • XML ajraluvchisi sifatida DTD da e'lon qilingan tashqi ob'ektlarni qo'llab-quvvatlamaydi.
  • Fayl formati sifatida u hujjat hajmini taxminan 30% dan 50% gacha oshiradi.
  • API sifatida u mos kelmaydi DOM, SAX yoki StAX.
  • DTD va XML sxemalarida qo'llaniladigan (masalan, standart atributlar va elementlar) aniqlangan texnikani qo'llab-quvvatlash qiyin, bu XML nusxalarini tahlil qilishni talab qiladi.

Ilovalar sohalari

DOM yoki SAX uchun umumiy maqsadlarni almashtirish

VTD-XML ishlashi va xotiraning afzalliklari tufayli XML foydalanish holatlarining DOM yoki SAX ga qaraganda ko'proq qismini qamrab oladi.[18]

  • DOM bilan taqqoslaganda, VTD-XML xuddi shu miqdordagi jismoniy xotira uchun kattaroq (3x ~ 5x) XML hujjatlarni qayta ishlashdan taxminan 3 baravaridan 10 baravargacha ishlaydi.
  • SAX bilan taqqoslaganda, VTD-XML tasodifiy kirish va XPath-ni qo'llab-quvvatlaydi va SAX-dan kamida 2 baravar yuqori bo'ladi.

Katta XML hujjatlari orqali XPath

64-bitli JVM bilan birlashtirilgan VTD-XML-ning kengaytirilgan versiyasi katta XML hujjatlari (256 Gb gacha) bo'yicha XPath-ga asoslangan XML-fayllarni qayta ishlashga imkon beradi.

SOA / WS / XML xavfsizligi uchun

VTD-XML-ning yuqori ishlashi va bosqichma-bosqich yangilanish qobiliyatining kombinatsiyasi uni muhim qiladi[19][20][21] ning kerakli darajasiga erishish uchun Xizmat sifati SOA / WS / XML xavfsizlik dasturlari uchun.

SOA / WS / XML vositachisi uchun

VTD-XML juda mos keladi SOA vositachilik dasturlari, masalan XML routerlari / kalitlari / shlyuzlari, Korxonalarga xizmat ko'rsatuvchi avtobuslar va xizmatlarni birlashtirish punktlari. Ushbu dasturlarning barchasi "saqlash va yo'naltirish" operatsiyalarini bajaradi, ular uchun asl XML-ni saqlab qolish kechikishni minimallashtirish uchun juda muhimdir. VTD-XML-ning qo'shimcha yangilanishi ham ekspeditorlik ishiga sezilarli hissa qo'shadi.

VTD-XML ning tasodifiy kirish imkoniyati o'zini yaxshi ta'minlaydi XPath asoslangan XML yo'naltirish / almashtirish / filtrlash AJAX va SOA tarqatish.

Aqlli SOA / WS / XML Yuklarni muvozanatlash va tushirish

XML hujjati bir nechta o'rta darajadagi SOA komponentlari bo'ylab harakatlanayotganda, birinchi xabar to'xtashi, XML hujjatini tekshirishni tugatgandan so'ng, VTD + XML fayl formatini takroriy tahlil qilishdan saqlanish uchun quyi oqim qismlariga yuborishni tanlashi mumkin, shu bilan ishlash samaradorligini yaxshilaydi.

Xuddi shu tamoyilga ko'ra, aqlli SOA yuk dengeleyicisi ushbu xabarlarni qabul qiladigan dastur serverlaridan XML ajralishini o'chirish uchun kiruvchi / chiquvchi SOAP xabarlari uchun VTD + XML ishlab chiqarishni tanlashi mumkin.

XML doimiylik ma'lumotlarini saqlash

VTD-XML mahalliy XML qat'iyligi nuqtai nazaridan qaralganda, odam o'qiydigan, foydalanishga qulay, umumiy maqsadli XML indeksi sifatida ishlatilishi mumkin. Shu tarzda saqlangan XML hujjatlarni ajratish / qayta ketma-ketlashtirish xarajatlarisiz so'roq qilish, yangilash yoki tahrirlash uchun xotiraga yuklash mumkin.

Schemaless XML ma'lumotlarini bog'lash

VTD-XML-ning yuqori ishlash, kam xotiradan foydalanish va XPath-ni samarali baholash kombinatsiyasi yangisini yaratishga imkon beradi XML ma'lumotlarini bog'lash to'liq XPath-ga asoslangan yondashuv. Ushbu yondashuvning eng katta foydasi shundaki, u endi XML sxemasini talab qilmaydi, keraksiz ob'ekt yaratilishining oldini oladi va XML-ning o'ziga xos bo'sh kodlashidan foydalanadi.[22]

Shunisi e'tiborga loyiqki, yuqorida aytib o'tilgan maqolada muhokama qilingan ma'lumotlarni bog'lashni dastur amalga oshirishi kerak: VTD-XML o'zi faqat kiruvchilarni taklif qiladi. Shu nuqtai nazardan, VTD-XML ma'lumotni bog'laydigan echim emas (JiBX, JAXB, XMLBeansdan farqli o'laroq), garchi u boshqa XML-tahlilchilar singari ma'lumotlarni bog'lash paketlari uchun ekstraktsiya funksiyasini taklif qiladi (DOM, SAX, StAX ).

Muhim darslar

2.11 versiyasidan boshlab, VTD-XML ning Java va C # versiyalari quyidagi sinflardan iborat:

  • VTDGen (VTD Generator) - bu asosiy ajralish, indekslarni yuklash va indekslarni yozish funktsiyalarini o'z ichiga olgan sinf.
  • VTDNav (VTD Navigator) - bu (1) XML, VTD va ierarxik ma'lumotni o'z ichiga olgan, (2) turli xil navigatsiya usullarini o'z ichiga olgan, (3) VTD yozuvlari va satrlari o'rtasida turli xil taqqoslashlarni amalga oshiradigan va (4) VTD yozuvlarini ibtidoiy ma'lumotlarga o'zgartiradigan sinf. turlari.
  • AutoPilot tugun darajasida takrorlashni va XPathni bajaradigan funktsiyalarni o'z ichiga olgan sinf.
  • XMLModifier o'chirish, qo'shish va yangilash kabi o'sib boruvchi yangilanish qobiliyatini taklif qiladigan sinf.

Kengaytirilgan VTD-XML quyidagi sinflardan iborat:

  • VTDGenHuge (Extended VTD Generator) asosiy ajralishni o'z ichiga oladi.
  • XMLBuffer XML hujjatlarini xotiraga yuklashni amalga oshiradi.
  • XMLMemMappedBuffer XML hujjatlarini xotirada xaritada yuklashni amalga oshiradi.
  • VTDNavHuge (Extended VTD Navigator) 1) XML, Extended VTD va ierarxik ma'lumotni o'z ichiga oladi, (2) turli navigatsiya usullarini o'z ichiga oladi, (3) VTD yozuvlari va satrlari o'rtasida har xil taqqoslashlarni amalga oshiradi va (4) VTD yozuvlarini ibtidoiy ma'lumotlar turlariga o'zgartiradi.
  • AutoPilotHuge tugun darajasida takrorlashni va XPathni amalga oshiradi.

Kod namunasi

/ * Ushbu java dasturida biz XMLModifier-dan bosqichma-bosqich qanday foydalanishni namoyish etamiz* oddiy XML sotib olish buyurtmasini yangilang.* ma'lum bir ism maydoni. Biz ham boramiz* dasturlashni soddalashtirish uchun VTDGen-ning parseFile-dan foydalanish.*/Import com.ximpleware. *;jamoat sinf Yangilash {      jamoat statik bekor asosiy(Ip argv[]) uloqtiradi NavException, ModifyException, IOException{            // faylni oching va tarkibni bayt qatoriga o'qing            VTDGen vg = yangi VTDGen();            agar (vg.parseFile("oldpo.xml", to'g'ri)){                VTDNav vn = vg.getNav();                AutoPilot ap = yangi AutoPilot(vn);                XMLModifier xm = yangi XMLModifier(vn);                ap.tanlangXPath("/ purchaseOrder / items / item [@ partNum = '872-AA']");                int men = -1;                esa ((men = ap.evalXPath()) != -1){                    xm.olib tashlash();                    xm.insertBeforeElement("  n");                }                ap.tanlangXPath("/ purchaseOrder / items / item / USPrice [. <40] / text ()");                esa ((men = ap.evalXPath()) != -1){                    xm.updateToken(men, "200");                }                xm.chiqish("newpo.xml");            }      }}

Adabiyotlar

  1. ^ Chjan, Jimmi (2004 yil 19-may). "XML uchun ekstraktiv bo'lmagan tahlil". XML.com. Olingan 2020-07-24.
  2. ^ Kelajak uchun XML ishlov berish
  3. ^ Chjan, Jimmi (2008 yil 9-yanvar). "XML tarkibini Ximple yo'li bilan boshqarish". DevX. Olingan 2020-07-24.
  4. ^ Chjan, Jimmi (2008 yil 24-iyun). "VTD-XML: kelajak uchun XML ishlov berish (II qism)". Kod loyihasi. Olingan 2020-07-24.
  5. ^ Chjan, Jimmi (2006 yil 27 mart). "VTD-XML bilan XML ishlov berishni soddalashtirish". JavaWorld. Olingan 2020-07-24.
  6. ^ Chjan, Jimmi (2004 yil 21 oktyabr). "VTD-XML bilan yaxshiroq, tezroq XML ishlov berish". DevX. Olingan 2020-07-24.
  7. ^ Chjan, Jimmi (2008 yil 17 aprel). "VTD-XML: kelajak uchun XML ishlov berish (I qism)". Kod loyihasi. Olingan 2020-07-24.
  8. ^ Chjan, Jimmi (2007 yil 2-noyabr). "VTD-XML bilan indeks XML hujjatlari". SYS-CON nashrlari. Arxivlandi asl nusxasi 2007-11-05 kunlari.
  9. ^ Chjan, Jimmi (2006 yil 24-iyul). "VTD-XML bilan XML hujjatlarini kesish, joylashtirish, ajratish va yig'ish". JavaWorld. Olingan 2020-07-24.
  10. ^ Chipdagi XML?
  11. ^ Chjan, Jimmi (2005 yil 9 mart). "Chipdagi XML". XML.com. Olingan 2020-07-24.
  12. ^ XimpleWare-ning W3C ikkilik XML ustaxonasi Position Paper
  13. ^ Chjan, Jimmi (2007 yil 19 mart). "VTD-XML yordamida XPath samaradorligini oshirish". DevX. Olingan 2020-07-24.
  14. ^ Volkman, Viktor (2007 yil 3-dekabr). "VTD-XML: XMLning yangi ko'rinishi". Developer.com. Olingan 2020-07-24.
  15. ^ SourceForge-da Virtual Token Descriptor kirish
  16. ^ Chjan, Jimmi (2006 yil 31-iyul). "Ikkilik XML-ning ishlashi uchun voy". SYS-CON nashrlari. Arxivlandi asl nusxasi 2006-08-08 kunlari.
  17. ^ VTD-XML ajralish / navigatsiya samaradorligi to'g'risidagi hisobot
  18. ^ Chjan, Jimmi (2006 yil 8 fevral). "To'g'ri yo'nalishda qadam: VTD-XML XML ishlashni yaxshilaydi". DevX. Olingan 2020-07-24.
  19. ^ Chjan, Jimmi (2007 yil 9-yanvar). "VTD-XML bilan WSS dasturlarini tezlashtirish". JavaWorld. Olingan 2020-07-24.
  20. ^ XML xavfsizligi bo'yicha W3C seminar taqdimoti
  21. ^ W3C seminari uchun XML imzo va XML shifrlash uchun keyingi qadamlar bo'yicha joylashish qog'ozi
  22. ^ Chjan, Jimmi (2007 yil 10 sentyabr). "VTD-XML bilan sxemasiz Java-XML ma'lumotlarini bog'lash". ONJava. Arxivlandi asl nusxasi 2017-09-27 da.