C-da ketma-ketlik - Escape sequences in C

Qochish ketma-ketliklari dasturlash tillarida ishlatiladi C va C ++ va ularning dizayni kabi ko'plab boshqa tillarga ko'chirilgan Java va C #. Qochish ketma-ketligi - bu belgi yoki satr ichida ishlatilganda o'zini ko'rsatmaydigan belgilar ketma-ketligi so'zma-so'z, lekin boshqa belgiga yoki to'g'ridan-to'g'ri namoyish qilish qiyin yoki imkonsiz bo'lishi mumkin bo'lgan belgilar ketma-ketligiga tarjima qilingan.

Cda barcha qochish ketma-ketliklari ikki yoki undan ortiq belgidan iborat bo'lib, ularning birinchisi teskari burilish, \ ("deb nomlanganQochish belgisi "); qolgan belgilar qochish ketma-ketligining talqinini belgilaydi. Masalan, n a ni bildiradigan qochish ketma-ketligi yangi qator belgi.

Motivatsiya

Deylik, biz chop etmoqchimiz Salom, bir qatorda, so'ngra dunyo! keyingi satrda. Bosib chiqariladigan satrni bitta tom ma'noda quyidagicha ifodalashga urinish mumkin:

# shu jumladan <stdio.h>int asosiy() {    printf("Salom,dunyo!");}

Bu Cda to'g'ri kelmaydi, chunki mag'lubiyat bir nechta mantiqiy manba satrlarini qamrab olmasligi mumkin. Buni raqamli qiymat yordamida yangi satr belgisini bosib chiqarish orqali ishlash mumkin (0x0A yilda ASCII ),

# shu jumladan <stdio.h>int asosiy() {    printf("Salom,% cworld!", 0x0A);}

Bu dasturni chop etishga ko'rsatma beradi Salom,, so'ngra raqamli qiymati bo'lgan bayt 0x0A, dan so'ng dunyo!. Bu, albatta, mashina ASCII kodlashidan foydalanganda ishlaydi, boshqa kodlashlardan foydalanadigan, yangi satr belgisi uchun boshqa raqamli qiymatga ega tizimlarda ishlamaydi. Bundan tashqari, bu yaxshi echim emas, chunki u hali ham literal ichida yangi satr belgisini ko'rsatishga imkon bermaydi va o'rniga semantikasidan foydalanadi printf. Ushbu muammolarni hal qilish va tizimlar o'rtasida maksimal portativlikni ta'minlash uchun C sharhlaydi n maqsadli tizimda nima bo'lishidan qat'i nazar, yangi qator belgisi sifatida literal ichida:

# shu jumladan <stdio.h>int asosiy() {    printf("Salom, ndunyo! ");}

Ushbu kodda qochish ketma-ketligi n teskari chiziq va undan keyin harf turmaydi n, chunki teskari egri chiziq kompilyator tomonidan belgilar talqin qilinishining odatiy usulidan "qochishga" olib keladi. Orqaga burish chizig'ini ko'rgandan so'ng, kompilyator qochish ketma-ketligini boshqa bir belgi bilan yakunlashni kutadi va keyin qochish ketma-ketligini u ko'rsatishi kerak bo'lgan baytlarga tarjima qiladi. Shunday qilib, "Salom, ndunyo!" ichida ishlatilganligidan qat'i nazar, kiritilgan yangi satrli qatorni ifodalaydi printf yoki boshqa joyda.

Bunda tom ma'noda haqiqiy teskari egilishni qanday aks ettirish masalasi ko'tariladi. Bu qochish ketma-ketligi yordamida amalga oshiriladi \\, keyingi bobda ko'rinib turganidek.

Masalan, ba'zi tillarda qochish tartiblari mavjud emas Paskal. Buning o'rniga yangi qatorni o'z ichiga olgan buyruq ishlatiladi (Writeln yangi qatorni o'z ichiga oladi, yozish uni istisno qiladi).

Writeln('Salom');yozmoq("dunyo!");

Qochish ketma-ketliklari jadvali

Quyidagi qochish ketma-ketliklari C standartida aniqlangan. Ushbu jadvalda ular ASCII-da mos keladigan qiymatlar ko'rsatilgan. Biroq, ushbu qochish ketma-ketliklari C kompilyatori bo'lgan har qanday tizimda ishlatilishi mumkin va agar tizim ASCII asosida belgilar kodlashidan foydalanmasa, turli xil qiymatlarga mos kelishi mumkin.

Qochish ketma-ketligiASCII-dagi olti burchakli qiymatBelgini ifodalaydi
a07Ogohlantirish (signal, qo'ng'iroq) (C89 da qo'shilgan)[1]
b08Orqaga qaytarish
eeslatma 11BQochish belgisi
f0CShakllantirish Sahifa tanaffusi
n0AYangi raqam (Qator tasmasi); quyidagi yozuvlarga qarang
r0DVagonni qaytarish
t09Landshaft yorliq
v0BVertikal yorliq
\\5COrqa chiziq
\'27Apostrof yoki bitta tirnoq belgisi
\"22Ikki marta tirnoq belgisi
\?3FSo'roq belgisi (oldini olish uchun ishlatiladi trigraflar )
\nnneslatma 2har qandayRaqamli qiymati berilgan bayt nnn sifatida talqin qilingan sakkizli raqam
xhh…har qandayRaqamli qiymati berilgan bayt hh… sifatida talqin qilingan o'n oltinchi raqam
uhhhheslatma 3yo'qUnicode kod nuqtasi 10000 o'naltıdan past
Uhhhhhhhheslatma 4yo'qUnicode kodi qaerda h o'n oltinchi raqam
Izoh 1.^ Umumiy nostandart kod; quyidagi Izohlar bo'limiga qarang.
Izoh 2.^ Bir, ikki yoki uchta sakkizinchi raqamlar bo'lishi mumkin n mavjud; quyidagi Izohlar bo'limiga qarang.
Izoh 3.^ u o'n oltita raqamni oladi h; quyidagi Izohlar bo'limiga qarang.
Izoh 4.^ U o'n oltita raqamni oladi h; quyidagi Izohlar bo'limiga qarang.

Izohlar

n platformasi kabi yangi qatorni belgilash uchun bir nechta baytdan foydalanishi mumkinligiga qaramay, bitta baytni ishlab chiqaradi DOS /Windows CR-LF ketma-ketligi, 0x0D 0x0A. Dan tarjima 0x0A ga 0x0D 0x0A DOS va Windows-da bayt faylga yoki konsolga yozilganda paydo bo'ladi va teskari tarjima matnli fayllar o'qilganda amalga oshiriladi.

Olti burchakli qochish ketma-ketligi kamida bitta olti raqamga ega bo'lishi kerak x, yuqori chegarasiz; u qancha olti raqamli raqamlarda davom etsa. Shunday qilib, masalan, xABCDEFG baytni ABCDEF sonli qiymati bilan belgilaydi16, keyin xat G, bu olti raqamli raqam emas. Ammo, natijada olingan tamsayı qiymati bitta baytga sig'maydigan darajada katta bo'lsa, tayinlangan haqiqiy raqam qiymati dastur tomonidan belgilanadi. Ko'pgina platformalarda 8 bit mavjud char turlari, bu foydali olti burchakli qochish ketma-ketligini ikki olti raqamga cheklaydi. Shu bilan birga, ikkita olti raqamdan uzun olti burchakli qochish ketma-ketligi keng belgi yoki keng satrda (L bilan qo'shilgan) foydali bo'lishi mumkin:

char s1[] = " x12";       // qiymati 0x12 bo'lgan bitta char (o'nli kasrda 18)char s1[] = " x1234";     // char etarli bo'lmasa, amalga oshiriladigan qiymatga ega bitta charwchar_t s2[] = L" x1234"; // wxar_t etarlicha uzoq bo'lsa (0 bit12) qiymati 0x1234 bo'lgan bitta wchar_t (16 bit etarli)

Sakkizli qochish ketma-ketligi quyidagilardan iborat \ keyin bir, ikki yoki uchta sakkizinchi raqamlar. Sakkizli qochish ketma-ketligi allaqachon uchta sakkizta raqamni o'z ichiga olganida tugaydi yoki keyingi belgi sakkizli raqam emas. Masalan, \11 qochish ketma-ketligini emas, balki 9 sonli qiymatiga ega baytni bildiruvchi bitta sakkizinchi qochish ketma-ketligi (sakkizta 11) \1 keyin raqam 1. Biroq, \1111 sakkizli qochish ketma-ketligi \111 keyin raqam 1. Baytni 1 raqamli qiymati bilan keyin raqam bilan belgilash uchun 1, foydalanish mumkin "\1""1", chunki C avtomatik ravishda qo'shni qatorli harflarni birlashtiradi. E'tibor bering, ba'zi uch xonali sakkizli qochish ketma-ketliklari bitta baytga sig'inmaydigan darajada katta bo'lishi mumkin; bu aslida ishlab chiqarilgan bayt uchun dastur tomonidan belgilangan qiymatga olib keladi. Qochish ketma-ketligi \0 nolga teng nol belgini bildiruvchi, odatda ishlatiladigan sakkizli qochish ketma-ketligi.

Nostandart qochish ketma-ketliklari

Kabi ketma-ketlik z yuqoridagi jadvalda mavjud emasligi sababli C standartiga muvofiq to'g'ri qochish ketma-ketligi emas. C standarti bunday "yaroqsiz" qochish ketma-ketligini tashxislashni talab qiladi (ya'ni kompilyator xato xabarini chop etishi kerak). Shunga qaramay, ba'zi kompilyatorlar dastur tomonidan belgilangan semantika bilan qo'shimcha qochish ketma-ketliklarini belgilashlari mumkin. Bunga misol e ASCII da o'n oltinchi qiymat sifatida 1B bo'lgan qochish ketma-ketligi qochish xarakteri, va qo'llab-quvvatlanadi GCC,[2] jarang va tcc. Ammo bu C standart repertuariga qo'shilmagan, chunki ba'zilarida mazmunli ekvivalenti yo'q belgilar to'plamlari (kabi EBCDIC ).[1]

Umumjahon belgilar nomlari

Dan C99 standart, C shuningdek, qochish ketma-ketligini bildiradi Unicode satr harflaridagi kod punktlari. Bunday qochish ketma-ketliklari deyiladi universal belgilar nomlariva shaklga ega uhhhh yoki Uhhhhhhhh, qayerda h olti raqamli raqamni anglatadi. Ko'zdan kechirilgan boshqa ketma-ketliklardan farqli o'laroq, universal belgilar nomi bir nechta kod birliklariga kengayishi mumkin.

Ketma-ketlik uhhhh belgisini bildiradi kod nuqtasi hhhh, o'n oltinchi raqam sifatida talqin qilingan. Ketma-ketlik Uhhhhhhhh kod nuqtasini bildiradi hhhhhhhh, o'n oltinchi raqam sifatida talqin qilingan. (Shuning uchun U + 10000 va undan yuqori qismida joylashgan kod nuqtalarini. Bilan belgilash kerak U sintaksis, pastroq kodli punktlardan foydalanish mumkin u yoki U.) Kod nuqtasi ning ketma-ketligiga aylantiriladi kod birliklari maqsad tizimidagi maqsad turini kodlashda. Masalan, ko'rib chiqing

char s1[] = " xC0";char s2[] = " u00C1";wchar_t s3[] = L" xC0";wchar_t s4[] = L" u00C0";

Ip s1 raqamli qiymati, xotirada saqlanadigan haqiqiy qiymat, aslida bitta baytni (tugatuvchi nolni hisobga olmaganda) o'z ichiga oladi 0xC0. Ip s2 "Á" belgisini o'z ichiga oladi, U + 00C1 LATIN CAPITAL MAKTUBI O'tkir bilan. Dan foydalanadigan tizimda UTF-8 kodlash, mag'lubiyat s2 o'z ichiga oladi ikkitasi bayt, 0xC3 0xA1. Ip s3 bitta qo'shiqni o'z ichiga oladi wchar_t, yana raqamli qiymat bilan 0xC0. Ip s4 ichiga kodlangan "À" belgisini o'z ichiga oladi wchar_t, agar UTF-16 kodlash ishlatiladi, keyin s4 faqat bitta bittadan iborat bo'ladi wchar_t, 16 bit uzunlikdagi, raqamli qiymati bilan 0x00C0. Kabi universal belgilar nomi U0001F603 bitta bilan ifodalanishi mumkin wchar_t agar UTF-32 kodlash ishlatiladi, yoki UTF-16 ishlatilsa ikkitasi.

Muhimi, universal belgilar nomi u00C0 har qanday mag'lubiyat satrida ishlatilishidan yoki ishlatilishdagi kodlashdan qat'iy nazar har doim "" "belgisini bildiradi. Yana, U0001F603 har doim 1F603 kod nuqtasida belgini bildiradi16, kontekstidan qat'i nazar. Boshqa tomondan, sakkizli va olti burchakli qochish ketma-ketliklari har doim kodlashdan qat'iy nazar raqamli qiymatlarning ma'lum ketma-ketliklarini bildiradi. Shuning uchun universal belgilar nomlari sakkizli va olti burchakli qochish ketma-ketligini to'ldiradi; sakkizli va olti burchakli qochish ketma-ketliklari "jismoniy" kod birliklarini ifodalasa, universal belgilar nomlari kod nuqtalari, bu "mantiqiy" belgilar deb o'ylanishi mumkin.

Shuningdek qarang

Adabiyotlar

  1. ^ a b "Xalqaro standart uchun asos - dasturlash tillari - C" (PDF). 5.10. 2003 yil aprel. Arxivlandi (PDF) asl nusxasidan 2016-06-06. Olingan 2010-10-17.
  2. ^ "6.35 Belgilar doimiy ravishda". GCC 4.8.2 qo'llanmasi. Arxivlandi asl nusxasidan 2019-05-12. Olingan 2014-03-08.

Qo'shimcha o'qish