Pearson korrelyatsiya koeffitsienti - Pearson correlation coefficient

Yilda statistika, Pearson korrelyatsiya koeffitsienti (PCC, talaffuz qilingan /ˈp.erseng/), shuningdek, deb nomlanadi Pearsonniki r, Pearson mahsulot-moment korrelyatsiya koeffitsienti (PPMCC) yoki ikki tomonlama korrelyatsiya,[1] chiziqli o'lchaydigan statistik hisoblanadi o'zaro bog'liqlik ikkita o'zgaruvchi o'rtasida X va Y. Uning qiymati +1 dan -1 gacha. +1 qiymati umumiy musbat chiziqli korrelyatsiya, 0 chiziqli korrelyatsiya emas, −1 esa umumiy salbiy chiziqli korrelyatsiya.[a]

Korrelyatsiya koeffitsientining har xil qiymatlariga ega bo'lgan tarqalish diagrammalariga misollar (r)
Bir nechta to'plam (xy) ning o'zaro bog'liqlik koeffitsienti bilan x va y har bir to'plam uchun. E'tibor bering, korrelyatsiya chiziqli munosabatlarning kuchi va yo'nalishini aks ettiradi (yuqori satr), lekin bu munosabat nishabini (o'rtada) va chiziqli bo'lmagan munosabatlarning ko'p tomonlarini (pastki qismida) aks ettiradi. NB: markazdagi rasm 0 ga egilib, lekin u holda korrelyatsiya koeffitsienti aniqlanmagan, chunki Y nolga teng.

Nomlash va tarix

U tomonidan ishlab chiqilgan Karl Pirson tomonidan kiritilgan tegishli g'oyadan Frensis Galton 1880-yillarda va matematik formulasi olingan va nashr etilgan Auguste Bravais 1844 yilda.[b][5][6][7][8] Shunday qilib koeffitsientning nomlanishi misol bo'la oladi Stigler qonuni.

Ta'rif

Pearsonning korrelyatsiya koeffitsienti bu kovaryans ikkitasi o'zgaruvchilarning ko'paytmasiga ko'paytiriladi standart og'ishlar. Ta'rifning shakli "mahsulot momentini", ya'ni o'rtacha (birinchisini) o'z ichiga oladi lahza o'rtacha sozlangan tasodifiy miqdorlar mahsulotining kelib chiqishi haqida); shuning uchun modifikator mahsulot momenti nomida.

Aholi uchun

A ga qo'llanganda Pirsonning korrelyatsiya koeffitsienti aholi, odatda yunoncha harf bilan ifodalanadi r (rho) va deb atash mumkin aholi korrelyatsiya koeffitsienti yoki populyatsiya Pearson korrelyatsiya koeffitsienti.[9] Bir juft tasodifiy o'zgaruvchilar berilgan , uchun formula r[10] bu:[11]

 

 

 

 

(Tenglama 1)

qaerda:

bo'ladi kovaryans
bo'ladi standart og'ish ning
ning standart og'ishi hisoblanadi

Uchun formula o'rtacha va kutish bilan ifodalanishi mumkin. Beri

[10]

uchun formula sifatida ham yozilishi mumkin

 

 

 

 

(Ikkinchi tenglama)

qaerda:

va yuqoridagi kabi belgilanadi
bo'ladi anglatadi ning
bo'ladi anglatadi ning
bo'ladi kutish.

Uchun formula markazlashtirilmagan lahzalar bilan ifodalanishi mumkin. Beri

uchun formula sifatida ham yozilishi mumkin

Namuna uchun

A ga qo'llanganda Pirsonning korrelyatsiya koeffitsienti namuna, odatda tomonidan ifodalanadi va deb atash mumkin namunaviy korrelyatsiya koeffitsienti yoki namunasi Pearson korrelyatsiya koeffitsienti.[9] Biz uchun formulani olishimiz mumkin a asosidagi kovaryansiyalar va dispersiyalarning taxminlarini almashtirish bilan namuna yuqoridagi formulaga. Berilgan ma'lumotlar berilgan iborat juftliklar, quyidagicha aniqlanadi:

 

 

 

 

(Tenglama 3)

qaerda:

namuna hajmi
bilan indekslangan individual namunalar men
(namuna anglatadi ); va shunga o'xshash tarzda

Qayta tartibga solish bizga ushbu formulani beradi :

qayerda yuqoridagi kabi belgilanadi.

Ushbu formula namunaviy korrelyatsiyani hisoblash uchun qulay bir martalik algoritmni taklif qiladi, garchi raqamlarga bog'liq bo'lsa, ba'zida son jihatdan beqaror.

Qayta tartibga solish bizga buni beradi[10] uchun formula :

qayerda yuqoridagi kabi belgilanadi.

Ekvivalent ifoda uchun formulani beradi mahsulotlarining o'rtacha qiymati sifatida standart ballar quyidagicha:

qayerda

yuqoridagi kabi belgilanadi va quyida keltirilgan
bo'ladi standart ball (va shunga o'xshash standart bal uchun )

Uchun alternativ formulalar ham mavjud. Masalan. uchun quyidagi formuladan foydalanish mumkin :

qaerda:

yuqoridagi kabi belgilanadi va:
(namuna standart og'ish ); va shunga o'xshash tarzda

Amaliy masalalar

Og'ir shovqin sharoitida stoxastik o'zgaruvchilarning ikkita to'plami orasidagi korrelyatsiya koeffitsientini ajratib olish noan'anaviy hisoblanadi, xususan, Canonical Correlation Analysis hisobotida og'ir shovqin hissalari tufayli buzilgan korrelyatsiya qiymatlari. Yondashuvni umumlashtirish boshqa joyda berilgan.[12]

Yo'qotilgan ma'lumotlar bo'lsa, Garren quyidagilarni keltirib chiqardi maksimal ehtimollik taxminchi.[13]

Matematik xususiyatlar

Pirson korrelyatsiya koeffitsientlarining ham namunasi, ham absolyut qiymatlari 0 va 1 orasida. +1 yoki -1 ga teng bo'lgan korrelyatsiyalar aniq chiziqda yotgan ma'lumotlar nuqtalariga (namunaviy korrelyatsiya holatida) yoki ikki tomonlama taqsimot butunlay bir qatorda qo'llab-quvvatlanadi (aholining o'zaro bog'liqligi holatida). Pearson korrelyatsiya koeffitsienti nosimmetrik: corr (X,Y) = tuzatish (Y,X).

Pearson korrelyatsiya koeffitsientining asosiy matematik xususiyati shundaki o'zgarmas ikkita o'zgaruvchida joylashuv va o'lchovdagi alohida o'zgarishlar ostida. Ya'ni, biz o'zgartirishimiz mumkin X ga a + bX va o'zgartirish Y ga v + dY, qayerda a, b, vva d bilan doimiydir b, d > 0, korrelyatsiya koeffitsientini o'zgartirmasdan. (Bu populyatsiya uchun ham, Pirsonning korrelyatsiya koeffitsientlari uchun ham amal qiladi.) Shuni e'tiborga olingki, ko'proq umumiy chiziqli transformatsiyalar korrelyatsiyani o'zgartiradi: qarang § tasodifiy o'zgaruvchilarning dekoratsiyasi Buning uchun.

Tafsir

Korrelyatsiya koeffitsienti -1 dan 1 gacha o'zgarib turadi. 1 qiymati chiziqli tenglama o'zaro bog'liqlikni tavsiflashini anglatadi. X va Y a, yotgan barcha ma'lumotlar nuqtalari bilan mukammal chiziq buning uchun Y sifatida ortadi X ortadi. −1 qiymati barcha ma'lumotlar nuqtalari bir chiziqda joylashganligini bildiradi Y kabi kamayadi X ortadi. 0 qiymati o'zgaruvchilar o'rtasida chiziqli bog'liqlik yo'qligini anglatadi.[14]

Umuman olganda (Xmen − X)(Ymen − Y) ijobiy va faqat agar ijobiy bo'lsa Xmen va Ymen tegishli vositalarining bir tomonida yotish. Shunday qilib, korrelyatsiya koeffitsienti ijobiy, agar Xmen va Ymen bir vaqtning o'zida o'zlarining tegishli vositalaridan kattaroq yoki bir vaqtning o'zida kamroq bo'lishga moyil. Korrelyatsiya koeffitsienti salbiy (korrelyatsiyaga qarshi ) agar Xmen va Ymen o'z vositalarining qarama-qarshi tomonlarida yotishga moyil. Bundan tashqari, moyillik qanchalik kuchli bo'lsa, shunchalik katta bo'ladi mutlaq qiymat korrelyatsiya koeffitsienti.

Rodjers va Nitsvander[15] o'zaro bog'liqlikni talqin qilishning o'n uchta usuli kataloglangan:

  • Xom ballar va vositalarning funktsiyasi
  • Standartlashtirilgan kovaryans
  • Regressiya chizig'ining standartlashtirilgan qiyaligi
  • Ikki regressiya yonbag'rining geometrik o'rtacha qiymati
  • Ikki dispersiya nisbatining kvadrat ildizi
  • Standartlashtirilgan o'zgaruvchilarning o'rtacha o'zaro bog'liqligi
  • Ikkala standartlashtirilgan regressiya chiziqlari orasidagi burchakning funktsiyasi
  • Ikki o'zgaruvchan vektor orasidagi burchakning funktsiyasi
  • Standartlashtirilgan ballar o'rtasidagi farqning qayta hisoblangan farqi
  • Balon qoidasidan taxmin qilingan
  • Izokonsentratsiyaning ikki o'zgaruvchan ellipslari bilan bog'liq
  • Loyihalangan tajribalardan olingan test statistikasining funktsiyasi
  • Ikki vositaning nisbati

Geometrik talqin

Uchun regressiya liniyalari y = gX(x) [qizil] va x = gY(y) [ko'k]

Markazlashtirilmagan ma'lumotlar uchun korrelyatsiya koeffitsienti va burchak o'rtasida bog'liqlik mavjud φ ikki regressiya chizig'i o'rtasida, y = gX(x) va x = gY(y), regressing natijasida olingan y kuni x va x kuni y navbati bilan. (Bu yerda, φ chiziqlarning kesishish nuqtasi atrofida hosil bo'lgan birinchi kvadrant ichida soat sohasi farqli o'laroq o'lchanadi r > 0, yoki agar to'rtinchi tomondan ikkinchi kvadrantga soat sohasi farqli o'laroq r < 0.) Ko'rsatish mumkin[16] agar standart og'ishlar teng bo'lsa, unda r = sek φ - sarg'ish φ, qaerda sek va sarg'ish bor trigonometrik funktsiyalar.

Markazlashtirilgan ma'lumotlar uchun (ya'ni har bir o'zgaruvchi uchun o'rtacha nolga teng bo'lishi uchun o'zlarining o'zgaruvchilarining namunaviy vositalari yordamida siljigan ma'lumotlar) uchun korrelyatsiya koeffitsienti ham kosinus ning burchak θ kuzatilgan ikkalasi o'rtasida vektorlar yilda No'lchovli bo'shliq (uchun N har bir o'zgaruvchining kuzatuvlari)[17]

Ma'lumotlar to'plami uchun markazlashtirilmagan (Pearson-mos kelmaydigan) va markazlashtirilgan korrelyatsiya koeffitsientlari aniqlanishi mumkin. Masalan, beshta mamlakatda tegishli ravishda 1, 2, 3, 5 va 8 milliard dollarlik yalpi milliy mahsulotlar borligi aniqlandi. Deylik, xuddi shu beshta mamlakatda (xuddi shu tartibda) 11%, 12%, 13%, 15% va 18% qashshoqlik borligi aniqlandi. Keyin ruxsat bering x va y yuqoridagi ma'lumotlarni o'z ichiga olgan 5 elementli vektorlarga buyurtma berish: x = (1, 2, 3, 5, 8) va y = (0.11, 0.12, 0.13, 0.15, 0.18).

Burchakni topish uchun odatiy protsedura bo'yicha θ ikki vektor o'rtasida (qarang. qarang nuqta mahsuloti ), the markazsiz korrelyatsiya koeffitsienti:

Ushbu markazlanmagan korrelyatsiya koeffitsienti bilan bir xil kosinus o'xshashligi.Qayd etish kerakki, yuqoridagi ma'lumotlar ataylab mukammal o'zaro bog'liq bo'lishi uchun tanlangan: y = 0.10 + 0.01 x. Shuning uchun Pearson korrelyatsiya koeffitsienti to'liq bitta bo'lishi kerak. Ma'lumotlarni markazlashtirish (almashtirish) x tomonidan ℰ (x) = 3.8 va y tomonidan ℰ (y) = 0.138) hosil beradi x = (−2.8, −1.8, −0.8, 1.2, 4.2) va y = (−0.028, −0.018, −0.008, 0.012, 0.042), undan

kutilganidek.

Korrelyatsiya hajmini talqin qilish

Ushbu ko'rsatkich, Pearson korrelyatsiyasining qiymatlarni taxmin qilish uchun foydaliligi uning kattaligiga qarab qanday o'zgarib turishini tushuntiradi. Birgalikda normal hisoblanadi X, Y korrelyatsiya bilan r, (bu erda funktsiyasi sifatida tuzilgan r) berilgan omil bashorat qilish oralig'i uchun Y ning tegishli qiymati berilganida kamaytirilishi mumkin X. Masalan, agar r = 0,5, keyin 95% prognozlash oralig'i Y|X 95% prognozlash oralig'idan taxminan 13% kichikroq bo'ladi Y.

Bir nechta mualliflar korrelyatsiya koeffitsientini talqin qilish bo'yicha ko'rsatmalar taklif qilishdi.[18][19] Biroq, bunday mezonlarning barchasi biron bir tarzda o'zboshimchalik bilan amalga oshiriladi.[19] Korrelyatsiya koeffitsientini talqin qilish kontekst va maqsadlarga bog'liq. Agar jismoniy qonunni yuqori sifatli asboblardan foydalangan holda tekshirayotgan bo'lsa, 0.8 korrelyatsiyasi juda past bo'lishi mumkin, ammo ijtimoiy fanlarda juda yuqori deb hisoblanishi mumkin, bu erda murakkablashtiruvchi omillarning hissasi ko'proq bo'lishi mumkin.

Xulosa

Pearsonning korrelyatsiya koeffitsientiga asoslangan statistik xulosa ko'pincha quyidagi ikkita maqsadning biriga qaratiladi:

  • Maqsadlardan biri sinovdan o'tkazishdir nol gipoteza haqiqiy korrelyatsiya koeffitsienti r namunaviy korrelyatsiya koeffitsienti qiymatiga asoslanib, 0 ga teng r.
  • Boshqa maqsad a ishonch oralig'i takroriy tanlab olishda ma'lum ehtimollik mavjud r.

Quyida ushbu maqsadlardan biriga yoki ikkalasiga erishish usullarini muhokama qilamiz.

Permütatsiya testidan foydalanish

Permutatsion testlar gipoteza testlarini o'tkazishda va ishonch oralig'ini tuzishda bevosita yondashuvni ta'minlaydi. Pirsonning korrelyatsiya koeffitsienti uchun almashtirish testi quyidagi ikki bosqichni o'z ichiga oladi:

  1. Asl juftlashgan ma'lumotdan foydalanish (xmenymen), tasodifiy ravishda yangi ma'lumotlar to'plamini yaratish uchun juftlarni qayta aniqlang (xmenymen), qaerda men {1, ..., to'plamining almashinuvin}. Almashtirish men tasodifiy tanlanadi, hammaga teng ehtimolliklar qo'yiladi n! mumkin bo'lgan almashtirishlar. Bu rasm chizishga tengdir men to'plamdan almashtirishsiz tasodifiy holda {1, ..., n}. Yilda yuklash, yaqindan bog'liq bo'lgan yondashuv, men va men teng va {1, ..., o'rniga almashtirish bilan chizilgan n};
  2. Korrelyatsiya koeffitsientini tuzing r tasodifiy ma'lumotlardan.

Joy almashtirish testini bajarish uchun (1) va (2) bosqichlarni ko'p marta takrorlang. The p-qiymati permutation testi uchun ning nisbati r dastlabki ma'lumotlardan hisoblangan Pearson korrelyatsiya koeffitsientidan kattaroq (2) bosqichda hosil bo'lgan qiymatlar. Bu erda "kattaroq" degan ma'noni anglatadiki, bu qiymat kattaligidan kattaroq yoki belgi qo'yilgan qiymatdan kattaroq ikki tomonlama yoki bir tomonlama sinov kerak.

Bootstrap-dan foydalanish

The bootstrap yordamida Pirsonning korrelyatsiya koeffitsienti uchun ishonch oraliqlarini tuzishda foydalanish mumkin. "Parametrik bo'lmagan" bootstrap-da, n juftliklar (xmenymen) kuzatilgan to'plamdan "almashtirish bilan" qayta to'ldiriladi n juftlik va korrelyatsiya koeffitsienti r qayta joylashtirilgan ma'lumotlar asosida hisoblanadi. Ushbu jarayon juda ko'p marta takrorlangan va qayta joylashtirilganlarning empirik taqsimoti r qiymatlari taxminan ga yaqinlashish uchun ishlatiladi namunalarni taqsimlash statistik ma'lumot. 95% ishonch oralig'i uchun r 2,5 dan 97,5 gacha bo'lgan interval sifatida aniqlanishi mumkin foizli qayta joylashtirilgan r qiymatlar.

Student's yordamida test o'tkazish t- tarqatish

0,05 darajasida nolga teng deb hisoblash uchun oshib ketishi kerak bo'lgan Pirsonning korrelyatsiya koeffitsientining muhim qiymatlari.

O'zaro bog'liq bo'lmagan juftliklar uchun normal taqsimotning ikki o'zgaruvchanligi, namunalarni taqsimlash Pirsonning korrelyatsiya koeffitsientining ma'lum funktsiyasidan kelib chiqadi Talaba t- tarqatish erkinlik darajasi bilan n - 2. Xususan, agar asosiy o'zgaruvchilar oq rangga ega bo'lsa va ikki o'zgaruvchan normal taqsimotga ega bo'lsa, o'zgaruvchi

talaba bor t- nol holatda taqsimlash (nol korrelyatsiya).[20] Namuna kattaligi etarlicha katta bo'lsa, bu odatiy bo'lmagan kuzatilgan qiymatlarda taxminan saqlanadi.[21] Uchun muhim qiymatlarni aniqlash uchun r teskari funktsiya kerak:

Shu bilan bir qatorda katta namunali, asimptotik yondashuvlardan foydalanish mumkin.

Yana bir dastlabki qog'oz[22] ning umumiy qiymatlari uchun grafikalar va jadvallarni taqdim etadi r, kichik namunaviy o'lchamlar uchun va hisoblash yondashuvlarini muhokama qiladi.

Agar asosiy o'zgaruvchilar oq rangga ega bo'lmasa, Pirsonning korrelyatsiya koeffitsientini tanlab olish taqsimoti talabaga mos keladi. t-taqsimlash, lekin erkinlik darajasi kamayadi.[23]

Aniq taqsimotdan foydalanish

Quyidagi ma'lumotlar uchun a normal taqsimotning ikki o'zgaruvchanligi, aniq zichlik funktsiyasi f(r) namuna korrelyatsiya koeffitsienti uchun r oddiy ikki xillikning[24][25][26]

qayerda bo'ladi gamma funktsiyasi va bo'ladi Gauss gipergeometrik funktsiyasi.

Qachon maxsus holatda , aniq zichlik funktsiyasi f(r) quyidagicha yozilishi mumkin:

qayerda bo'ladi beta funktsiyasi, bu yuqoridagi kabi talabaning t-taqsimotining zichligini yozishning bir usuli.

Fisher transformatsiyasidan foydalanish

Amalda, ishonch oralig'i va gipoteza testlari $ r $ bilan bog'liq, odatda yordamida amalga oshiriladi Baliqchining o'zgarishi, :

F(r) taxminan a normal taqsimot bilan

va standart xato

qayerda n namuna hajmi. Katta namuna hajmi uchun taxminiy xato eng past bo'ladi va kichik va va aks holda ko'payadi.

Taxminan foydalanib, a z-ball bu

ostida nol gipoteza bu , namunaviy juftliklar degan taxminni hisobga olgan holda mustaqil va bir xil taqsimlangan va amal qiling normal taqsimotning ikki o'zgaruvchanligi. Shunday qilib taxminiy p-qiymati oddiy ehtimollar jadvalidan olish mumkin. Masalan, agar z = 2.2 kuzatiladi va nol gipotezani sinash uchun ikki tomonlama p-qiymat talab qilinadi , p qiymati 2 · Φ (-2.2) = 0.028 ga teng, bu erda p standart normal hisoblanadi kümülatif taqsimlash funktsiyasi.

$ R $ uchun ishonch oralig'ini olish uchun avval $ uchun ishonch oralig'ini hisoblaymiz F():

Fisherning teskari o'zgarishi intervalni yana korrelyatsiya shkalasiga olib keladi.

Masalan, biz kuzatmoqdamiz r = 0,3, namuna hajmi bilan n= 50, va biz $ r $ uchun 95% ishonch oralig'ini olishni xohlaymiz. O'zgartirilgan qiymat arctanh (r) = 0.30952, shuning uchun o'zgartirilgan shkala bo'yicha ishonch oralig'i 0.30952 ± 1.96 / ga teng47, yoki (0.023624, 0.595415). Korrelyatsiya shkalasiga qaytganimizda hosil bo'ladi (0.024, 0.534).

Hech bo'lmaganda kvadratchalar regressiyasini tahlil qilish

Namuna korrelyatsiya koeffitsientining kvadrati odatda belgilanadi r2 va bu alohida holat aniqlash koeffitsienti. Bunday holda, u dispersiyaning qismini in-ga baholaydi Y bu bilan izohlanadi X a oddiy chiziqli regressiya. Shunday qilib, bizda ma'lumotlar to'plami mavjud bo'lsa va o'rnatilgan ma'lumotlar to'plami keyin boshlang'ich nuqta sifatida Ymen ularning o'rtacha qiymati atrofida quyidagicha ajralish mumkin

qaerda regressiya tahlilining mos qiymatlari. Buni berish uchun qayta tuzish mumkin

Yuqoridagi ikkita chaqiriq - bu dispersiyaning qismidir Y bu bilan izohlanadi X (o'ngda) va bu bilan izohlanmagan X (chapda).

Keyinchalik, biz eng kam kvadratik regressiya modellari xususiyatini qo'llaymiz, ular orasida namuna kovaryansiyasi mavjud va nolga teng. Shunday qilib, regressiyada kuzatilgan va o'rnatilgan javob qiymatlari o'rtasidagi namunaviy korrelyatsiya koeffitsienti yozilishi mumkin (hisoblash kutilmoqda, Gauss statistikasini nazarda tutadi)

Shunday qilib


qayerda

ning o'zgaruvchanlik nisbati Y ning chiziqli funktsiyasi bilan izohlanadi X.

Yuqorida keltirilgan dalilda

ning qisman hosilalari ekanligini payqab isbotlash mumkin kvadratlarning qoldiq yig'indisi (RSS) ustida β0 va β1 eng kichik kvadrat modelida 0 ga teng, bu erda

.

Oxir-oqibat, tenglamani quyidagicha yozish mumkin:

qayerda

Belgisi kvadratlarning regressiya yig'indisi deyiladi, shuningdek kvadratlarning yig'indisi tushuntirildi va bo'ladi kvadratlarning umumiy yig'indisi (ga mutanosib dispersiya ma'lumotlar).

Ma'lumotlarning tarqalishiga sezgirlik

Mavjudlik

Populyatsiyaning Pearson korrelyatsiya koeffitsienti bo'yicha belgilanadi lahzalar, va shuning uchun har qanday ikkitomonlama uchun mavjud ehtimollik taqsimoti buning uchun aholi kovaryans belgilanadi va marginal aholining farqlari belgilanadi va nolga teng emas. Kabi ba'zi ehtimollik taqsimotlari Koshi taqsimoti aniqlanmagan dispersiyasiga ega va agar $ r $ aniqlanmasa X yoki Y bunday taqsimotga amal qiladi. Ba'zi amaliy dasturlarda, masalan, ta'qib qilinishi shubhali ma'lumotlar bilan bog'liq bo'lgan dasturlarda og'ir dumaloq taqsimot, bu muhim masaladir. Biroq, korrelyatsiya koeffitsientining mavjudligi odatda tashvishlantirmaydi; masalan, agar tarqatish diapazoni chegaralangan bo'lsa, har doim r aniqlanadi.

Namuna hajmi

  • Agar tanlov hajmi o'rtacha yoki katta bo'lsa va populyatsiya normal bo'lsa, u holda ikki o'zgaruvchilik holatida normal taqsimot, namunaviy korrelyatsiya koeffitsienti bu maksimal ehtimollik smetasi aholining o'zaro bog'liqlik koeffitsienti va asimptotik tarzda xolis va samarali, bu shuni anglatadiki, namunaviy korrelyatsiya koeffitsientiga qaraganda aniqroq taxmin qilish mumkin emas.
  • Agar tanlangan hajm katta bo'lsa va populyatsiya normal bo'lmasa, unda namuna korrelyatsiya koeffitsienti taxminan xolis bo'lib qoladi, ammo samarali bo'lmasligi mumkin.
  • Agar namuna kattaligi katta bo'lsa, unda namuna korrelyatsiya koeffitsienti a izchil baholovchi namunaviy vositalar, tafovutlar va kovaryanslar mos keladigan bo'lsa, aholi korrelyatsiya koeffitsientining (bu katta sonlar qonuni qo'llanilishi mumkin).
  • Agar namuna hajmi kichik bo'lsa, u holda namuna korrelyatsiya koeffitsienti r ning xolis bahosi emas r.[10] Buning o'rniga sozlangan korrelyatsiya koeffitsientidan foydalanish kerak: ta'rif uchun ushbu maqolaning boshqa joylarini ko'ring.
  • Balanssizligi uchun korrelyatsiyalar boshqacha bo'lishi mumkin ikkilamchi namunadagi dispersiya xatosi mavjud bo'lganda ma'lumotlar.[27]

Sog'lomlik

Ko'p ishlatiladigan statistikalar singari, namunaviy statistika r emas mustahkam,[28] shuning uchun uning qiymati noto'g'ri bo'lishi mumkin, agar chetga chiquvchilar mavjud.[29][30] Xususan, PMCC tarqatish jihatidan mustahkam emas,[iqtibos kerak ] na chidamli[28] (qarang Sog'lom statistika # Ta'rif ). Tekshirish sochilib ketish o'rtasida X va Y odatda mustahkamlikning etishmasligi muammo bo'lishi mumkin bo'lgan vaziyatni ochib beradi va bunday hollarda mustahkam assotsiatsiyadan foydalanish tavsiya etilishi mumkin. Shuni e'tiborga olingki, assotsiatsiyaning eng ishonchli taxminchilari o'lchovni amalga oshiradilar statistik bog'liqlik qaysidir ma'noda, ular odatda Pearson korrelyatsiya koeffitsienti bilan bir xil miqyosda talqin qilinishi mumkin emas.

Pearsonning korrelyatsiya koeffitsienti bo'yicha statistik xulosa ma'lumotlar tarqalishiga sezgir. Aniq testlar va asosidagi asimptotik testlar Baliqchining o'zgarishi ma'lumotlar taxminan normal taqsimlangan taqdirda qo'llanilishi mumkin, ammo aks holda chalg'itishi mumkin. Ba'zi holatlarda bootstrap ishonch oralig'ini qurish uchun qo'llanilishi mumkin va almashtirish sinovlari gipoteza sinovlarini o'tkazish uchun qo'llanilishi mumkin. Bular parametrsiz yondashuvlar ikki tomonlama odatiylikni saqlamaydigan ba'zi holatlarda yanada mazmunli natijalar berishi mumkin. Biroq, ushbu yondashuvlarning standart versiyalari ishonadi almashinuvchanlik ma'lumotlar, ya'ni korrelyatsiya bahosining xatti-harakatlariga ta'sir qilishi mumkin bo'lgan tahlil qilinadigan ma'lumotlar juftlarini buyurtma qilish yoki guruhlash yo'qligini anglatadi.

Qatlamli tahlil - bu ikki o'zgaruvchan normallikning etishmasligini ta'minlash yoki boshqasini boshqarish paytida bir omil natijasida yuzaga keladigan o'zaro bog'liqlikni ajratish usullaridan biridir. Agar V klasterga a'zolikni yoki uni boshqarish kerak bo'lgan boshqa omilni ifodalaydi, biz ma'lumotlarning qiymatiga qarab qatlamlashimiz mumkin V, keyin har bir qatlam ichida korrelyatsiya koeffitsientini hisoblang. Qatlam darajasidagi taxminlarni keyinchalik umumiy korrelyatsiyani baholash uchun birlashtirish mumkin V.[31]

Variantlar

Korrelyatsiya koeffitsientining o'zgarishini turli maqsadlar uchun hisoblash mumkin. Mana ba'zi misollar.

Korrelyatsiya koeffitsienti sozlangan

Namuna korrelyatsiya koeffitsienti r ning xolis bahosi emas r. Quyidagi ma'lumotlar uchun a normal taqsimotning ikki o'zgaruvchanligi, kutish E [r] namunaviy korrelyatsiya koeffitsienti uchun r oddiy ikki xillikning[32]

shuning uchun r ning noaniq baholovchisi

Noyob minimal dispersiyani xolis baholovchi radj tomonidan berilgan[33]

qaerda:

yuqoridagi kabi belgilanadi,
bo'ladi Gauss gipergeometrik funktsiyasi.

Taxminan xolis baholovchi radj olinishi mumkin[iqtibos kerak ] qisqartirish orqali E [r] va ushbu qisqartirilgan tenglamani echish:

Taxminan echim[iqtibos kerak ] (2) tenglamaga:

qaerda (3):

yuqoridagi kabi belgilanadi,
radj suboptimal taxminchi,[iqtibos kerak ][tushuntirish kerak ]
radj jurnalni maksimal darajada oshirish orqali ham olish mumkin (f(r)),
radj ning katta qiymatlari uchun minimal dispersiyaga ega n,
radj tartibli tomonga egadir1(n − 1).

Boshqa taklif qilingan[10] tuzatilgan korrelyatsiya koeffitsienti:[iqtibos kerak ]

Yozib oling radjr ning katta qiymatlari uchunn.

O'lchangan korrelyatsiya koeffitsienti

O'zaro bog'liq bo'lgan kuzatuvlar og'irlik vektori bilan ifodalanishi mumkin bo'lgan turli xil ahamiyatga ega deylik w. Vektorlar o'rtasidagi o'zaro bog'liqlikni hisoblash uchun x va y vazn vektori bilan w (butun uzunligi)n),[34][35]

  • Og'irligi o'rtacha:
  • Kovaryansning og'irligi
  • O'lchangan korrelyatsiya

Yansıtıcı korrelyatsiya koeffitsienti

Yansıtıcı korrelyatsiya, ma'lumotlar o'rtacha qiymatlari atrofida markazlashtirilmagan Pearson korrelyatsiyasining bir variantidir.[iqtibos kerak ] Populyatsiyani aks ettiruvchi korrelyatsiya

Yansıtıcı korrelyatsiya nosimmetrikdir, lekin tarjimada o'zgarmas emas:

Yansıtıcı korrelyatsiya namunasi tengdir kosinus o'xshashligi:

Namunali aks ettiruvchi korrelyatsiyaning vaznli versiyasi

Miqyosli korrelyatsiya koeffitsienti

Miqyosli korrelyatsiya - bu ma'lumotlar qatori ataylab va boshqariladigan tarzda vaqt qatoridagi tezkor tarkibiy qismlar o'rtasidagi o'zaro bog'liqlikni aniqlash uchun cheklangan Pirson korrelyatsiyasining bir variantidir.[36] Miqyosli korrelyatsiya ma'lumotlarning qisqa segmentlari bo'yicha o'rtacha korrelyatsiya sifatida aniqlanadi.

Ruxsat bering signalning umumiy uzunligiga mos keladigan segmentlar soni ma'lum bir o'lchov uchun :

Barcha signallar bo'yicha miqyosli korrelyatsiya keyin sifatida hisoblanadi

qayerda bu Pirsonning segment uchun korrelyatsiya koeffitsienti .

Parametrni tanlash orqali , qadriyatlar diapazoni kamayadi va uzoq vaqt ko'lamidagi korrelyatsiyalar filtrlanadi, faqat qisqa vaqt o'lchovlaridagi korrelyatsiyalar aniqlanadi. Shunday qilib, sekin komponentlarning hissalari olib tashlanadi va tezkor tarkibiy qismlar saqlanib qoladi.

Pearsonning masofasi

Sifatida tanilgan ikkita o'zgaruvchi X va Y uchun masofa metrikasi Pearsonning masofasi kabi o'zaro bog'liqlik koeffitsientidan aniqlanishi mumkin[37]

Pirsonning korrelyatsiya koeffitsienti [-1, +1] oralig'iga to'g'ri kelishini hisobga olsak, Pirson masofasi [0, 2] ga to'g'ri keladi. Pearson masofasi ishlatilgan klaster tahlili va noma'lum daromad va ofset bilan aloqa va saqlash uchun ma'lumotlarni aniqlash[38]

Dumaloq korrelyatsiya koeffitsienti

O'zgaruvchilar uchun X = {x1,...,xn} va Y = {y1,...,yn} birlik aylanasida aniqlangan [0, 2π), a ni aniqlash mumkin dumaloq Pearson koeffitsientining analogi.[39] Bu X va Y dagi ma'lumotlar nuqtalarini a ga o'zgartirib amalga oshiriladi sinus funktsiyasi, korrelyatsiya koeffitsienti quyidagicha berilgan:

qayerda va ular dairesel vositalar ning X vaY. Ushbu o'lchov ma'lumotlarning burchak yo'nalishi muhim bo'lgan meteorologiya kabi sohalarda foydali bo'lishi mumkin.

Qisman korrelyatsiya

Agar populyatsiya yoki ma'lumotlar to'plami ikkitadan ko'p o'zgaruvchilar bilan tavsiflangan bo'lsa, a qisman korrelyatsiya koeffitsient boshqa o'zgaruvchilarning tanlangan kichik qismidagi o'zgarishlarga javoban ularning ikkalasi o'zgarishi bilan hisobga olinmaydigan juftlik o'rtasidagi bog'liqlik kuchini o'lchaydi.

Dekoratsiya n tasodifiy o'zgaruvchilar

O'zgaruvchilar orasidagi bog'liqlik chiziqli bo'lmagan bo'lsa ham, ma'lumotlarning o'zgarishi yordamida tasodifiy o'zgaruvchilarning ixtiyoriy sonining barcha juftliklari o'rtasidagi o'zaro bog'liqlikni olib tashlash har doim ham mumkin. Ushbu natijani aholi taqsimoti uchun taqdimoti Cox & Hinkley tomonidan taqdim etilgan.[40]

Tegishli natija namunadagi o'zaro bog'liqlikni nolga kamaytirish uchun mavjud. Ning vektori deylik n tasodifiy o'zgaruvchilar kuzatiladi m marta. Ruxsat bering X bu erda matritsa bo'ling bo'ladi jkuzatishning o'zgaruvchisi men. Ruxsat bering bo'lish m tomonidan m har bir element bilan kvadrat matritsa 1. Keyin D. ma'lumotlar o'zgartirilgan, shuning uchun har bir tasodifiy nol o'rtacha qiymatga ega va T ma'lumotlar o'zgartirilgan, shuning uchun barcha o'zgaruvchilar nol o'rtacha va nol korrelyatsiyaga ega, boshqa barcha o'zgaruvchilar bilan namuna korrelyatsiya matritsasi ning T identifikatsiya matritsasi bo'ladi. Birlik dispersiyasini olish uchun buni standart og'ish bilan ajratish kerak. O'zgargan o'zgaruvchilar o'zaro bog'liq bo'lmaydi, garchi ular bo'lmasa ham mustaqil.

qaerda 12 ifodalaydi matritsa kvadrat ildizi ning teskari matritsaning Ning korrelyatsion matritsasi T identifikatsiya matritsasi bo'ladi. Agar yangi ma'lumotlarni kuzatish bo'lsa x ning qatorli vektori n elementlari bo'lsa, unda bir xil konvertatsiya qo'llanilishi mumkin x o'zgartirilgan vektorlarni olish uchun d va t:

Ushbu dekoratsiya bog'liqdir asosiy tarkibiy qismlarni tahlil qilish ko'p o'zgaruvchan ma'lumotlar uchun.

Dasturiy ta'minotni amalga oshirish

  • R Statistikaning asosiy to'plami testni amalga oshiradi cor.test (x, y, method = "pearson") uning "statistikasi" to'plamida (shuningdek) cor (x, y, method = "pearson") ishlaydi, lekin p-qiymatini qaytarmasdan). Pearson sukut bo'yicha bo'lgani uchun, usul argumenti ham qoldirilishi mumkin.
  • Python Statistik funktsiyalar moduli testni amalga oshiradi pearsonr (x, y) uning "scipy.stats" modulida va korrelyatsiya koeffitsienti r va p-qiymatini (r, p-qiymati) sifatida qaytaradi.

Shuningdek qarang

Izohlar

  1. ^ Qiymat, chunki tufayli -1 va +1 orasida bo'ladi Koshi-Shvarts tengsizligi.
  2. ^ 1877 yildayoq Galton "reversion" atamasini va "belgisini" ishlatganr"regress" ga aylanadigan narsa uchun.[2][3][4]

Adabiyotlar

  1. ^ "SPSS qo'llanmalari: Pearson korrelyatsiyasi". Olingan 14 may 2017.
  2. ^ Galton, F. (5–19 April 1877). "Typical laws of heredity". Tabiat. 15 (388, 389, 390): 492–495, 512–514, 532–533. Bibcode:1877Natur..15..492.. doi:10.1038/015492a0. S2CID  4136393. In the "Appendix" on page 532, Galton uses the term "reversion" and the symbol r.
  3. ^ Galton, F. (24 September 1885). "The British Association: Section II, Anthropology: Opening address by Francis Galton, F.R.S., etc., President of the Anthropological Institute, President of the Section". Tabiat. 32 (830): 507–510.
  4. ^ Galton, F. (1886). "Merosxo'rlik darajasida vasatlikka nisbatan regressiya". Buyuk Britaniya va Irlandiyaning Antropologik instituti jurnali. 15: 246–263. doi:10.2307/2841583. JSTOR  2841583.
  5. ^ Pearson, Karl (20 June 1895). "Notes on regression and inheritance in the case of two parents". London Qirollik jamiyati materiallari. 58: 240–242. Bibcode:1895RSPS...58..240P.
  6. ^ Stigler, Stephen M. (1989). "Francis Galton's account of the invention of correlation". Statistik fan. 4 (2): 73–79. doi:10.1214 / ss / 1177012580. JSTOR  2245329.
  7. ^ "Analyse mathematique sur les probabilités des erreurs de situation d'un point". Mem. Akad. Roy. Ilmiy ish. Inst. Frantsiya. Ilmiy ish. Math, et Phys. (frantsuz tilida). 9: 255–332. 1844 – via Google Books.
  8. ^ Rayt, S. (1921). "Korrelyatsiya va sabablilik". Qishloq xo'jaligi tadqiqotlari jurnali. 20 (7): 557–585.
  9. ^ a b "Ehtimollar va statistika belgilarining ro'yxati". Matematik kassa. 26 aprel 2020 yil. Olingan 22 avgust 2020.
  10. ^ a b v d e Real Statistics Using Excel: Correlation: Basic Concepts, retrieved 22 February 2015
  11. ^ Vayshteyn, Erik V. "Statistik korrelyatsiya". mathworld.wolfram.com. Olingan 22 avgust 2020.
  12. ^ Moriya, N. (2008). "Noise-related multivariate optimal joint-analysis in longitudinal stochastic processes". In Yang, Fengshan (ed.). Progress in Applied Mathematical Modeling. Nova Science Publishers, Inc. 223-260 betlar. ISBN  978-1-60021-976-4.
  13. ^ Garren, Steven T. (15 June 1998). "Maximum likelihood estimation of the correlation coefficient in a bivariate normal model, with missing data". Statistika va ehtimollik xatlari. 38 (3): 281–288. doi:10.1016/S0167-7152(98)00035-2.
  14. ^ "Introductory Business Statistics: The Correlation Coefficient r". opentextbc.ca. Olingan 21 avgust 2020.
  15. ^ Rodgers; Nicewander (1988). "Thirteen ways to look at the correlation coefficient" (PDF). Amerika statistikasi. 42 (1): 59–66. doi:10.2307/2685263. JSTOR  2685263.
  16. ^ Schmid, John, Jr. (December 1947). "The relationship between the coefficient of correlation and the angle included between regression lines". Ta'lim tadqiqotlari jurnali. 41 (4): 311–313. doi:10.1080/00220671.1947.10881608. JSTOR  27528906.
  17. ^ Rummel, R.J. (1976). "Understanding Correlation". ch. 5 (as illustrated for a special case in the next paragraph).
  18. ^ Buda, Andrzej; Jarynowski, Andrzej (December 2010). Life Time of Correlations and its Applications. Wydawnictwo Niezależne. 5-21 betlar. ISBN  9788391527290.
  19. ^ a b Cohen, J. (1988). Xulq-atvor fanlari uchun statistik quvvat tahlili (2-nashr).
  20. ^ Rahman, N. A. (1968) A Course in Theoretical Statistics, Charles Griffin and Company, 1968
  21. ^ Kendall, M. G., Stuart, A. (1973) The Advanced Theory of Statistics, Volume 2: Inference and Relationship, Griffin. ISBN  0-85264-215-6 (Section 31.19)
  22. ^ Soper, H.E.; Yosh, A.V .; Cave, B.M.; Li, A .; Pearson, K. (1917). "On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and R.A. Fisher. A co-operative study". Biometrika. 11 (4): 328–413. doi:10.1093/biomet/11.4.328.
  23. ^ Davey, Catherine E.; Grayden, David B.; Egan, Gary F.; Johnston, Leigh A. (January 2013). "Filtering induces correlation in fMRI resting state data". NeuroImage. 64: 728–740. doi:10.1016/j.neuroimage.2012.08.022. hdl:11343/44035. PMID  22939874. S2CID  207184701.
  24. ^ Hotelling, Harold (1953). "New Light on the Correlation Coefficient and its Transforms". Qirollik statistika jamiyati jurnali. Series B (Methodological). 15 (2): 193–232. doi:10.1111/j.2517-6161.1953.tb00135.x. JSTOR  2983768.
  25. ^ Kenney, J.F.; Keeping, E.S. (1951). Mathematics of Statistics. 2-qism (2-nashr). Princeton, NJ: Van Nostran.
  26. ^ Vayshteyn, Erik V. "Correlation Coefficient—Bivariate Normal Distribution". mathworld.wolfram.com.
  27. ^ Lay, Chun Sing; Tao, Yingshan; Xu, Fangyuan; Ng, Wing W.Y.; Jia, Youwei; Yuan, Xoliang; Xuang, Chao; Lai, Loi Lei; Xu, Zhao; Locatelli, Giorgio (January 2019). "A robust correlation analysis framework for imbalanced and dichotomous data with uncertainty" (PDF). Axborot fanlari. 470: 58–77. doi:10.1016/j.ins.2018.08.017.
  28. ^ a b Wilcox, Rand R. (2005). Introduction to robust estimation and hypothesis testing. Akademik matbuot.
  29. ^ Devlin, Susan J.; Gnanadesikan, R.; Kettenring J.R. (1975). "Robust estimation and outlier detection with correlation coefficients". Biometrika. 62 (3): 531–545. doi:10.1093/biomet/62.3.531. JSTOR  2335508.
  30. ^ Huber, Peter. J. (2004). Sog'lom statistika. Vili.[sahifa kerak ]
  31. ^ Katz., Mitchell H. (2006) Multivariable Analysis – A Practical Guide for Clinicians. 2-nashr. Kembrij universiteti matbuoti. ISBN  978-0-521-54985-1. ISBN  0-521-54985-X doi:10.2277/052154985X
  32. ^ Hotelling, H. (1953). "New Light on the Correlation Coefficient and its Transforms". Qirollik statistika jamiyati jurnali. B seriyasi (uslubiy). 15 (2): 193–232. doi:10.1111/j.2517-6161.1953.tb00135.x. JSTOR  2983768.
  33. ^ Olkin, Ingram; Pratt,John W. (March 1958). "Unbiased Estimation of Certain Correlation Coefficients". Matematik statistika yilnomalari. 29 (1): 201–211. doi:10.1214/aoms/1177706717. JSTOR  2237306..
  34. ^ "Re: Compute a weighted correlation". sci.tech-archive.net.
  35. ^ "Weighted Correlation Matrix – File Exchange – MATLAB Central".
  36. ^ Nikolich, D; Muresan, RC; Feng, V; Xonanda, V (2012). "Scaled correlation analysis: a better way to compute a cross-correlogram" (PDF). Evropa nevrologiya jurnali. 35 (5): 1–21. doi:10.1111/j.1460-9568.2011.07987.x. PMID  22324876. S2CID  4694570.
  37. ^ Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (pp. 110) ISBN  1-4020-8879-5
  38. ^ Immink, K. Schouhamer; Weber, J. (October 2010). "Minimum Pearson distance detection for multilevel channels with gain and / or offset mismatch". Axborot nazariyasi bo'yicha IEEE operatsiyalari. 60 (10): 5966–5974. CiteSeerX  10.1.1.642.9971. doi:10.1109/tit.2014.2342744. S2CID  1027502. Olingan 11 fevral 2018.
  39. ^ Jammalamadaka, S. Rao; SenGupta, A. (2001). Dumaloq statistikadagi mavzular. Nyu-Jersi: Jahon ilmiy. p. 176. ISBN  978-981-02-3778-3. Olingan 21 sentyabr 2016.
  40. ^ Koks, D.R .; Xinkli, D.V. (1974). Nazariy statistika. Chapman va Xoll. 3-ilova. ISBN  0-412-12420-3.

Tashqi havolalar