Pearson korrelyatsiya koeffitsienti - Pearson correlation coefficient
Yilda statistika, Pearson korrelyatsiya koeffitsienti (PCC, talaffuz qilingan /ˈp.erseng/), shuningdek, deb nomlanadi Pearsonniki r, Pearson mahsulot-moment korrelyatsiya koeffitsienti (PPMCC) yoki ikki tomonlama korrelyatsiya,[1] chiziqli o'lchaydigan statistik hisoblanadi o'zaro bog'liqlik ikkita o'zgaruvchi o'rtasida X va Y. Uning qiymati +1 dan -1 gacha. +1 qiymati umumiy musbat chiziqli korrelyatsiya, 0 chiziqli korrelyatsiya emas, −1 esa umumiy salbiy chiziqli korrelyatsiya.[a]
![](http://upload.wikimedia.org/wikipedia/commons/thumb/3/34/Correlation_coefficient.png/400px-Correlation_coefficient.png)
![](http://upload.wikimedia.org/wikipedia/commons/thumb/d/d4/Correlation_examples2.svg/400px-Correlation_examples2.svg.png)
Nomlash va tarix
U tomonidan ishlab chiqilgan Karl Pirson tomonidan kiritilgan tegishli g'oyadan Frensis Galton 1880-yillarda va matematik formulasi olingan va nashr etilgan Auguste Bravais 1844 yilda.[b][5][6][7][8] Shunday qilib koeffitsientning nomlanishi misol bo'la oladi Stigler qonuni.
Ta'rif
Pearsonning korrelyatsiya koeffitsienti bu kovaryans ikkitasi o'zgaruvchilarning ko'paytmasiga ko'paytiriladi standart og'ishlar. Ta'rifning shakli "mahsulot momentini", ya'ni o'rtacha (birinchisini) o'z ichiga oladi lahza o'rtacha sozlangan tasodifiy miqdorlar mahsulotining kelib chiqishi haqida); shuning uchun modifikator mahsulot momenti nomida.
Aholi uchun
A ga qo'llanganda Pirsonning korrelyatsiya koeffitsienti aholi, odatda yunoncha harf bilan ifodalanadi r (rho) va deb atash mumkin aholi korrelyatsiya koeffitsienti yoki populyatsiya Pearson korrelyatsiya koeffitsienti.[9] Bir juft tasodifiy o'zgaruvchilar berilgan , uchun formula r[10] bu:[11]
| (Tenglama 1) |
qaerda:
- bo'ladi kovaryans
- bo'ladi standart og'ish ning
- ning standart og'ishi hisoblanadi
Uchun formula o'rtacha va kutish bilan ifodalanishi mumkin. Beri
uchun formula sifatida ham yozilishi mumkin
| (Ikkinchi tenglama) |
qaerda:
Uchun formula markazlashtirilmagan lahzalar bilan ifodalanishi mumkin. Beri
uchun formula sifatida ham yozilishi mumkin
Namuna uchun
A ga qo'llanganda Pirsonning korrelyatsiya koeffitsienti namuna, odatda tomonidan ifodalanadi va deb atash mumkin namunaviy korrelyatsiya koeffitsienti yoki namunasi Pearson korrelyatsiya koeffitsienti.[9] Biz uchun formulani olishimiz mumkin a asosidagi kovaryansiyalar va dispersiyalarning taxminlarini almashtirish bilan namuna yuqoridagi formulaga. Berilgan ma'lumotlar berilgan iborat juftliklar, quyidagicha aniqlanadi:
| (Tenglama 3) |
qaerda:
- namuna hajmi
- bilan indekslangan individual namunalar men
- (namuna anglatadi ); va shunga o'xshash tarzda
Qayta tartibga solish bizga ushbu formulani beradi :
qayerda yuqoridagi kabi belgilanadi.
Ushbu formula namunaviy korrelyatsiyani hisoblash uchun qulay bir martalik algoritmni taklif qiladi, garchi raqamlarga bog'liq bo'lsa, ba'zida son jihatdan beqaror.
Qayta tartibga solish bizga buni beradi[10] uchun formula :
qayerda yuqoridagi kabi belgilanadi.
Ekvivalent ifoda uchun formulani beradi mahsulotlarining o'rtacha qiymati sifatida standart ballar quyidagicha:
qayerda
- yuqoridagi kabi belgilanadi va quyida keltirilgan
- bo'ladi standart ball (va shunga o'xshash standart bal uchun )
Uchun alternativ formulalar ham mavjud. Masalan. uchun quyidagi formuladan foydalanish mumkin :
qaerda:
- yuqoridagi kabi belgilanadi va:
- (namuna standart og'ish ); va shunga o'xshash tarzda
Amaliy masalalar
Og'ir shovqin sharoitida stoxastik o'zgaruvchilarning ikkita to'plami orasidagi korrelyatsiya koeffitsientini ajratib olish noan'anaviy hisoblanadi, xususan, Canonical Correlation Analysis hisobotida og'ir shovqin hissalari tufayli buzilgan korrelyatsiya qiymatlari. Yondashuvni umumlashtirish boshqa joyda berilgan.[12]
Yo'qotilgan ma'lumotlar bo'lsa, Garren quyidagilarni keltirib chiqardi maksimal ehtimollik taxminchi.[13]
Matematik xususiyatlar
Pirson korrelyatsiya koeffitsientlarining ham namunasi, ham absolyut qiymatlari 0 va 1 orasida. +1 yoki -1 ga teng bo'lgan korrelyatsiyalar aniq chiziqda yotgan ma'lumotlar nuqtalariga (namunaviy korrelyatsiya holatida) yoki ikki tomonlama taqsimot butunlay bir qatorda qo'llab-quvvatlanadi (aholining o'zaro bog'liqligi holatida). Pearson korrelyatsiya koeffitsienti nosimmetrik: corr (X,Y) = tuzatish (Y,X).
Pearson korrelyatsiya koeffitsientining asosiy matematik xususiyati shundaki o'zgarmas ikkita o'zgaruvchida joylashuv va o'lchovdagi alohida o'zgarishlar ostida. Ya'ni, biz o'zgartirishimiz mumkin X ga a + bX va o'zgartirish Y ga v + dY, qayerda a, b, vva d bilan doimiydir b, d > 0, korrelyatsiya koeffitsientini o'zgartirmasdan. (Bu populyatsiya uchun ham, Pirsonning korrelyatsiya koeffitsientlari uchun ham amal qiladi.) Shuni e'tiborga olingki, ko'proq umumiy chiziqli transformatsiyalar korrelyatsiyani o'zgartiradi: qarang § tasodifiy o'zgaruvchilarning dekoratsiyasi Buning uchun.
Tafsir
Korrelyatsiya koeffitsienti -1 dan 1 gacha o'zgarib turadi. 1 qiymati chiziqli tenglama o'zaro bog'liqlikni tavsiflashini anglatadi. X va Y a, yotgan barcha ma'lumotlar nuqtalari bilan mukammal chiziq buning uchun Y sifatida ortadi X ortadi. −1 qiymati barcha ma'lumotlar nuqtalari bir chiziqda joylashganligini bildiradi Y kabi kamayadi X ortadi. 0 qiymati o'zgaruvchilar o'rtasida chiziqli bog'liqlik yo'qligini anglatadi.[14]
Umuman olganda (Xmen − X)(Ymen − Y) ijobiy va faqat agar ijobiy bo'lsa Xmen va Ymen tegishli vositalarining bir tomonida yotish. Shunday qilib, korrelyatsiya koeffitsienti ijobiy, agar Xmen va Ymen bir vaqtning o'zida o'zlarining tegishli vositalaridan kattaroq yoki bir vaqtning o'zida kamroq bo'lishga moyil. Korrelyatsiya koeffitsienti salbiy (korrelyatsiyaga qarshi ) agar Xmen va Ymen o'z vositalarining qarama-qarshi tomonlarida yotishga moyil. Bundan tashqari, moyillik qanchalik kuchli bo'lsa, shunchalik katta bo'ladi mutlaq qiymat korrelyatsiya koeffitsienti.
Rodjers va Nitsvander[15] o'zaro bog'liqlikni talqin qilishning o'n uchta usuli kataloglangan:
- Xom ballar va vositalarning funktsiyasi
- Standartlashtirilgan kovaryans
- Regressiya chizig'ining standartlashtirilgan qiyaligi
- Ikki regressiya yonbag'rining geometrik o'rtacha qiymati
- Ikki dispersiya nisbatining kvadrat ildizi
- Standartlashtirilgan o'zgaruvchilarning o'rtacha o'zaro bog'liqligi
- Ikkala standartlashtirilgan regressiya chiziqlari orasidagi burchakning funktsiyasi
- Ikki o'zgaruvchan vektor orasidagi burchakning funktsiyasi
- Standartlashtirilgan ballar o'rtasidagi farqning qayta hisoblangan farqi
- Balon qoidasidan taxmin qilingan
- Izokonsentratsiyaning ikki o'zgaruvchan ellipslari bilan bog'liq
- Loyihalangan tajribalardan olingan test statistikasining funktsiyasi
- Ikki vositaning nisbati
Geometrik talqin
![](http://upload.wikimedia.org/wikipedia/commons/thumb/d/d1/Regression_lines.png/330px-Regression_lines.png)
Markazlashtirilmagan ma'lumotlar uchun korrelyatsiya koeffitsienti va burchak o'rtasida bog'liqlik mavjud φ ikki regressiya chizig'i o'rtasida, y = gX(x) va x = gY(y), regressing natijasida olingan y kuni x va x kuni y navbati bilan. (Bu yerda, φ chiziqlarning kesishish nuqtasi atrofida hosil bo'lgan birinchi kvadrant ichida soat sohasi farqli o'laroq o'lchanadi r > 0, yoki agar to'rtinchi tomondan ikkinchi kvadrantga soat sohasi farqli o'laroq r < 0.) Ko'rsatish mumkin[16] agar standart og'ishlar teng bo'lsa, unda r = sek φ - sarg'ish φ, qaerda sek va sarg'ish bor trigonometrik funktsiyalar.
Markazlashtirilgan ma'lumotlar uchun (ya'ni har bir o'zgaruvchi uchun o'rtacha nolga teng bo'lishi uchun o'zlarining o'zgaruvchilarining namunaviy vositalari yordamida siljigan ma'lumotlar) uchun korrelyatsiya koeffitsienti ham kosinus ning burchak θ kuzatilgan ikkalasi o'rtasida vektorlar yilda No'lchovli bo'shliq (uchun N har bir o'zgaruvchining kuzatuvlari)[17]
Ma'lumotlar to'plami uchun markazlashtirilmagan (Pearson-mos kelmaydigan) va markazlashtirilgan korrelyatsiya koeffitsientlari aniqlanishi mumkin. Masalan, beshta mamlakatda tegishli ravishda 1, 2, 3, 5 va 8 milliard dollarlik yalpi milliy mahsulotlar borligi aniqlandi. Deylik, xuddi shu beshta mamlakatda (xuddi shu tartibda) 11%, 12%, 13%, 15% va 18% qashshoqlik borligi aniqlandi. Keyin ruxsat bering x va y yuqoridagi ma'lumotlarni o'z ichiga olgan 5 elementli vektorlarga buyurtma berish: x = (1, 2, 3, 5, 8) va y = (0.11, 0.12, 0.13, 0.15, 0.18).
Burchakni topish uchun odatiy protsedura bo'yicha θ ikki vektor o'rtasida (qarang. qarang nuqta mahsuloti ), the markazsiz korrelyatsiya koeffitsienti:
Ushbu markazlanmagan korrelyatsiya koeffitsienti bilan bir xil kosinus o'xshashligi.Qayd etish kerakki, yuqoridagi ma'lumotlar ataylab mukammal o'zaro bog'liq bo'lishi uchun tanlangan: y = 0.10 + 0.01 x. Shuning uchun Pearson korrelyatsiya koeffitsienti to'liq bitta bo'lishi kerak. Ma'lumotlarni markazlashtirish (almashtirish) x tomonidan ℰ (x) = 3.8 va y tomonidan ℰ (y) = 0.138) hosil beradi x = (−2.8, −1.8, −0.8, 1.2, 4.2) va y = (−0.028, −0.018, −0.008, 0.012, 0.042), undan
kutilganidek.
Korrelyatsiya hajmini talqin qilish
![](http://upload.wikimedia.org/wikipedia/commons/thumb/a/a7/Pearson_correlation_and_prediction_intervals.svg/200px-Pearson_correlation_and_prediction_intervals.svg.png)
Bir nechta mualliflar korrelyatsiya koeffitsientini talqin qilish bo'yicha ko'rsatmalar taklif qilishdi.[18][19] Biroq, bunday mezonlarning barchasi biron bir tarzda o'zboshimchalik bilan amalga oshiriladi.[19] Korrelyatsiya koeffitsientini talqin qilish kontekst va maqsadlarga bog'liq. Agar jismoniy qonunni yuqori sifatli asboblardan foydalangan holda tekshirayotgan bo'lsa, 0.8 korrelyatsiyasi juda past bo'lishi mumkin, ammo ijtimoiy fanlarda juda yuqori deb hisoblanishi mumkin, bu erda murakkablashtiruvchi omillarning hissasi ko'proq bo'lishi mumkin.
Xulosa
Pearsonning korrelyatsiya koeffitsientiga asoslangan statistik xulosa ko'pincha quyidagi ikkita maqsadning biriga qaratiladi:
- Maqsadlardan biri sinovdan o'tkazishdir nol gipoteza haqiqiy korrelyatsiya koeffitsienti r namunaviy korrelyatsiya koeffitsienti qiymatiga asoslanib, 0 ga teng r.
- Boshqa maqsad a ishonch oralig'i takroriy tanlab olishda ma'lum ehtimollik mavjud r.
Quyida ushbu maqsadlardan biriga yoki ikkalasiga erishish usullarini muhokama qilamiz.
Permütatsiya testidan foydalanish
Permutatsion testlar gipoteza testlarini o'tkazishda va ishonch oralig'ini tuzishda bevosita yondashuvni ta'minlaydi. Pirsonning korrelyatsiya koeffitsienti uchun almashtirish testi quyidagi ikki bosqichni o'z ichiga oladi:
- Asl juftlashgan ma'lumotdan foydalanish (xmen, ymen), tasodifiy ravishda yangi ma'lumotlar to'plamini yaratish uchun juftlarni qayta aniqlang (xmen, ymen), qaerda men {1, ..., to'plamining almashinuvin}. Almashtirish men tasodifiy tanlanadi, hammaga teng ehtimolliklar qo'yiladi n! mumkin bo'lgan almashtirishlar. Bu rasm chizishga tengdir men to'plamdan almashtirishsiz tasodifiy holda {1, ..., n}. Yilda yuklash, yaqindan bog'liq bo'lgan yondashuv, men va men teng va {1, ..., o'rniga almashtirish bilan chizilgan n};
- Korrelyatsiya koeffitsientini tuzing r tasodifiy ma'lumotlardan.
Joy almashtirish testini bajarish uchun (1) va (2) bosqichlarni ko'p marta takrorlang. The p-qiymati permutation testi uchun ning nisbati r dastlabki ma'lumotlardan hisoblangan Pearson korrelyatsiya koeffitsientidan kattaroq (2) bosqichda hosil bo'lgan qiymatlar. Bu erda "kattaroq" degan ma'noni anglatadiki, bu qiymat kattaligidan kattaroq yoki belgi qo'yilgan qiymatdan kattaroq ikki tomonlama yoki bir tomonlama sinov kerak.
Bootstrap-dan foydalanish
The bootstrap yordamida Pirsonning korrelyatsiya koeffitsienti uchun ishonch oraliqlarini tuzishda foydalanish mumkin. "Parametrik bo'lmagan" bootstrap-da, n juftliklar (xmen, ymen) kuzatilgan to'plamdan "almashtirish bilan" qayta to'ldiriladi n juftlik va korrelyatsiya koeffitsienti r qayta joylashtirilgan ma'lumotlar asosida hisoblanadi. Ushbu jarayon juda ko'p marta takrorlangan va qayta joylashtirilganlarning empirik taqsimoti r qiymatlari taxminan ga yaqinlashish uchun ishlatiladi namunalarni taqsimlash statistik ma'lumot. 95% ishonch oralig'i uchun r 2,5 dan 97,5 gacha bo'lgan interval sifatida aniqlanishi mumkin foizli qayta joylashtirilgan r qiymatlar.
Student's yordamida test o'tkazish t- tarqatish
![](http://upload.wikimedia.org/wikipedia/commons/thumb/2/24/Critical_correlation_vs._sample_size.svg/324px-Critical_correlation_vs._sample_size.svg.png)
O'zaro bog'liq bo'lmagan juftliklar uchun normal taqsimotning ikki o'zgaruvchanligi, namunalarni taqsimlash Pirsonning korrelyatsiya koeffitsientining ma'lum funktsiyasidan kelib chiqadi Talaba t- tarqatish erkinlik darajasi bilan n - 2. Xususan, agar asosiy o'zgaruvchilar oq rangga ega bo'lsa va ikki o'zgaruvchan normal taqsimotga ega bo'lsa, o'zgaruvchi
talaba bor t- nol holatda taqsimlash (nol korrelyatsiya).[20] Namuna kattaligi etarlicha katta bo'lsa, bu odatiy bo'lmagan kuzatilgan qiymatlarda taxminan saqlanadi.[21] Uchun muhim qiymatlarni aniqlash uchun r teskari funktsiya kerak:
Shu bilan bir qatorda katta namunali, asimptotik yondashuvlardan foydalanish mumkin.
Yana bir dastlabki qog'oz[22] ning umumiy qiymatlari uchun grafikalar va jadvallarni taqdim etadi r, kichik namunaviy o'lchamlar uchun va hisoblash yondashuvlarini muhokama qiladi.
Agar asosiy o'zgaruvchilar oq rangga ega bo'lmasa, Pirsonning korrelyatsiya koeffitsientini tanlab olish taqsimoti talabaga mos keladi. t-taqsimlash, lekin erkinlik darajasi kamayadi.[23]
Aniq taqsimotdan foydalanish
Quyidagi ma'lumotlar uchun a normal taqsimotning ikki o'zgaruvchanligi, aniq zichlik funktsiyasi f(r) namuna korrelyatsiya koeffitsienti uchun r oddiy ikki xillikning[24][25][26]
qayerda bo'ladi gamma funktsiyasi va bo'ladi Gauss gipergeometrik funktsiyasi.
Qachon maxsus holatda , aniq zichlik funktsiyasi f(r) quyidagicha yozilishi mumkin:
qayerda bo'ladi beta funktsiyasi, bu yuqoridagi kabi talabaning t-taqsimotining zichligini yozishning bir usuli.
Fisher transformatsiyasidan foydalanish
Amalda, ishonch oralig'i va gipoteza testlari $ r $ bilan bog'liq, odatda yordamida amalga oshiriladi Baliqchining o'zgarishi, :
F(r) taxminan a normal taqsimot bilan
qayerda n namuna hajmi. Katta namuna hajmi uchun taxminiy xato eng past bo'ladi va kichik va va aks holda ko'payadi.
Taxminan foydalanib, a z-ball bu
ostida nol gipoteza bu , namunaviy juftliklar degan taxminni hisobga olgan holda mustaqil va bir xil taqsimlangan va amal qiling normal taqsimotning ikki o'zgaruvchanligi. Shunday qilib taxminiy p-qiymati oddiy ehtimollar jadvalidan olish mumkin. Masalan, agar z = 2.2 kuzatiladi va nol gipotezani sinash uchun ikki tomonlama p-qiymat talab qilinadi , p qiymati 2 · Φ (-2.2) = 0.028 ga teng, bu erda p standart normal hisoblanadi kümülatif taqsimlash funktsiyasi.
$ R $ uchun ishonch oralig'ini olish uchun avval $ uchun ishonch oralig'ini hisoblaymiz F():
Fisherning teskari o'zgarishi intervalni yana korrelyatsiya shkalasiga olib keladi.
Masalan, biz kuzatmoqdamiz r = 0,3, namuna hajmi bilan n= 50, va biz $ r $ uchun 95% ishonch oralig'ini olishni xohlaymiz. O'zgartirilgan qiymat arctanh (r) = 0.30952, shuning uchun o'zgartirilgan shkala bo'yicha ishonch oralig'i 0.30952 ± 1.96 / ga teng√47, yoki (0.023624, 0.595415). Korrelyatsiya shkalasiga qaytganimizda hosil bo'ladi (0.024, 0.534).
Hech bo'lmaganda kvadratchalar regressiyasini tahlil qilish
Namuna korrelyatsiya koeffitsientining kvadrati odatda belgilanadi r2 va bu alohida holat aniqlash koeffitsienti. Bunday holda, u dispersiyaning qismini in-ga baholaydi Y bu bilan izohlanadi X a oddiy chiziqli regressiya. Shunday qilib, bizda ma'lumotlar to'plami mavjud bo'lsa va o'rnatilgan ma'lumotlar to'plami keyin boshlang'ich nuqta sifatida Ymen ularning o'rtacha qiymati atrofida quyidagicha ajralish mumkin
qaerda regressiya tahlilining mos qiymatlari. Buni berish uchun qayta tuzish mumkin
Yuqoridagi ikkita chaqiriq - bu dispersiyaning qismidir Y bu bilan izohlanadi X (o'ngda) va bu bilan izohlanmagan X (chapda).
Keyinchalik, biz eng kam kvadratik regressiya modellari xususiyatini qo'llaymiz, ular orasida namuna kovaryansiyasi mavjud va nolga teng. Shunday qilib, regressiyada kuzatilgan va o'rnatilgan javob qiymatlari o'rtasidagi namunaviy korrelyatsiya koeffitsienti yozilishi mumkin (hisoblash kutilmoqda, Gauss statistikasini nazarda tutadi)
Shunday qilib
qayerda
- ning o'zgaruvchanlik nisbati Y ning chiziqli funktsiyasi bilan izohlanadi X.
Yuqorida keltirilgan dalilda
ning qisman hosilalari ekanligini payqab isbotlash mumkin kvadratlarning qoldiq yig'indisi (RSS) ustida β0 va β1 eng kichik kvadrat modelida 0 ga teng, bu erda
- .
Oxir-oqibat, tenglamani quyidagicha yozish mumkin:
qayerda
Belgisi kvadratlarning regressiya yig'indisi deyiladi, shuningdek kvadratlarning yig'indisi tushuntirildi va bo'ladi kvadratlarning umumiy yig'indisi (ga mutanosib dispersiya ma'lumotlar).
Ma'lumotlarning tarqalishiga sezgirlik
Mavjudlik
Populyatsiyaning Pearson korrelyatsiya koeffitsienti bo'yicha belgilanadi lahzalar, va shuning uchun har qanday ikkitomonlama uchun mavjud ehtimollik taqsimoti buning uchun aholi kovaryans belgilanadi va marginal aholining farqlari belgilanadi va nolga teng emas. Kabi ba'zi ehtimollik taqsimotlari Koshi taqsimoti aniqlanmagan dispersiyasiga ega va agar $ r $ aniqlanmasa X yoki Y bunday taqsimotga amal qiladi. Ba'zi amaliy dasturlarda, masalan, ta'qib qilinishi shubhali ma'lumotlar bilan bog'liq bo'lgan dasturlarda og'ir dumaloq taqsimot, bu muhim masaladir. Biroq, korrelyatsiya koeffitsientining mavjudligi odatda tashvishlantirmaydi; masalan, agar tarqatish diapazoni chegaralangan bo'lsa, har doim r aniqlanadi.
Namuna hajmi
- Agar tanlov hajmi o'rtacha yoki katta bo'lsa va populyatsiya normal bo'lsa, u holda ikki o'zgaruvchilik holatida normal taqsimot, namunaviy korrelyatsiya koeffitsienti bu maksimal ehtimollik smetasi aholining o'zaro bog'liqlik koeffitsienti va asimptotik tarzda xolis va samarali, bu shuni anglatadiki, namunaviy korrelyatsiya koeffitsientiga qaraganda aniqroq taxmin qilish mumkin emas.
- Agar tanlangan hajm katta bo'lsa va populyatsiya normal bo'lmasa, unda namuna korrelyatsiya koeffitsienti taxminan xolis bo'lib qoladi, ammo samarali bo'lmasligi mumkin.
- Agar namuna kattaligi katta bo'lsa, unda namuna korrelyatsiya koeffitsienti a izchil baholovchi namunaviy vositalar, tafovutlar va kovaryanslar mos keladigan bo'lsa, aholi korrelyatsiya koeffitsientining (bu katta sonlar qonuni qo'llanilishi mumkin).
- Agar namuna hajmi kichik bo'lsa, u holda namuna korrelyatsiya koeffitsienti r ning xolis bahosi emas r.[10] Buning o'rniga sozlangan korrelyatsiya koeffitsientidan foydalanish kerak: ta'rif uchun ushbu maqolaning boshqa joylarini ko'ring.
- Balanssizligi uchun korrelyatsiyalar boshqacha bo'lishi mumkin ikkilamchi namunadagi dispersiya xatosi mavjud bo'lganda ma'lumotlar.[27]
Sog'lomlik
Ko'p ishlatiladigan statistikalar singari, namunaviy statistika r emas mustahkam,[28] shuning uchun uning qiymati noto'g'ri bo'lishi mumkin, agar chetga chiquvchilar mavjud.[29][30] Xususan, PMCC tarqatish jihatidan mustahkam emas,[iqtibos kerak ] na chidamli[28] (qarang Sog'lom statistika # Ta'rif ). Tekshirish sochilib ketish o'rtasida X va Y odatda mustahkamlikning etishmasligi muammo bo'lishi mumkin bo'lgan vaziyatni ochib beradi va bunday hollarda mustahkam assotsiatsiyadan foydalanish tavsiya etilishi mumkin. Shuni e'tiborga olingki, assotsiatsiyaning eng ishonchli taxminchilari o'lchovni amalga oshiradilar statistik bog'liqlik qaysidir ma'noda, ular odatda Pearson korrelyatsiya koeffitsienti bilan bir xil miqyosda talqin qilinishi mumkin emas.
Pearsonning korrelyatsiya koeffitsienti bo'yicha statistik xulosa ma'lumotlar tarqalishiga sezgir. Aniq testlar va asosidagi asimptotik testlar Baliqchining o'zgarishi ma'lumotlar taxminan normal taqsimlangan taqdirda qo'llanilishi mumkin, ammo aks holda chalg'itishi mumkin. Ba'zi holatlarda bootstrap ishonch oralig'ini qurish uchun qo'llanilishi mumkin va almashtirish sinovlari gipoteza sinovlarini o'tkazish uchun qo'llanilishi mumkin. Bular parametrsiz yondashuvlar ikki tomonlama odatiylikni saqlamaydigan ba'zi holatlarda yanada mazmunli natijalar berishi mumkin. Biroq, ushbu yondashuvlarning standart versiyalari ishonadi almashinuvchanlik ma'lumotlar, ya'ni korrelyatsiya bahosining xatti-harakatlariga ta'sir qilishi mumkin bo'lgan tahlil qilinadigan ma'lumotlar juftlarini buyurtma qilish yoki guruhlash yo'qligini anglatadi.
Qatlamli tahlil - bu ikki o'zgaruvchan normallikning etishmasligini ta'minlash yoki boshqasini boshqarish paytida bir omil natijasida yuzaga keladigan o'zaro bog'liqlikni ajratish usullaridan biridir. Agar V klasterga a'zolikni yoki uni boshqarish kerak bo'lgan boshqa omilni ifodalaydi, biz ma'lumotlarning qiymatiga qarab qatlamlashimiz mumkin V, keyin har bir qatlam ichida korrelyatsiya koeffitsientini hisoblang. Qatlam darajasidagi taxminlarni keyinchalik umumiy korrelyatsiyani baholash uchun birlashtirish mumkin V.[31]
Variantlar
Korrelyatsiya koeffitsientining o'zgarishini turli maqsadlar uchun hisoblash mumkin. Mana ba'zi misollar.
Korrelyatsiya koeffitsienti sozlangan
Namuna korrelyatsiya koeffitsienti r ning xolis bahosi emas r. Quyidagi ma'lumotlar uchun a normal taqsimotning ikki o'zgaruvchanligi, kutish E [r] namunaviy korrelyatsiya koeffitsienti uchun r oddiy ikki xillikning[32]
- shuning uchun r ning noaniq baholovchisi
Noyob minimal dispersiyani xolis baholovchi radj tomonidan berilgan[33]
qaerda:
- yuqoridagi kabi belgilanadi,
- bo'ladi Gauss gipergeometrik funktsiyasi.
Taxminan xolis baholovchi radj olinishi mumkin[iqtibos kerak ] qisqartirish orqali E [r] va ushbu qisqartirilgan tenglamani echish:
Taxminan echim[iqtibos kerak ] (2) tenglamaga:
qaerda (3):
- yuqoridagi kabi belgilanadi,
- radj suboptimal taxminchi,[iqtibos kerak ][tushuntirish kerak ]
- radj jurnalni maksimal darajada oshirish orqali ham olish mumkin (f(r)),
- radj ning katta qiymatlari uchun minimal dispersiyaga ega n,
- radj tartibli tomonga egadir1⁄(n − 1).
Boshqa taklif qilingan[10] tuzatilgan korrelyatsiya koeffitsienti:[iqtibos kerak ]
Yozib oling radj ≈ r ning katta qiymatlari uchunn.
O'lchangan korrelyatsiya koeffitsienti
O'zaro bog'liq bo'lgan kuzatuvlar og'irlik vektori bilan ifodalanishi mumkin bo'lgan turli xil ahamiyatga ega deylik w. Vektorlar o'rtasidagi o'zaro bog'liqlikni hisoblash uchun x va y vazn vektori bilan w (butun uzunligi)n),[34][35]
- Og'irligi o'rtacha:
- Kovaryansning og'irligi
- O'lchangan korrelyatsiya
Yansıtıcı korrelyatsiya koeffitsienti
Yansıtıcı korrelyatsiya, ma'lumotlar o'rtacha qiymatlari atrofida markazlashtirilmagan Pearson korrelyatsiyasining bir variantidir.[iqtibos kerak ] Populyatsiyani aks ettiruvchi korrelyatsiya
Yansıtıcı korrelyatsiya nosimmetrikdir, lekin tarjimada o'zgarmas emas:
Yansıtıcı korrelyatsiya namunasi tengdir kosinus o'xshashligi:
Namunali aks ettiruvchi korrelyatsiyaning vaznli versiyasi
Miqyosli korrelyatsiya koeffitsienti
Miqyosli korrelyatsiya - bu ma'lumotlar qatori ataylab va boshqariladigan tarzda vaqt qatoridagi tezkor tarkibiy qismlar o'rtasidagi o'zaro bog'liqlikni aniqlash uchun cheklangan Pirson korrelyatsiyasining bir variantidir.[36] Miqyosli korrelyatsiya ma'lumotlarning qisqa segmentlari bo'yicha o'rtacha korrelyatsiya sifatida aniqlanadi.
Ruxsat bering signalning umumiy uzunligiga mos keladigan segmentlar soni ma'lum bir o'lchov uchun :
Barcha signallar bo'yicha miqyosli korrelyatsiya keyin sifatida hisoblanadi
qayerda bu Pirsonning segment uchun korrelyatsiya koeffitsienti .
Parametrni tanlash orqali , qadriyatlar diapazoni kamayadi va uzoq vaqt ko'lamidagi korrelyatsiyalar filtrlanadi, faqat qisqa vaqt o'lchovlaridagi korrelyatsiyalar aniqlanadi. Shunday qilib, sekin komponentlarning hissalari olib tashlanadi va tezkor tarkibiy qismlar saqlanib qoladi.
Pearsonning masofasi
Sifatida tanilgan ikkita o'zgaruvchi X va Y uchun masofa metrikasi Pearsonning masofasi kabi o'zaro bog'liqlik koeffitsientidan aniqlanishi mumkin[37]
Pirsonning korrelyatsiya koeffitsienti [-1, +1] oralig'iga to'g'ri kelishini hisobga olsak, Pirson masofasi [0, 2] ga to'g'ri keladi. Pearson masofasi ishlatilgan klaster tahlili va noma'lum daromad va ofset bilan aloqa va saqlash uchun ma'lumotlarni aniqlash[38]
Dumaloq korrelyatsiya koeffitsienti
O'zgaruvchilar uchun X = {x1,...,xn} va Y = {y1,...,yn} birlik aylanasida aniqlangan [0, 2π), a ni aniqlash mumkin dumaloq Pearson koeffitsientining analogi.[39] Bu X va Y dagi ma'lumotlar nuqtalarini a ga o'zgartirib amalga oshiriladi sinus funktsiyasi, korrelyatsiya koeffitsienti quyidagicha berilgan:
qayerda va ular dairesel vositalar ning X vaY. Ushbu o'lchov ma'lumotlarning burchak yo'nalishi muhim bo'lgan meteorologiya kabi sohalarda foydali bo'lishi mumkin.
Qisman korrelyatsiya
Agar populyatsiya yoki ma'lumotlar to'plami ikkitadan ko'p o'zgaruvchilar bilan tavsiflangan bo'lsa, a qisman korrelyatsiya koeffitsient boshqa o'zgaruvchilarning tanlangan kichik qismidagi o'zgarishlarga javoban ularning ikkalasi o'zgarishi bilan hisobga olinmaydigan juftlik o'rtasidagi bog'liqlik kuchini o'lchaydi.
Dekoratsiya n tasodifiy o'zgaruvchilar
O'zgaruvchilar orasidagi bog'liqlik chiziqli bo'lmagan bo'lsa ham, ma'lumotlarning o'zgarishi yordamida tasodifiy o'zgaruvchilarning ixtiyoriy sonining barcha juftliklari o'rtasidagi o'zaro bog'liqlikni olib tashlash har doim ham mumkin. Ushbu natijani aholi taqsimoti uchun taqdimoti Cox & Hinkley tomonidan taqdim etilgan.[40]
Tegishli natija namunadagi o'zaro bog'liqlikni nolga kamaytirish uchun mavjud. Ning vektori deylik n tasodifiy o'zgaruvchilar kuzatiladi m marta. Ruxsat bering X bu erda matritsa bo'ling bo'ladi jkuzatishning o'zgaruvchisi men. Ruxsat bering bo'lish m tomonidan m har bir element bilan kvadrat matritsa 1. Keyin D. ma'lumotlar o'zgartirilgan, shuning uchun har bir tasodifiy nol o'rtacha qiymatga ega va T ma'lumotlar o'zgartirilgan, shuning uchun barcha o'zgaruvchilar nol o'rtacha va nol korrelyatsiyaga ega, boshqa barcha o'zgaruvchilar bilan namuna korrelyatsiya matritsasi ning T identifikatsiya matritsasi bo'ladi. Birlik dispersiyasini olish uchun buni standart og'ish bilan ajratish kerak. O'zgargan o'zgaruvchilar o'zaro bog'liq bo'lmaydi, garchi ular bo'lmasa ham mustaqil.
qaerda− 1⁄2 ifodalaydi matritsa kvadrat ildizi ning teskari matritsaning Ning korrelyatsion matritsasi T identifikatsiya matritsasi bo'ladi. Agar yangi ma'lumotlarni kuzatish bo'lsa x ning qatorli vektori n elementlari bo'lsa, unda bir xil konvertatsiya qo'llanilishi mumkin x o'zgartirilgan vektorlarni olish uchun d va t:
Ushbu dekoratsiya bog'liqdir asosiy tarkibiy qismlarni tahlil qilish ko'p o'zgaruvchan ma'lumotlar uchun.
Dasturiy ta'minotni amalga oshirish
- R Statistikaning asosiy to'plami testni amalga oshiradi
cor.test (x, y, method = "pearson")
uning "statistikasi" to'plamida (shuningdek)cor (x, y, method = "pearson")
ishlaydi, lekin p-qiymatini qaytarmasdan). Pearson sukut bo'yicha bo'lgani uchun, usul argumenti ham qoldirilishi mumkin. - Python Statistik funktsiyalar moduli testni amalga oshiradi
pearsonr (x, y)
uning "scipy.stats" modulida va korrelyatsiya koeffitsienti r va p-qiymatini (r, p-qiymati) sifatida qaytaradi.
Shuningdek qarang
- Anscombe kvarteti
- Assotsiatsiya (statistika)
- Kolligatsiya koeffitsienti
- Muvofiqlik korrelyatsiya koeffitsienti
- O'zaro bog'liqlik va qaramlik
- Korrelyatsiya koeffitsienti
- Buzilish
- Masofadagi korrelyatsiya
- Maksimal ma'lumot koeffitsienti
- Ko'p korrelyatsiya
- Odatda taqsimlangan va o'zaro bog'liq bo'lmagan mustaqillikni anglatmaydi
- Koeffitsientlar nisbati
- Qisman korrelyatsiya
- Polikorik korrelyatsiya
- Kvadrantlarni hisoblash nisbati
- RV koeffitsienti
- Spirmanning martabali korrelyatsiya koeffitsienti
Izohlar
Adabiyotlar
- ^ "SPSS qo'llanmalari: Pearson korrelyatsiyasi". Olingan 14 may 2017.
- ^ Galton, F. (5–19 April 1877). "Typical laws of heredity". Tabiat. 15 (388, 389, 390): 492–495, 512–514, 532–533. Bibcode:1877Natur..15..492.. doi:10.1038/015492a0. S2CID 4136393. In the "Appendix" on page 532, Galton uses the term "reversion" and the symbol r.
- ^ Galton, F. (24 September 1885). "The British Association: Section II, Anthropology: Opening address by Francis Galton, F.R.S., etc., President of the Anthropological Institute, President of the Section". Tabiat. 32 (830): 507–510.
- ^ Galton, F. (1886). "Merosxo'rlik darajasida vasatlikka nisbatan regressiya". Buyuk Britaniya va Irlandiyaning Antropologik instituti jurnali. 15: 246–263. doi:10.2307/2841583. JSTOR 2841583.
- ^ Pearson, Karl (20 June 1895). "Notes on regression and inheritance in the case of two parents". London Qirollik jamiyati materiallari. 58: 240–242. Bibcode:1895RSPS...58..240P.
- ^ Stigler, Stephen M. (1989). "Francis Galton's account of the invention of correlation". Statistik fan. 4 (2): 73–79. doi:10.1214 / ss / 1177012580. JSTOR 2245329.
- ^ "Analyse mathematique sur les probabilités des erreurs de situation d'un point". Mem. Akad. Roy. Ilmiy ish. Inst. Frantsiya. Ilmiy ish. Math, et Phys. (frantsuz tilida). 9: 255–332. 1844 – via Google Books.
- ^ Rayt, S. (1921). "Korrelyatsiya va sabablilik". Qishloq xo'jaligi tadqiqotlari jurnali. 20 (7): 557–585.
- ^ a b "Ehtimollar va statistika belgilarining ro'yxati". Matematik kassa. 26 aprel 2020 yil. Olingan 22 avgust 2020.
- ^ a b v d e Real Statistics Using Excel: Correlation: Basic Concepts, retrieved 22 February 2015
- ^ Vayshteyn, Erik V. "Statistik korrelyatsiya". mathworld.wolfram.com. Olingan 22 avgust 2020.
- ^ Moriya, N. (2008). "Noise-related multivariate optimal joint-analysis in longitudinal stochastic processes". In Yang, Fengshan (ed.). Progress in Applied Mathematical Modeling. Nova Science Publishers, Inc. 223-260 betlar. ISBN 978-1-60021-976-4.
- ^ Garren, Steven T. (15 June 1998). "Maximum likelihood estimation of the correlation coefficient in a bivariate normal model, with missing data". Statistika va ehtimollik xatlari. 38 (3): 281–288. doi:10.1016/S0167-7152(98)00035-2.
- ^ "Introductory Business Statistics: The Correlation Coefficient r". opentextbc.ca. Olingan 21 avgust 2020.
- ^ Rodgers; Nicewander (1988). "Thirteen ways to look at the correlation coefficient" (PDF). Amerika statistikasi. 42 (1): 59–66. doi:10.2307/2685263. JSTOR 2685263.
- ^ Schmid, John, Jr. (December 1947). "The relationship between the coefficient of correlation and the angle included between regression lines". Ta'lim tadqiqotlari jurnali. 41 (4): 311–313. doi:10.1080/00220671.1947.10881608. JSTOR 27528906.
- ^ Rummel, R.J. (1976). "Understanding Correlation". ch. 5 (as illustrated for a special case in the next paragraph).
- ^ Buda, Andrzej; Jarynowski, Andrzej (December 2010). Life Time of Correlations and its Applications. Wydawnictwo Niezależne. 5-21 betlar. ISBN 9788391527290.
- ^ a b Cohen, J. (1988). Xulq-atvor fanlari uchun statistik quvvat tahlili (2-nashr).
- ^ Rahman, N. A. (1968) A Course in Theoretical Statistics, Charles Griffin and Company, 1968
- ^ Kendall, M. G., Stuart, A. (1973) The Advanced Theory of Statistics, Volume 2: Inference and Relationship, Griffin. ISBN 0-85264-215-6 (Section 31.19)
- ^ Soper, H.E.; Yosh, A.V .; Cave, B.M.; Li, A .; Pearson, K. (1917). "On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and R.A. Fisher. A co-operative study". Biometrika. 11 (4): 328–413. doi:10.1093/biomet/11.4.328.
- ^ Davey, Catherine E.; Grayden, David B.; Egan, Gary F.; Johnston, Leigh A. (January 2013). "Filtering induces correlation in fMRI resting state data". NeuroImage. 64: 728–740. doi:10.1016/j.neuroimage.2012.08.022. hdl:11343/44035. PMID 22939874. S2CID 207184701.
- ^ Hotelling, Harold (1953). "New Light on the Correlation Coefficient and its Transforms". Qirollik statistika jamiyati jurnali. Series B (Methodological). 15 (2): 193–232. doi:10.1111/j.2517-6161.1953.tb00135.x. JSTOR 2983768.
- ^ Kenney, J.F.; Keeping, E.S. (1951). Mathematics of Statistics. 2-qism (2-nashr). Princeton, NJ: Van Nostran.
- ^ Vayshteyn, Erik V. "Correlation Coefficient—Bivariate Normal Distribution". mathworld.wolfram.com.
- ^ Lay, Chun Sing; Tao, Yingshan; Xu, Fangyuan; Ng, Wing W.Y.; Jia, Youwei; Yuan, Xoliang; Xuang, Chao; Lai, Loi Lei; Xu, Zhao; Locatelli, Giorgio (January 2019). "A robust correlation analysis framework for imbalanced and dichotomous data with uncertainty" (PDF). Axborot fanlari. 470: 58–77. doi:10.1016/j.ins.2018.08.017.
- ^ a b Wilcox, Rand R. (2005). Introduction to robust estimation and hypothesis testing. Akademik matbuot.
- ^ Devlin, Susan J.; Gnanadesikan, R.; Kettenring J.R. (1975). "Robust estimation and outlier detection with correlation coefficients". Biometrika. 62 (3): 531–545. doi:10.1093/biomet/62.3.531. JSTOR 2335508.
- ^ Huber, Peter. J. (2004). Sog'lom statistika. Vili.[sahifa kerak ]
- ^ Katz., Mitchell H. (2006) Multivariable Analysis – A Practical Guide for Clinicians. 2-nashr. Kembrij universiteti matbuoti. ISBN 978-0-521-54985-1. ISBN 0-521-54985-X doi:10.2277/052154985X
- ^ Hotelling, H. (1953). "New Light on the Correlation Coefficient and its Transforms". Qirollik statistika jamiyati jurnali. B seriyasi (uslubiy). 15 (2): 193–232. doi:10.1111/j.2517-6161.1953.tb00135.x. JSTOR 2983768.
- ^ Olkin, Ingram; Pratt,John W. (March 1958). "Unbiased Estimation of Certain Correlation Coefficients". Matematik statistika yilnomalari. 29 (1): 201–211. doi:10.1214/aoms/1177706717. JSTOR 2237306..
- ^ "Re: Compute a weighted correlation". sci.tech-archive.net.
- ^ "Weighted Correlation Matrix – File Exchange – MATLAB Central".
- ^ Nikolich, D; Muresan, RC; Feng, V; Xonanda, V (2012). "Scaled correlation analysis: a better way to compute a cross-correlogram" (PDF). Evropa nevrologiya jurnali. 35 (5): 1–21. doi:10.1111/j.1460-9568.2011.07987.x. PMID 22324876. S2CID 4694570.
- ^ Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (pp. 110) ISBN 1-4020-8879-5
- ^ Immink, K. Schouhamer; Weber, J. (October 2010). "Minimum Pearson distance detection for multilevel channels with gain and / or offset mismatch". Axborot nazariyasi bo'yicha IEEE operatsiyalari. 60 (10): 5966–5974. CiteSeerX 10.1.1.642.9971. doi:10.1109/tit.2014.2342744. S2CID 1027502. Olingan 11 fevral 2018.
- ^ Jammalamadaka, S. Rao; SenGupta, A. (2001). Dumaloq statistikadagi mavzular. Nyu-Jersi: Jahon ilmiy. p. 176. ISBN 978-981-02-3778-3. Olingan 21 sentyabr 2016.
- ^ Koks, D.R .; Xinkli, D.V. (1974). Nazariy statistika. Chapman va Xoll. 3-ilova. ISBN 0-412-12420-3.
Tashqi havolalar
- "cocor". comparingcorrelations.org. – A free web interface and R package for the statistical comparison of two dependent or independent correlations with overlapping or non-overlapping variables.
- "Correlation". nagysandor.eu. – an interactive Flash simulation on the correlation of two normally distributed variables.
- "Correlation coefficient calculator". hackmath.net. Linear regression. –
- "Critical values for Pearson's correlation coefficient" (PDF). frank.mtsu.edu/~dkfuller. – large table.
- "O'zaro bog'liqlikni taxmin qiling". – A game where players guess how correlated two variables in a scatter plot are, in order to gain a better understanding of the concept of correlation.