Pearson-correlatiecoëfficiënt

Pearson-definitie van correlatiecoëfficiënt

Pearson correlatiecoëfficiënt, ook bekend als Pearson R statistische test, meet de sterkte tussen de verschillende variabelen en hun relaties. Telkens wanneer een statistische test wordt uitgevoerd tussen de twee variabelen, is het altijd een goed idee voor de persoon die de analyse uitvoert om de waarde van de correlatiecoëfficiënt te berekenen om te weten hoe sterk de relatie tussen de twee variabelen is.

De correlatiecoëfficiënt van Pearson retourneert een waarde tussen -1 en 1. De interpretatie van de correlatiecoëfficiënt is als onder:

  • Als de correlatiecoëfficiënt -1 is, duidt dit op een sterk negatief verband. Het impliceert een perfecte negatieve relatie tussen de variabelen.
  • Als de correlatiecoëfficiënt 0 is, geeft dit aan dat er geen verband is.
  • Als de correlatiecoëfficiënt 1 is, duidt dit op een sterk positief verband. Het impliceert een perfecte positieve relatie tussen de variabelen.

Een hogere absolute waarde van de correlatiecoëfficiënt duidt op een sterkere relatie tussen variabelen. Een correlatiecoëfficiënt van 0,78 duidt dus op een sterkere positieve correlatie in vergelijking met een waarde van bijvoorbeeld 0,36. Evenzo duidt een correlatiecoëfficiënt van -0,87 op een sterkere negatieve correlatie in vergelijking met een correlatiecoëfficiënt van bijvoorbeeld -0,40.

Met andere woorden, als de waarde in het positieve bereik ligt, toont dit aan dat de relatie tussen variabelen positief gecorreleerd is en dat beide waarden samen afnemen of toenemen. Aan de andere kant, als de waarde in het negatieve bereik ligt, laat dit zien dat de relatie tussen variabelen negatief gecorreleerd is en dat beide waarden in de tegenovergestelde richting gaan.

Pearson-correlatiecoëfficiëntformule

De formule van de correlatiecoëfficiënt van Pearson is als volgt:

Waar,

  • r = Pearson-coëfficiënt
  • n = aantal paren van de voorraad
  • ∑xy = som van producten van de gepaarde aandelen
  • ∑x = som van de x scores
  • ∑y = som van de y-scores
  • ∑x2 = som van de gekwadrateerde x-scores
  • ∑y2 = som van de gekwadrateerde y-scores

Uitleg

Stap 1: Zoek het aantal paren variabelen op, dat wordt aangegeven met n. Laten we aannemen dat x uit 3 variabelen bestaat - 6, 8, 10. Laten we aannemen dat y uit 3 corresponderende variabelen 12, 10, 20 bestaat.

Stap 2: Maak een lijst van de variabelen in twee kolommen.

Stap 3: Zoek het product van x en y in de 3e kolom.

Stap 4: Zoek de som van de waarden van alle x-variabelen en alle y-variabelen. Schrijf de resultaten onderaan de 1e en 2e kolom. Schrijf de som van x * y in de 3e kolom.

Stap 5: Ontdek x2 en y2 in de 4e en 5e kolom en hun som onderaan de kolommen.

Stap 6: Voeg de bovenstaande waarden in de formule in en los het op.

r = 3 * 352-24 * 42 / √ (3 * 200-242) * (3 * 644-422)

= 0,7559

Voorbeeld van Pearson-correlatiecoëfficiënt R

U kunt deze Pearson Correlation Coefficient Excel-sjabloon hier downloaden - Pearson Correlation Coefficient Excel-sjabloon

voorbeeld 1

In dit voorbeeld met behulp van de volgende gegevens in de tabel van de 6 personen met een verschillende leeftijd en verschillende gewichten hieronder gegeven voor de berekening van de waarde van de Pearson R

Oplossing:

Voor de berekening van de Pearson-correlatiecoëfficiënt zullen we eerst de volgende waarden berekenen:

Hier is het totaal aantal mensen 6 dus n = 6

Nu is de berekening van de Pearson R als volgt,

  • r = (n (∑xy) - (∑x) (∑y)) / (√ [n ∑x2- (∑x) 2] [n ∑y2– (∑y) 2)
  • r = (6 * (13937) - (202) (409)) / (√ [6 * 7280 - (202) 2] * [6 * 28365- (409) 2)
  • r = (6 * (13937) - (202) * (409)) / (√ [6 * 7280 - (202) 2] * [6 * 28365- (409) 2)
  • r = (83622-82618) / (√ [43680-40804] * [170190-167281)
  • r = 1004 / (√ [2876] * [2909)
  • r = 1004 / (√ 8366284)
  • r = 1004 / 2892,452938
  • r = 0,35

De waarde van de Pearson-correlatiecoëfficiënt is dus 0,35

Voorbeeld # 2

Er zijn 2 aandelen - A en B. Hun aandelenkoersen op bepaalde dagen zijn als volgt:

Ontdek de Pearson-correlatiecoëfficiënt uit de bovenstaande gegevens.

Oplossing:

Eerst zullen we de volgende waarden berekenen.

De berekening van de Pearson-coëfficiënt is als volgt,

  • r =  (5 * 1935-266 * 37) / ((5 * 14298- (266) ^ 2) * (5 * 283- (37) ^ 2)) ^ 0,5
  • = -0,9088

Daarom is de Pearson-correlatiecoëfficiënt tussen de twee aandelen -0,9088.

Voordelen

  • Het helpt om te weten hoe sterk de relatie tussen de twee variabelen is. Niet alleen de aan- of afwezigheid van de correlatie tussen de twee variabelen wordt aangegeven met de Pearson Correlation Coefficient, maar het bepaalt ook de exacte mate waarin die variabelen gecorreleerd zijn.
  • Met behulp van deze methode kan men de richting van correlatie bepalen, dwz of de correlatie tussen twee variabelen negatief of positief is.

Nadelen

  • De Pearson-correlatiecoëfficiënt R is niet voldoende om het verschil te zien tussen de afhankelijke variabelen en de onafhankelijke variabelen, aangezien de correlatiecoëfficiënt tussen de variabelen symmetrisch is. Als een persoon bijvoorbeeld probeert de correlatie tussen hoge stress en bloeddruk te achterhalen, dan zou men de hoge waarde van de correlatie kunnen vinden die aantoont dat hoge stress de bloeddruk veroorzaakt. Als nu de variabele wordt omgeschakeld, is het resultaat in dat geval ook hetzelfde, wat aangeeft dat stress wordt veroorzaakt door de bloeddruk die nergens op slaat. De onderzoeker moet dus op de hoogte zijn van de gegevens die hij gebruikt voor het uitvoeren van de analyse.
  • Met deze methode kan men de informatie over de helling van de lijn niet verkrijgen, omdat deze alleen aangeeft of er een verband tussen de twee variabelen bestaat of niet.
  • Het is waarschijnlijk dat de Pearson-correlatiecoëfficiënt verkeerd wordt geïnterpreteerd, vooral in het geval van de homogene gegevens.
  • In vergelijking met de andere berekeningsmethoden kost deze methode veel tijd om tot de resultaten te komen.

Belangrijke punten

  • De waarden kunnen variëren van de waarde +1 tot de waarde -1, waarbij de +1 de perfecte positieve relatie aangeeft tussen de beschouwde variabelen, de -1 de perfecte negatieve relatie aangeeft tussen de beschouwde variabelen en een 0-waarde aangeeft dat er geen relatie is bestaat tussen de beschouwde variabelen.
  • Het is onafhankelijk van de meeteenheid van de variabelen. Als de meeteenheid van een variabele bijvoorbeeld in jaren is terwijl de meeteenheid van de tweede variabele in kilogrammen is, verandert zelfs dan de waarde van deze coëfficiënt niet.
  • De correlatiecoëfficiënt tussen de variabelen is symmetrisch, wat betekent dat de waarde van de correlatiecoëfficiënt tussen Y en X of X en Y gelijk blijft.

Gevolgtrekking

Pearson-correlatiecoëfficiënt is het type correlatiecoëfficiënt dat de relatie vertegenwoordigt tussen de twee variabelen die worden gemeten op hetzelfde interval of dezelfde verhoudingsschaal. Het meet de sterkte van de relatie tussen de twee continue variabelen.

Het vermeldt niet alleen de aan- of afwezigheid van de correlatie tussen de twee variabelen, maar het bepaalt ook de exacte mate waarin die variabelen gecorreleerd zijn. Het is onafhankelijk van de meeteenheid van de variabelen waarbij de waarden van de correlatiecoëfficiënt kunnen variëren van de waarde +1 tot de waarde -1. Het is echter niet voldoende om het verschil te zien tussen de afhankelijke variabelen en de onafhankelijke variabelen.