Multicollineariteit (definitie, typen) | Top 3 voorbeelden met uitleg

Wat is multicollineariteit?

Multicollineariteit is een statistisch fenomeen waarbij twee of meer variabelen in een regressiemodel zo afhankelijk zijn van de andere variabelen dat de ene met een hoge mate van nauwkeurigheid lineair kan worden voorspeld vanuit de andere. Het wordt over het algemeen gebruikt in observationele studies en is minder populair in experimentele studies.

Soorten multicollineariteit

Er zijn vier soorten multicollineariteit

# 1 - Perfecte multicollineariteit - Het bestaat wanneer de onafhankelijke variabelen in de vergelijking de perfecte lineaire relatie voorspellen.
# 2 - Hoge multicollineariteit - Het verwijst naar de lineaire relatie tussen de twee of meer onafhankelijke variabelen die niet perfect met elkaar gecorreleerd zijn.
# 3 - Structurele multicollineariteit - Dit wordt veroorzaakt door de onderzoeker zelf door verschillende onafhankelijke variabelen in de vergelijking in te voegen.
# 4 - Op gegevens gebaseerde Multicollineaariteit - Het wordt veroorzaakt door experimenten die slecht zijn ontworpen door de onderzoeker.

Oorzaken van multicollineariteit

Onafhankelijke variabelen, verandering in de parameters van de variabelen doen dat een kleine verandering in de variabelen, er is een aanzienlijke impact op het resultaat en gegevensverzamelingen verwijst naar de steekproef van de geselecteerde populatie die wordt genomen.

Voorbeelden van multicollineariteit

Voorbeeld 1

Laten we aannemen dat ABC Ltd een KPO is ingehuurd door een farmaceutisch bedrijf om onderzoeksdiensten en statistische analyse van de ziekten in India te leveren. Hiervoor heeft ABC Ltd leeftijd, gewicht, beroep, lengte en gezondheid als prima facie parameters geselecteerd.

In het bovenstaande voorbeeld is er sprake van een multicollineariteitssituatie, aangezien de voor het onderzoek geselecteerde onafhankelijke variabelen direct gecorreleerd zijn met de resultaten. daarom zou het voor de onderzoeker raadzaam zijn om de variabelen eerst aan te passen voordat een project wordt gestart, aangezien de resultaten direct worden beïnvloed door de geselecteerde variabelen hier.

Voorbeeld # 2

Laten we aannemen dat ABC Ltd door Tata Motors is aangesteld om te begrijpen dat het verkoopvolume van tata-motoren hoog zal zijn in welke categorie op de markt.

In het bovenstaande voorbeeld zullen allereerst onafhankelijke variabelen worden afgerond op basis waarvan het onderzoek moet worden afgerond. het kan maandelijks inkomen zijn, leeftijd. merk, de lagere klasse. Het betekent alleen dat er gegevens worden geselecteerd die in al deze tabbladen passen om erachter te komen hoeveel mensen deze auto (tata nano) kunnen kopen zonder zelfs maar naar een andere auto te kijken.

Voorbeeld # 3

Laten we aannemen dat ABC Ltd is ingehuurd om een rapport in te dienen om te weten hoeveel mensen onder de 50 vatbaar zijn voor hartaanvallen. hiervoor zijn de parameters leeftijd, geslacht, medische geschiedenis

In het bovenstaande voorbeeld is er multicollineariteit die is ontstaan omdat de onafhankelijke variabele "leeftijd" moet worden aangepast naar de leeftijd onder de 50 jaar voor het uitnodigen van sollicitaties van het publiek, zodat de personen die ouder zijn dan 50 jaar automatisch worden gefilterd.

Voordelen

Hieronder staan enkele voordelen

Lineaire relatie tussen de onafhankelijke variabelen in de vergelijking.
Zeer nuttig in statistische modellen en onderzoeksrapporten die zijn opgesteld door op onderzoek gebaseerde bedrijven.
Directe impact op het gewenste resultaat.

Nadelen

Hieronder staan enkele van de nadelen

In sommige situaties zou dit probleem worden opgelost door meer gegevens over de variabelen te verzamelen.
Onjuist gebruik van dummy-variabelen, dwz de onderzoeker kan vergeten de dummy-variabelen te gebruiken wanneer dat nodig is.
Twee dezelfde of identieke variabelen in de vergelijking invoegen, zoals kg en lbs in gewichten.
Een variabele in de vergelijking invoegen die een combinatie is van 2.
Het is ingewikkeld om berekeningen uit te voeren, omdat het de statistische techniek is en er statistische rekenmachines nodig zijn om de uitvoering te doen.

Gevolgtrekking

Multicollineariteit is een van de meest favoriete statistische hulpmiddelen die vaak worden gebruikt bij regressieanalyse en statistische analyse voor grote databases en de gewenste output. Alle grote bedrijven hebben een aparte statistische afdeling in hun bedrijf om statistische regressieanalyses uit te voeren over producten of mensen om het management een strategisch beeld van de markt te geven en hen ook te helpen bij het opstellen van hun langetermijnstrategieën met inachtneming van deze geest. De grafische presentatie van de analyse geeft de lezer een duidelijk beeld van de directe relatie, nauwkeurigheid en prestatie.

Als het doel van de onderzoeker is om de onafhankelijke variabelen in de vergelijking te begrijpen, dan zal multicollineariteit een groot probleem voor hem zijn.
De onderzoeker moet de vereiste wijzigingen in de variabelen in stadium 0 zelf aanbrengen, anders kan dit een enorme impact hebben op de resultaten.
Multicollineariteit kan worden bereikt door de correlatiematrix te onderzoeken.
Herstelmaatregelen spelen een belangrijke rol bij het oplossen van de problemen voor multicollineariteit.