Least Squares Regressie

Definitie van de kleinste-kwadratenregressiemethode

Een regressiemethode met de kleinste kwadraten is een vorm van regressieanalyse die de relatie tussen de afhankelijke en onafhankelijke variabele vaststelt samen met een lineaire lijn. Deze lijn wordt de "line of best fit" genoemd.

Regressieanalyse is een statistische methode met behulp waarvan men de onbekende waarden van een variabele kan schatten of voorspellen uit de bekende waarden van een andere variabele. De variabele die wordt gebruikt om de variabele rente te voorspellen, wordt de onafhankelijke of verklarende variabele genoemd en de variabele die wordt voorspeld, wordt de afhankelijke of verklaarde variabele genoemd.

Laten we eens kijken naar twee variabelen x & y. Deze zijn uitgezet in een grafiek met waarden van x op x-as waarden van y op de y-as. Deze waarden worden weergegeven door de punten in de onderstaande grafiek. Er wordt een rechte lijn door de stippen getrokken - ook wel de best passende lijn genoemd.

Het doel van de regressie met de kleinste kwadraten is ervoor te zorgen dat de lijn die door de reeks opgegeven waarden wordt getrokken, de nauwste relatie tussen de waarden tot stand brengt.

Regressieformule voor de kleinste kwadraten

De regressielijn onder de methode met de kleinste kwadraten wordt berekend met behulp van de volgende formule -

ŷ = a + bx

Waar,

  • ŷ = afhankelijke variabele
  • x = onafhankelijke variabele
  • a = y-snijpunt
  • b = helling van de lijn

De helling van lijn b wordt berekend met behulp van de volgende formule -

Of

Y-snijpunt, 'a' wordt berekend met behulp van de volgende formule -

Line of Best Fit in the Least Square Regression

De best passende lijn is een rechte lijn die door een reeks gegevenspunten wordt getrokken die het beste de relatie daartussen weergeeft.

Laten we eens kijken naar de volgende grafiek waarin een set gegevens is uitgezet langs de x- en y-as. Deze gegevenspunten worden weergegeven met de blauwe stippen. Door deze punten worden drie lijnen getrokken: een groene, een rode en een blauwe lijn. De groene lijn passeert een enkel punt en de rode lijn passeert drie gegevenspunten. De blauwe lijn passeert echter vier gegevenspunten en de afstand tussen de resterende punten tot de blauwe lijn is minimaal in vergelijking met de andere twee lijnen.

In de bovenstaande grafiek geeft de blauwe lijn de best passende lijn weer, aangezien deze het dichtst bij alle waarden ligt en de afstand tussen de punten buiten de lijn tot de lijn minimaal is (dwz de afstand tussen de residuen tot de best passende lijn - ook wel de som van kwadraten van residuen genoemd). In de andere twee lijnen, de oranje en de groene, is de afstand tussen de residuen tot de lijnen groter in vergelijking met de blauwe lijn.

De methode met de kleinste kwadraten biedt de nauwste relatie tussen de afhankelijke en onafhankelijke variabelen door de afstand tussen de residuen en de best passende lijn te minimaliseren, dwz de som van de kwadraten van residuen is bij deze benadering minimaal. Vandaar de term "kleinste kwadraten".

Voorbeelden van Least Squares Regressielijn

Laten we deze formules toepassen in de onderstaande vraag -

U kunt deze Excel-sjabloon voor de kleinste kwadratenregressie hier downloaden - Excel-sjabloon voor de kleinste kwadratenregressie

Voorbeeld 1

De details met betrekking tot de ervaring van technici in een bedrijf (in een aantal jaren) en hun prestatiebeoordeling staan ​​in de onderstaande tabel. Gebruik deze waarden om de prestatiebeoordeling te schatten voor een technicus met 20 jaar ervaring.

Oplossing -

Om eerst de kleinste kwadraten te berekenen, zullen we het Y-snijpunt (a) en de helling van een lijn (b) als volgt berekenen -

De helling van lijn (b)

  • b = 6727 - [(80 * 648) / 8] / 1018 - [(80) 2/8]
  • = 247/218
  • = 1,13

Y-snijpunt (a)

  • a = 648 - (1,13) (80) / 8
  • = 69,7

De regressielijn wordt als volgt berekend -

Vervang 20 voor de waarde van x in de formule,

  • ŷ = a + bx
  • ŷ = 69,7 + (1,13) (20)
  • ŷ = 92,3

De prestatiebeoordeling voor een technicus met 20 jaar ervaring wordt geschat op 92,3.

Voorbeeld # 2

Kleinste-kwadratenregressievergelijking met Excel

De regressievergelijking met de kleinste kwadraten kan worden berekend met Excel door de volgende stappen te volgen:

  • Voeg een gegevenstabel in Excel in.

  • Voeg een spreidingsgrafiek in met behulp van de gegevenspunten.

  • Voeg een trendlijn in de spreidingsgrafiek in.

  • Selecteer onder trendlijnopties de lineaire trendlijn en selecteer de vergelijking op de grafiek weergeven.

  • De regressievergelijking van de kleinste kwadraten voor de opgegeven set Excel-gegevens wordt weergegeven op de grafiek.

Aldus wordt de regressievergelijking van de kleinste kwadraten voor de gegeven set Excel-gegevens berekend. Met behulp van de vergelijking kunnen voorspellingen en trendanalyses worden gemaakt. Excel-tools bieden ook gedetailleerde regressieberekeningen.

Voordelen

  • De kleinste kwadratenmethode van regressieanalyse is het meest geschikt voor voorspellingsmodellen en trendanalyse. Het wordt het best gebruikt op het gebied van economie, financiën en aandelenmarkten, waar de waarde van een toekomstige variabele wordt voorspeld met behulp van bestaande variabelen en de relatie daartussen.
  • De methode met de kleinste kwadraten biedt de dichtstbijzijnde relatie tussen de variabelen. Het verschil tussen de som van de kwadraten van residuen tot de best passende lijn is bij deze methode minimaal.
  • Het rekenmechanisme is eenvoudig en gemakkelijk toe te passen.

Nadelen

  • De methode met de kleinste kwadraten is gebaseerd op het vaststellen van de nauwste relatie tussen een bepaalde reeks variabelen. Het berekeningsmechanisme is gevoelig voor de gegevens en in het geval van uitschieters (uitzonderlijke gegevens) kunnen de resultaten grote invloed hebben.
  • Dit type berekening is het meest geschikt voor lineaire modellen. Voor niet-lineaire vergelijkingen worden meer uitputtende rekenmechanismen toegepast.

Gevolgtrekking

De kleinste-kwadratenmethode is een van de meest gebruikte methoden voor voorspellingsmodellen en trendanalyse. Op de juiste manier berekend, levert het de beste resultaten op.