Von kleinen Werten mit grossem Einfluss - Sum Of Squares - Teil 2
Im ersten Teil dieses Blogartikels haben wir die RSS kennengelernt und begonnen, uns dem Einfluss der Einzelwerte zu nähern. Daran schließt dieser Teil an.
Hat Values und Cooks Distance – was beeinflusst die lineare Regression tatsächlich?
Der Einfluss eines einzelnen Datenpunktes lässt sich erst damit bestimmen, wenn man untersucht, ob das Entfernen des Datenpunktes die Regressionsgerade stark verschieben würde. Es ist durchaus möglich, dass Datenpunkte mit großem Anteil der RSS die Regressionsgerade kaum verschieben würden, wenn sie entfernt würden. Dies ist abhängig davon, in welcher Entfernung sich der Datenpunkt zu dem Rest aller anderen Datenpunkte befindet. Folgende Grafik zeigt den jeweiligen Einfluss der Datenpunkte auf die Regressionsgerade, würde man diese entfernen: