Korelacje i znaczenie

Aby zinterpretować elementy wnoszone predyktorów do regresji, nie jest wystarczające, aby tylko sprawdzić współczynniki regresji. Ponadto należy skontrolować korelacje, korelacje cząstkowe i korelacje cząstkowe. Poniższa tabela zawiera te środki korerelacyjne dla każdej zmiennej.

Korelacja zerowa zamówienia jest korelacją między przekształconą predyktorem a przekształconą odpowiedzią. Dla tych danych największa korelacja występuje w przypadku opcji Projekt pakietu. Jeśli jednak możliwe jest wyjaśnienie niektórych zmian w predyktorze lub w odpowiedzi, uzyskasz lepszą reprezentację tego, jak dobrze robi się predyktor.

Tabela przedstawiana predyktorom w wierszach i zerowej kolejności, części i częściowym korelowaniu, ważności i tolerancji w kolumnach — Rysunek 1. Korelacje zerowe, częściowe i cząstkowe (zmienne przekształcone)

W przypadku innych zmiennych w modelu można określić wydajność danego predyktora w przewidywaniu odpowiedzi. Częściowy współczynnik korelacji usuwa efekty liniowe innych predyktorów zarówno z predyktora, jak i z odpowiedzi. Ta miara jest równa korelacji między resztami z regresji predyktorów w innych predyktorach i reszt z regresji odpowiedzi na innych predyktorach. Kwadratowa korelacja częściowa odpowiada proporcji wariancji wyjaśnionej względem wariancji resztkowej odpowiedzi pozostałej po usunięciu efektów pozostałych zmiennych. Na przykład: Projekt pakietu ma częściową korelację z zakresu -0.955. Usunięcie efektów innych zmiennych, Projekt pakietu , wyjaśnia (-0.955)² = 0,91 = 91% odchylenia w rankingach preferencji. Zarówno Cena , jak i Dobra pieczęć Housekeeping wyjaśniają również dużą część wariancji, jeśli skutki innych zmiennych zostaną usunięte.

Alternatywą dla usuwania skutków zmiennych zarówno z odpowiedzi, jak i z predyktora, można usunąć efekty tylko z predyktora. Korelacja między odpowiedzią a resztami z regresji predyktora na innych predyktorach jest korelacją części. Do kwadratu tej wartości uzyskana jest miara proporcji wariancji wyjaśniona względem całkowitej wariancji odpowiedzi. Jeśli zostaną usunięte efekty Nazwa marki, Dobra pieczęć Housekeeping, Gwarancja zwrotu pieniędzyi Cena z Projekt pakietu, pozostała część Projekt pakietu wyjaśnia (-0.733)² = 0,54 = 54% odchylenia w rankingach preferencji.

Ważność

Oprócz współczynników regresji i korelacji, miara Pratta o względnym znaczeniu ¹ pomaga w interpretowaniu predyktorów do regresji. Duże indywidualne importanki w stosunku do innych importanek odpowiadają predyktorom, które mają kluczowe znaczenie dla regresji. Ponadto, obecność zmiennych tłumionych jest sygnalizowana przez niską wagę dla zmiennej o współczynniku o podobnej wielkości do ważnych predyktorów.

W przeciwieństwie do współczynników regresji, miara ta definiuje znaczenie predyktorów addytywnych-czyli znaczenie zbioru predyktorów jest sumą poszczególnych importanków predyktorów. Miara pratta równa się iloczynie wartości współczynnika regresji i korelacji zerowej dla predyktora. Te produkty są dodawane do R ², dlatego są dzielone przez R ², co oznacza sumę 1. Zestaw predyktorów Projekt pakietu i Nazwa marki, na przykład, ma znaczenie 0,654. Największe znaczenie ma Projekt pakietu, w tym Projekt pakietu, Cenai Dobry pieczęć Housekeeping , który stanowi 95% ważności dla tej kombinacji predyktorów.

Wielkoliniowość

Duże korelacje między predyktorami znacznie zmniejszą stabilność modelu regresji. Skorelowane predyktory są wynikiem niestabilnych oszacowań parametrów. Tolerancja odzwierciedla, w jakim stopniu zmienne niezależne są liniowo powiązane z jedną inną. Miara ta jest proporcją wariancji zmiennej, nieuwzględnionej przez inne zmienne niezależne w równaniu. Jeśli inne predyktory mogą wyjaśniać dużą ilość wariancji predyktora, ten predyktor nie jest potrzebny w modelu. Wartość tolerancji w pobliżu 1 wskazuje, że zmienna nie może być bardzo dobrze przewidywana na podstawie innych predyktorów. Natomiast zmienna z bardzo niską tolerancją wnosi niewiele informacji do modelu, a może powodować problemy obliczeniowe. Co więcej, duże ujemne wartości znaczenia Pratt wskazują na wielokolliniowość.

Wszystkie środki tolerancji są bardzo wysokie. Żaden z predyktorów nie jest zbyt dobrze przewidywany przez inne predyktory i nie występuje multicollinearity.

Następny

¹ Pratt, J. W. 1987. Dividing the indivisible: Using simple symmetry to partition variance explained. W: Proceedings of the Second International Conference in Statistics, T. Pukkila, and S. Puntanen, eds. Tampere, Finlandia: University of Tampere.