Коэффициенты корреляции

Теоретический коэффициент корреляции показывает меру взаимосвязи двух переменных. Значения коэффициента корреляции лежат в интервале [-1;1]. Отсутствие связи между исследуемыми переменными соответствует значению 0. В это же время можно выделить следующую разбивку значений, принимаемых коэффициентом, симметрично нуля: (0;0.3) - отсутствие взаимосвязи или незначительная взаимосвязи между переменными; (0.3;0.7) - средняя сила взаимосвязи; (0.7;1) - сильная взаимосвязь. Если коэффициент корреляции отрицателен, то связь между переменными будет обратной; если положительный, то прямой [Тюрин, Макаров, 2002, с.284].

Теоретический коэффициент корреляции вычисляется по следующей формуле:

,

где: Cov(x,y) - ковариация между двумя переменными;

D(x) и D(y) - дисперсии двух случайных величин.

Преимуществом теоретического коэффициента корреляции перед ковариацией (также являющейся мерой зависимости между двумя случайными величинами) как оценки связи является независимость корреляции от выбора единиц измерения [Доугерти, 2009, с.17]. Иными словами, перед исследователем не встает необходимость приводить данные к единым единицам измерения.

На практике в качестве оценки теоретического коэффициента корреляции используют различные способы оценки. Самые часто употребляемые из них: Пирсона и Спирмана.

Коэффициент корреляции Пирсона - выборочный коэффициент корреляции, рассчитываемый по формуле:

,

где: xi и yi - значения, принимаемые переменными;

и - соответствующие средние по выборкам.

Недостатком коэффициента корреляции Пирсона можно считать только его зависимость от имеющихся значений в массиве данных. То есть, если в массиве присутствуют так называемые выбросы, о которых говорилось выше, то значение коэффициента корреляции будет испытывать на себе их влияние [Доугерти, 2009, с.18].

Данный недостаток компенсируется использованием коэффициента корреляции Спирмана, который в отличие от коэффициента корреляции Пирсона при расчетах использует ранги, присваиваемые значениям переменных. Коэффициент корреляции Спирмана, как правило, используется тогда, когда одна из переменных является порядковой [Доугерти, 2009, с.18].

Значениям переменных x и y присваиваются ранги по возрастанию от 1 до n. После чего для каждой пары x и y рассчитывается разница соответствующих рангов, возводящаяся в квадрат.

,

где: - квадрат разности рангов;

n - число наблюдений.

Необходимым шагом при оценке коэффициента корреляции является проверка гипотезы о значимости коэффициентов корреляции. Нулевая гипотеза предполагает отсутствие связи. Альтернативная гипотеза утверждает, что коэффициент отличен от нуля. Коэффициент корреляции связан с величиной, имеющей распределение Стьюдента. Тогда формула для проверки гипотезы о значимости коэффициента корреляции имеет вид:

,

где: R - значение коэффициента корреляции;

n - число наблюдений.

Далее сравниваем полученное эмпирическое значение t с tтеоретическим со степенями свободы n-2 и уровнем значимости б=0.01 для 99% уровня доверия (б=0.05 для 95% уровня доверия). Если tнабл>tтеор, то нулевая гипотеза о равенстве коэффициента нули отвергается в пользу альтернативной.

Оценка коэффициента корреляции дает возможность отобрать в модель те предикторы, которые имеют взаимосвязь с исследуемыми переменными «доля голосов».

 
< Пред   СОДЕРЖАНИЕ   Загрузить   След >