Как считать корреляцию?
Корреляция — это значение, показывающее, насколько сильно и в каком направлении связаны две переменные. Например, продажи мороженого имеют положительную корреляцию с температурой на улице – чем выше одно, тем выше другое.
При составлении портфеля инвестор получает особую выгоду, если использует инструменты, доходности которых имеют низкую корреляцию: например, акции США и облигации США. Когда акции падают, облигации могут и не упасть. В идеале хотелось бы покупать активы, имеющие отрицательную корреляцию: когда один падает, другой чаще растёт.
Корреляция даёт много полезной информации. Например, на днях мы с женой посмотрели новый сезон «Чёрного зеркала», который понравился нам обоим. Но я решил проверить, действительно ли нам нравятся одинаковые эпизоды, или каждый находит в сериале что-то своё?
Для этого мы поставили оценку каждой серии (от 1 до 10), получив следующие данные:
Я: 6,8 — 7 — 6,5 — 7,5 — 6,8 — 8,3
Лера: 7 — 7 — 8,5 — 6,5 — 8 — 8
Оценка на IMDb: 8,1 — 7,2 — 6,7 — 7,1 — 8,1 — 8,2
Затем я
создал Google-таблицу, которая подсчитывает корреляцию Пирсона (стандарт, который используется в финансах), а также ранговую корреляцию Спирмена. Во втором случае предполагается ранжирование всех эпизодов сериала от лучшего до худшего и подсчёт корреляции этих рангов - таблица делает всё автоматически. Для решения своей задачи я решил использовать второй вариант.
Корреляция обозначается числом от –1 до 1, где –1 - противоположное движение (чем выше значение в первом случае, тем ниже оно во втором, и наоборот), 0 - отсутствие взаимосвязи, 1 - высочайшая корреляция (чем выше значение в первом случае, тем выше оно во втором, и наоборот).
Использовав свою таблицу, я выяснил, что корреляция Спирмена моих оценок и оценок Леры является отрицательной: –0.48! Весьма значительно. Это означает, что её любимые серии чаще являются моими нелюбимыми, и наоборот.
Также интересно, что корреляция моих оценок и зрительских оценок IMDb составляет 0.47, а у Леры с IMDb корреляция лишь 0.03. Это означает, что мои вкусы гораздо ближе к предпочтениям среднего зрителя, а Лере не угодишь: ей нравятся случайные серии!
Если вам тоже нужно будет посчитать корреляции каких-то рядов значений, вы можете создать
копию моей таблицы и внести свои данные в столбцы A, B и C. Столбец C можно не заполнять, если у вас только два ряда чисел для анализа.
Важно отметить, что это таблица создана в русскоязычной версии Гугл Таблиц, где для десятичного разделителя нужно использовать запятую. Столбцы D, E и F заполняются автоматически, но их нужно раснянуть на всю длину имеющихся у вас данных. Результаты появляются в столбцах H и I.
Таблицу можно использовать для подсчёта корреляции годовых доходностей акций и облигаций или других классов активов.