🔴 Сложный ⏱️ 25 минут

Ковариация и корреляция: как измерить связь между данными

Ковариация и корреляция: как измерить связь между данными

🎯 Зачем это нужно?

Представь, что ты анализируешь данные своего любимого стримера на Twitch 🎮. Ты заметил: чем дольше стрим, тем больше донатов приходит. Или наоборот - чем позже начинается стрим, тем меньше зрителей. Как это измерить математически?

🏀 В спорте: NBA аналитики изучают связь между ростом игрока и точностью трёхочковых 📱 В соцсетях: Instagram измеряет, как количество лайков связано с временем публикации
💰 В финансах: Трейдеры анализируют, как цена биткоина коррелирует с индексом S&P 500 🎵 В музыке: Spotify изучает связь между темпом песни и её популярностью

📚 История вопроса

В 1886 году британский учёный Фрэнсис Гальтон изучал рост отцов и сыновей. Он заметил странную вещь: высокие отцы чаще имеют высоких сыновей, но не всегда! Нужна была мера, которая покажет “насколько сильно” одно связано с другим.

Так родилась корреляция - от латинского “cor” (вместе) + “relatio” (отношение). Буквально “совместное отношение”! 📊

💡 Интуиция

[МЕДИА: image_01] Описание: Диаграмма рассеяния показывающая положительную, отрицательную и нулевую корреляцию Промпт: “three scatter plots showing positive correlation (upward trend), negative correlation (downward trend), and zero correlation (random cloud), colorful dots, clean axes, educational data visualization style”

Представь, что у тебя есть данные о времени, проведённом в TikTok, и оценках в школе:

🔴 Положительная связь: Больше времени на учёбу → выше оценки (точки идут “вверх-направо”) 🔵 Отрицательная связь: Больше времени в TikTok → ниже оценки (точки идут “вниз-направо”)
Нулевая связь: Размер обуви и оценки никак не связаны (точки разбросаны хаотично)

📐 Формальное определение

Ковариация

Ковариация показывает, как две переменные изменяются вместе:

Cov(X,Y) = E[(X - E[X])(Y - E[Y])]

Или для выборки: Cov(X,Y) = Σ(xᵢ - x̄)(yᵢ - ȳ) / (n-1)

🤔 Проблема ковариации: её величина зависит от единиц измерения! Если измерять рост в сантиметрах вместо метров, ковариация увеличится в 100 раз.

Коэффициент корреляции Пирсона

Корреляция = нормированная ковариация (всегда от -1 до 1):

r = Cov(X,Y) / (σₓ · σᵧ)

где σₓ, σᵧ - стандартные отклонения X и Y.

[МЕДИА: image_02] Описание: Шкала корреляции от -1 до 1 с примерами диаграмм рассеяния Промпт: “correlation scale from -1 to +1, showing scatter plots at different correlation values (-1, -0.7, 0, 0.7, 1), colorful visualization, modern infographic style”

🔍 Примеры с разбором

Пример 1: Время на YouTube vs Качество сна

Данные за неделю у студента:

  • YouTube (часы): [1, 2, 4, 3, 5, 6, 2]
  • Сон (оценка 1-10): [9, 8, 6, 7, 4, 3, 8]

Шаг 1: Находим средние значения x̄ = (1+2+4+3+5+6+2)/7 = 3.29 ȳ = (9+8+6+7+4+3+8)/7 = 6.43

Шаг 2: Вычисляем ковариацию Cov(X,Y) = [(1-3.29)(9-6.43) + (2-3.29)(8-6.43) + … ] / 6 = [(-2.29)(2.57) + (-1.29)(1.57) + (0.71)(-0.43) + (-0.29)(0.57) + (1.71)(-2.43) + (2.71)(-3.43) + (-1.29)(1.57)] / 6 = -5.95

Шаг 3: Находим стандартные отклонения
σₓ = 1.89, σᵧ = 2.30

Шаг 4: Вычисляем корреляцию r = -5.95 / (1.89 × 2.30) = -0.89

Вывод: Сильная отрицательная корреляция! Больше YouTube → хуже сон.

Пример 2: Погода и продажи мороженого

Представим данные киоска с мороженым:

  • Температура: [15°, 18°, 22°, 25°, 28°, 30°, 32°]
  • Продажи: [20, 35, 50, 70, 85, 95, 110] штук

Интуитивно понятно: жарче → больше продаж. Рассчитаем r ≈ 0.97 - очень сильная положительная связь! ☀️🍦

🎮 Практика

Базовый уровень 🟢

Задание 1: Определи тип корреляции по описанию: а) Чем больше подписчиков в Instagram, тем больше лайков под постами б) Чем выше цена на iPhone, тем меньше продаж
в) Размер стопы и любимый жанр музыки г) Количество часов сна и продуктивность на следующий день

Задание 2: Какие значения может принимать коэффициент корреляции? а) от 0 до 1 б) от -1 до 1
в) любые положительные г) от -∞ до +∞

Задание 3: У тебя r = -0.85 между временем в соцсетях и оценками. Это означает: а) Слабую положительную связь б) Сильную отрицательную связь в) Отсутствие связи г) Ошибку в расчётах

Продвинутый уровень 🟡

Задание 4: Посчитай корреляцию между количеством просмотров видео на YouTube (X) и лайками (Y): X: [100, 200, 300, 400, 500] Y: [10, 25, 35, 45, 60]

Задание 5: Стример заметил: r = 0.12 между длительностью стрима и донатами. Что это значит? а) Длинные стримы всегда приносят больше денег б) Связь практически отсутствует в) Чем дольше стрим, тем меньше донатов г) Нужно стримить ровно 12 минут

Задание 6: Netflix обнаружил r = -0.78 между возрастом зрителя и временем просмотра аниме. Объясни это простыми словами.

Задание 7: Рассчитай ковариацию между количеством фолловеров в TikTok (X) и среднее время просмотра видео (Y): X: [1000, 5000, 10000] Y: [15, 25, 30] секунд

Челлендж 🔴

Задание 8: Парадокс корреляции! У игры r = 0.9 между временем игры и уровнем персонажа. Но один читер получил 100 уровень за 5 минут. Как это повлияет на корреляцию?

Задание 9: Создай пример данных (5 точек), где:

  • Визуально видна сильная нелинейная связь
  • Но коэффициент корреляции Пирсона близок к 0 Подсказка: подумай о параболе или окружности!

⚠️ Частые ошибки

Ошибка: “Корреляция = причинность” ✅ Правильно: Корреляция показывает только связь, не причину! 💡 Почему: Продажи мороженого и количество утоплений коррелируют (r≈0.8), но мороженое не убивает людей. Просто летом и то, и другое больше.

Ошибка: “r = 0.3 означает слабую связь, можно игнорировать” ✅ Правильно: Даже r = 0.3 может быть статистически значимым! 💡 Почему: Для больших выборок даже малые корреляции важны.

Ошибка: “Корреляция измеряет любую зависимость” ✅ Правильно: Корреляция Пирсона измеряет только ЛИНЕЙНУЮ связь 💡 Почему: Y = X² имеет r ≈ 0, но связь очевидна! Для нелинейных связей нужны другие меры.

Ошибка: “Отрицательная корреляция = плохо” ✅ Правильно: Знак корреляции не означает “хорошо” или “плохо” 💡 Почему: r = -0.9 между временем тренировки и весом - отличный результат!

🎓 Главное запомнить

Корреляция ∈ [-1, 1] показывает силу и направление ЛИНЕЙНОЙ связи ✅ Формула: r = Cov(X,Y) / (σₓ · σᵧ) ✅ Применение: анализ данных в ML, A/B тесты, разведочный анализ

🔗 Связь с другими темами

🔙 Откуда пришли: Математическое ожидание и дисперсия (урок 243) - основа для понимания ковариации

🔜 Куда идём:

  • Линейная регрессия (корреляция → предсказание)
  • Многомерная корреляция и матрицы ковариаций
  • Критерии значимости корреляций
  • Нелинейные меры связи (корреляция Спирмена, взаимная информация)

Понял тему? Закрепи в боте! 🚀

Попрактикуйся на задачах и получи персональные рекомендации от AI

💪 Начать тренировку
💬 Есть вопрос? Спроси бота!