Ковариация и корреляция: как измерить связь между данными
🎯 Зачем это нужно?
Представь, что ты анализируешь данные своего любимого стримера на Twitch 🎮. Ты заметил: чем дольше стрим, тем больше донатов приходит. Или наоборот - чем позже начинается стрим, тем меньше зрителей. Как это измерить математически?
🏀 В спорте: NBA аналитики изучают связь между ростом игрока и точностью трёхочковых
📱 В соцсетях: Instagram измеряет, как количество лайков связано с временем публикации
💰 В финансах: Трейдеры анализируют, как цена биткоина коррелирует с индексом S&P 500
🎵 В музыке: Spotify изучает связь между темпом песни и её популярностью
📚 История вопроса
В 1886 году британский учёный Фрэнсис Гальтон изучал рост отцов и сыновей. Он заметил странную вещь: высокие отцы чаще имеют высоких сыновей, но не всегда! Нужна была мера, которая покажет “насколько сильно” одно связано с другим.
Так родилась корреляция - от латинского “cor” (вместе) + “relatio” (отношение). Буквально “совместное отношение”! 📊
💡 Интуиция
[МЕДИА: image_01] Описание: Диаграмма рассеяния показывающая положительную, отрицательную и нулевую корреляцию Промпт: “three scatter plots showing positive correlation (upward trend), negative correlation (downward trend), and zero correlation (random cloud), colorful dots, clean axes, educational data visualization style”
Представь, что у тебя есть данные о времени, проведённом в TikTok, и оценках в школе:
🔴 Положительная связь: Больше времени на учёбу → выше оценки (точки идут “вверх-направо”)
🔵 Отрицательная связь: Больше времени в TikTok → ниже оценки (точки идут “вниз-направо”)
⚪ Нулевая связь: Размер обуви и оценки никак не связаны (точки разбросаны хаотично)
📐 Формальное определение
Ковариация
Ковариация показывает, как две переменные изменяются вместе:
Cov(X,Y) = E[(X - E[X])(Y - E[Y])]
Или для выборки: Cov(X,Y) = Σ(xᵢ - x̄)(yᵢ - ȳ) / (n-1)
🤔 Проблема ковариации: её величина зависит от единиц измерения! Если измерять рост в сантиметрах вместо метров, ковариация увеличится в 100 раз.
Коэффициент корреляции Пирсона
Корреляция = нормированная ковариация (всегда от -1 до 1):
r = Cov(X,Y) / (σₓ · σᵧ)
где σₓ, σᵧ - стандартные отклонения X и Y.
[МЕДИА: image_02] Описание: Шкала корреляции от -1 до 1 с примерами диаграмм рассеяния Промпт: “correlation scale from -1 to +1, showing scatter plots at different correlation values (-1, -0.7, 0, 0.7, 1), colorful visualization, modern infographic style”
🔍 Примеры с разбором
Пример 1: Время на YouTube vs Качество сна
Данные за неделю у студента:
- YouTube (часы): [1, 2, 4, 3, 5, 6, 2]
- Сон (оценка 1-10): [9, 8, 6, 7, 4, 3, 8]
Шаг 1: Находим средние значения x̄ = (1+2+4+3+5+6+2)/7 = 3.29 ȳ = (9+8+6+7+4+3+8)/7 = 6.43
Шаг 2: Вычисляем ковариацию Cov(X,Y) = [(1-3.29)(9-6.43) + (2-3.29)(8-6.43) + … ] / 6 = [(-2.29)(2.57) + (-1.29)(1.57) + (0.71)(-0.43) + (-0.29)(0.57) + (1.71)(-2.43) + (2.71)(-3.43) + (-1.29)(1.57)] / 6 = -5.95
Шаг 3: Находим стандартные отклонения
σₓ = 1.89, σᵧ = 2.30
Шаг 4: Вычисляем корреляцию r = -5.95 / (1.89 × 2.30) = -0.89
Вывод: Сильная отрицательная корреляция! Больше YouTube → хуже сон.
Пример 2: Погода и продажи мороженого
Представим данные киоска с мороженым:
- Температура: [15°, 18°, 22°, 25°, 28°, 30°, 32°]
- Продажи: [20, 35, 50, 70, 85, 95, 110] штук
Интуитивно понятно: жарче → больше продаж. Рассчитаем r ≈ 0.97 - очень сильная положительная связь! ☀️🍦
🎮 Практика
Базовый уровень 🟢
Задание 1: Определи тип корреляции по описанию:
а) Чем больше подписчиков в Instagram, тем больше лайков под постами
б) Чем выше цена на iPhone, тем меньше продаж
в) Размер стопы и любимый жанр музыки
г) Количество часов сна и продуктивность на следующий день
Задание 2: Какие значения может принимать коэффициент корреляции?
а) от 0 до 1
б) от -1 до 1
в) любые положительные
г) от -∞ до +∞
Задание 3: У тебя r = -0.85 между временем в соцсетях и оценками. Это означает: а) Слабую положительную связь б) Сильную отрицательную связь в) Отсутствие связи г) Ошибку в расчётах
Продвинутый уровень 🟡
Задание 4: Посчитай корреляцию между количеством просмотров видео на YouTube (X) и лайками (Y): X: [100, 200, 300, 400, 500] Y: [10, 25, 35, 45, 60]
Задание 5: Стример заметил: r = 0.12 между длительностью стрима и донатами. Что это значит? а) Длинные стримы всегда приносят больше денег б) Связь практически отсутствует в) Чем дольше стрим, тем меньше донатов г) Нужно стримить ровно 12 минут
Задание 6: Netflix обнаружил r = -0.78 между возрастом зрителя и временем просмотра аниме. Объясни это простыми словами.
Задание 7: Рассчитай ковариацию между количеством фолловеров в TikTok (X) и среднее время просмотра видео (Y): X: [1000, 5000, 10000] Y: [15, 25, 30] секунд
Челлендж 🔴
Задание 8: Парадокс корреляции! У игры r = 0.9 между временем игры и уровнем персонажа. Но один читер получил 100 уровень за 5 минут. Как это повлияет на корреляцию?
Задание 9: Создай пример данных (5 точек), где:
- Визуально видна сильная нелинейная связь
- Но коэффициент корреляции Пирсона близок к 0 Подсказка: подумай о параболе или окружности!
⚠️ Частые ошибки
❌ Ошибка: “Корреляция = причинность” ✅ Правильно: Корреляция показывает только связь, не причину! 💡 Почему: Продажи мороженого и количество утоплений коррелируют (r≈0.8), но мороженое не убивает людей. Просто летом и то, и другое больше.
❌ Ошибка: “r = 0.3 означает слабую связь, можно игнорировать” ✅ Правильно: Даже r = 0.3 может быть статистически значимым! 💡 Почему: Для больших выборок даже малые корреляции важны.
❌ Ошибка: “Корреляция измеряет любую зависимость” ✅ Правильно: Корреляция Пирсона измеряет только ЛИНЕЙНУЮ связь 💡 Почему: Y = X² имеет r ≈ 0, но связь очевидна! Для нелинейных связей нужны другие меры.
❌ Ошибка: “Отрицательная корреляция = плохо” ✅ Правильно: Знак корреляции не означает “хорошо” или “плохо” 💡 Почему: r = -0.9 между временем тренировки и весом - отличный результат!
🎓 Главное запомнить
✅ Корреляция ∈ [-1, 1] показывает силу и направление ЛИНЕЙНОЙ связи ✅ Формула: r = Cov(X,Y) / (σₓ · σᵧ) ✅ Применение: анализ данных в ML, A/B тесты, разведочный анализ
🔗 Связь с другими темами
🔙 Откуда пришли: Математическое ожидание и дисперсия (урок 243) - основа для понимания ковариации
🔜 Куда идём:
- Линейная регрессия (корреляция → предсказание)
- Многомерная корреляция и матрицы ковариаций
- Критерии значимости корреляций
- Нелинейные меры связи (корреляция Спирмена, взаимная информация)
Понял тему? Закрепи в боте! 🚀
Попрактикуйся на задачах и получи персональные рекомендации от AI
💪 Начать тренировку