🔴 Сложный ⏱️ 25 минут

Многомерные случайные величины: когда одного измерения мало

🎯 Зачем это нужно?

Представь, что ты анализируешь игроков в CS:GO 🎮. Одна переменная - количество убийств, другая - количество смертей. Можешь ли ты изучать их по отдельности? Конечно! Но самое интересное происходит, когда ты смотришь на них вместе - как они связаны между собой?

📱 Netflix рекомендации: Твой возраст + жанр фильмов + время просмотра = персональные предложения
📈 Торговые боты: Цена биткоина + объём торгов + настроения в соцсетях = решение о покупке/продаже
🏠 Оценка недвижимости: Площадь + район + год постройки + этаж = стоимость квартиры

Всё это - многомерные случайные величины! В реальной жизни редко что-то зависит только от одного фактора.

📚 История вопроса

В 1888 году английский статистик Фрэнсис Гальтон изучал рост родителей и их детей. Он заметил странную штуку: высокие родители чаще имеют высоких детей, но не всегда! 🧬

Гальтон понял, что нужно изучать пары чисел (рост отца, рост ребёнка) как единое целое. Так родилась теория многомерных случайных величин и корреляционный анализ.

Кстати, термин “регрессия” тоже от него - он заметил, что рост детей “регрессирует” (возвращается) к среднему значению популяции.

💡 Интуиция

Одномерная случайная величина - это как измерить только температуру за окном 🌡️. Полезно, но недостаточно!

Двумерная случайная величина - это (температура, влажность). Теперь ты можешь предсказать, будет ли душно! 🌤️

Многомерная - это (температура, влажность, давление, скорость ветра, облачность). Вот теперь у тебя есть полноценный прогноз погоды! ⛈️

[МЕДИА: image_01] Описание: 3D визуализация двумерной случайной величины с облаком точек и проекциями на оси Промпт: “3D scatter plot showing bivariate random variable, colorful point cloud, projections on coordinate axes, modern data visualization style, suitable for technical audience, clean background”

Ключевая идея: Многомерные случайные величины позволяют моделировать зависимости между разными факторами. Это основа всего машинного обучения!

📐 Формальное определение

Многомерная случайная величина - это вектор (X₁, X₂, …, Xₙ), где каждая компонента Xᵢ - случайная величина, определённая на одном и том же вероятностном пространстве.

Совместная функция распределения: F(x₁, x₂, …, xₙ) = P(X₁ ≤ x₁, X₂ ≤ x₂, …, Xₙ ≤ xₙ)

Для двумерного случая: F(x,y) = P(X ≤ x, Y ≤ y)

Совместная плотность (для непрерывного случая): f(x,y) = ∂²F(x,y)/(∂x∂y)

Ключевые свойства:

f(x,y) ≥ 0 везде
∫∫ f(x,y) dx dy = 1
P((X,Y) ∈ D) = ∫∫_D f(x,y) dx dy

🔍 Примеры с разбором

Пример 1: Время игры vs Деньги потраченные

Пусть X - часы игры в месяц, Y - деньги на донаты (в тысячах рублей). Совместная плотность:

f(x,y) = { x·y/18, если 0 ≤ x ≤ 3, 0 ≤ y ≤ 6 { 0, иначе

Найдём P(X > 1, Y < 2):

P(X > 1, Y < 2) = ∫₁³ ∫₀² (xy/18) dy dx

Внутренний интеграл: ∫₀² (xy/18) dy = (x/18) · [y²/2]₀² = (x/18) · 2 = x/9

Внешний интеграл: ∫₁³ (x/9) dx = (1/9) · [x²/2]₁³ = (1/9) · (9/2 - 1/2) = 4/9

[МЕДИА: image_02] Описание: Двумерная область интегрирования на плоскости (x,y) с выделенной областью X>1, Y<2 Промпт: “2D integration region visualization, coordinate plane with shaded area for X>1 and Y<2, mathematical grid, clear boundaries, educational style with bright colors”

Пример 2: Независимость vs Зависимость

Независимые величины: Бросок двух кубиков

X - результат первого кубика
Y - результат второго кубика
f(x,y) = f_X(x) · f_Y(y) = (1/6) · (1/6) = 1/36

Зависимые величины: Рост и вес человека

X - рост (см)
Y - вес (кг)
Высокие люди чаще весят больше → f(x,y) ≠ f_X(x) · f_Y(y)

🎮 Практика

Базовый уровень 🟢

Задание 1: Даны две независимые случайные величины X ~ N(0,1) и Y ~ N(0,1). Найди P(X² + Y² ≤ 1).

Задание 2: Совместная плотность f(x,y) = c·xy для 0 ≤ x ≤ 2, 0 ≤ y ≤ 1. Найди константу c.

Задание 3: Для совместной плотности из задания 2 найди P(X > 1, Y > 0.5).

Задание 4: Проверь, независимы ли X и Y, если f(x,y) = 6xy для 0 ≤ x ≤ 1, 0 ≤ y ≤ 1-x.

Продвинутый уровень 🟡

Задание 5: Игрок играет в две игры одновременно. X - выигрыш в первой, Y - во второй. f(x,y) = e^(-x-y) для x,y ≥ 0. Найди P(X + Y > 2).

Задание 6: Время ожидания автобуса X и маршрутки Y имеют совместную плотность f(x,y) = (1/25) для 0 ≤ x ≤ 5, 0 ≤ y ≤ 5. Найди вероятность, что первым приедет автобус.

Задание 7: Для двумерного нормального распределения найди условную плотность f(x|y = y₀).

Задание 8: Докажи, что если X и Y независимы, то Cov(X,Y) = 0. Верно ли обратное?

Челлендж 🔴

Задание 9: Три стримера начинают трансляцию одновременно. Время трансляции каждого - экспоненциальная случайная величина с параметром λ = 0.5. Найди вероятность, что первый стример закончит раньше двух других.

Задание 10: Случайная точка (X,Y) равномерно распределена в треугольнике с вершинами (0,0), (1,0), (0,1). Найди совместную плотность и P(X > Y).

Задание 11: Для портфеля из двух активов с доходностями X ~ N(μ₁, σ₁²) и Y ~ N(μ₂, σ₂²) и корреляцией ρ найди распределение общего дохода aX + bY.

⚠️ Частые ошибки

❌ Ошибка: “Если X и Y независимы, то f(x,y) = f(x) + f(y)”
✅ Правильно: f(x,y) = f_X(x) · f_Y(y)
💡 Почему: Плотности перемножаются, а не складываются!

❌ Ошибка: “Cov(X,Y) = 0 означает независимость”
✅ Правильно: Независимость ⟹ нулевая ковариация, но не наоборот
💡 Почему: Ковариация измеряет только линейную зависимость

❌ Ошибка: При интегрировании забывают границы области
✅ Правильно: Всегда сначала определи область, где f(x,y) > 0
💡 Почему: За пределами области плотность равна нулю

❌ Ошибка: Путают совместную и условную плотности
✅ Правильно: f(x,y) - совместная, f(x|y) = f(x,y)/f_Y(y) - условная
💡 Почему: Это разные концепции для разных задач

❌ Ошибка: “Если переменные коррелированы, то одна причина другой”
✅ Правильно: Корреляция не означает причинности!
💡 Почему: Может быть третий фактор, влияющий на обе переменные

🎓 Главное запомнить

✅ Многомерные случайные величины моделируют зависимости между факторами
✅ f(x,y) = f_X(x) · f_Y(y) ⟺ X и Y независимы
✅ P((X,Y) ∈ D) = ∫∫_D f(x,y) dx dy
✅ Ковариация и корреляция измеряют линейную связь

🔗 Связь с другими темами

Из прошлого: Одномерные распределения, плотность, функция распределения
Дальше будет: Центральная предельная теорема для векторов, многомерное нормальное распределение, регрессионный анализ
В ML: Это фундамент для понимания признакового пространства, PCA, кластеризации и всех алгоритмов обучения с учителем!

Понял тему? Закрепи в боте! 🚀

Попрактикуйся на задачах и получи персональные рекомендации от AI

💪 Начать тренировку