🔴 Сложный ⏱️ 25 минут

Основные распределения: от монетки до нейросетей

Основные распределения: от монетки до нейросетей

🎯 Зачем это нужно?

Представь, что ты аналитик в Netflix 🎬. Тебе нужно предсказать, сколько людей будет смотреть новый сериал в первый день. Или ты работаешь в банке и оцениваешь риски кредитования. А может, создаёшь нейросеть для распознавания лиц?

Во всех этих случаях тебе нужно понимать, как данные “ведут себя” - следуют ли они какому-то паттерну. И здесь на помощь приходят распределения - математические модели, которые описывают закономерности в реальном мире!

🎲 Игры и ставки: “Какова вероятность выпадения 3 орлов из 5 бросков?” 📊 Data Science: “Нормально ли распределены ошибки нашей модели?” 🏥 Медицина: “Сколько пациентов придёт в больницу за час?”

📚 История вопроса

В 1733 году французский математик Абрахам де Муавр изучал азартные игры и открыл то, что мы сейчас называем нормальным распределением. А немецкий математик Карл Гаусс использовал его для анализа астрономических наблюдений - поэтому его часто называют “распределением Гаусса” 🌟

Интересный факт: биномиальное распределение получило название от слова “binom” (двучлен), потому что связано с разложением (a + b)ⁿ!

💡 Интуиция

Представь распределение как “рецепт случайности” 👨‍🍳. Каждое распределение отвечает на вопрос: “Если я буду много раз повторять один и тот же случайный эксперимент, какие результаты будут встречаться чаще, а какие - реже?”

Дискретные распределения = “Считаем штуки” (количество лайков, число заказов) Непрерывные распределения = “Измеряем величины” (рост, время, температура)

[МЕДИА: image_01] Описание: Инфографика различных типов распределений в виде графиков Промпт: “educational infographic showing different probability distributions as colorful graphs, discrete vs continuous distributions, bell curves, bar charts, modern data science style, clean white background”

📐 Основные распределения

🎲 Дискретные распределения

1. Биномиальное распределение B(n, p)

Ситуация: “Повторяем эксперимент n раз, каждый раз вероятность успеха = p”

Формула: P(X = k) = C(n,k) × p^k × (1-p)^(n-k)

Пример: Ты запускаешь 10 рекламных кампаний, каждая с вероятностью успеха 0.3. Сколько кампаний будут успешными?

  • n = 10 (количество попыток)
  • p = 0.3 (вероятность успеха)
  • k = количество успешных кампаний
from scipy import stats
# P(ровно 3 успешные кампании из 10)
prob = stats.binom.pmf(3, 10, 0.3)
print(f"Вероятность: {prob:.3f}")

2. Распределение Пуассона Pois(λ)

Ситуация: “Считаем редкие события за фиксированный период”

Формула: P(X = k) = (λ^k × e^(-λ)) / k!

Пример: В среднем в твоё приложение приходит 5 багрепортов в день. Какова вероятность получить ровно 3 багрепорта завтра?

  • λ = 5 (среднее количество событий)
  • k = 3 (интересующее нас количество)

🌊 Непрерывные распределения

3. Нормальное распределение N(μ, σ²)

Ситуация: “Большинство значений около среднего, редкие - далеко от него”

Формула плотности: f(x) = (1/(σ√(2π))) × e^(-(x-μ)²/(2σ²))

Пример: Время отклика API распределено нормально со средним 200ms и стандартным отклонением 30ms. Какой процент запросов выполнится быстрее 170ms?

import scipy.stats as stats
# P(X < 170) где X ~ N(200, 30²)
prob = stats.norm.cdf(170, 200, 30)
print(f"Процент быстрых запросов: {prob*100:.1f}%")

4. Равномерное распределение U(a, b)

Ситуация: “Все значения в диапазоне одинаково вероятны”

Плотность: f(x) = 1/(b-a) для x ∈ [a, b]

Пример: Генерация случайных чисел для инициализации весов нейросети

5. Экспоненциальное распределение Exp(λ)

Ситуация: “Время до следующего события”

Плотность: f(x) = λe^(-λx) для x ≥ 0

Пример: Время между приходами пользователей на сайт

[МЕДИА: image_02] Описание: Сравнительная таблица основных распределений с примерами использования Промпт: “comprehensive comparison table of probability distributions, showing formulas, use cases, real-world examples, modern infographic style, data science colors, clean professional layout”

🔍 Примеры с разбором

Пример 1: A/B тест для мобильного приложения

Задача: Ты тестируешь новую кнопку в приложении. Старая кнопка имеет CTR = 5%. Новую кнопку увидели 1000 человек, из них 60 нажали. Стала ли кнопка лучше?

Решение:

  1. Моделируем как биномиальное: B(1000, 0.05)
  2. Наблюдаем: 60 кликов из 1000
  3. Наблюдаемый CTR: 60/1000 = 6%
# Проверяем значимость различия
from scipy import stats
p_old = 0.05
n = 1000
observed = 60

# Биномиальный тест
p_value = stats.binom_test(observed, n, p_old, alternative='greater')
print(f"p-value: {p_value:.3f}")
# Если p_value < 0.05, то улучшение статистически значимо!

Пример 2: Анализ времени ответа сервера

Задача: Логи показывают, что 95% запросов выполняется быстрее 500ms. Среднее время = 200ms. Подходит ли нормальное распределение?

Решение: Для N(200, σ²): P(X < 500) = 0.95 Ищем σ такое, что Φ((500-200)/σ) = 0.95

from scipy.stats import norm
# Квантиль уровня 0.95 для стандартного нормального
z_95 = norm.ppf(0.95)  # ≈ 1.645

# 300/σ = 1.645
sigma = 300 / 1.645
print(f"Нужно σ ≈ {sigma:.1f}ms")

🎮 Практика

Базовый уровень 🟢

Задание 1: В мобильной игре вероятность получить легендарный предмет из сундука = 2%. Игрок открывает 50 сундуков. Найди вероятность получить ровно 1 легендарный предмет.

Задание 2: В среднем 3 пользователя в минуту регистрируются на сайте. Какова вероятность, что за следующую минуту зарегистрируется ровно 5 пользователей?

Задание 3: Время загрузки страницы равномерно распределено от 1 до 4 секунд. Найди вероятность, что страница загрузится быстрее чем за 2.5 секунды.

Задание 4: Размер файлов в папке Downloads имеет нормальное распределение со средним 15 MB и стандартным отклонением 5 MB. Какой процент файлов весит больше 20 MB?

Продвинутый уровень 🟡

Задание 5: Netflix хочет оптимизировать сервера. Известно, что количество одновременных просмотров в час пик имеет распределение Пуассона с параметром λ = 10000. Сколько нужно запасной мощности, чтобы справляться с нагрузкой в 99% случаев?

Задание 6: В датасете для машинного обучения целевая переменная имеет распределение N(0, 1). После применения логарифма получили распределение с μ = -0.5, σ = 0.8. Какое было исходное распределение?

Задание 7: Алгоритм рекомендаций показывает рекламу с вероятностью клика p = 0.02. За день показали 10000 объявлений, получили 180 кликов. На сколько стандартных отклонений это отличается от ожидаемого?

Задание 8: Время между отправкой и доставкой push-уведомлений имеет экспоненциальное распределение со средним 0.5 секунды. Найди вероятность, что уведомление будет доставлено дольше чем за 2 секунды.

Челлендж 🔴

Задание 9: В онлайн-игре шанс критического удара = 15%. Игрок наносит удары до первого критического. Моделируй это как геометрическое распределение и найди вероятность, что критический удар случится на 3-5 попытке.

Задание 10: У тебя есть модель машинного обучения, ошибки которой распределены как N(0, σ²). По валидационной выборке из 100 объектов ты оценил σ̂ = 2.3. Построй 95% доверительный интервал для истинного σ.

Задание 11: Пользователи приложения активны в среднем 25 минут в день (экспоненциальное распределение). Топ-10% пользователей используют приложение дольше. Сколько времени в день проводит средний “активный” пользователь?

⚠️ Частые ошибки

Ошибка: “Нормальное распределение везде подходит” ✅ Правильно: Нормальное работает только для симметричных данных около среднего 💡 Почему: Время ожидания, доходы, размеры файлов часто асимметричны

Ошибка: Путаница между параметрами λ в Пуассоне и экспоненциальном распределении ✅ Правильно: В Пуассоне λ = среднее количество событий, в экспоненциальном λ = 1/среднее_время 💡 Почему: Это связанные, но разные параметры для разных аспектов процесса

Ошибка: “Биномиальное можно всегда приближать нормальным”
Правильно: Приближение работает только при n×p > 5 И n×(1-p) > 5 💡 Почему: При малых p или n дискретность сильно влияет на результат

Ошибка: Забывать про ограничения области определения ✅ Правильно: Экспоненциальное только для x ≥ 0, равномерное только внутри [a,b] 💡 Почему: Физический смысл не позволяет выйти за границы

Ошибка: Использовать неподходящее распределение для задачи ✅ Правильно: Счётные события → дискретные, измеримые величины → непрерывные
💡 Почему: Природа данных определяет тип распределения

🎓 Главное запомнить

Биномиальное B(n,p) = повторяем эксперимент n раз с вероятностью успеха p ✅ Пуассон Pois(λ) = редкие события со средней интенсивностью λ
Нормальное N(μ,σ²) = симметричное распределение вокруг среднего μ ✅ Экспоненциальное Exp(λ) = время до следующего события ✅ Равномерное U(a,b) = все значения в диапазоне равновероятны

🔗 Связь с другими темами

Откуда пришли: Теория вероятностей (урок 239) заложила основы для понимания случайных величин и их характеристик.

Куда ведёт:

  • Статистические тесты (t-test, χ², ANOVA) основаны на свойствах этих распределений
  • Машинное обучение: инициализация весов, моделирование ошибок, байесовские методы
  • Центральная предельная теорема объяснит, почему нормальное распределение так важно
  • A/B тестирование использует биномиальное и нормальное для оценки статистической значимости

Понял тему? Закрепи в боте! 🚀

Попрактикуйся на задачах и получи персональные рекомендации от AI

💪 Начать тренировку
💬 Есть вопрос? Спроси бота!