Основные распределения: от монетки до нейросетей
🎯 Зачем это нужно?
Представь, что ты аналитик в Netflix 🎬. Тебе нужно предсказать, сколько людей будет смотреть новый сериал в первый день. Или ты работаешь в банке и оцениваешь риски кредитования. А может, создаёшь нейросеть для распознавания лиц?
Во всех этих случаях тебе нужно понимать, как данные “ведут себя” - следуют ли они какому-то паттерну. И здесь на помощь приходят распределения - математические модели, которые описывают закономерности в реальном мире!
🎲 Игры и ставки: “Какова вероятность выпадения 3 орлов из 5 бросков?” 📊 Data Science: “Нормально ли распределены ошибки нашей модели?” 🏥 Медицина: “Сколько пациентов придёт в больницу за час?”
📚 История вопроса
В 1733 году французский математик Абрахам де Муавр изучал азартные игры и открыл то, что мы сейчас называем нормальным распределением. А немецкий математик Карл Гаусс использовал его для анализа астрономических наблюдений - поэтому его часто называют “распределением Гаусса” 🌟
Интересный факт: биномиальное распределение получило название от слова “binom” (двучлен), потому что связано с разложением (a + b)ⁿ!
💡 Интуиция
Представь распределение как “рецепт случайности” 👨🍳. Каждое распределение отвечает на вопрос: “Если я буду много раз повторять один и тот же случайный эксперимент, какие результаты будут встречаться чаще, а какие - реже?”
Дискретные распределения = “Считаем штуки” (количество лайков, число заказов) Непрерывные распределения = “Измеряем величины” (рост, время, температура)
[МЕДИА: image_01] Описание: Инфографика различных типов распределений в виде графиков Промпт: “educational infographic showing different probability distributions as colorful graphs, discrete vs continuous distributions, bell curves, bar charts, modern data science style, clean white background”
📐 Основные распределения
🎲 Дискретные распределения
1. Биномиальное распределение B(n, p)
Ситуация: “Повторяем эксперимент n раз, каждый раз вероятность успеха = p”
Формула: P(X = k) = C(n,k) × p^k × (1-p)^(n-k)
Пример: Ты запускаешь 10 рекламных кампаний, каждая с вероятностью успеха 0.3. Сколько кампаний будут успешными?
- n = 10 (количество попыток)
- p = 0.3 (вероятность успеха)
- k = количество успешных кампаний
from scipy import stats
# P(ровно 3 успешные кампании из 10)
prob = stats.binom.pmf(3, 10, 0.3)
print(f"Вероятность: {prob:.3f}")
2. Распределение Пуассона Pois(λ)
Ситуация: “Считаем редкие события за фиксированный период”
Формула: P(X = k) = (λ^k × e^(-λ)) / k!
Пример: В среднем в твоё приложение приходит 5 багрепортов в день. Какова вероятность получить ровно 3 багрепорта завтра?
- λ = 5 (среднее количество событий)
- k = 3 (интересующее нас количество)
🌊 Непрерывные распределения
3. Нормальное распределение N(μ, σ²)
Ситуация: “Большинство значений около среднего, редкие - далеко от него”
Формула плотности: f(x) = (1/(σ√(2π))) × e^(-(x-μ)²/(2σ²))
Пример: Время отклика API распределено нормально со средним 200ms и стандартным отклонением 30ms. Какой процент запросов выполнится быстрее 170ms?
import scipy.stats as stats
# P(X < 170) где X ~ N(200, 30²)
prob = stats.norm.cdf(170, 200, 30)
print(f"Процент быстрых запросов: {prob*100:.1f}%")
4. Равномерное распределение U(a, b)
Ситуация: “Все значения в диапазоне одинаково вероятны”
Плотность: f(x) = 1/(b-a) для x ∈ [a, b]
Пример: Генерация случайных чисел для инициализации весов нейросети
5. Экспоненциальное распределение Exp(λ)
Ситуация: “Время до следующего события”
Плотность: f(x) = λe^(-λx) для x ≥ 0
Пример: Время между приходами пользователей на сайт
[МЕДИА: image_02] Описание: Сравнительная таблица основных распределений с примерами использования Промпт: “comprehensive comparison table of probability distributions, showing formulas, use cases, real-world examples, modern infographic style, data science colors, clean professional layout”
🔍 Примеры с разбором
Пример 1: A/B тест для мобильного приложения
Задача: Ты тестируешь новую кнопку в приложении. Старая кнопка имеет CTR = 5%. Новую кнопку увидели 1000 человек, из них 60 нажали. Стала ли кнопка лучше?
Решение:
- Моделируем как биномиальное: B(1000, 0.05)
- Наблюдаем: 60 кликов из 1000
- Наблюдаемый CTR: 60/1000 = 6%
# Проверяем значимость различия
from scipy import stats
p_old = 0.05
n = 1000
observed = 60
# Биномиальный тест
p_value = stats.binom_test(observed, n, p_old, alternative='greater')
print(f"p-value: {p_value:.3f}")
# Если p_value < 0.05, то улучшение статистически значимо!
Пример 2: Анализ времени ответа сервера
Задача: Логи показывают, что 95% запросов выполняется быстрее 500ms. Среднее время = 200ms. Подходит ли нормальное распределение?
Решение: Для N(200, σ²): P(X < 500) = 0.95 Ищем σ такое, что Φ((500-200)/σ) = 0.95
from scipy.stats import norm
# Квантиль уровня 0.95 для стандартного нормального
z_95 = norm.ppf(0.95) # ≈ 1.645
# 300/σ = 1.645
sigma = 300 / 1.645
print(f"Нужно σ ≈ {sigma:.1f}ms")
🎮 Практика
Базовый уровень 🟢
Задание 1: В мобильной игре вероятность получить легендарный предмет из сундука = 2%. Игрок открывает 50 сундуков. Найди вероятность получить ровно 1 легендарный предмет.
Задание 2: В среднем 3 пользователя в минуту регистрируются на сайте. Какова вероятность, что за следующую минуту зарегистрируется ровно 5 пользователей?
Задание 3: Время загрузки страницы равномерно распределено от 1 до 4 секунд. Найди вероятность, что страница загрузится быстрее чем за 2.5 секунды.
Задание 4: Размер файлов в папке Downloads имеет нормальное распределение со средним 15 MB и стандартным отклонением 5 MB. Какой процент файлов весит больше 20 MB?
Продвинутый уровень 🟡
Задание 5: Netflix хочет оптимизировать сервера. Известно, что количество одновременных просмотров в час пик имеет распределение Пуассона с параметром λ = 10000. Сколько нужно запасной мощности, чтобы справляться с нагрузкой в 99% случаев?
Задание 6: В датасете для машинного обучения целевая переменная имеет распределение N(0, 1). После применения логарифма получили распределение с μ = -0.5, σ = 0.8. Какое было исходное распределение?
Задание 7: Алгоритм рекомендаций показывает рекламу с вероятностью клика p = 0.02. За день показали 10000 объявлений, получили 180 кликов. На сколько стандартных отклонений это отличается от ожидаемого?
Задание 8: Время между отправкой и доставкой push-уведомлений имеет экспоненциальное распределение со средним 0.5 секунды. Найди вероятность, что уведомление будет доставлено дольше чем за 2 секунды.
Челлендж 🔴
Задание 9: В онлайн-игре шанс критического удара = 15%. Игрок наносит удары до первого критического. Моделируй это как геометрическое распределение и найди вероятность, что критический удар случится на 3-5 попытке.
Задание 10: У тебя есть модель машинного обучения, ошибки которой распределены как N(0, σ²). По валидационной выборке из 100 объектов ты оценил σ̂ = 2.3. Построй 95% доверительный интервал для истинного σ.
Задание 11: Пользователи приложения активны в среднем 25 минут в день (экспоненциальное распределение). Топ-10% пользователей используют приложение дольше. Сколько времени в день проводит средний “активный” пользователь?
⚠️ Частые ошибки
❌ Ошибка: “Нормальное распределение везде подходит” ✅ Правильно: Нормальное работает только для симметричных данных около среднего 💡 Почему: Время ожидания, доходы, размеры файлов часто асимметричны
❌ Ошибка: Путаница между параметрами λ в Пуассоне и экспоненциальном распределении ✅ Правильно: В Пуассоне λ = среднее количество событий, в экспоненциальном λ = 1/среднее_время 💡 Почему: Это связанные, но разные параметры для разных аспектов процесса
❌ Ошибка: “Биномиальное можно всегда приближать нормальным”
✅ Правильно: Приближение работает только при n×p > 5 И n×(1-p) > 5
💡 Почему: При малых p или n дискретность сильно влияет на результат
❌ Ошибка: Забывать про ограничения области определения ✅ Правильно: Экспоненциальное только для x ≥ 0, равномерное только внутри [a,b] 💡 Почему: Физический смысл не позволяет выйти за границы
❌ Ошибка: Использовать неподходящее распределение для задачи
✅ Правильно: Счётные события → дискретные, измеримые величины → непрерывные
💡 Почему: Природа данных определяет тип распределения
🎓 Главное запомнить
✅ Биномиальное B(n,p) = повторяем эксперимент n раз с вероятностью успеха p
✅ Пуассон Pois(λ) = редкие события со средней интенсивностью λ
✅ Нормальное N(μ,σ²) = симметричное распределение вокруг среднего μ
✅ Экспоненциальное Exp(λ) = время до следующего события
✅ Равномерное U(a,b) = все значения в диапазоне равновероятны
🔗 Связь с другими темами
Откуда пришли: Теория вероятностей (урок 239) заложила основы для понимания случайных величин и их характеристик.
Куда ведёт:
- Статистические тесты (t-test, χ², ANOVA) основаны на свойствах этих распределений
- Машинное обучение: инициализация весов, моделирование ошибок, байесовские методы
- Центральная предельная теорема объяснит, почему нормальное распределение так важно
- A/B тестирование использует биномиальное и нормальное для оценки статистической значимости
Понял тему? Закрепи в боте! 🚀
Попрактикуйся на задачах и получи персональные рекомендации от AI
💪 Начать тренировку