🔴 Сложный ⏱️ 25 минут

Закон больших чисел: от интуиции к теореме

🎯 Зачем это нужно?

💸 Страховые компании рассчитывают, сколько клиентов попадут в ДТП - чем больше клиентов, тем точнее прогноз

🎰 Казино знают, что проиграют отдельные игры, но всегда выигрывают в долгосрочной перспективе

📊 A/B тесты в соцсетях: чем больше пользователей в эксперименте, тем надёжнее результат

🧬 Клинические исследования: новое лекарство тестируют на тысячах пациентов, а не на десятке

📚 История вопроса

В 1713 году швейцарский математик Якоб Бернулли сформулировал первую версию закона больших чисел. Он изучал, как часто выпадает орёл при многократном подбрасывании монеты 🪙

Интересный факт: Бернулли работал над этой теоремой 20 лет! Он понимал интуицию (чем больше бросков, тем ближе к 50/50), но доказательство оказалось сложным.

Позже русский математик Пафнутий Чебышёв (1821-1894) обобщил результат и дал элегантное доказательство через свое неравенство.

💡 Интуиция

Представь, что ты запускаешь приложение с рекламой 📱. В первый день 2 из 10 пользователей кликнули на рекламу (20%). Во второй день - 8 из 20 (40%). В третий - 15 из 30 (50%).

Кажется, что показатель ‘прыгает’ случайно? Не совсем! По мере роста аудитории CTR (click-through rate) будет стабилизироваться около истинного значения - скажем, 35%.

[МЕДИА: image_01] Описание: График стабилизации выборочного среднего при увеличении размера выборки Промпт: “educational graph showing convergence of sample mean to true population mean, x-axis showing sample size from 10 to 1000, y-axis showing proportion, fluctuating line that stabilizes around 0.35, modern data visualization style, blue gradient background”

Это и есть закон больших чисел: среднее по выборке приближается к математическому ожиданию при росте размера выборки.

📐 Формальное определение

Пусть X₁, X₂, …, Xₙ - независимые случайные величины с одинаковым математическим ожиданием E[Xi] = μ и конечной дисперсией Var(Xi) = σ².

Выборочное среднее: X̄ₙ = (X₁ + X₂ + … + Xₙ)/n

Слабый закон больших чисел (Чебышёв): Для любого ε > 0: lim(n→∞) P(|X̄ₙ - μ| < ε) = 1

На человеческом языке: с ростом n выборочное среднее сходится по вероятности к математическому ожиданию.

Сильный закон больших чисел (Колмогоров): P(lim(n→∞) X̄ₙ = μ) = 1

То есть выборочное среднее сходится к μ почти наверное.

🔍 Примеры с разбором

Пример 1: Анализ данных YouTube канала 📺

У тебя YouTube канал, и ты хочешь оценить средний процент досмотров видео.

После 10 видео: средний досмотр 47%
После 50 видео: 52%
После 200 видео: 49%
После 1000 видео: 48.7%

Видишь? Чем больше данных, тем стабильнее результат около истинного значения ≈ 48.7%.

[МЕДИА: image_02] Описание: Симуляция закона больших чисел для YouTube метрик Промпт: “interactive dashboard showing YouTube analytics convergence, multiple small charts showing stabilization of metrics like watch time, CTR, and engagement rate, modern UI design with dark theme, purple and cyan accents”

Пример 2: Математическое обоснование

Бросаем честную монету n раз. Xi = 1 если орёл, Xi = 0 если решка.

E[Xi] = 0.5 (математическое ожидание)
Var(Xi) = 0.25 (дисперсия)
X̄ₙ - доля орлов в n бросках

По неравенству Чебышёва: P(|X̄ₙ - 0.5| ≥ ε) ≤ 0.25/(nε²)

Для ε = 0.1 и n = 10000: P(|X̄ₙ - 0.5| ≥ 0.1) ≤ 0.25/(10000 × 0.01) = 0.0025

Вероятность отклонения больше 10% не превышает 0.25%!

Пример 3: Применение в машинном обучении

При оценке качества ML-модели используют кросс-валидацию:

# Закон больших чисел в действии
scores = []
for i in range(1000):  # много экспериментов
    train_test_split_score = evaluate_model()
    scores.append(score)
    
# Среднее стабилизируется около истинного качества модели
true_performance ≈ np.mean(scores)

🎮 Практика

Базовый уровень 🟢

Задание 1: Интернет-магазин отслеживает конверсию (покупки/визиты). За первые 100 посетителей конверсия 8%, за первые 1000 - 12%, за первые 10000 - 11.2%. Что можно сказать об истинной конверсии?

Задание 2: При бросании игрального кубика 60 раз выпало: единиц - 12, двоек - 8, троек - 11, четверок - 10, пятерок - 9, шестерок - 10. Оцени, честный ли кубик?

Задание 3: Стример измеряет средний онлайн зрителей. После 10 стримов среднее 150 зрителей, после 100 стримов - 187. Какой онлайн ожидать после 1000 стримов?

Продвинутый уровень 🟡

Задание 4: Используя неравенство Чебышёва, найди минимальное n для оценки E[X] с точностью ±0.05 и надёжностью 95%, если σ² = 4.

Задание 5: Сравни скорость сходимости для двух случаев: а) σ² = 1, б) σ² = 9. При каком n среднее стабилизируется быстрее?

Задание 6: В A/B тесте конверсия группы A: 12.3% (на 5000 пользователей), группы B: 13.1% (на 500 пользователей). Какой результат надёжнее? Обоснуй через закон больших чисел.

Челлендж 🔴

Задание 7: Докажи, что если Xi имеют разные дисперсии σᵢ², но sup σᵢ² < ∞, то слабый закон больших чисел всё ещё выполняется.

Задание 8: Построй контрпример: последовательность независимых случайных величин с E[Xi] = 0, но X̄ₙ не сходится к 0. Что нарушается в условиях теоремы?

⚠️ Частые ошибки

❌ Ошибка: ‘После 10 бросков монеты выпало 8 орлов, значит следующие 10 бросков дадут 2 орла для компенсации’ ✅ Правильно: Каждый бросок независим, ‘компенсации’ нет - просто с ростом n доля орлов приближается к 50% 💡 Почему: Это заблуждение называется ‘ошибка игрока’ - события не ‘помнят’ прошлое

❌ Ошибка: ‘Если выборочное среднее сходится к μ, значит каждое Xi приближается к μ’ ✅ Правильно: Сходится именно среднее арифметическое, отдельные Xi могут сильно отличаться от μ 💡 Почему: Закон больших чисел - это про усреднение, не про индивидуальные значения

❌ Ошибка: ‘Для работы закона нужно, чтобы все Xi были одинаково распределены’ ✅ Правильно: Достаточно одинакового математического ожидания и ограниченных дисперсий 💡 Почему: Существуют обобщения (закон больших чисел Хинчина) для неодинаково распределённых величин

❌ Ошибка: ‘Чем больше выборка, тем меньше разброс отдельных значений’ ✅ Правильно: Уменьшается разброс среднего, но не отдельных значений 💡 Почему: Var(X̄ₙ) = σ²/n → 0, но Var(Xi) = σ² остается постоянной

🎓 Главное запомнить

✅ Выборочное среднее сходится к математическому ожиданию при n → ∞ ✅ Скорость сходимости обратно пропорциональна дисперсии: Var(X̄ₙ) = σ²/n
✅ Основа всей статистики: большие выборки дают надёжные оценки

🔗 Связь с другими темами

Откуда пришли: Вероятность, математическое ожидание, дисперсия из урока 241 Куда ведёт: Центральная предельная теорема (урок 243), доверительные интервалы, статистические тесты Применения: Методы Монте-Карло, машинное обучение, A/B тестирование, эконометрика

Понял тему? Закрепи в боте! 🚀

Попрактикуйся на задачах и получи персональные рекомендации от AI

💪 Начать тренировку