🔴 Сложный ⏱️ 25 минут

Выборка и генеральная совокупность: как опросить весь мир через 1000 человек

🎯 Зачем это нужно?

Представь: Netflix хочет узнать, понравится ли новый сериал их 230 миллионам подписчиков 🎬. Опросить всех? Это займёт годы и миллиарды долларов! Вместо этого они показывают сериал 50 000 пользователей и по их реакции предсказывают успех у всех остальных.

💡 Вот где это используется:

A/B тесты: VK тестирует новый дизайн на 5% пользователей перед запуском для всех
Медицинские исследования: новое лекарство тестируют на 1000 человек, но выводы делают для миллионов
Политические опросы: 1200 респондентов предсказывают результат выборов в стране со 100 млн избирателей

💡 Интуиция

Генеральная совокупность = все объекты, которые нас интересуют (все пользователи TikTok в России)

Выборка = небольшая часть, которую мы реально изучаем (10 000 случайно выбранных пользователей)

Это как попробовать суп ложкой - по одной ложке понимаешь вкус всей кастрюли! 🍲

[МЕДИА: image_01] Описание: Схема: большой круг “генеральная совокупность” с маленьким кругом внутри “выборка”, стрелка от маленького к большому с надписью “выводы” Промпт: “educational diagram showing large population circle with small sample circle inside, arrow from sample to population labeled ‘inference’, modern clean style, suitable for technical audience, blue and orange colors”

📐 Формальное определение

Генеральная совокупность (Population) - множество всех объектов, обладающих изучаемым признаком. Обозначается N (размер).

Выборка (Sample) - подмножество генеральной совокупности, отобранное для исследования. Обозначается n (размер выборки).

Репрезентативность - свойство выборки правильно представлять генеральную совокупность по всем важным характеристикам.

Ключевое отношение: n « N (выборка намного меньше генеральной совокупности)

🔍 Примеры с разбором

Пример 1: Исследование времени в соцсетях

🎯 Цель: узнать, сколько времени российские школьники 15-17 лет проводят в Instagram

Генеральная совокупность: ≈ 4 млн российских школьников 15-17 лет Выборка: 2000 случайно выбранных школьников из разных регионов

Почему работает? При правильном отборе 2000 человек дают погрешность ±2.2% с вероятностью 95%

[МЕДИА: image_02] Описание: Визуализация процесса выборки: карта России с точками, показывающими школьников, некоторые выделены как часть выборки Промпт: “map of Russia with dots representing students, some highlighted as sample selection, statistical sampling visualization, educational infographic style, modern color scheme”

Пример 2: ML модель распознавания котиков

🤖 Задача: обучить нейросеть различать котов и собак

Генеральная совокупность: все возможные фотографии котов и собак в мире (∞) Обучающая выборка: 100 000 фотографий (50К котов + 50К собак) Тестовая выборка: 10 000 фотографий

Проблема: если в выборке только домашние коты, модель не распознает диких кошачьих!

Пример 3: Опрос про онлайн-обучение

❌ Плохая выборка: опросить только студентов IT-вузов про отношение к дистанционному образованию

✅ Хорошая выборка: пропорционально представить все специальности, курсы, регионы

🎮 Практика

Базовый уровень 🟢

Задание 1: Яндекс хочет узнать популярность своих сервисов среди россиян 18+. Определи генеральную совокупность и предложи размер выборки.

💡 Подсказка

Генеральная совокупность = все россияне 18+. Для ±3% погрешности нужно ~1000 человек

Задание 2: В школе 1200 учеников. Для изучения успеваемости взяли 120 случайных учеников. Какой процент составляет выборка?

✅ Ответ

120/1200 = 0.1 = 10% от генеральной совокупности

Задание 3: Определи, что является выборкой, а что генеральной совокупностью:

Все пользователи ВКонтакте в СПб / 5000 опрошенных пользователей
500 протестированных банок колы / весь тираж в 1 млн банок

Продвинутый уровень 🟡

Задание 4: Компания разрабатывает приложение для изучения английского. Как правильно сформировать выборку для тестирования, если целевая аудитория - школьники 12-18 лет?

💡 Подсказка

Нужно учесть: возраст, регион, уровень английского, тип школы (обычная/с углублённым изучением)

Задание 5: DataScientist обучает модель на выборке из 80% данных, тестирует на 20%. Если общий датасет содержит 50 000 примеров, сколько примеров в обучающей и тестовой выборках?

✅ Ответ

Обучающая: 50 000 × 0.8 = 40 000. Тестовая: 50 000 × 0.2 = 10 000

Задание 6: Объясни, почему опрос “Какой мессенджер популярнее?” в группе геймеров может дать смещённые результаты для всего населения.

Челлендж 🔴

Задание 7: Spotify хочет предсказать, какие песни станут хитами в 2024 году. У них есть данные о прослушиваниях 500 млн пользователей. Как правильно сформировать выборку, учитывая культурные различия и музыкальные предпочтения?

Задание 8: В A/B тесте новой рекламы участвовали 10 000 пользователей (контрольная группа) и 10 000 (тестовая группа). CTR в контрольной группе 2.1%, в тестовой 2.4%. Можно ли утверждать, что новая реклама лучше?

⚠️ Частые ошибки

❌ Ошибка: “Большая выборка = точный результат” ✅ Правильно: Важнее репрезентативность, чем размер 💡 Почему: 1 млн человек из одного города хуже 1000 из разных регионов

❌ Ошибка: Опрос в соцсетях = мнение всего населения
✅ Правильно: Это смещённая выборка (только активные пользователи интернета) 💡 Почему: Пожилые люди и жители сёл недопредставлены

❌ Ошибка: Обобщение результатов выборки на другую популяцию ✅ Правильно: Выводы применимы только к исходной генеральной совокупности
💡 Почему: Исследование московских школьников нельзя применять к школьникам из сёл

🎓 Главное запомнить

✅ Выборка должна быть зеркалом генеральной совокупности ✅ Размер выборки: √n ↑ ⟹ погрешность ↓
✅ Случайность отбора важнее размера выборки ✅ ML: train/validation/test - все нужны для честной оценки

🔗 Связь с другими темами

Назад: Урок 244 заложил основы статистического мышления Вперёд: Центральная предельная теорема объяснит, почему выборки “работают” Практика: A/B тестирование, доверительные интервалы, проверка гипотез

Понял тему? Закрепи в боте! 🚀

Попрактикуйся на задачах и получи персональные рекомендации от AI

💪 Начать тренировку