🔴 Сложный ⏱️ 25 минут

Supervised vs Unsupervised: учитель есть или учиться самому?

🎯 Зачем это нужно?

Представь: ты скачал новую игру и хочешь стать про-игроком 🎮. Есть два способа:

1️⃣ С тренером - он показывает правильные ходы, объясняет ошибки, даёт фидбек 2️⃣ Самостоятельно - изучаешь паттерны, ищешь закономерности, группируешь похожие ситуации

Точно так же работает машинное обучение! Netflix знает, что тебе понравится следующий фильм, Spotify подбирает музыку, а банки определяют мошенничество - всё благодаря этим двум подходам.

📚 История вопроса

В 1950-х Артур Сэмюэл (создатель термина “машинное обучение”) столкнулся с проблемой: как научить компьютер играть в шашки? Он попробовал два подхода: показать компьютеру миллионы партий с результатами (supervised) и дать играть самому, находя выигрышные стратегии (unsupervised). Оба работали, но по-разному!

💡 Интуиция

[МЕДИА: image_01] Описание: Сравнительная схема supervised vs unsupervised обучения через аналогию с изучением языка Промпт: “educational illustration comparing supervised vs unsupervised learning, split screen showing teacher-student scenario vs self-discovery, modern flat design, blue and orange color scheme, icons and simple graphics”

Supervised Learning = Обучение с учителем 👨‍🏫

Суть: Есть правильные ответы! Алгоритм учится на примерах “вход → правильный выход”.

Как в жизни: Изучение английского с преподавателем

Показываешь картинку кота → “This is a cat”
Показываешь собаку → “This is a dog”
После 1000 примеров можешь определять новых животных!

Unsupervised Learning = Обучение без учителя 🔍

Суть: Нет правильных ответов! Алгоритм сам ищет закономерности в данных.

Как в жизни: Изучение музыки через прослушивание

Слушаешь 10000 треков
Замечаешь: “А вот эти похожи по ритму”
Группируешь: рок, поп, джаз, электроника
Никто не говорил, что это “рок” - ты сам понял!

📐 Формальное определение

Supervised Learning

Дано: Обучающая выборка {(x₁,y₁), (x₂,y₂), …, (xₙ,yₙ)}

x - входные данные (признаки)
y - правильные ответы (метки, labels)

Цель: Найти функцию f: X → Y, чтобы f(x) ≈ y для новых данных

Задачи:

Классификация: y ∈ {spam, not spam} - дискретные классы
Регрессия: y ∈ ℝ - непрерывные значения (цена, температура)

Unsupervised Learning

Дано: Только входные данные {x₁, x₂, …, xₙ} (без ответов!)

Цель: Найти скрытую структуру в данных

Задачи:

Кластеризация: Группировка похожих объектов
Снижение размерности: Сжатие данных без потери информации
Поиск аномалий: Находить “странные” точки

🔍 Примеры с разбором

Пример 1: Распознавание спама 📧

Supervised подход:

Тренировочные данные:
"Выиграй миллион!" → СПАМ
"Встреча в 15:00" → НЕ СПАМ  
"Кликай сюда!!!" → СПАМ
"Как дела?" → НЕ СПАМ

Алгоритм учится: много восклицательных знаков = спам

Unsupervised подход:

Письма без меток:
Группа 1: короткие, много знаков препинания
Группа 2: длинные, формальные  
Группа 3: личные, эмодзи

Сами решаем: группа 1 похожа на спам

[МЕДИА: image_02]
Описание: Визуализация классификации email на спам/не спам с примерами признаков Промпт: “email classification visualization, supervised learning example, feature extraction from emails, decision boundary, scatter plot style, educational diagram, modern tech design”

Пример 2: Анализ клиентов интернет-магазина 🛒

Supervised: Предсказать, купит ли клиент товар

Данные: возраст, доход, количество кликов → купил/не купил
Цель: для нового клиента предсказать вероятность покупки

Unsupervised: Сегментировать клиентов

Данные: только поведение (без информации о покупках)
Результат: 
- Группа "Любители скидок"
- Группа "Премиум покупатели"  
- Группа "Случайные посетители"

🎮 Практика

Базовый уровень 🟢

Задание 1: YouTube рекомендует видео. Какой тип обучения?

💡 Подсказка

Есть ли у YouTube информация о том, понравилось ли видео (лайки, время просмотра)?

Задание 2: Антивирус группирует подозрительные файлы по типам угроз. Тип обучения?

Задание 3: Банк определяет кредитоспособность клиента. supervised или unsupervised?

Задание 4: Spotify создаёт плейлист “Музыка для тренировок”. Какой подход?

Продвинутый уровень 🟡

Задание 5: Netflix хочет понять, какие жанры популярны в разных странах. Нет данных о том, какой жанр “правильный” для страны. Как решать?

Задание 6: Медицинский сканер должен найти опухоли на снимках. Есть база из 10000 снимков с отмеченными опухолями. План действий?

Задание 7: Социальная сеть хочет найти фейковые аккаунты. У них есть: активность пользователей, друзья, посты. Но нет меток “фейк/настоящий”. Стратегия?

Задание 8: Создай алгоритм для определения настроения в комментариях к видео. Какие данные нужны для каждого подхода?

Челлендж 🔴

Задание 9: Amazon хочет создать “умную корзину”, которая предлагает товары. Придумай гибридную систему (supervised + unsupervised).

Задание 10: Разработай систему для определения трендов в TikTok. Комбинируй оба подхода - объясни как.

⚠️ Частые ошибки

❌ Ошибка: “Unsupervised обучение хуже, потому что нет правильных ответов” ✅ Правильно: Unsupervised находит то, что мы сами не заметили
💡 Почему: Кластеризация клиентов может выявить неожиданные сегменты

❌ Ошибка: “Для supervised всегда нужно много размеченных данных” ✅ Правильно: Существуют методы few-shot learning (обучение на малых данных) 💡 Почему: Transfer learning позволяет переносить знания между задачами

❌ Ошибка: “Нужно выбрать только один подход”
✅ Правильно: Часто используют комбинации (semi-supervised, self-supervised) 💡 Почему: Реальные системы сложные и требуют гибридных решений

🎓 Главное запомнить

✅ Supervised: Есть правильные ответы → учимся предсказывать ✅ Unsupervised: Нет ответов → ищем скрытые паттерны
✅ Выбор подхода: Зависит от наличия размеченных данных и типа задачи

🔗 Связь с другими темами

Откуда пришли: Урок 302 (Основы машинного обучения) - теперь понимаем два главных направления

Куда ведёт:

Алгоритмы классификации (KNN, логистическая регрессия)
Методы кластеризации (K-means, DBSCAN)
Нейронные сети (которые могут работать в обоих режимах)
Оценка качества моделей (для каждого типа свои метрики)

Понял тему? Закрепи в боте! 🚀

Попрактикуйся на задачах и получи персональные рекомендации от AI

💪 Начать тренировку