🔴 Сложный ⏱️ 25 минут

Reinforcement Learning: как машины учатся играть в игры

Reinforcement Learning: —

id: “346” title: “Variational Autoencoders: генерация через сжатие” level: “ml” grade: “mo-pro” duration: 25 prerequisites: [“345”] keywords: [“VAE”, “variational autoencoders”, “латентное пространство”, “ELBO”, “KL-дивергенция”, “генеративные модели”, “encoder”, “decoder”, “reparameterization trick”]

Variational Autoencoders: генерация через сжатие

🎯 Зачем это нужно?

Представь Instagram-фильтры, которые не просто меняют твое фото, а могут СОЗДАТЬ новое лицо с нужными тебе чертами 📸. Или DALL-E, который рисует картинки по описанию. За всем этим стоит один из самых элегантных алгоритмов ML - Variational Autoencoder (VAE).

🎨 Midjourney/Stable Diffusion - генерация арта по тексту 🧬 Разработка лекарств - создание новых молекул
🎮 Генерация игровых миров - бесконечные уникальные локации 📊 Синтетические данные - когда реальных данных мало

📚 История вопроса

В 2013 году Diederik Kingma (будущий создатель Adam optimizer) и Max Welling придумали VAE, решив фундаментальную проблему: как научить нейросеть НЕ ПРОСТО воспроизводить данные, а понимать их структуру настолько хорошо, чтобы создавать новые?

Гениальность идеи: объединить Bayes’ теорему с deep learning. Результат? Алгоритм, который “сжимает” картинки/тексты/музыку в компактное представление, из которого можно генерировать новые объекты! 🤯

💡 Интуиция

Автоэнкодер как почтальон 📮

Обычный автоэнкодер работает как почтальон с фотографической памятью:

Encoder сжимает письмо (изображение) в конверт (код z)
Decoder восстанавливает письмо из конверта

Но у обычного автоэнкодера проблема: он переобучается! Запоминает каждое письмо наизусть, но не может написать новое.

VAE = умный почтальон 🧠

VAE работает по-другому:

Encoder не просто сжимает в код z, а изучает распределение возможных кодов
“Я не знаю точно, какой код нужен, но знаю, что он из района μ с разбросом σ”
Decoder учится восстанавливать из любого разумного кода

Результат: можешь взять случайный код из изученного распределения → получить новое изображение!

[МЕДИА: image_01] Описание: Схема сравнения обычного автоэнкодера и VAE, показывающая детерминистическое vs вероятностное кодирование Промпт: “educational diagram comparing regular autoencoder vs VAE, showing deterministic encoding vs probabilistic encoding with gaussian distributions, clean technical illustration, blue and orange color scheme”

📐 Формальное определение

VAE оптимизирует ELBO (Evidence Lower BOund) - нижнюю границу правдоподобия данных:

ELBO = E[log p(x|z)] - KL[q(z|x) || p(z)]

где:

p(x|z) - вероятность восстановить данные x из кода z (работа decoder’а)
q(z|x) - приближение истинного posterior’а (работа encoder’а)
p(z) - априорное распределение (обычно N(0,I))
KL - KL-дивергенция (мера различия распределений)

Интуиция формулы: 1️⃣ Первое слагаемое - “decoder должен хорошо восстанавливать” 2️⃣ Второе слагаемое - “encoder не должен слишком отклоняться от стандартного гауссиана”

Reparameterization trick: Вместо сэмплирования z ~ N(μ,σ²) делаем: z = μ + σ ⊙ ε, где ε ~ N(0,I)

Это позволяет backprop’у работать через стохастический слой! 🎯

🔍 Примеры с разбором

Пример 1: Генерация лиц

Данные: CelebA dataset (200k фото знаменитостей)

Архитектура:

# Encoder: 64×64×3 → μ,σ ∈ R^128
encoder = CNN([64,128,256,512]) + Dense([128,128])

# Decoder: R^128 → 64×64×3  
decoder = Dense([512,256*4*4]) + CNN_transpose([256,128,64,3])

Результат: В латентном пространстве z ∈ R^128 образуются кластеры:

“Молодые vs старые”
“Мужчины vs женщины”
“Блондины vs брюнеты”

Можно интерполировать между лицами, получая плавные переходы!

[МЕДИА: image_02] Описание: Визуализация латентного пространства VAE для лиц, показывающая кластеры и интерполяцию Промпт: “technical visualization of VAE latent space for faces, showing clusters and smooth interpolation between different facial features, 2D projection with sample faces, scientific illustration style”

Пример 2: Молекулы лекарств

Проблема: Разработка нового лекарства стоит $2.6B и занимает 10-15 лет

VAE решение:

Кодируем молекулы в SMILES-строки: “CCO” (этанол)
Обучаем VAE на известных лекарствах
Сэмплируем из латентного пространства → новые молекулы
Проверяем через симуляцию

Результат: Компании как Roche генерируют тысячи кандидатов за дни вместо лет!

🎮 Практика

Базовый уровень 🟢

Задание 1: Почему VAE использует KL-дивергенцию в loss функции?

💡 Подсказка

Что произойдет, если encoder будет создавать любые распределения q(z|x)?

Задание 2: Объясни reparameterization trick своими словами

💡 Подсказка

Как можно "отодвинуть" случайность от параметров сети?

Задание 3: В чем разница между VAE и GAN?

💡 Подсказка

VAE максимизирует правдоподобие, GAN играет в игру...

Продвинутый уровень 🟡

Задание 4: Реализуй sampling из VAE:

def sample(decoder, latent_dim=128):
    z = torch.randn(1, latent_dim)  # ?
    return decoder(z)

Задание 5: Что будет, если убрать KL-loss из ELBO?

Задание 6: Как сделать условный VAE (CVAE) для генерации цифр определенного класса?

Челлендж 🔴

Задание 7: β-VAE использует β·KL вместо KL. Как β влияет на качество генерации vs реконструкции?

Задание 8: Почему VAE дает “размытые” изображения по сравнению с GAN? Предложи решение.

⚠️ Частые ошибки

❌ Ошибка: “VAE это просто автоэнкодер с шумом”
✅ Правильно: VAE изучает распределение в латентном пространстве
💡 Почему: Шум нужен не для регуляризации, а чтобы сделать пространство “связным”

❌ Ошибка: Забывают reparameterization trick при реализации
✅ Правильно: z = μ + σ ⊙ ε, где ε ~ N(0,I)
💡 Почему: Иначе backprop не пройдет через стохастический узел

❌ Ошибка: Используют слишком маленький latent_dim
✅ Правильно: Начинают с 128-512 для изображений
💡 Почему: Маленькое пространство = потеря информации = размытость

🎓 Главное запомнить

✅ Суть: VAE изучает непрерывное латентное пространство для генерации новых данных
✅ Формула: ELBO = reconstruction_loss - KL_loss
✅ Применение: Генерация изображений, молекул, синтетических данных

🔗 Связь с другими темами

Назад: Обычные автоэнкодеры (урок 345) заложили фундамент архитектуры encoder-decoder

Вперед:

Нормализующие потоки - более мощная альтернатива VAE
Диффузионные модели - современный подход к генерации (Stable Diffusion)
VQ-VAE - дискретные латентные представлениякак машины учатся играть в игры

🎯 Зачем это нужно?

🎮 AlphaGo обыграл чемпиона мира в го - игре сложнее шахмат в 10¹⁷⁰ раз 🚗 Tesla Autopilot учится водить машину через взаимодействие с дорогой
💰 Торговые алгоритмы зарабатывают миллиарды, изучая реакцию рынка 🎯 Рекомендации YouTube показывают именно то видео, которое удержит тебя на платформе

Все эти системы используют Reinforcement Learning (RL) - обучение через пробы и ошибки, как маленький ребёнок учится ходить!

📚 История вопроса

В 1950-х психологи изучали, как крысы находят путь в лабиринте. Оказалось: крыса не строит карту лабиринта - она просто запоминает, какие действия приводят к сыру! 🧀

Эту идею перенесли в компьютеры. В 1989 году Крис Уоткинс создал алгоритм Q-learning. А в 2013 DeepMind объединил Q-learning с нейросетями и научил ИИ играть в Atari лучше человека.

Прорыв: в 2016 AlphaGo победил Ли Седоля в го. Корейский мастер сказал: “Я думал, что выиграю 5-0. Но AlphaGo играл как бог.”

💡 Интуиция

Представь, что учишься играть в новую мобильную игру 📱:

🔸 Ты не знаешь правил - приходится тыкать кнопки наугад 🔸 Получаешь очки за правильные действия, теряешь за неправильные
🔸 Постепенно понимаешь какие комбинации дают больше очков 🔸 Становишься лучше через множество попыток

Именно так работает RL! Алгоритм = игрок, игра = среда, очки = награда.

[МЕДИА: image_01] Описание: Схема взаимодействия агент-среда в RL с игровыми элементами Промпт: “educational illustration showing RL agent-environment interaction, game controller connected to screen, reward points floating up, actions and states labeled, modern gaming aesthetic, bright colors”

📐 Формальное определение

Reinforcement Learning - это обучение агента оптимальной политике действий через взаимодействие со средой для максимизации суммарной награды.

Основные компоненты:

🤖 Агент - тот, кто принимает решения (нейросеть, алгоритм) 🌍 Среда - мир, в котором действует агент (игра, рынок, дорога)
📊 Состояние (State) - текущая ситуация в среде ⚡ Действие (Action) - что может сделать агент 🎁 Награда (Reward) - обратная связь от среды 🎯 Политика π(s) - стратегия выбора действий

Цикл обучения:

Агент наблюдает состояние s
Выбирает действие a согласно политике π
Получает награду r и новое состояние s′
Обновляет знания и повторяет

Цель: Найти π*, которая максимизирует E[∑γᵗrₜ] - ожидаемую сумму дисконтированных наград.

🔍 Примеры с разбором

Пример 1: Крестики-нолики RL

Научим алгоритм играть в крестики-нолики с нуля!

Состояния: все возможные расположения X и O на поле (3⁹ = 19683 варианта) Действия: поставить X в свободную клетку (1-9) Награды: +1 за победу, -1 за поражение, 0 за ничью

Q-learning в действии:

# Q-таблица: Q[состояние][действие] = ожидаемая награда
Q = defaultdict(lambda: defaultdict(float))

def choose_action(state, epsilon=0.1):
    if random.random() < epsilon:
        return random.choice(available_actions)  # Исследование
    else:
        return max(Q[state], key=Q[state].get)   # Эксплуатация
        
def update_Q(state, action, reward, next_state):
    # Уравнение Беллмана
    Q[state][action] += α * (reward + γ * max(Q[next_state].values()) - Q[state][action])

После 1000 игр против случайного игрока RL-агент выигрывает 95% партий!

[МЕДИА: image_02] Описание: Визуализация обучения Q-learning на примере крестиков-ноликов Промпт: “tic-tac-toe game board with Q-values shown as heatmap colors in cells, arrows showing learning progression, before/after comparison, educational data visualization style”

Пример 2: Автопилот Tesla (упрощённо)

Состояние: данные с камер, лидаров, GPS (размерность ~10⁶) Действия: газ/тормоз/руль (непрерывные значения)
Награды: +1 за безопасную езду, -1000 за аварию, -1 за каждую секунду простоя

Проблема: нельзя разбивать Tesla для обучения! 🚗💥

Решение: симулятор + transfer learning на реальные данные

# Актор-критик архитектура
actor = PolicyNetwork()    # Выбирает действия  
critic = ValueNetwork()    # Оценивает состояния

for episode in episodes:
    state = env.reset()
    while not done:
        action = actor.predict(state)
        next_state, reward, done = env.step(action)
        
        # Обновляем критика (оценку состояний)
        td_error = reward + γ*critic.predict(next_state) - critic.predict(state)
        critic.train(state, reward + γ*critic.predict(next_state))
        
        # Обновляем актора (политику)
        actor.train(state, action, td_error)
        
        state = next_state

Tesla проехала 3+ миллиарда миль, собрав данные для обучения!

🎮 Практика

Базовый уровень 🟢

Задание 1: В игре “Замёрзший пруд” агент должен дойти от старта до финиша, не провалившись в лунку. Какие будут состояния, действия и награды?

Задание 2: Реализуй простейший ε-greedy алгоритм выбора действий:

def epsilon_greedy(Q, state, actions, epsilon):
    # Твой код здесь
    pass

Задание 3: Агент получил последовательность наград [1, 0, -1, 2] с коэффициентом дисконтирования γ=0.9. Чему равна дисконтированная сумма наград?

Задание 4: Объясни разницу между исследованием (exploration) и эксплуатацией (exploitation) на примере выбора ресторана в новом городе.

Продвинутый уровень 🟡

Задание 5: Реализуй обновление Q-таблицы по формуле Беллмана: Q(s,a) ← Q(s,a) + α[r + γ max Q(s′,a′) - Q(s,a)]

Задание 6: В многорукий бандит (multi-armed bandit) есть 3 автомата с неизвестными вероятностями выигрыша. Как построить RL-агента для максимизации выигрыша?

Задание 7: Почему в RL используется дисконтирование будущих наград? Что произойдёт при γ=0 и γ=1?

Задание 8: Спроектируй систему наград для обучения RL-агента игре в Flappy Bird.

Челлендж 🔴

Задание 9: Implement DQN (Deep Q-Network) псевдокод для игры в Pac-Man. Учти replay buffer и target network.

Задание 10: Как решить проблему “катастрофического забывания” в RL при обучении на последовательности разных задач?

Задание 11: Разработай reward shaping для обучения RL-агента управлению дроном. Как избежать reward hacking?

⚠️ Частые ошибки

❌ Ошибка: Слишком жадная политика (ε=0 с самого начала) ✅ Правильно: Начинать с высокого ε и постепенно уменьшать
💡 Почему: Без исследования агент может застрять в локальном оптимуме

❌ Ошибка: Неправильная система наград (sparse rewards) ✅ Правильно: Плотные промежуточные награды + reward shaping 💡 Почему: Агент может никогда не найти правильную стратегию

❌ Ошибка: Забывать про дисконтирование (γ=1 в бесконечных задачах)
✅ Правильно: γ ∈ [0.9, 0.99] для большинства задач 💡 Почему: Без дисконтирования сумма наград может расходиться

❌ Ошибка: Переобучение на старых данных в DQN ✅ Правильно: Experience replay + target network 💡 Почему: Корреляция между соседними состояниями нарушает IID предположение

🎓 Главное запомнить

✅ RL = обучение через пробы и ошибки для максимизации награды ✅ Q(s,a) ← Q(s,a) + α[r + γ max Q(s′,a′) - Q(s,a)] - основа Q-learning
✅ Применяется в играх, роботике, рекомендательных системах, автопилотах

🔗 Связь с другими темами

⬅️ Из прошлого: Марковские процессы дают математическую основу для MDP ➡️ В будущее: Deep RL объединит с нейросетями для решения сложных задач
🔄 Связи: Теория игр (многоагентное RL), оптимизация (policy gradient), вероятности (стохастические среды)

Понял тему? Закрепи в боте! 🚀

Попрактикуйся на задачах и получи персональные рекомендации от AI

💪 Начать тренировку