Читать фрагмент

книга

Вероятностное машинное обучение

Дополняя ранее изданную книгу «Вероятностное машинное обучение. Введение», этот классический труд знакомит читателя с деталями самых актуальных теорий и методов машинного обучения (МО). В «Дополнительных темах» излагаются различные вопросы машинного обучения на более глубоком уровне. Рассмотрено обучение и тестирование при различных распределениях, порождение многомерных выходов, таких как изображения, текст и графы. Во второй книге описано применение байесовского вывода к вероятностным моделям, начиная с основ и заканчивая алгоритмами вывода.Издание предназначено специалистам в области МО и искусственного интеллекта, а также будет полезно студентам профильных специальностей. Предполагается, что читатель знаком с МО и другими математическими дисциплинами (теорией вероятностей, статистикой, линейной алгеброй).

Форматы: PDF

Издательство: ДМК Пресс

Год: 2024

Место издания: Москва

ISBN: 978-5-93700-120-7 (рус.). – ISBN 978-0-26204-843-9 (англ.)

Страниц: 772

Артикул: 112918

Возрастная маркировка: 16+

Электронная книга

3599 ₽

Купить и скачать

Содержание

Содержание книги "Вероятностное машинное обучение : дополнительные темы: основания, вывод"

Предисловие от издательства

Предисловие

Соавторы

Прочие соавторы

Об обложке

Глава 1. Введение

ЧАСТЬ I. ОСНОВАНИЯ

Глава 2. Вероятность

2.1. Введение

2.1.1. Пространство вероятностей

2.1.2. Дискретные случайные величины

2.1.3. Непрерывные случайные величины

2.1.4. Аксиомы вероятностей

2.1.5. Условная вероятность

2.1.6. Формула Байеса

2.2. Некоторые распространенные распределения вероятностей

2.2.1. Дискретные распределения

2.2.1.1. Распределение Бернулли и биномиальное распределение

2.2.1.2. Категориальное и мультиномиальное распределения

2.2.1.3. Распределение Пуассона

2.2.1.4. Отрицательное биномиальное распределение

2.2.2. Непрерывные распределения на ℝ

2.2.2.1. Гауссово (нормальное) распределение

2.2.2.2. Полунормальное распределение

2.2.2.3. t-распределение Стьюдента

2.2.2.4. Распределение Коши

2.2.2.5. Распределение Лапласа

2.2.2.6. Субгауссово и супергауссово распределения

2.2.3. Непрерывные распределения на ℝ+

2.2.3.1. Гамма-распределение

2.2.3.2. Экспоненциальное распределение

2.2.3.3. Распределение хи-квадрат

2.2.3.4. Обратное гамма-распределение

2.2.3.5. Распределение Парето

2.2.4. Непрерывные распределения на отрезке [0, 1]

2.2.4.1. Бета-распределение

2.2.5. Многомерные непрерывные распределения

2.2.5.1. Многомерное нормальное (гауссово) распределение

2.2.5.2. Многомерное распределение Стьюдента

2.2.5.3. Круговое нормальное (фон Физеса–Фишера) распределение

2.2.5.4. Матричное нормальное распределение (MN)

2.2.5.5. Распределение Уишарта

2.2.5.6. Обратное распределение Уишарта

2.2.5.7. Распределение Дирихле

2.3. Гауссовы совместные распределения

2.3.1. Многомерное нормальное распределение

2.3.1.1. Определение

2.3.1.2. Гауссовы оболочки

2.3.1.3. Маргинальные и условные распределения для MVN

2.3.1.4. Информационная (каноническая) форма

2.3.1.5. Вывод: моментная форма

2.3.1.6. Вывод: информационная форма

2.3.2. Линейные гауссовы системы

2.3.2.1. Совместное распределение

2.3.2.2. Апостериорное распределение (формула Байеса для гауссовых распределений)

2.3.2.3. Пример: объединение показаний датчиков с известным шумом измерений

2.3.3. Общий математический анализ гауссовых систем

2.3.3.1. Моментная и каноническая параметризация

2.3.3.2. Умножение и деление

2.3.3.3. Маргинализация

2.3.3.4. Обусловливание фактами

2.3.3.5. Преобразование линейно-гауссова условного распределения вероятностей в канонический потенциал

2.3.3.6. Пример: произведение гауссовых распределений

2.4. Экспоненциальное семейство

2.4.1. Определение

2.4.2. Примеры

2.4.2.1. Распределение Бернулли

2.4.2.2. Категориальное распределение

2.4.2.3. Одномерное гауссово распределение

2.4.2.4. Одномерное гауссово распределение с фиксированной дисперсией

2.4.2.5. Многомерное гауссово распределение

2.4.2.6. Примеры противоположного свойства

2.4.3. Логарифмическая функция разбиения является производящей функцией кумулянтов

2.4.3.1. Вывод среднего

2.4.3.2. Вывод дисперсии

2.4.3.3. Связь с информационной матрицей Фишера

2.4.4. Канонические (натуральные) и средние (моментные) параметры

2.4.5. Оценка максимального правдоподобия для экспоненциального семейства

2.4.6. Экспоненциальное дисперсионное семейство

2.4.7. Вывод максимальной энтропии экспоненциального семейства

2.5. Преобразования случайных величин

2.5.1. Обратимые преобразования (биекции)

2.5.2. Аппроксимация Монте-Карло

2.5.3. Интегральное преобразование вероятности

2.6. Марковские цепи

2.6.1. Параметризация

2.6.1.1. Марковские переходные ядра

2.6.1.2. Марковские матрицы переходов

2.6.1.3. Марковские модели высшего порядка

2.6.2. Приложение: языковое моделирование

2.6.3. Оценивание параметров

2.6.3.1. Оценка максимального правдоподобия

2.6.3.2. Проблема разреженных данных

2.6.3.3. Оценка апостериорного максимума

2.6.4. Стационарное распределение марковской цепи

2.6.4.1 Что такое стационарное распределение

2.6.4.2. Вычисление стационарного распределения

2.6.4.3. Когда существует стационарное распределение

2.6.4.4. Детальный баланс

2.7. Меры расхождения распределений вероятностей

2.7.1. f-расхождение

2.7.1.1. Расхождение КЛ

2.7.1.2. Альфа-расхождение

2.7.1.3. Расстояние Хеллингера

2.7.1.4. Расстояние хи-квадрат

2.7.2. Интегральные вероятностные метрики

2.7.3. Максимальное среднее расхождение (МСР)

2.7.3.1. МСР как ИВМ

2.7.3.2. Вычисление МСР с помощью ядерного трюка

2.7.3.3. Вычисление за линейное время

2.7.3.4. Выбор подходящего ядра

2.7.4. Расстояние полной вариации

2.7.5. Оценка отношения плотностей с помощью бинарных классификаторов

Глава 3. Статистика

3.2. Байесовская статистика

3.2.1. Подбрасывание монеты

3.2.1.1. Правдоподобие

3.2.1.2. Априорное распределение

3.2.1.3. Апостериорное распределение

3.2.1.4. Апостериорная мода (оценка MAP)

3.2.1.5. Апостериорное среднее

3.2.1.6. Апостериорная дисперсия

3.2.1.7. Байесовские доверительные интервалы

3.2.1.8. Апостериорное предсказательное распределение

3.2.1.9. Предельное правдоподобие

3.2.2. Моделирование более сложных данных

3.2.3. Выбор априорного распределения

3.2.4. Вычислительные проблемы

3.2.5. Перестановочность и теорема де Финетти

3.3. Частотная статистика

3.3.1. Выборочные распределения

3.3.2 Бутстрэпная аппроксимация выборочного распределения

3.3.3. Асимптотическая нормальность выборочного распределения MLE

3.3.4. Информационная матрица Фишера

3.3.4.1. Определение

3.3.4.2. Эквивалентность информационной матрицы Фишера и гессиана отрицательного логарифмического правдоподобия

3.3.4.3. Пример: FIM для биномиального распределения

3.3.4.4. Пример: FIM для одномерного гауссова распределения

3.3.4.5. Пример: FIM для логистической регрессии

3.3.4.6. FIM для экспоненциального семейства

3.3.5. Противоречащие интуиции свойства частотной статистики

3.3.5.1. Доверительные интервалы

3.3.5.2. p-значения

3.3.5.3. Обсуждение

3.3.6. Почему не все исповедуют байесовский подход

3.4. Сопряженные априорные распределения

3.4.1. Биномиальная модель

3.4.2. Мультиномиальная модель

3.4.3. Одномерная гауссова модель

3.4.3.1. Апостериорное μ при заданном σ2

3.4.3.2. Апостериорное σ2 при заданном μ

3.4.3.3. Апостериорное μ и σ2: сопряженное априорное распределение

3.4.3.4. Апостериорные μ и σ2: неинформативное априорное распределение

3.4.4. Многомерная гауссова модель

3.4.4.1. Апостериорное μ при заданной Σ

3.4.4.2. Апостериорная Σ при заданном μ

3.4.4.3. Апостериорные Σ и μ

3.4.5. Модель их экспоненциального семейства

3.4.5.1. Правдоподобие

3.4.5.2. Априорное распределение

3.4.5.3. Апостериорное распределение

3.4.5.4. Предельное правдоподобие

3.4.5.5. Апостериорное предсказательное распределение

3.4.5.6. Пример: распределение Бернулли

3.4.6. За пределами сопряженных пар

3.4.6.1. Смеси сопряженных априорных распределений

3.4.6.2. Робастные (с тяжелыми хвостами) априорные распределения

3.4.6.3. Априорные распределения для скалярных дисперсий

3.4.6.4. Априорные распределения для ковариационных матриц

3.5. Неинформативные априорные распределения

3.5.1. Априорные распределения с максимальной энтропией

3.5.2. Априорные распределения Джеффриса

3.5.2.1. Априорное распределение Джеффриса для биномиального распределения

3.5.2.2. Априорное распределение Джеффриса для мультиномиального распределения

3.5.2.3. Априорное распределение Джеффриса для среднего и дисперсии одномерного гауссова распределения

3.5.3. Инвариантные априорные распределения

3.5.3.1. Трансляционно-инвариантные априорные распределения

3.5.3.2. Масштабно-инвариантное априорное распределение

3.5.3.3. Обучение инвариантных априорных распределений

3.5.4. Референтные априорные распределения

3.6. Иерархические априорные распределения

3.6.1. Иерархическая биномиальная модель

3.6.1.1. Вывод апостериорного распределения

3.6.1.2. Пример: набор данных о крысах

3.6.2. Иерархическая гауссова модель

3.6.2.1. Пример: набор данных о восьми школах

3.6.2.2. Нецентрированная параметризация

3.6.3. Иерархические условные модели

3.7. Эмпирический байесовский анализ

3.7.1. Эмпирический байесовский анализ для иерархической биномиальной модели

3.7.2. Эмпирический байесовский анализ для иерархической гауссовой модели

3.7.3. Эмпирический байесовский анализ для марковской модели (n-граммное сглаживание)

3.7.4. Эмпирический байесовский анализ для несопряженных моделей

3.8. Выбор модели

3.8.1. Байесовский выбор модели

3.8.1.1. Пример: симметрична ли монета

3.8.2. Байесовское усреднение моделей

3.8.3. Оценивание предельного правдоподобия

3.8.3.1. Аналитическое решение для сопряженных моделей

3.8.3.2. Оценка гармонического среднего

3.8.3.3. Другие методы Монте-Карло

3.8.3.4. Вариационный байесовский анализ

3.8.4. Связь между перекрестной проверкой и предельным правдоподобием

3.8.5. Условное предельное правдоподобие

3.8.6. Байесовская оценка с исключением по одному (LOO)

3.8.7. Информационные критерии

3.8.7.1. Минимальная длина описания (MDL)

3.8.7.2. Байесовский информационный критерий (BIC)

3.8.7.3. Информационный критерий Акаике

3.8.7.4. Широко применимый информационный критерий (WAIC)

3.9. Проверка модели

3.9.1. Проверки апостериорного предсказательного распределения

3.9.1.1. Пример: одномерное гауссово распределение

3.9.1.2. Пример: линейная регрессия

3.9.2. Байесовские p-значения

3.10. Проверка гипотез

3.10.1. Частотный подход

3.10.2. Байесовский подход

3.10.2.1. Подход на основе сравнения моделей

3.10.2.2. Несобственные априорные распределения приводят к проблемам с коэффициентами Байеса

3.10.2.3. Подход на основе оценивания параметров

3.10.2.4. Одновыборочный критерий доли (биномиальный критерий)

3.10.2.5. Двухвыборочный критерий относительных долей (критерий χ2)

3.10.2.6. Одновыборочный критерий среднего (t-критерий)

3.10.2.7. Парный выборочный критерий относительных средних (парный t-критерий)

3.10.2.8. Двухвыборочный критерий относительных средних (двухвыборочный t-критерий)

3.10.2.9. Проверка коэффициента корреляции

3.10.3. Распространенные статистические критерии соответствуют выводу в линейных моделях

3.10.3.1. Аппроксимация непараметрических критериев с применением преобразования рангов

3.10.3.2. Предсказанная величина на одной или двух группах (t-критерий)

3.10.3.3. Предсказанная величина с метрическими предикторами (корреляционный критерий)

3.10.3.4. Предсказанная величина с одним номинальным предиктором (односторонний ANOVA)

3.10.3.5. Предсказанная величина с несколькими номинальными предикторами (многосторонний ANOVA)

3.10.3.6. Предсказанная по счетчикам величина с номинальными предикторами (критерий χ2)

3.10.3.7. Неметрические предсказанные величины

3.11. Отсутствие данных

Глава 4. Графовые модели

4.1. Введение

4.2. Ориентированные графовые модели (байесовские сети)

4.2.1. Представление совместного распределения

4.2.2. Примеры

4.2.2.1. Марковские цепи

4.2.2.2. «Студенческая» сеть

4.2.2.3. Сигмоидные сети доверия

4.2.3. Гауссовы байесовские сети

4.2.4. Свойства условной независимости

4.2.4.1. Глобальные марковские свойства (d-разделение)

4.2.4.2. Оправдание (парадокс Берксона)

4.2.4.3. Марковские одеяла

4.2.4.4. Другие марковские свойства

4.2.5. Генерирование (выборка)

4.2.6. Вывод

4.2.6.1. Пример: вывод в студенческой сети

4.2.7. Обучение

4.2.7.1. Обучение на неполных данных

4.2.7.2. Пример: вычисление оценки MLE для CPT

4.2.7.3. Пример: вычисление апостериорного распределения для CPT

4.2.7.4. Обучение на неполных данных

4.2.7.5. Применение EM-алгоритма для аппроксимации CPT в случае неполных данных

4.2.7.6. Использование СГС для аппроксимации CPT в случае неполных данных

4.2.8. Блочная нотация

4.2.8.1. Пример: факторный анализ

4.2.8.2. Пример: наивный байесовский классификатор

4.2.8.3. Пример: ослабление наивного байесовского предположения

4.3. Неориентированные графовые модели (марковские случайные поля)

4.3.1. Представление совместного распределения

4.3.1.1. Теорема Хаммерсли–Клиффорда

4.3.1.2. Распределение Гиббса

4.3.2. Полностью видимые MRF (Айзинга, Поттса, Хопфилда и т. д.)

4.3.2.1. Модели Айзинга

4.3.2.2. Модели Поттса

4.3.2.3. Модели Поттса для предсказания структуры белков

4.3.2.4. Сети Хопфилда

4.3.3. MRF с латентными величинами (машины Больцмана и т. д.)

4.3.3.1. Обычные машины Больцмана

4.3.3.2. Ограниченные машины Больцмана (RBM)

4.3.3.3. Глубокие машины Больцмана

4.3.3.4. Глубокие сети доверия (DBN)

4.3.4. Модели максимальной энтропии

4.3.4.1. Логарифмически-линейные модели

4.3.4.2. Индукция признаков для модели правописания с максимальной энтропией

4.3.5. Гауссовы MRF

4.3.5.1. Стандартные GMRF

4.3.5.2. Нелинейные гауссовы MRF

4.3.6. Свойства условной независимости

4.3.6.1. Основные результаты

4.3.6.2. Неориентированная альтернатива d-разделению

4.3.7. Генерирование (выборка)

4.3.8. Вывод

4.3.9. Обучение

4.3.9.1. Обучение на неполных данных

4.3.9.2. Вычислительные проблемы

4.3.9.3. Оценка максимального псевдоправдоподобия

4.3.9.4. Обучение на неполных данных

4.4. Условные случайные поля (CRF)

4.4.1. Одномерные CRF

4.4.1.1. Выделение именных групп

4.4.1.2. Распознавание именованных сущностей

4.4.1.3. Грамматический разбор естественного языка

4.4.2. Двумерные CRF

4.4.2.1. Семантическая сегментация

4.4.2.2. Модели деформируемых частей

4.4.3. Оценивание параметров

4.4.3.1. Логарифмически-линейные потенциалы

4.4.3.2. Общий случай

4.4.4. Другие подходы к структурному предсказанию

4.5. Сравнение ориентированных и неориентированных ВГМ

4.5.1. Свойства УН

4.5.2. Преобразование между ориентированной и неориентированной моделями

4.5.2.1. Преобразование ОВГМ в НВГМ

4.5.2.2. Преобразование НВГМ в ОВГМ

4.5.3. Условные ориентированные и неориентированные ВГМ и проблема смещения метки

4.5.4. Комбинирование ориентированных и неориентированных графов

4.5.4.1. Цепные графы

4.5.4.2. Ациклические ориентированные смешанные графы

4.5.5. Сравнение ориентированных и неориентированных гауссовых ВГМ

4.5.5.1. Ковариационные графы

4.6. Расширения ВГМ

4.6.1. Фактор-графы

4.6.1.1. Двудольные фактор-графы

4.6.1.2. Фактор-графы Форни

4.6.2. Вероятностные схемы

4.6.3. Ориентированные реляционные ВГМ

4.6.4. Неориентированные реляционные ВГМ

4.6.4.1. Коллективная классификация

4.6.4.2. Марковские логические сети

4.6.5. Вероятностные модели с открытым универсумом

4.6.6. Программы как вероятностные модели

4.7. Структурные каузальные модели

4.7.1. Пример: причинная связь между образованием и богатством

4.7.2. Модели структурных уравнений

4.7.3. Оператор do и дополненные ОАГ

4.7.4. Контрфактические вопросы

Глава 5. Теория информации

5.1. Расхождение КЛ

5.1.1. Желательные свойства

5.1.2. Расхождение КЛ – единственная мера, обладающая желательными свойствами

5.1.2.1. Непрерывность расхождения КЛ

5.1.2.2. Неотрицательность расхождения КЛ

5.1.2.3. Расхождение КЛ инвариантно относительно перепараметризации

5.1.2.4. Монотонность для равномерных распределений

5.1.2.5. Цепное правило для расхождения КЛ

5.1.3. Размышления о расхождении КЛ

5.1.3.1. Единицы измерения расхождения КЛ

5.1.3.2. Асимметрия расхождения КЛ

5.1.3.3. Расхождение KL как ожидаемый вес свидетельства

5.1.4. Минимизация расхождения КЛ

5.1.4.1. Прямое и обратное расхождения КЛ

5.1.4.2. Моментная проекция (покрытие мод)

5.1.4.3. Информационная проекция (поиск мод)

5.1.5. Свойства расхождения КЛ

5.1.5.1. Лемма о сжатии

5.1.5.2. Неравенство обработки данных для расхождения КЛ

5.1.6. Расхождение КЛ и оценка MLE

5.1.7. Расхождение КЛ и байесовский вывод

5.1.8. Расхождение КЛ и экспоненциальные семейства

5.1.8.1. Пример: расхождение КЛ между двумя гауссовыми распределениями

5.1.9. Аппроксимация расхождения КЛ информационной матрицей Фишера

5.1.10. Расхождение Брегмана

5.1.10.1. Расхождение КЛ – частный случай расхождения Брегмана

5.2. Энтропия

5.2.1. Определение

5.2.2. Дифференциальная энтропия для непрерывных случайных величин

5.2.3. Типичные множества

5.2.4. Перекрестная энтропия и перплексия

5.3. Взаимная информация

5.3.1. Определение

5.3.2. Интерпретация

5.3.3. Неравенство обработки данных

5.3.4. Достаточные статистики

5.3.5. Многомерная взаимная информация

5.3.5.1. Полная корреляция

5.3.5.2. Информация о взаимодействии (коинформация)

5.3.5.3. Синергия и избыточность

5.3.5.4. МВИ и каузальность

5.3.5.5. МВИ и энтропия

5.3.6. Вариационные границы взаимной информации

5.3.6.1. Верхняя граница

5.3.6.2. Нижняя граница БА

5.3.6.3. Нижняя оценка НУД

5.3.6.4. Нижняя оценка InfoNCE

5.3.7. Сети релевантности

5.4. Сжатие данных (кодирование источника)

5.4.1. Сжатие без потери информации

5.4.2. Сжатие с потерей информации и компромисс между скоростью и искажением

5.4.3. Кодирование с возвратом битов

5.5. Коды с исправлением ошибок (кодирование канала)

5.6. Информационное бутылочное горлышко

5.6.1. Простое информационное бутылочное горлышко

5.6.2. Вариационное информационное бутылочное горлышко

5.6.3. Условное энтропийное бутылочное горлышко

Глава 6. Оптимизация

6.1. Введение

6.2. Автоматическое дифференцирование

6.2.1. Дифференцирование в функциональной форме

6.2.2. Дифференцирование цепочек, контуров и программ

6.2.2.1. Цепные композиции и правило дифференцирования сложной функции

6.2.2.2. От цепочек к контурам

6.2.2.3. От контуров к программам

6.3. Стохастическая оптимизация

6.3.1. Стохастический градиентный спуск

6.3.1.1. Выбор величины шага

6.3.1.2. Уменьшение дисперсии

6.3.1.3. Предобусловленный СГС

6.3.2. Применение СГС для оптимизации целевой функции в виде конечной суммы

6.3.3. Применение СГС для оптимизации параметров распределения

6.3.4. Оценка на основе функции вклада (REINFORCE)

6.3.4.1. Управляющие вариаты

6.3.4.2. Преобразование Рао–Блэкуэлла

6.3.5. Прием перепараметризации

6.3.5.1. Пример

6.3.5.2. Полная производная

6.3.5.3. Оценка приземления

6.3.6. Прием Gumbel-softmax

6.3.7. Стохастические графы вычислений

6.3.8. Сквозная оценка

6.4. Натуральный градиентный спуск

6.4.1. Определение натурального градиента

6.4.2. Интерпретации НГС

6.4.2.1. НГС как метод доверенной области

6.4.2.2. НГС как метод Гаусса–Ньютона

6.4.3. Преимущества НГС

6.4.4. Аппроксимация натурального градиента

6.4.5. Натуральные градиенты для экспоненциального семейства

6.4.5.1. Аналитическое вычисление для гауссова случая

6.4.5.2. Стохастическая аппроксимация в общем случае

6.4.5.3. Натуральный градиент функции энтропии

6.5. Алгоритмы ограниченной оптимизации

6.5.1. Общий алгоритм

6.5.2. Пример: логистическая регрессия

6.5.3. EM-алгоритм

6.5.3.1. Нижняя граница

6.5.3.2. E-шаг

6.5.3.3. M-шаг

6.5.4. Пример: применение EM-алгоритма к многомерному нормальному распределению с неполными данными

6.5.4.1. E-шаг

6.5.4.2. M-шаг

6.5.4.3. Инициализация

6.5.4.4. Пример

6.5.5. Пример: робастная линейная регрессия с использованием правдоподобия Стьюдента

6.5.6. Расширения EM

6.5.6.1. Вариационный EM-алгоритм

6.5.6.2. Жесткий EM-алгоритм

6.5.6.3. EM-алгоритм Монте-Карло

6.5.6.4. Обобщенный EM-алгоритм

6.5.6.5. ECM-алгоритм

6.5.6.6. Онлайновый EM-алгоритм

6.6. Байесовская оптимизация

6.6.1. Последовательная оптимизация на основе модели

6.6.2. Суррогатные функции

6.6.2.1. Гауссовские процессы

6.6.2.2. Байесовские нейронные сети

6.6.2.3. Другие модели

6.6.3. Функции сбора

6.6.3.1. Вероятность улучшения

6.6.3.2. Ожидаемое улучшение

6.6.3.3. Верхняя доверительная граница

6.6.3.4. Выборка Томпсона

6.6.3.5. Энтропийный поиск

6.6.3.6. Градиент знания

6.6.3.7. Оптимизация функции сбора

6.6.4. Прочие проблемы

6.6.4.1. Параллельные (пакетные) запросы

6.6.4.2. Условные параметры

6.6.4.3. Многоточностные суррогаты

6.6.4.4. Ограничения

6.7. Оптимизация без вычисления производных

6.7.1. Локальный поиск

6.7.1.1. Стохастический локальный поиск

6.7.1.2. Поиск с запретами

6.7.1.3. Случайный поиск

6.7.2. Имитация отжига

6.7.3. Эволюционные алгоритмы

6.7.4. Алгоритмы оценки распределения

6.7.5. Метод перекрестной энтропии

6.7.5.1. Дифференцируемый CEM

6.7.6. Эволюционные стратегии

6.7.6.1. Натуральные эволюционные стратегии

6.7.6.2. CMA-ES

6.8. Оптимальная транспортировка

6.8.1. Разминка: оптимальное паросочетание двух семейств точек

6.8.2. От оптимальных паросочетаний к формулировкам

Канторовича и Монжа

6.8.2.1. Расщепление по массе

6.8.2.2. Формулировка Монжа и оптимальные отображения дифференциала

6.8.2.3. Формулировка Канторовича

6.8.2.4. Расстояния Вассерштейна

6.8.3. Решение задачи об оптимальной транспортировке

6.8.3.1. Двойственность и вогнутость стоимости

6.8.3.2. Двойственность Канторовича–Рубинштейна и потенциалы Липшица

6.8.3.3. Отображения Монжа как градиенты выпуклых функций: теорема Бренье

6.8.3.4. Решения в замкнутой форме для одномерных и гауссовых распределений

6.8.3.5. Точное вычисление с помощью решателей линейных программ

6.8.3.6. Обеспечение гладкости с помощью энтропийной регуляризации

6.9. Субмодулярная оптимизация

6.9.1. Интуитивные соображения, пример и подоплёка

6.9.1.1. Кофе, лимон, молоко и чай

6.9.2. Основные определения субмодулярности

6.9.3. Примеры субмодулярных функций

6.9.4. Субмодулярная оптимизация

6.9.4.1. Субмодулярная максимизация

6.9.4.2. Дискретные ограничения

6.9.4.3. Минимизация субмодулярной функции

6.9.5. Приложения субмодулярности в машинном обучении и ИИ

6.9.6. Эскизы, опорные множества, дистилляция и отбор признаков и подмножеств данных

6.9.6.1. Варианты проектирования алгоритма обобщения

6.9.7. Комбинаторные информационные функции

6.9.8. Кластеризация, разбиение данных и параллельное машинное обучение

6.9.9. Активное обучение и обучение с частичным привлечением учителя

6.9.10. Вероятностное моделирование

6.9.11. Структурные нормы и функции потерь

6.9.12. Заключительные замечания

ЧАСТЬ II. ВЫВОД

Глава 7. Алгоритмы вывода: общий обзор

7.1. Введение

7.2. Типичные схемы вывода

7.2.1. Глобальные латентные величины

7.2.2. Локальные латентные величины

7.2.3. Глобальные и локальные латентные величины

7.3. Точные алгоритмы вывода

7.4. Приближенные алгоритмы вывода

7.4.1. Аппроксимация MAP и свойственные ей проблемы

7.4.1.1. Оценка MAP не дает меры неопределенности

7.4.1.2. Оценка MAP часто не дает правильного представления об апостериорном распределении

7.4.1.3. Оценка MAP не инвариантна относительно перепараметризации

7.4.2. Сеточная аппроксимация

7.4.3. Аппроксимация Лапласа (квадратичная)

7.4.4. Вариационный вывод

7.4.5. Метод Монте-Карло по схеме марковской цепи

7.4.6. Последовательный метод Монте-Карло

7.4.7. Сложные апостериорные распределения

7.5. Оценка приближенных алгоритмов вывода

Глава 8. Гауссова фильтрация и сглаживание

8.1. Введение

8.1.1. Цели вывода

8.1.2. Уравнения байесовской фильтрации

8.1.3. Уравнения байесовского сглаживания

8.1.4. Гауссов подход

8.2. Вывод для линейных гауссовых SSM

8.2.1. Примеры

8.2.1.1. Прослеживание и оценивание состояний

8.2.1.2. Онлайновая байесовская линейная регрессия (рекурсивный метод наименьших квадратов)

8.2.1.3. Предсказание временных рядов

8.2.2. Фильтр Калмана

8.2.2.1. Шаг предсказания

8.2.2.2. Шаг обновления

8.2.2.3. Апостериорное предсказательное распределение

8.2.2.4. Вывод

8.2.2.5. Абстрактная формулировка

8.2.2.6. Численные проблемы

8.2.2.7. Версия с непрерывным временем

8.2.3. Сглаживатель Калмана

8.2.3.1. Алгоритм

8.2.3.2. Вывод

8.2.3.3. Двухфильтровое сглаживание

8.2.3.4. Временная и пространственная сложность

8.2.3.5. Прямая фильтрация – обратная выборка

8.2.4. Фильтрация и сглаживание в информационной форме

8.2.4.1. Фильтрация: алгоритм

8.2.4.2. Фильтрация: вывод

8.2.4.3. Сглаживание: алгоритм

8.2.4.4. Сглаживание: вывод

8.3. Вывод, основанный на локальной линеаризации

8.3.1. Разложение в ряд Тейлора

8.3.2. Обобщенный фильтр Калмана (ОКФ)

8.3.2.1. Точность

8.3.2.2. ОФК с итерациями

8.3.2.3. Пример: прослеживание точки, движущейся по спирали на двумерной плоскости

8.3.2.4. Пример: обучение нейронной сети

8.3.3. Обобщенный сглаживатель Калмана

8.4. Вывод, основанный на сигма-точечном преобразовании

8.4.1. Сигма-точечное преобразование

8.4.2. Сигма-точечный фильтр Калмана

8.4.3. Сигма-точечный сглаживатель Калмана

8.5. Другие варианты фильтра Калмана

8.5.1. Обобщенная гауссова фильтрация

8.5.1.1. Статистическая линейная регрессия

8.5.1.2. Аппроксимация моментов

8.5.1.3. Аппроксимация на основе линеаризации

8.5.1.4. Аппроксимация на основе гауссовой квадратуры

8.5.1.5. Аппроксимация на основе метода Монте-Карло

8.5.2. Гауссова фильтрация на основе условных моментов

8.5.3. Итерированные фильтры и сглаживатели

8.5.4. Ансамблевый фильтр Калмана

8.5.5. Робастные фильтры Калмана

8.5.6. Двойной ОФК

8.6. Фильтрация с предполагаемой плотностью

8.6.1. Связь с гауссовой фильтрацией

8.6.2. ADF для SLDS (гауссов суммирующий фильтр)

8.6.3. ADF для онлайновой логистической регрессии

8.6.4. ADF для онлайновых глубоких нейронных сетей

8.7. Другие методы вывода для SSM

8.7.1. Сеточные аппроксимации

8.7.2. Распространение математического ожидания

8.7.3. Вариационный вывод

8.7.4. MCMC

8.7.5. Фильтрация частиц

Глава 9. Алгоритмы передачи сообщений

9.1. Введение

9.2. Распространение доверия по цепочкам

9.2.1. Скрытые марковские модели

9.2.1.1. Пример: HMM казино

9.2.1.2. Вывод апостериорного распределения

9.2.2. Алгоритм прямого хода

9.2.3. Алгоритм прямого-обратного хода

9.2.3.1. Рекурсия обратного хода

9.2.3.2. Пример

9.2.3.3. Двухчастные сглаженные маргинальные распределения

9.2.3.4. Численно устойчивая реализация

9.2.4. Прямая фильтрация – обратное сглаживание

9.2.5. Временная и пространственная сложность

9.2.6. Алгоритм Витерби

9.2.6.1. Прямой проход

9.2.6.2. Обратный проход

9.2.6.3. Пример

9.2.6.4. Временная и пространственная сложность

9.2.6.5. Список N лучших

9.2.7. Прямая фильтрация – обратная выборка

9.3. Распространение доверия на деревьях

9.3.1. Ориентированные и неориентированные деревья

9.3.2. Алгоритм «сумма–произведение»

9.3.3. Алгоритм «максимум–произведение»

9.3.3.1. Связь между MMM и MAP

9.3.3.2. Связь между MPM и MAP

9.3.3.3. Связь между MPE и MAP

9.4. Петлевое распространение доверия

9.4.1. Петлевое распространение доверия в попарных неориентированных графах

9.4.2. Петлевое распространение доверия для фактор-графов

9.4.3. Гауссово распространение доверия

9.4.4. Сходимость

9.4.4.1. Когда LBP сходится

9.4.4.2. Обеспечение сходимости LBP

9.4.4.3. Повышение скорости сходимости с помощью адаптивной схемы

9.4.5. Точность

9.4.6. Обобщенное распространение доверия

9.4.7. Выпуклое BP

9.4.8. Приложение: коды с исправлением ошибок

9.4.9. Приложение: распространение близости

9.4.10. Эмуляция BP с помощью графовых нейронных сетей

9.5. Алгоритм исключения переменной

9.5.1. Вывод алгоритма

9.5.2. Вычислительная сложность VE

9.5.3. Выбор хорошего порядка исключения

9.5.4. Вычислительная сложность точного вывода

9.5.5. Недостатки VE

9.6. Алгоритм дерева сочленений

9.7. Вывод как оптимизация

9.7.1. Вывод как обратное распространение

9.7.1.1. Пример: вывод в небольшой модели

9.7.2. «Шевеление, затем MAP»

9.7.2.1. Гауссов случай

9.7.2.2. Дискретный случай

Глава 10. Вариационный вывод

10.1. Введение

10.1.1. Вариационная целевая функция

10.1.1.1. Физическая интерпретация: минимизация вариационной свободной энергии

10.1.1.2. Статистическая интерпретация: максимизация нижней границы свидетельства (ELBO)

10.1.2. Форма вариационного апостериорного распределения

10.1.3. Оценивание параметров с помощью вариационного EM-алгоритма

10.1.3.1. Оценка MLE для моделей с латентными величинами

10.1.3.2. Эмпирический байесовский анализ полностью наблюдаемых моделей

10.1.4. Стохастический VI

10.1.5. Амортизированный VI

10.1.6. Полуамортизированный вывод

10.2. Градиентный VI

10.2.1. Перепараметризованный VI

10.2.1.1. Гауссово распределение с диагональной ковариационной матрицей (среднее поле)

10.2.1.2. Гауссово распределение с полной ковариационной матрицей

10.2.1.3. Гауссово распределение с ковариационной матрицей, равной сумме диагональной матрицы и матрицы низкого ранга

10.2.1.4. Другие вариационные апостериорные распределения

10.2.1.5. Пример: байесовский вывод параметров

10.2.1.6. Пример: оценка MLE для LVM

10.2.2. VI с автоматическим дифференцированием

10.2.2.1. Основная идея

10.2.2.2. Пример: ADVI для бета-биномиальной модели

10.2.2.3. Пример: ADVI для GMM

10.2.2.4. Более сложные апостериорные распределения

10.2.3. Вариационный вывод методом черного ящика

10.2.3.1. Оценивание градиента методом REINFORCE

10.2.3.2. Уменьшение дисперсии с помощью управляющих вариат

10.3. VI методом покоординатного подъема

10.3.1. Вывод алгоритма CAVI

10.3.2. Пример: CAVI для модели Айзинга

10.3.3. Вариационный байесовский вывод

10.3.4. Пример: VB для одномерного гауссова распределения

10.3.4.1. Целевое распределение

10.3.4.2. Обновление q(μ|ψμ)

10.3.4.3. Обновление q(λ|ψλ)

10.3.4.4. Вычисление математических ожиданий

10.3.4.5. Иллюстрация

10.3.4.6. Нижняя граница

10.3.5. Вариационный байесовский EM-алгоритм

10.3.6. Пример: VBEM для GMM

10.3.6.1. Вариационное апостериорное распределение

10.3.6.2. Вывод q(θ) (вариационный M-шаг)

10.3.6.3. Вывод q(z) (вариационный E-шаг)

10.3.6.4. Эффекты VBEM, индуцирующие автоматическую разреженность

10.3.6.5. Нижняя граница предельного правдоподобия

10.3.6.6. Выбор модели с помощью VBEM

10.3.7. Вариационная передача сообщений

10.3.8. Autoconj

10.4. Более точные вариационные апостериорные распределения

10.4.1. Структурное среднее поле

10.4.2. Иерархические (со вспомогательными величинами) апостериорные распределения

10.4.3. Апостериорные распределения в виде нормализующих потоков

10.4.4. Неявные апостериорные распределения

10.4.5. Комбинирование VI с MCMC-выводом

10.5. Более точные границы

10.5.1. Многовыборочная ELBO (IWAE-граница)

10.5.1.1. Патологии оптимизации IWAE-границы

10.5.2. Термодинамическая вариационная целевая функция

10.5.3. Минимизация верхней границы свидетельства

10.6. Алгоритм пробуждения–засыпания

10.6.1. Фаза пробуждения

10.6.2. Фаза засыпания

10.6.3. Фаза сна наяву

10.6.4. Краткое описание алгоритма

10.7. Распространение математического ожидания

10.7.1. Алгоритм

10.7.2. Пример

10.7.3. EP как обобщение ADF

10.7.4. Вопросы оптимизации

10.7.5. Степенное EP и α-расхождение

10.7.6. Стохастическое EP

Глава 11. Методы Монте-Карло

11.1. Введение

11.2. Интегрирование методом Монте-Карло

11.2.1. Пример: оценивание π методом Монте-Карло

11.2.2. Точность интегрирования методом Монте-Карло

11.3. Генерирование случайных выборок из простых распределений

11.3.1. Выборка с помощью обратной cdf

11.3.2. Выборка из гауссова распределения (метод Бокса–Мюллера)

11.4. Выборка с отклонением

11.4.1. Основная идея

11.4.2. Пример

11.4.3. Адаптивная выборка с отклонением

11.4.4. Выборка с отклонением в пространствах высокой размерности

11.5. Выборка по значимости

11.5.1. Прямая выборка по значимости

11.5.2. Самонормированная выборка по значимости

11.5.3. Выбор вспомогательного распределения

11.5.4. Выборка по значимости с отжигом

11.5.4.1. Оценивание нормировочных постоянных с использованием AIS

11.6. Управление дисперсией оценки Монте-Карло

11.6.1. Общие случайные числа

11.6.2. Преобразование Рао–Блэквелла

11.6.3. Управляющие вариаты

11.6.3.1. Пример

11.6.4. Антитетическая выборка

11.6.4.1. Пример

11.6.5. Метод квази-Монте-Карло

Глава 12. Метод Монте-Карло по схеме марковской цепи

12.1. Введение

12.2. Алгоритм Метрополиса–Гастингса

12.2.1. Основная идея

12.2.2. Почему алгоритм МГ работает

12.2.3. Вспомогательные распределения

12.2.3.1. Независимая выборка

12.2.3.2. Алгоритм случайного блуждания Метрополиса

12.2.3.3. Комбинирование вспомогательных распределений

12.2.3.4. MCMC с управлением от данных

12.2.3.5. Адаптивный MCMC

12.2.4. Инициализация

12.3. Выборка Гиббса

12.3.1. Основная идея

12.3.2. Выборка Гиббса – частный случай МГ

12.3.3. Пример: выборка Гиббса для моделей Айзинга

12.3.4. Пример: выборка Гиббса для моделей Поттса

12.3.5. Пример: выборка Гиббса для GMM

12.3.5.1. Случай известных параметров

12.3.5.2. Случай неизвестных параметров

12.3.6. Метрополис внутри Гиббса

12.3.7. Блочная выборка Гиббса

12.3.8. Свернутая выборка Гиббса

12.4. MCMC со вспомогательной величиной

12.4.1. Выборка по уровням

12.4.2. Алгоритм Свендсена–Ванга

12.5. Гамильтонов метод Монте-Карло (HMC)

12.5.1. Гамильтонова механика

12.5.2. Интегрирование уравнений Гамильтона

12.5.2.1. Метод Эйлера

12.5.2.2. Модифицированный метод Эйлера

12.5.2.3. Схема интегрирования с перешагиванием

12.5.2.4. Схемы интегрирования более высокого порядка

12.5.3. Алгоритм HMC

12.5.4. Настройка HMC

12.5.4.1. Выбор числа шагов с помощью алгоритма NUTS

12.5.4.2. Выбор размера шага

12.5.4.3. Выбор ковариационной матрицы (обратных масс)

12.5.5. HMC на римановом многообразии

12.5.6. Метод Монте-Карло по Ланжевену

12.5.7. Связь между СЕС и выборкой Ланжевена

12.5.8. Применение HMC к ограниченным параметрам

12.5.9. Ускорение HMC

12.6. Сходимость MCMC

12.6.1. Скорости перемешивания марковских цепей

12.6.2. Практическая диагностика сходимости

12.6.2.1. Трассировочные графики

12.6.2.2. Оценочное потенциальное уменьшение масштаба (EPSR)

12.6.3. Эффективный объем выборки

12.6.4. Улучшение скорости сходимости

12.6.5. Нецентрированные параметризации и воронка Нила

12.7. Стохастический градиентный MCMC

12.7.1. Динамика Ланжевена со стохастическим градиентом

12.7.2. Предобусловливание

12.7.3. Уменьшение дисперсии оценки градиента

12.7.4. SG-HMC

12.7.5. Недодемпфированная динамика Ланжевена

12.8. MCMC методом обратимого прыжка (межпространственный)

12.8.1. Основная идея

12.8.2. Пример

12.8.3. Обсуждение

12.9. Методы отжига

12.9.1. Имитация отжига

12.9.2. Параллельная закалка

Глава 13. Последовательный метод Монте-Карло

13.1. Введение

13.1.1. Постановка задачи

13.1.2. Фильтрация частиц для моделей пространства состояний

13.1.3. SMC-генераторы выборок для статического оценивания параметров

13.2. Фильтрация частиц

13.2.1. Выборка по значимости

13.2.2. Последовательная выборка по значимости

13.2.3. Последовательная выборка по значимости с перевыборкой

13.2.3.1. Бутстрэпный фильтр

13.2.3.2. Проблема вырождения пути

13.2.3.3. Оценка нормировочной постоянной

13.2.4. Методы перевыборки

13.2.4.1. Обратная CDF

13.2.4.2. Мультиномиальная перевыборка

13.2.4.3. Стратифицированная перевыборка

13.2.4.4. Систематическая перевыборка

13.2.4.5. Сравнение

13.2.5. Адаптивная перевыборка

13.3. Вспомогательные распределения

13.3.1. Локально-оптимальное вспомогательное распределение

13.3.2. Вспомогательные распределения, основанные на обобщенном и сигма-точечном фильтре Калмана

13.3.3. Вспомогательные распределения, основанные на аппроксимации Лапласа

13.3.3.1. Пример: нейронное декодирование

13.3.4. Вспомогательные распределения, основанные на SMC (вложенный SMC)

13.4. Фильтрация частиц с преобразованием Рао–Блэкуэлла (RBPF)

13.4.1. Смесь фильтров Калмана

13.4.1.1. Улучшения

13.4.2. Пример: слежение за маневрирующим объектом

13.4.3. Пример: FastSLAM

13.5. Обобщения фильтра частиц

13.6. SMC-генераторы выборок

13.6.1. Составные части SMC-генератора выборок

13.6.2. Закалка правдоподобий (геометрическая траектория)

13.6.2.1. Пример: выборка из одномерного бимодального распределения

13.6.3. Закалка данных

13.6.3.1. Пример: IBIS для одномерного гауссова распределения

13.6.4. Выборка редких событий и экстремумы

13.6.5. SMC–ABC и вывод без использования правдоподобия

13.6.6. SMC2

13.6.7. SMC с вариационной фильтрацией

13.6.8. Вариационный сглаживающий SMC

Библиография

Предметный указатель

Внимание!
При обнаружении неточностей или ошибок в описании книги "Вероятностное машинное обучение : дополнительные темы: основания, вывод (автор Кэвин Мэрфи)", просим Вас отправить сообщение на почту help@directmedia.ru. Благодарим!

Вероятностное машинное обучение

Содержание

другие книги автора

С книгой "Вероятностное машинное обучение" читают