Математическая статистика: оценка параметров и машинное обучение
Математическая статистика оценивает параметры распределений, используя метод максимального правдоподобия и байесовский подход.
Связь с оптимизацией тридцать шестой статьи и стохастикой тридцать седьмой статьи.
Метод максимального правдоподобия
Логарифм правдоподобия (L( heta) = sum ln f(x_i| heta)), МПЭ (hat{ heta} = argmax L( heta)). Асимптотическая нормальность (sqrt{n}(hat{ heta} - heta) o N(0,I^{-1}( heta))), где (I( heta)) — матрица Фишера. Градиентный спуск тринадцатой статьи для вычислений.
Выборки и сходящиеся оценки параметров к истинным значениям
. График показывает состоятельность.
Линейная регрессия и наименьших квадратов
(min |y - Xeta|^2), решение (hat{eta} = (X^T X)^{-1} X^T y). Дисперсия ( ext{Var}(hat{eta}) = sigma^2 (X^T X)^{-1}). R² коэффициент детерминации, F-тест значимости.
Статистические методы содержатся в пособиях https://mathprofi.com/knigi_i_kursy/files/predely_demo.pdf. Лекции МГУ https://math.msu.ru/sites/default/files/posobie_po_predelam.pdf.
Методы регуляризации и SVM
Ridge (min |y-Xeta|^2 + lambda |eta|^2), Lasso (+ lambda |eta|_1). SVM: максимальный отступ (max gamma), двойственная (max_alpha sum alpha_i - frac{1}{2} sum alpha_i alpha_j y_i y_j K(x_i,x_j)). Ядра (K(x,x') = (x^T x' + c)^d).
Разделяющая гиперплоскость с максимальным отступом и опорными векторами
. График показывает классификацию.
Связь с глубоким обучением
Градиентный спуск, Adam оптимизатор, dropout регуляризация. Байесовские нейросети оценивают неопределённость.
Рекомендуемые книги по математической статистике
Полезны лекции http://old.math.nsc.ru/~matanalyse/basic2.pdf и алгебра http://old.math.nsc.ru/LBRT/a1/sotr/lections_1.pdf. Источники содержат приложения ML.