Lmst

Больше данных — ровнее ландшафт нейросетей

Что если обучение нейросети — это путешествие по горному хребту, где каждая точка — набор весов, а высота — ошибка модели? Пока данных мало, рельеф напоминает Альпы: острые пики и опасные пропасти локальных минимумов. Но учёные МФТИ показали: чем больше примеров видит сеть, тем плавнее становится «ландшафт потерь» — резкие скалы сглаживаются, глубокие ущелья превращаются в широкие долины. В статье мы разбираем их теорию, подтверждённую экспериментами, сравниваем с другими работами о плоских минимумах, Hessian-спектре и skip-connections, и рассуждаем, как знание геометрии помогает решать практичные задачи: когда остановить сбор данных, как выбирать архитектуру и почему ширина слоёв иногда важнее глубины. Погружаемся в математический рельеф, чтобы понять, где в нём прячутся лучшие модели.

https://habr.com/ru/articles/906336/

#ландшафт_функции_потерь #нейросети #глубокое_обучение #матрица_гессе #плоские_минимумы #стабилизация_при_росте_выборки #сходимость_обучения #sample_complexity #теория_глубокого_обучения #мфти

#%D0%BB%D0%B0%D0%BD%D0%B4%D1%88%D0%B0%D1%84%D1%82_%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D0%B8_%D0%BF%D0%BE%D1%82%D0%B5%D1%80%D1%8C

Client Info