Вопрос о гиперпараметрах m и b является распространенным источником путаницы в основах машинного обучения, особенно в контексте линейной регрессии, которая обычно рассматривается в контексте Google Cloud Machine Learning. Для прояснения этого вопроса необходимо различать параметры модели и гиперпараметры, используя точные определения и примеры.
1. Понимание параметров и гиперпараметров
Параметры модели: В машинном обучении параметры — это внутренние переменные модели, которые изучаются на основе обучающих данных в процессе обучения. Эти переменные напрямую определяют поведение модели. Для линейной регрессии — часто первого примера, приводимого в руководствах по машинному обучению — наиболее распространенными параметрами являются наклон и точка пересечения с осью Y в уравнении прямой линии:
![]()
–
Наклон линии.
–
: Точка пересечения линии с осью Y.
В процессе обучения алгоритм машинного обучения находит оптимальные значения
и
чтобы линия наилучшим образом соответствовала данным согласно функции потерь, обычно это среднеквадратная ошибка.
Гиперпараметры: Гиперпараметры, с другой стороны, представляют собой параметры конфигурации, внешние по отношению к модели и устанавливаемые до начала процесса обучения. Они не изучаются на основе данных, а управляют аспектами процесса обучения или структурой самой модели. Примерами могут служить скорость обучения, количество эпох обучения, размер пакета, сила регуляризации и, в некоторых алгоритмах, количество скрытых слоев или количество деревьев в случайном лесу. Определение оптимального набора гиперпараметров часто осуществляется с помощью таких процессов, как поиск по сетке, случайный поиск или байесовская оптимизация.
2. Роль m и b в обучении модели
В контексте линейной регрессии, часто обсуждаемой в вводных видеороликах по машинному обучению,
и
Это не гиперпараметры. Это параметры. Различие основано на их функции:
– Они *изучаются на основе данных* алгоритмом в процессе обучения.
– Они напрямую определяют прогностическую функцию модели (т.е. линию, проходящую через точки данных).
– Они изменяются по мере того, как алгоритм итеративно улучшает соответствие данным.
Например, если вы предоставите разные обучающие данные одному и тому же алгоритму линейной регрессии, результирующие значения
и
Вероятно, ситуация изменится, отражая основную тенденцию, выявленную в новых данных.
3. Примеры гиперпараметров в линейной регрессии и других алгоритмах
В то время как
и
В случае линейной регрессии и других моделей гиперпараметры присутствуют. В случае базовой, нерегуляризованной линейной регрессии гиперпараметры могут быть минимальными или даже отсутствовать, но в практических приложениях или более сложных версиях к распространенным гиперпараметрам относятся:
– Скорость обучения: Определяет размер шагов, предпринимаемых в направлении градиента во время оптимизации. Слишком высокая скорость обучения может привести к тому, что модель перескочит через минимум; слишком низкая — к медленной сходимости.
– Количество Эпох: Количество полных проходов по обучающему набору данных. Выбор слишком малого количества эпох может привести к недообучению, а слишком большого — к переобучению.
– Размер партии: Количество обучающих выборок, используемых для вычисления каждого обновления параметров модели. Меньший размер пакета может привести к более шумным обновлениям, но может обеспечить лучшую обобщающую способность.
– Сила регуляризации (например, гребневая регрессия или регрессия Лассо): Контролирует штраф за большие значения параметров, помогая предотвратить переобучение, поскольку препятствует созданию чрезмерно сложных моделей.
Эти гиперпараметры должны быть выбраны или настроены специалистом, как правило, до начала обучения модели.
4. Дидактическая ценность данного различия
Понимание разницы между параметрами и гиперпараметрами является основополагающим в машинном обучении. Это различие влияет на стратегии обучения моделей, экспериментирования и развертывания. Например:
– Модельное обучение: В процессе обучения обновляются только параметры с помощью таких алгоритмов, как градиентный спуск. Гиперпараметры остаются фиксированными, если только цикл обучения не будет явно перезапущен с другими значениями.
– Эксперименты: Настройка гиперпараметров — это отдельный процесс, не связанный с обучением. Практикующие специалисты часто выделяют набор данных для валидации или используют перекрестную валидацию для оценки влияния различных значений гиперпараметров.
– Воспроизводимость результатов: Документирование гиперпараметров важно для воспроизводимости результатов, в то время как параметры модели обычно сохраняются вместе с обученной моделью для последующего вывода.
5. Распространенные заблуждения и разъяснения
Распространенное заблуждение заключается в том, что любая переменная в модели является гиперпараметром. В видеоролике, на который ссылается вопрос, вероятно, используется...
и
Чтобы проиллюстрировать, как модель «учится» на данных, возможно, с помощью анимации или пошаговой подгонки. Эти переменные изменяются по мере того, как модель оптимизирует свою функцию потерь. Гиперпараметры, напротив, можно обсудить в контексте настройки процесса обучения, например, указания скорости обучения для градиентного спуска:
Пример:
– Линейная регрессия с градиентным спуском может использовать скорость обучения (
) в качестве гиперпараметра. Значения
и
Начальные значения задаются с помощью приближений (часто случайных или нулевых) и итеративно обновляются в соответствии с вычисленными градиентами и скоростью обучения.
Ещё один пример из логистической регрессии:
– Параметры модели: веса и смещение (аналогично
и
(в линейной регрессии).
– Гиперпараметры: скорость обучения, количество итераций, тип и сила регуляризации.
6. Более широкие перспективы и области применения
Это различие характерно не только для линейной регрессии. В нейронных сетях, например:
– Параметры: Весовые коэффициенты и смещения каждого нейрона, усвоенные в процессе обучения.
– Гиперпараметры: Количество слоев, количество нейронов в слое, функции активации, скорость обучения, размер пакета, тип оптимизатора и другие параметры.
В деревьях решений:
– Параметры: Конкретные варианты разделения, выбранные на каждом узле, определяются на основе полученных данных.
– Гиперпараметры: Максимальная глубина дерева, минимальное количество выборок на лист, критерий для выбора расщепления.
7. Заключение и практические советы
При решении новой задачи машинного обучения четкое понимание того, какие переменные являются параметрами (которые необходимо изучить), а какие — гиперпараметрами (которые необходимо установить до начала обучения), позволяет проводить более эффективные эксперименты и повышать производительность модели. Правильная настройка гиперпараметров может значительно улучшить результаты, а корректная оценка параметров гарантирует, что модель точно отражает закономерности в данных.
В прямой ответ на исходный вопрос:
и
параметрыВ контексте видео и стандартной практики машинного обучения гиперпараметры — это не гиперпараметры, а другие внешние параметры, такие как параметры, управляющие процессом оптимизации или сложностью модели. Понимание этого различия имеет фундаментальное значение для успешного применения методов машинного обучения.
Другие недавние вопросы и ответы, касающиеся 7 шагов машинного обучения:
- Насколько машинное обучение похоже на генетическую оптимизацию алгоритма?
- Можно ли использовать потоковые данные для непрерывного обучения и использования модели, одновременно улучшая её?
- Что такое моделирование на основе PINN?
- Какие данные мне нужны для машинного обучения? Изображения, текст?
- Как наиболее эффективно создать тестовые данные для алгоритма машинного обучения? Можно ли использовать синтетические данные?
- Можно ли использовать слои моделирования на основе PINN и динамические графы знаний в качестве основы вместе со слоем оптимизации в модели конкурентной среды? Допустимо ли это для небольших выборок неоднозначных реальных данных?
- Может ли объем обучающих данных быть меньше объема оценочных данных, чтобы заставить модель обучаться с большей скоростью за счет настройки гиперпараметров, как в самооптимизирующихся моделях, основанных на знаниях?
- Поскольку процесс машинного обучения является итеративным, используются ли одни и те же тестовые данные для оценки? Если да, то снижает ли повторное воздействие одних и тех же тестовых данных их полезность в качестве неизвестного ранее набора данных?
- Приведите конкретный пример гиперпараметра.
- Как использовать фреймворк DEAP GA для настройки гиперпараметров в Google Cloud?
Больше вопросов и ответов можно найти в разделе «7 шагов машинного обучения».

