Одни из самых раздражающих вещей в обучении нейронной сети — это время, необходимое для её тренировки, и объём памяти, необходимый сети для того, чтобы вместить все нужные данные и модели. Поскольку классификация изображений является одной из наиболее распространённых задач машинного обучения, компания Deepmind выпустила новую модель, которая соответствует современному уровню технологии в этой области, но со значительно более высокой скоростью обучения и улучшенной техникой оптимизации.
В своей работе исследователи из Deepmind изучают наиболее прогрессивные текущие модели, такие как EfficientNet и остаточные нейронные сети (ResNet). Они выделяют некоторые методы оптимизации, которые используют много памяти, не давая при этом значительного улучшения результативности. Авторы доказывают, что нейронные сети могут достичь той же результативности без использования этих громоздких методов оптимизации.
Многие современные нейросети используют метод пакетной нормализации (batch-normalization) для оптимизации своей работы. Но исследователи из Deepmind считают, что этот метод нужно пересмотреть, ведь он достаточно затратный и к тому же часто приводит к ошибкам.
Несмотря на то, что в различных работах уже предпринимались попытки удалить пакетную нормализацию (ПН), результаты не соответствовали производительности новейших моделей нейросетей или замедляли тренировку моделей.
Теперь исследователям удалось удалить ПН без ущерба для производительности нейросети. Для этого они предлагают технику адаптивного усечения градиента (adaptive gradient clipping, AGC). Её суть, вкратце, состоит в том, что простое вычисление подсказывает, насколько один шаг градиентного спуска может повлиять на результат. Если это значение несущественно, градиент усекается. С помощью этой адаптивной техники авторы работы смогли избавиться от ПН, при этом их модели соответствуют лучшим образцам современных нейросетей в результативности, будучи быстрее их в обучении.