Nature: специалисты решили проблему катастрофического забывания у ИИ

Специалисты по искусственному интеллекту и компьютерным наукам из Университета Альберты решили проблему катастрофического забывания в современных искусственных нейронных сетях, которая мешала им обучаться на новых данных.

Новая методика, описанная в статье, опубликованной в журнале Nature, позволит ИИ продолжать обучение бесконечно.

Катастрофическое забывание нейронных сетей проявляется в утрате способности выполнять предыдущие задачи при обучении новым. Это также справедливо для больших языковых моделей (Large Language Models, LLM), включая серию GPT, которые были разработаны для обучения на фиксированных наборах данных.

При обучении нейронной сети происходят математические вычисления, изменяющие веса связей между искусственными нейронами. Как и сила синапсов в биологическом мозге, эти веса определяют важность информации, проходящей через связи. Современные методы обучения, такие как стохастический градиентный спуск и обратное распространение ошибки, не могут эффективно работать с комбинацией старых и новых данных, и причины этого явления до конца не изучены.

В новом исследовании ученые использовали стандартные алгоритмы обучения и классические наборы данных ImageNet и CIFAR-100, адаптированные для непрерывного обучения. Было показано, что методы глубокого обучения теряют эффективность при непрерывном обучении, что получило название «потеря пластичности» (loss of plasticity).

Чтобы устранить эту проблему и помочь нейросетям сохранять пластичность длительное время, исследователи предложили сбрасывать веса менее используемых узлов в нейросети между сеансами обучения. Новый алгоритм, названный непрерывным обратным распространением ошибки, предполагает повторную инициализацию некоторого числа менее используемых и случайно выбранных единиц с использованием методов, применяемых при начальной настройке системы. Было доказано, что этот подход позволяет нейросетям продолжать обучение на новых наборах данных без утраты ранее приобретенных знаний.

В будущем планируется дальнейшее исследование и усовершенствование подходов к регуляции параметров, что позволит еще более гибко и эффективно переносить уже накопленные знания на новые задачи. Это станет значительным шагом к созданию действительно универсальных и самообучающихся интеллектуальных систем, которые могут адаптироваться к быстро меняющимся условиям и лучше справляться с огромным количеством разнообразных задач реального мира.

Читайте на 123ru.net