В DeepMind обнаружили, что БЯМ способны к "многократному" обучению
Многие популярные БЯМ способны усваивать новые задачи, используя примеры, представленные во время вывода и обладают способностью обучаться "в контексте". Это означает, что для обучения модели достаточно предоставить ей примеры решенных задач и новую задачу для решения — не нужно менять внутренние параметры. Такой подход упрощает обучение ИИ и делает его доступнее для широкого круга пользователей. Однако, способность модели к обучению ограничена размером окна контекста. Например, у модели GPT-3 это окно составляет всего 2000 токенов, поэтому ей все же нужно менять параметры.
Нынешние модели, такие как Gemini 1.5 Pro, способны работать с более чем миллионом токенов, что позволяет использовать тысячи примеров в каждом запросе. Это расширение возможностей значительно улучшает производительность моделей в различных задачах, таких как перевод малораспространенных языков, решение математических задач, понимание тона текста и другие. По результатам исследований, производительность модели продолжает расти с увеличением количества примеров в запросе.
Тем не менее, существует ограничение, связанное с необходимостью создания большого количества качественных примеров, что особенно затруднительно в задачах, требующих рассуждений. Исследователи предложили две https://venturebeat.com/ai/deepmind-researchers-discover-imp... для уменьшения зависимости от данных, созданных человеком: усиленное ICL (многоразовое обучения в контексте), которое использует примеры, сгенерированные другой моделью, и неконтролируемое ICL, которое опирается на внутренние знания модели о задаче.
В своем исследовании они также обнаружили, что методика ICL помогает модели преодолевать стереотипы мышления, закрепившиеся из-за прежнего обучения. Таким образом можно даже натренировать модель решать задачи, которые не связаны с естественным языком, где обычное обучение на нескольких примерах оказывается неэффективным.
Исследователи полагают, что ICL станет важным инструментом разработки и тестирования новых приложений на основе БЯМ на начальной стадии. Однако на этапе масштабирования проектов важно будет использовать все доступные техники для сокращения токенов. На этой стадии наиболее перспективно задействовать https://hightech.plus/2024/04/23/super-kompaktnaya-ii-model-... .