HyperWrite выпустила самую мощную открытую БЯМ: она исправляет саму себя
Одна из главных проблем больших языковых моделей — галлюцинации. Однако Reflection 70B умеет выявлять и исправлять собственные ошибки. Модель была обучена с использованием Reflection-Tuning — методики, которая позволяет обнаруживать неточности в собственном рассуждении и исправлять их перед окончательным формированием ответа. Модель может размышлять над сгенерированным текстом и оценивать его точность, прежде чем предоставлять его в качестве выходных данных пользователю.
Базовая модель Reflection 70B создана на основе Meta Llama 3.1 70B Instruct и использует стандартный формат чата Llama, что обеспечивает совместимость с существующими инструментами и платформами. Модель оснащена новыми специальными токенами, предназначенными для маркировки этапов рассуждения и обозначения ошибок. Такой подход позволяет пользователю отслеживать процесс генерации текста и вносить коррективы в процессе вывода модели.
Reflection 70B прошла тестирование на ряде бенчмарков, включая MMLU и HumanEval. Для исключения искажения результатов использовался инструмент очистки данных LLM Decontaminator от LMSys. Эти тесты показали, что Reflection превосходит модели серии Llama от Meta и успешно конкурирует с ведущими коммерческими моделями. На сайте для тестирования модели есть готовые вопросы.
Например, нужно узнать, сколько букв «r» в слове «strawberry» и какое число больше: 9,11 или 9,9. Такие простые запросы часто ставят в тупик даже самые умные ИИ-модели. Reflection 70B справилась с этими заданиями, хотя ей понадобилось больше минуты.
Ключевым фактором успеха Reflection 70B стали синтетические данные, созданные Glaive. Этот стартап специализируется на создании узкоспециализированных наборов данных под конкретные задачи, что позволяет быстро и недорого обучать небольшие языковые модели. Решая проблему дефицита высококачественных данных, Glaive демократизирует разработку ИИ. В общей сложности, процесс обучения Reflection 70B занял три недели.
Reflection 70B особенно полезна для задач, требующих высокой точности, поскольку она разделяет рассуждения на отдельные шаги. Модель доступна для загрузки через репозиторий кода AI Hugging Face, а доступ к API будет доступен позже.
Выпуск Reflection 70B — это только начало серии Reflection. На следующей неделе будет доступна еще более крупная модель Reflection 405B. Ожидается, что Reflection 405B превзойдет даже лидирующие модели с закрытым исходным кодом вроде GPT-4o от OpenAI. HyperWrite также работает над интеграцией модели Reflection 70B в свой основной продукт — помощник по написанию текстов на основе искусственного интеллекта. Стартап HyperWrite (ранее Otherside AI) существует с 2020 года. Изначально HyperWrite был расширением Chrome для упрощения написания текстов, но со временем он превратился в ИИ-инструмент, способный выполнять широкий спектр задач, от написания эссе до поиска информации в интернете. В марте 2023 года компания привлекла большие инвестиции, включая раунд на сумму $2,8 млн, а к ноябрю HyperWrite достиг 2 млн пользователей.