Нейросети «Яндекса» столкнулись с дефицитом текстов на различных языках

Нейросети «Яндекса» испытывают нехватку текстов на экзотических языках, чтоухудшает качество работы ИИ, пишут

«Ведомости» со ссылкой на директора по развитию технологийИИ «Яндекса» Александра Крайнова. Разработчики моделей машинного обучения (LLM)сталкиваются с проблемой во время работы.

Чтобы обучить языковую модель, нужно найти много хороших текстов, поясняетКрайнов. Он уточняет, что такого объема нет физически. На английском языке ихдостаточно, даже избыточно. На русском компания собирает все, что можетполучить. Однако если говорить об узбекском, таджикском или казахском языках,то «их не просто недостаточно — их нет».

Наличие такой проблемы подтверждает менеджер ИИ-продуктов Just AI АлексейБорщов. Он акцентирует внимание на том, что есть сложности с диалектами,редкими языками и языками с ограниченным объемом текстовых данных. Крайновдопускает, что уровень и качество работы языковых моделей могут стать ниже,если не будет хватать обучающих данных.

Читайте на 123ru.net