На пути к лезгинскому онлайн-переводчику
В последние годы интернет переживает подлинную революцию, связанную с развитием нейросетей и искусственного интеллекта на их базе. Эти перемены не обошли стороной и такую сферу интернета, как лингвистические технологии. Все современные онлайн-переводчики работают на базе обучающихся нейросетей, для которых каждый новый перевод - это пища для дальнейшего улучшения качества. Конечно же, наилучшее качество перевода достигается для больших европейских языков - английского, русского, испанского, немецкого и других с их огромными перекрестными массивами данных. Специалисты говорят, что совсем скоро переводы между этими языками будут вполне адекватны тем, которые делал бы человек. Но с каждым годом технические возможности и доступность нейросетевых технологий растут - и теперь очередь дошла до относительно небольших языков. Учитывая важность цифровизации в современных условиях, вопрос создания онлайн-переводчиков для языков народов России взяло под свою опеку Федеральное агентство по делам национальностей в сотрудничестве с компанией «Яндекс». На данный момент в Яндекс-переводчике, помимо русского, присутствуют еще 8 языков России: башкирский, марийский луговой, марийский горный, осетинский, татарский, удмуртский, чувашский, якутский. В течение трех лет в крупнейшем российском онлайн-переводчике должны появиться еще порядка 20 новых языков. Соответствующая работа в данный момент ведется в целом ряде регионов. Республика Дагестан в языковом вопросе, как известно, стоит особняком. Это регион с самым большим языковым разнообразием в России, и создание онлайн-переводчиков для каждого из них - долгий процесс. Тем не менее, при объединении усилий федерального центра, регионов, научных центров, общественных организаций и языковых активистов данная задача вполне реализуема. Напомним, что в мае этого года в Москве в офисе компании «Яндекс» прошла стратегическая сессия «Информационные технологии и языки народов России» , организованная Домом народов России при поддержке ФАДН России. Среди прочих, в ней принимали участие и представители ФЛНКА. Одним из итогов обсуждений стала предварительная договоренность о том, что в 2025 году, если будут пройдены все промежуточные этапы, ФЛНКА сможет способствовать включению лезгинского языка в Яндекс-переводчик. Основной задачей, которую необходимо реализовать для преодоления своеобразного «порога вхождения» в Яндекс-переводчик - создать корпус из 100 тысяч параллельных переводов предложений с русского на лезгинский. Это минимальное значение - чем больше будет переводов, тем лучше будет конечный продукт. При этом сами эти предложения важно взять из специального русско-английского корпуса размером в 1 миллион предложений, разработанного «Яндексом». Все эти данные обрабатываются искусственным интеллектом, который сам с помощью сложных математических моделей определяет внутренние закономерности языка и учится переводить. Даже сами разработчики подобных IT-продуктов признаются, что для них все это тоже порой выглядит как своеобразная магия. Примечательно, что в данный момент активно развивается открытый проект по созданию онлайн-переводчика, который создала и ведет группа молодых лезгинских энтузиастов - специалистов в сфере IT, в частности, искусственного интеллекта. Эта команда называет себя просто - Lezghian Community (Лезгинское сообщество). Данный проект создан уже на совершенно иной платформе под названием Huggingface. Команда проекта уже загрузила в свою базу данных для обучения искусственного интеллекта большие массивы текстов, включая все статьи из лезгинской Википедии, имеющуюся в открытом доступе литературу на лезгинском языке и даже перевод Библии. Принцип здесь тот же самый - необходимо создать достаточно большое число (чем больше, тем лучше) качественных параллельных переводов предложений. Потом все эти предложения загрузят в нейросеть - и можно пользоваться переводчиком! Основной инструмент пополнения базы данных переводов - специально разработанный для этой цели телеграм-бот , который позволяет в интерактивном режиме участвовать в проекте любому пользователю мессенджера телеграм. При активации бота он высылает пользователю случайное предложение на русском языке. Достаточно ввести в ответном сообщении перевод и отправить его. Желательно делать это регулярно, и поэтому модераторы создали специальное ежедневное напоминание для переводчиков. Как подчеркнул в беседе с ФЛНКА один из инициаторов и моторов проекта Саид Азизов (да, это именно тот вундеркинд из Каспийска, который в 17 лет победил в Международном конкурсе по искусственному интеллекту), главные принципы деятельности Lezghian Community - исключительно некоммерческий характер и полная открытость на всех этапах. Тем не менее, как уверяют авторы проекта, это совершенно не значит, что в итоге в переводчике будут хаотичные переводы низкого качества. Обязательным этапом станет специальная модерация и проверка всего корпуса профессионалами. И в решении задачи привлечения профессионалов - знатоков языка - свою поддержку окажет ФЛНКА. Кроме того, самых активных и профессиональных переводчиков ждут вознаграждения. Отметим, что буквально спустя несколько дней после объявления о начале работы бота для создания онлайн-переводов база предложений уже насчитывает несколько тысяч - то ли еще будет! Уже сейчас, даже на базе имеющегося небольшого количества переводов, функционирует открытый прототип переводчика – каждый может убедиться в этом, перейдя по ссылке . Учитывая, что для создания переводчика на любой из упомянутых платформ необходимо решить примерно одну и ту же задачу, представляется наилучшим решением консолидировать усилия всех заинтересованных сторон для формирования максимально большого и качественного корпуса параллельных текстовых переводов. Этот же корпус может быть использован в дальнейшем для включения лезгинского языка еще и в «Гугл-переводчик», самый большой и известный среди подобных сервисов. А уж у кого в итоге перевод окажется лучше - определят пользователи. Таким образом, нет сомнений, что уже в обозримом будущем благодаря общим усилиям и новым технологиям удастся создать лезгинский онлайн-переводчик - один из важных и долгожданных инструментов для сохранения, популяризации и развития родного языка.