Составить билингвальные датасеты для тренировки моделей маш. перевода

06.09.2024 13:22

«Фрилансим»

Составить 11 двуязычных датасетов для обучения модели машинного перевода. Нужны датасеты для следующих языковых пар, каждый объемом примерно 1 миллион слов (от 20.000 строк):

Русский -> Английский (RU-EN)
Венгерский -> Английский (HU-EN)
Китайский -> Английский (CN-EN)
Арабский -> Английский (AR-EN)
Корейский -> Английский (KO-EN)
Французский -> Английский (FR-EN)
Испанский -> Английский (ES-EN)
Итальянский -> Английский (IT-EN)
Немецкий -> Английский (DE-EN)
Турецкий -> Английский (TR-EN)
Японский -> Английский (JP-EN)

Готовы рассмотреть как готовые датасеты, так и собранные с нуля через веб-краулинг + выравнивание. Также готовы разделить задачу между несколькими исполнителями.
Тематика контента: кибербезопасность. Любой профессиональный контент в этой области.

Составить билингвальные датасеты для тренировки моделей маш. перевода

Читайте на 123ru.net

Новини України

Ru24.pro

Авто Новости