Составить билингвальные датасеты для тренировки моделей маш. перевода
Составить 11 двуязычных датасетов для обучения модели машинного перевода. Нужны датасеты для следующих языковых пар, каждый объемом примерно 1 миллион слов (от 20.000 строк):
Тематика контента: кибербезопасность. Любой профессиональный контент в этой области.
- Русский -> Английский (RU-EN)
- Венгерский -> Английский (HU-EN)
- Китайский -> Английский (CN-EN)
- Арабский -> Английский (AR-EN)
- Корейский -> Английский (KO-EN)
- Французский -> Английский (FR-EN)
- Испанский -> Английский (ES-EN)
- Итальянский -> Английский (IT-EN)
- Немецкий -> Английский (DE-EN)
- Турецкий -> Английский (TR-EN)
- Японский -> Английский (JP-EN)
Тематика контента: кибербезопасность. Любой профессиональный контент в этой области.