У Китая теперь есть самая мощная нейросеть: она в разы умнее конкурентов от Google и Open AI
Когда в мае 2020 года была представлена нейросеть GPT-3 разработки Open AI, она установила новый стандарт в глубоком обучении и считалась самой передовой на тот момент. ИИ-модель могла генерировать текст, который практически не отличался от того, что был написан человеком. Но уже спустя 10 месяцев исследователи из Пекинской академии искусственного интеллекта объявили о создании собственной генеративной модели нейронной сети под названием Wu Dao, способной делать всё, что умеет GPT-3 и даже больше.
Всего через три месяца появилась Wu Dao 2.0 с 1,75 трлн параметров, что в 10 раз мощнее, чем GPT-3 и на 150 млрд параметров больше, чем у Google Switch Transformers. Китайские специалисты сначала разработали систему обучения с открытым исходным кодом, похожую на Google Mixture of Experts и получившую название FastMoE. Она позволяла обучать модель нейронной сети как на кластерах суперкомпьютеров, так и на обычных графических процессорах. Это дало системе большую гибкость, поскольку она не требовала проприетарного оснащения, как у Google, и могла работать на стандартном оборудовании.
Со всей этой вычислительной мощностью у новой нейросети появился огромный набор возможностей. В отличие от большинства моделей глубокого обучения, которые зачастую выполняют какую-то одну задачу, Wu Dao является мультимодальной, то есть может выполнять несколько задач. Теоретически она похожа на ИИ, который использует Facebook для борьбы с ненавистью и дезинформацией.
Исследователи продемонстрировали способности Wu Dao выполнять задачи по обработке естественного языка, генерации изображений и текста, распознаванию изображений. Нейросеть может не только писать эссе, стихи и двустишия на традиционном китайском языке, но и способна создавать альтернативный текст на основе статического изображения и генерировать почти фотореалистичные изображения по описанию. Wu Dao имитирует речь, создаёт кулинарные рецепты и предсказывает трёхмерную структуру белков, подобно AlphaFold.
Для обучения Wu Dao 2.0 было использовано почти 5 ТБ данных. Разработкой уже заинтересовались несколько десятков компаний.