Не только ускорители NVIDIA: разметка данных становится одной из основных причин роста стоимости ИИ-моделей
Создание и обучение мощных ИИ-моделей может обходиться компаниям в сотни миллионов и миллиарды долларов в год. Например, OpenAI в 2024-м намерена потратить на эти цели до $7 млрд. Основная часть затрат приходится на аппаратные ресурсы, включая дорогостоящие ускорители NVIDIA. Но, как сообщает Fortune, существует ещё одна важная статья расходов, которая зачастую упускается из виду — необходимость качественной маркировки данных. Между тем именно эта работа требует всё больших финансовых вложений. Разметка (или маркировка) — процесс идентификации необработанных данных (изображений, текстовых файлов, видео и пр.) и добавления одной или нескольких значимых и информативных меток для обеспечения контекста. Это необходимо для того, чтобы ИИ-модель могла обучаться на таких массивах информации. Разметка данных требуется для различных сценариев использования, включая машинное зрение, обработку естественного языка и распознавание речи.