Гарвард выпустил большую и бесплатную базу данных по ИИ
Гарвардский университет выпустил большой набор данных из почти миллиона книг, находящихся в открытом доступе, чтобы предоставить ценные ресурсы для обучения искусственного интеллекта.
Финансируемая Microsoft и OpenAI, эта база данных включает в себя книги из проекта Google Books, на которые больше не распространяется авторское право. Эта коллекция в пять раз больше, чем известный набор данных Books3, используемый такими моделями ИИ, как *Meta Llama. Она охватывает самые разные жанры, от классики вроде Шекспира и Диккенса до нишевых произведений на разных языках.
Инициатива, возглавляемая Институциональной инициативой данных Гарварда, направлена на то, чтобы предоставить стартапам и исследователям в области ИИ доступ к «высококачественным данным», которые обычно предназначены для крупных технологических компаний. Набор данных будет доступен для использования наряду с другими лицензированными материалами для построения моделей ИИ.