Анастасия Ракова рассказала об использовании нейросетей для распознавания архивных документов

Анастасия Ракова рассказала об использовании нейросетей для распознавания архивных документов

Больше 20 миллионов жителей Москвы воспользовались порталом «Поиск по архивам», который был запущен в столице год назад. Туда было загружено более 5,4 миллиона страниц исторических материалов из Главархива Москвы и других источников.

Заместитель мэра по социальному развитию Анастасия Ракова отметила, что благодаря этому сервису людям стало легче находить информацию о своих семьях. Кроме того, он помогает ученым и журналистам, а также использует искусственный интеллект для работы с устаревшими символами и рукописями.

Поиск по архивам - это сервис Яндекса, запущенный в начале 2023 года, который помогает быстро находить упоминания людей, населенных пунктов и событий в расшифрованных нейросетью рукописных документах XVIII-XX веков.

«На протяжении нескольких последних лет запросы, связанные с поиском предков и исследованием прошлого семьи, оказываются одними из самых популярных в Главархиве Москвы. Это особенно заметно в Год семьи, — отметила Ракова. — Мы стремимся помочь жителям в столь важном деле и ищем способы сделать доступ к документам проще. Так, несколько лет назад мы открыли онлайн-сервис «Моя семья» и разместили в нем оцифрованные метрические книги — документы, содержащие сведения о рождении, браке и смерти москвичей и жителей Московской губернии разных вероисповеданий. На основе ресурса «Моя семья» нейросеть «Поиска по архивам» училась читать рукописные тексты. За год работы сервиса к порталу обратились более 20 миллионов раз, что говорит о его популярности и необходимости. Сама же нейросеть проанализировала свыше 10 миллионов страниц исторических документов».

Этот сервис полезен историкам, социологам, демографам, журналистам и москвичам, помогая им находить информацию об исторических событиях и личностях. В «Поиске по архивам» уже есть документы из архивов 11 регионов, включая Москву, Московскую, Оренбургскую, Новгородскую, Иркутскую, Астраханскую области и другие. Всего нейросеть Яндекса распознала более 60 тысяч рукописных и печатных текстов середины XVIII - начала XX веков: в сумме это более 10 миллионов страниц или 492 миллиона строк. В «Поиске по архивам» хранятся расшифрованные архивные дела, содержащие информацию о людях, родившихся в России до 1917 года.

Кроме того, в этом сервисе собраны 3,6 миллиона цифровых страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости.

Технология расшифровки в «Поиске по архивам» основана на оптическом распознавании символов. Нейросеть учитывает утратившие актуальность знаки и особенности почерка, преобразуя трудночитаемые записи в печатный текст за несколько секунд. Для работы с версткой газетных страниц нейросеть обучена распознавать текст на огромных полосах, напечатанных мелким шрифтом на низкоплотной бумаге.

Читайте на 123ru.net