Наш канал в Телеграм
Новости  6.02.25   14:02 307

Российские учёные впервые с помощью ИИ прочитали зачёркнутые Пушкиным слова

Нейросеть сначала обучили на «Болдинской рукописи» зачёркивать незачёркнутые слова, а затем — «расчёркивать» зачёркнутые

Российские специалисты по нейросетям и лингвисты создали искусственный интеллект, помогающий прочитать зачёркнутые в рукописях Александра Пушкина слова, способные вызывать разночтения. По словам, Дмитрия Николаева, завотдела «Зрительные системы» ФИЦ ИУ РАН, нейросеть сначала обучили на «Болдинской рукописи» зачёркивать незачёркнутые слова, а затем — «расчёркивать» зачёркнутые.

Снять зачеркивания удалось благодаря нейросетевой архитектуре «Да Винчи», созданной в компании Smart Engines.

По словам Дмитрия Николаева, эта история началась с Национального корпуса русского языка (НКРЯ), когда выяснилось, что системные программисты, специалисты по поисковым системам и архитекторы программного обеспечения способны помочь лингвистам в создании новой платформы для статистического исследования русского языка. Вместе с Николаем Перцовым, который последние несколько лет занимается выявлением в известных академических изданиях текстуальных отличий от того, что в реальности написано в авторских рукописях, они начали совместную работу над проектом.

«Для меня стало неожиданностью, что даже в чистовых рукописях Пушкина присутствует множество зачёркнутых слов. Александр Сергеевич вносил правки неостановимо, всё время что-то улучшал. Кроме того, есть и документы со сторонней редакторской правкой, вплоть до Николая I. Потому этот вопрос представляет интерес и с исторической точки зрения: где-то рукописи правил сам поэт, а где-то — цензура».

Дмитрий Николаев, завотдела «Зрительные системы» ФИЦ ИУ РАН

Результаты исследований творчества Пушкина показали, что ряд мест в рукописях поэта установлен неточно. Это даёт учёным основание для ревизии уже существующих знаний, и нередко она приносит удивительные результаты — например, выясняется, что автор написал другое слово или использовал совершенно иную метафору.

Бывают случаи, когда зачёрнуто слово, над ним написано другое слово, и оно тоже зачёркнуто. Например, такое место встречается в черновой рукописи стихотворения «Кипренскому», написанной в 1827 году. В строчке «Но это зеркало мне льстит» слово «это» зачёркнуто, и над ним написано «чудо:», тоже зачёркнутое. Во всех изданиях сегодня печается слово «это», хотя, по всей видимости, поэт всё-таки остановил свой выбор на слове «чудо:».

С помощью ИИ Дмитрий Николаев и Николай Перцов работали над снятием зачёркиваний в рукописях Пушкина. На основании обучающих данных нейросеть должна запоминать, какие движения пера в незачёркнутых словах свойственны почерку Пушкина, и восстанавливать утраченные места, пользуясь моделью движений руки поэта. Перед тем, как использовать искусственный интеллект для снятия зачёркиваний в рукописях, было необходимо сперва добиться, чтобы нейросеть понимала, как именно Пушкин зачёркивал слова в своих текстах. Например, не путала две перечёркнутые вертикальные линии с буквой «Н».

На первом этапе использовалась так называемая генеративно-состязательная сеть (GAN, Generative Adversarial Network — прим. авт.), представляющая собой комплекс из двух нейросетей, одна из которых синтезирует тот или иной образ — в данном случае зачёркнутое слово из рукописи, а вторая пытается отличить сгенерированный образ от реального. Иными словами, задача первой сети — генерировать зачёркивания на основе исходного набора реальных изображений, а задача второй — различить, сгенерировано ли полученное зачёркивание нейросетью или же поступило из подлинника. Фактически эти сети соревнуются между собой. И если вторая сеть работает достаточно эффективно, первая — генерирующая — со временем учится создавать весьма правдоподобные изображения. Настолько убедительные, что вторая сеть не справляется с задачей отличения. В этом и состоит основной принцип GAN.

На втором этапе использовали полученные изображения с «убедительно» сгенерированными зачёркиваниями для обучения основной нейросети, чтобы та могла снимать зачёркивания, и можно было бы оценить эффективность её работы, зная верный ответ.

В итоге после обучения и тестирования нейросетей получилась программа, которая обрабатывает рукопись с зачёркиваниями и позволяет посмотреть, как зачёркнутые слова выглядели до зачёркивания.

Источник: RTVI
Правила сообщества
  • будьте вежливы, уважайте участников;
  • старайтесь оставлять информативные, полезные и интересные комментарии;
  • соблюдайте действующее законодательство;
  • мы не приветствуем размещение промокодов и рекламы;
  • вы тоже можете стать автором или участником проекта и продвигать свои промокоды;