Российские учёные впервые с помощью ИИ прочитали зачёркнутые Пушкиным слова
Нейросеть сначала обучили на «Болдинской рукописи» зачёркивать незачёркнутые слова, а затем — «расчёркивать» зачёркнутые
Нейросеть сначала обучили на «Болдинской рукописи» зачёркивать незачёркнутые слова, а затем — «расчёркивать» зачёркнутые
Российские специалисты по нейросетям и лингвисты создали искусственный интеллект, помогающий прочитать зачёркнутые в рукописях Александра Пушкина слова, способные вызывать разночтения. По словам, Дмитрия Николаева, завотдела «Зрительные системы» ФИЦ ИУ РАН, нейросеть сначала обучили на «Болдинской рукописи» зачёркивать незачёркнутые слова, а затем — «расчёркивать» зачёркнутые.
Снять зачеркивания удалось благодаря нейросетевой архитектуре «Да Винчи», созданной в компании Smart Engines.
По словам Дмитрия Николаева, эта история началась с Национального корпуса русского языка (НКРЯ), когда выяснилось, что системные программисты, специалисты по поисковым системам и архитекторы программного обеспечения способны помочь лингвистам в создании новой платформы для статистического исследования русского языка. Вместе с Николаем Перцовым, который последние несколько лет занимается выявлением в известных академических изданиях текстуальных отличий от того, что в реальности написано в авторских рукописях, они начали совместную работу над проектом.
«Для меня стало неожиданностью, что даже в чистовых рукописях Пушкина присутствует множество зачёркнутых слов. Александр Сергеевич вносил правки неостановимо, всё время что-то улучшал. Кроме того, есть и документы со сторонней редакторской правкой, вплоть до Николая I. Потому этот вопрос представляет интерес и с исторической точки зрения: где-то рукописи правил сам поэт, а где-то — цензура».
Результаты исследований творчества Пушкина показали, что ряд мест в рукописях поэта установлен неточно. Это даёт учёным основание для ревизии уже существующих знаний, и нередко она приносит удивительные результаты — например, выясняется, что автор написал другое слово или использовал совершенно иную метафору.
Бывают случаи, когда зачёрнуто слово, над ним написано другое слово, и оно тоже зачёркнуто. Например, такое место встречается в черновой рукописи стихотворения «Кипренскому», написанной в 1827 году. В строчке «Но это зеркало мне льстит» слово «это» зачёркнуто, и над ним написано «чудо:», тоже зачёркнутое. Во всех изданиях сегодня печается слово «это», хотя, по всей видимости, поэт всё-таки остановил свой выбор на слове «чудо:».
С помощью ИИ Дмитрий Николаев и Николай Перцов работали над снятием зачёркиваний в рукописях Пушкина. На основании обучающих данных нейросеть должна запоминать, какие движения пера в незачёркнутых словах свойственны почерку Пушкина, и восстанавливать утраченные места, пользуясь моделью движений руки поэта. Перед тем, как использовать искусственный интеллект для снятия зачёркиваний в рукописях, было необходимо сперва добиться, чтобы нейросеть понимала, как именно Пушкин зачёркивал слова в своих текстах. Например, не путала две перечёркнутые вертикальные линии с буквой «Н».
На первом этапе использовалась так называемая генеративно-состязательная сеть (GAN, Generative Adversarial Network — прим. авт.), представляющая собой комплекс из двух нейросетей, одна из которых синтезирует тот или иной образ — в данном случае зачёркнутое слово из рукописи, а вторая пытается отличить сгенерированный образ от реального. Иными словами, задача первой сети — генерировать зачёркивания на основе исходного набора реальных изображений, а задача второй — различить, сгенерировано ли полученное зачёркивание нейросетью или же поступило из подлинника. Фактически эти сети соревнуются между собой. И если вторая сеть работает достаточно эффективно, первая — генерирующая — со временем учится создавать весьма правдоподобные изображения. Настолько убедительные, что вторая сеть не справляется с задачей отличения. В этом и состоит основной принцип GAN.
На втором этапе использовали полученные изображения с «убедительно» сгенерированными зачёркиваниями для обучения основной нейросети, чтобы та могла снимать зачёркивания, и можно было бы оценить эффективность её работы, зная верный ответ.
В итоге после обучения и тестирования нейросетей получилась программа, которая обрабатывает рукопись с зачёркиваниями и позволяет посмотреть, как зачёркнутые слова выглядели до зачёркивания.