В последнее время наблюдается тенденция нетерпимости к недобросовестному написанию научных и выпускных квалификационных работ как учёных и преподавателей, так и самих студентов. Казалось бы, тема плагиата должна быть исчерпана в связи с развитием специальных цифровых сервисов, позволяющих выявлять неправомерные заимствования на ранней стадии.
Однако не всё так просто: без внятной и однозначной экспертной оценки за плагиат в ряде случаев принимают самоцитирования и корректные заимствования, а к публикации берут псевдонаучные статьи, да и культура академического письма у отечественных исследователей в целом довольно низка.
24–25 октября в НИТУ «МИСиС» состоялась научно-практическая конференция «Обнаружение заимствований», организованная компанией «Антиплагиат» совместно с Минобрнауки России, Ассоциацией научных редакторов и издателей (АНРИ), Российской государственной библиотекой (РГБ) и Российской ассоциацией электронных библиотек. Открывая конференцию, академик РАН и РАО Алексей СЕМЁНОВ обратил внимание слушателей на два важных обстоятельства.
— Во-первых, обнаружение заимствований — это серьёзная тема, которая и в широком смысле, и в узком относится сегодня к искусственному интеллекту. Это работа с текстами естественного языка, при которой выявляется много полезных алгоритмов независимо от задачи обнаружения заимствований.
Во-вторых, обнаружение заимствований — это попытка подвести технологию под некоторую новую мораль цифрового мира. Становление цифровой этики — дело непростое. Когда у педагогов спрашиваешь, почему бы им не разрешить детям пользоваться всем богатством мирового информационного пространства, то ответ простой: они будут списывать рефераты из Интернета. Но от того, что учителя это запретят, ситуация не изменится. Списывать будут больше, ощущая некоторую вину и развивая способность обманывать. Мы много говорили о том, что в ЕГЭ нарастает нечестность. Была сделана простая вещь: поставлены камеры, с которых ситуация на ЕГЭ транслировалась в Интернет. Точно так же работа «Антиплагиата» и «Диссернета» привела к тому, что волна совсем откровенного списывания, изготовления фальшивых диссертаций была сбита. Люди оглянулись и поняли, что честно жить, в общем-то, неплохо.
С концептуальным докладом на тему «Современные проблемы обнаружения заимствований в России и мире» выступил исполнительный директор компании «Антиплагиат» Юрий ЧЕХОВИЧ. Как отметил эксперт, стартом для осознания проблем в сфере заимствований послужил приказ № 636 Минобрнауки России, подписанный в 2015 г. Документ обязал вузы проверять все выпускные квалификационные работы (ВКР).
— В 2017 г. мы провели исследование локальных актов вузов, с тем чтобы понять, как они используют систему обнаружения заимствований. Ключевой вывод состоял в том, что организации, которые должны проверять тексты на заимствования, чаще всего делают это некорректно. Основная проблема — слепое доверие процентам. Любая система обнаружения заимствования — это поисковик, с ней обязательно должен работать человек. Ещё год назад я полагал, что это исключительно отечественная проблема: мы начали заниматься данным вопросом поздно, а на Западе другая культура и там всё иначе. Ничего подобного. В марте текущего года вышла небольшая заметка в Nature, и стало понятно, что там проблемы точно такие же: работы загружают в систему, получают проценты и делают выводы, на основании которых некачественные работы принимаются к публикации и защитам, а хорошие — отвергаются. Оказывается, фактора времени недостаточно. Мы пытаемся решать проблему, предлагая корректные методики, но область слишком новая для всех и, вообще, этика, право, мораль в использовании ИТ — тема, которой нужно серьёзно заниматься.
Важная проблема, по словам выступающего, — отсутствие значимых движений в сфере разработки нормативно-правовой базы.
— За последние два года серьёзных документов в России не вышло. Осенью 2018 г. Президент РФ подписал поправки к Федеральному закону «О рекламе», запретили рекламировать услуги по написанию квалификационных работ, диссертаций и дипломов, но это условная мера, которую очень легко обойти. До сих пор нет разъяснений ВАК при Минобрнауки России по корректности использования диссоветами пороговых критериев. Соискатель приносит диссертацию, её проверяют, оценивают процент заимствований и отклоняют, несмотря на то что в ней содержатся цитаты из статей самого же автора. Встречаются работы, в которых есть обходы «Антиплагиата» с помощью омоглифии, т.е. замены русских символов на латинские. Этот обход не работал никогда. Но сам факт говорит о страхе, о любых средствах, применяемых для того, чтобы хоть что-то сделать с процентом, выдаваемым машиной.
Следующая проблема — неготовность существующих систем обнаружения заимствований соответствовать требованиям пользователей.
— Они хотят, чтобы работы проверялись мгновенно, чтобы не было задержек в течение сессии, чтобы охватывались все источники, чтобы не было ложноотрицательных и ложноположительных оценок, чтобы систему было удобно использовать, чтобы не требовалось вмешательства и не нужно было тратить время на обучение. Реальность такова, что проверка происходит в течение нескольких минут, существуют пиковые периоды, а база поиска любой системы ограниченна. Всегда будет источник, с которого можно списать, например неоцифрованная книга в библиотеке. Эксперт должен быть готов к тому, что любая система покажет не всё, и при оценке работы следует учитывать не только тот процент, который показывает сервис, но и другие признаки. А вот вопрос, действительно ли редакторы и преподаватели хотят минимально вмешиваться в процесс, остаётся открытым. Это удобно, не требует времени, но ведёт к тому, что уменьшится потребность в экспертах: машины смогут лучше оценивать человека, да и учить тоже. И конечно, серьёзные инструменты нельзя использовать без обучения.
Очередная проблема — оценка качества решений в области обнаружения заимствований.
— Мы понимаем, что пользователю очень сложно оценить качество. Нередко определённое число, которое выдаёт какая-либо система, он принимает за истину в последней инстанции. То есть это проблема доверия инструменту. На постсоветском научном пространстве слово «Антиплагиат» стало нарицательным, и этим термином стали называть многочисленные пустые системы: они мало что способны найти, но люди им верят. Осенью этого года разразился диссертационный скандал в Казахстане. У заместителя министра образования республики обнаружили серьёзные неправомерные заимствования. Так получилось, что подведомственная организация, назвав свою систему «Антиплагиатом», выдала справку о том, что в работе всё нормально. А критика пошла в наш адрес. Пришлось вмешаться и расставить точки над i. «Антиплагиат» работает, но мораль проста: если организация, принимая работы, доверяет инструменту, недостаточно полно охватывающему источники, то результат может неприятно удивить.
Наконец, самоцитирования. Мы инициировали исследование и попытались провести границу между тем, когда это правильно и этично, и тем, когда становится самоплагиатом. Для анализа взяли более 4 млн публикаций из eLibrary, жанр которых был обозначен как научная статья. Для каждого документа в базе искали аналог. Выяснилось, что 70 тыс. текстов стали основой для 154 тыс. статей. Очевидно, что это случаи самоплагиата. В одном из кейсов текст послужил базой для 17 статей в разных журналах. Всего это около 3,5% объёма статей за текущий год. 48 тыс. случаев — статьи, опубликованные в том же году.
Таким образом, самоцитирование — явление распространённое. Значительная часть статей с самоплагиатом не отозвана, и это серьёзная проблема, подчеркнул эксперт.
К дискуссии подключился заместитель генерального директора РГБ Александр ВИСЛЫЙ.
— Аналогичная ситуация наблюдалась 10 лет назад, когда начались проверки по базе данных диссертаций. Очевидно, что это хроническая болезнь. Но давайте оценим основу для проверки заимствований в научной периодике. В России издаётся около 6 тыс. научных журналов, и около 4 тыс. из них какие-то свои данные присылают в eLibrary. В числе этих изданий есть те, которые находятся на самом высоком уровне, представлены на международной арене. О том, сколько таких изданий, можно судить по российскому сегменту Web of Science, куда на русском языке загружается примерно 750 наименований. А вот верхний уровень — это те журналы, которые выходят под эгидой РАН. Таких изданий 197. Это то ядро науки, в котором никто ни у кого не должен списывать. Большая часть этих журналов переводится на английский язык, а затем включается в международные электронные базы данных Springer, Web of Science и т.д.
Когда проводится проверка по статьям eLibrary, уверены ли мы в полноте базы данных? Вообще, какой резон представлять в эту систему полные тексты? Да, наверное, можно что-то на этом заработать. Кроме того, eLibrary обеспечивает Российский индекс научного цитирования (РИНЦ) и нужно постараться, чтобы статья в этой базе присутствовала. Только следует понимать, что eLibrary на сегодняшний день — это коммерческая компания. В последние годы мы видим, что часть даже академических журналов, продолжая поставлять в eLibrary библиографическую информацию, полные тексты статей не предоставляет. Для РИНЦ достаточно метаданных, а полные тексты не дают по двум причинам. Во-первых, то, что журналы зарабатывают в eLibrary, не окупает их расходов. Во-вторых, по узким областям знания появляются свои аналоги eLibrary. По такому пути идёт, в частности, Математический институт имени В.А. Стеклова РАН с проектом Math.net.
Мы находимся на этапе, когда самая интересная доля журналов отсутствует в зоне eLibrary и не осуществляет проверку на плагиат. Даже в тех случаях, когда издательства стараются опубликовать свои статьи в Интернет за собственные средства, их сложно собрать в общую базу. Думаю, что ситуация будет развиваться путём объединения журналов по кластерам, предоставления доступа к электронным копиям и в результате база для проверки на заимствования начнёт постепенно размываться.
Эксперт отметил, что существует механизм, который позволит создать объединённую базу для проверки статей по аналогии с диссертациями.
— Мы создали новую технологию, при которой диссертация в электронную базу РГБ попадает за месяц до защиты. Технология работает с 2019 г., и мы уверены в 100%-ном охвате. Бывают случаи, когда диссертация снимается с защиты или не защищается. База незащищённых работ закрыта.
Законодательство развивается, и с 1 января 2017 г. производитель документов, в том числе научных журналов, должен в семидневный срок после выпуска в свет представить электронную копию издания в РГБ в качестве обязательного электронного экземпляра. Сделать с ними библиотека практически ничего не может, но никто не запрещал после индексирования использовать их как базу для проверки на заимствования. В принципе это уже должно активно работать, если бы позиция издательств была более лояльной. К сожалению, на сегодняшний день из 200 журналов РАН полностью выполняют законодательство 11, частично — ещё 14. Когда закон начнёт работать, появится база для полной проверки на плагиат, — отметил эксперт.
В 2018 г. Elsevier опубликовал свыше 5 тыс. статей в 250 журналах. Публикации в обязательном порядке предшествует рецензирование. В результате экспертной оценки отказ следует в 75% случаев. После размещения в печатном издании статья публикуется онлайн на ресурсе Science Direct. Сейчас на сайте размещено более 15 млн статей. На сегодняшний день 16 млн исследователей из 150 стран произвели свыше 1 млрд скачиваний статей. О вызовах и перспективах, связанных с заимствованиями, рассказал Михаил ГРЕСИА (Mihail Grecea), эксперт в области издательской этики Elsevier.
— Борьба с плагиатом — одна из основных проблем издательского дела. Мы стараемся информировать авторов, занимаемся профилактикой. Если возникает подозрение в неправомерном заимствовании, то мы используем специальные инструменты и расследуем каждый случай. В компании развита система онлайн-обучения, в частности есть видеокурсы об этике и плагиате. Кроме того, ежегодно проводится более 500 офлайновых мастер-классов.
Мы рассказываем авторам о том, что, указывая своё имя под статьёй, они становятся ответственными за написанное в ней. Делимся основными правилами публикации и рекомендуем издания для размещения статей. Профилактика помогает избежать недобросовестного заимствования. В частности, перед публикацией каждый автор должен подписать так называемый Кодекс чести.
Для того чтобы выявлять заимствования, в Elsevier используют программу, состоящую из двух частей. С одной стороны, это база данных из 50 млн статей, которая составляется на основе крупных и средних журналов. С другой — специальные алгоритмы.
— Важно, чтобы результаты машинной проверки анализировались людьми: процент, который предоставляет программа, не говорит ничего ни о контексте заимствования, ни о намерениях автора, — подчеркнул эксперт. — Следует различать цитирования, заимствования из работ того же автора и собственно плагиат. Кроме того, бывают ситуации, когда без заимствований просто не обойтись, например, если нужно описать работу того или иного механизма. Такие случаи следует рассматривать отдельно. Если редактор обнаруживает заимствование, то он должен конкретно указать на него автору и позволить тому объяснить, почему так произошло. Помимо прочего мы стараемся выявлять не только текстовые заимствования, но и те, что связаны с незаконным использованием иллюстраций.
Плагиат означает, что автор статьи выдаёт себя за автора первоначального текста, который он использует незаконно. Однако термин «самоплагиат» неточен, я бы говорил о повторном использовании текста.
Кроме заимствований существуют разные формы мошенничества, связанные с текстами, отметил М. Гресиа. Это прежде всего фальсификация, т.е. предоставление ложной информации. Также имеют место манипуляция рецензиями или рецензентами и недобросовестные, безответственные исследовательские практики. Редакторы Elsevier работают над разрешением различных этических проблем, связанных с публикацией статей, для этого у них есть специальные механизмы и инструменты.
Заведующий отделом поддержки исследований Научной библиотеки РАНХиГС при Президенте РФ Константин КОКАРЕВ остановился на социальных аспектах авторства.
— Сегодня много говорят о том, что студентов нужно учить учиться. При этом курсов по тому, как следует учиться в университете, крайне мало. Не имея таких методик, мы обвиняем студентов в том, что они не умеют читать, писать, хранить конспекты и т.д. Кроме того, и студентов, и учёных нужно учить быть авторами. Это очень специфическая работа: автор должен быть и исследователем, и писателем. К сожалению, на данный момент такой междисциплинарный предмет, как академическое письмо, существует в наших вузах только на английском. Но принципиально не то, умеет ли студент писать, а то, насколько эффективно он способен выдавать качественный интеллектуальный продукт по стандартам, принятым в сообществе.
В разных исследовательских сообществах требования различаются. Например, по мнению антропологов, людей, которых они интервьюируют, следует считать авторами. Требования к авторам ужесточаются в связи с реалиями цифровой экономики, развивается авторское право. Студентам нужно объяснять, что значит быть автором, в каждом конкретном направлении.
Кроме того, авторство — феномен исторический. Нормы и способы его фиксации в текстах серьёзно меняются в течение времени. Сейчас существуют электронное распространение документов, индексы научного цитирования, краулеры, «Антиплагиат» и другие службы, которые делают лёгким обнаружение того, кто и на что повлиял. Авторскими коллективами становятся целые коллаборации. Например, в ЦЕРНе все инженеры — авторы. Если аспирант выполнил половину полевой работы, а в качестве автора указан только научный руководитель, то сегодня это уже не соответствует стандартам этики. В худшем случае его должны упомянуть в публикации в режиме благодарности, а в лучшем — поставить соавтором. Промежуточный вариант — когда массив данных выкладывается под авторством аспиранта, а руководитель делает на него ссылку.
Авторство роботов — это пока научная фантастика, но ждать осталось недолго. Если исследование выполнено каким-то сетевым агрегатором, который умеет самонастраиваться и общаться с другими агрегаторами, то можно взять эти данные из Интернета и основывать на них вторичные исследования. В этом смысле агрегатор — автор.
Эксперт обратил внимание на ряд принципиальных моментов. Прежде всего, цитируется не текст, а идея. «Антиплагиат» это не учитывает, поскольку текст можно хорошо перефразировать, но идея окажется заимствованной. Автор в современной науке — это не тот, кто пишет, а тот, кто делает высказывание. Следующий принцип: авторы — это все те, кто работал над исследованием, а не только те, кто писал конкретный текст. Степень участия каждого измерять бессмысленно: работал коллектив. Поскольку это так, студентов нужно учить показывать коллегиальность научной работы. Безусловно, необходимо систематически обучать академическому письму — на русском языке, с первого курса. Студентам следует объяснять не только то, что они изучают, но и кто как субъект является исследователем, как работает современная сетевая наука. Необходимо развивать навыки самостоятельного мышления, а не воспроизводства текста, а для этого — писать больше критических эссе, что способны делать даже бакалавры. Важно осваивать правила цитирования, читать на семинарах оригинальные исследовательские тексты, чтобы студенты видели, как в научной работе вводится несогласие с автором, как показывают, что данные вызывают сомнение.
— Всё это следует делать коллективно. Есть научные руководители, преподаватели-предметники и тьюторы по академическому письму, методисты и сотрудники университетских библиотек. Для этого не нужно создавать специальный центр по академическому письму. Самое главное, чтобы люди читали тексты друг друга и корректно ссылались на них.
Тему продолжил главный редактор НИЦ «Инфра-М» Владимир ПРУДНИКОВ.
— Безусловно, в высших учебных заведениях академическое письмо должно преподаваться, ибо то, что мы видим на выходе, свидетельствует об абсолютной некомпетентности в данном вопросе. С каждым годом ситуация становится хуже. В нашем издательстве из 1 тыс. полученных рукописей с первого раза издательский фильтр не проходит ни одна. Ещё одна сфера, в которой царит полный вакуум, — правовая. Наряду с общим курсом правоведения необходимо вводить курс авторского права. Если уж специалисты не понимают, что это такое, то студенты — тем более.
Первый, самый популярный, довод современных авторов, заимствующих тексты, — «Так оно в Интернете лежит». Но по ГК РФ пользоваться тем, что выложено в Сеть, можно только в личных целях и ограничено это ближним кругом, семьёй. Кроме того, один из пленумов Верховного Суда РФ не признал Интернет свободным для посещения местом. В ст. 1274 ГК РФ указаны условия, при которых цитирование считается правомерным. Обязательно указание имени автора, источника. Цитирование должно производиться в объёме, оправданном его целью. К сожалению, сегодня, если отдать все цитаты их авторам, от многих книг останется один корешок.
Очень сложный вопрос — иллюстрации. Здесь нам приходится выдерживать настоящие бои. Ещё один камень преткновения — эпиграфы. Авторы любят начинать с цитат каждую главу, но цели цитирования в эпиграфах просто нет.
С точки зрения издателя, автором является тот, кто указан вверху рукописи. Если вы решили, что авторами должны быть 10 человек, которые проводили исследование, напишите их имена на титуле. В то же время напомню, что в соответствии с ГК РФ авторами не признаются те, кто оказывал техническую, консультационную, материальную, организационную поддержку, способствовал оформлению прав на результат, а также те, кто контролировал выполнение работ. Научный руководитель — консультант, а не автор. Как издатели мы мыслим жёстко: вы обозначили себя, значит, вы автор. Если кто-то не согласен, пусть докажет обратное.
При оценке рукописей мы прежде всего проверяем их через «Антиплагиат», используя общую базу. Затем подключаем свою систему обнаружения заимствований, в которой около 7 млн источников. В итоге после нескольких проверок объём заимствований доходит до 80–90%, но эти цифры для нас мало что значат. После ручного контроля заимствований оказывается 2%. Вы скажете: отличный результат, но это далеко не так. Самое интересное начинается здесь. Мелкие заимствования мы пропускаем. Красный свет загорается, когда встречается целый абзац. Мы рассматриваем эту ситуацию с точки зрения правовых последствий: за абзац могут судиться. Куда же исчезли остальные 80% заимствований? В большинстве случаев оказывается, что это тексты автора, самоцитирования. Для нас самоплагиат — это текст автора, выпущенный в чужом издательстве. Поэтому совет авторам: если вы решили публиковаться в каком-то издательстве, то подумайте о последствиях, ведь права у вас заберут минимум на пять лет. В другом издательстве вы этот текст использовать не сможете.
Эксперт обратил внимание ещё на одну проблему — публикационной экологии.
— Сегодня государство задаёт некоторые векторы развития науки, под которые преподаватели как авторы должны подстраиваться. В России около 6 млн студентов, на одного преподавателя приходится в среднем восемь обучающихся. Получается около 500 тыс. преподавателей. Каждый из них должен опубликовать либо монографию, либо статью, либо учебник. Если разделить их число на количество журналов, то получится, что в каждом журнале должно быть опубликовано 100 статей. Но одной статьи мало. Поэтому создаётся определённый бизнес, в котором в связи с новыми веяниями, называющимися открытым доступом и открытой наукой, представлен вал псевдонаучных публикаций.
Сегодня исчез рынок читателя, ведь научные журналы в России не читают: они нужны только для того, чтобы публиковаться. Сформировался рынок «писателей », наблюдается падение тиражей, и журналы выставляют прайсы. Если издателю платят 10 тыс. рублей за статью, он не станет в ней особенно разбираться. Как следствие, происходит рост стоимости изданий, а дальше — модель золотого доступа. Автор, плати! Мы опубликуем. Но к чему это приведёт? Это наука? Загрязнение публикационной среды катастрофическое, и сегодня важно задуматься об экологии нашего пространства, — подчеркнул в завершение эксперт.
Рубрика: Инновационные технологии
Год: 2019
Месяц: Декабрь
Теги: Константин Кокарев Юрий Чехович Алексей Семёнов Михаил Гресиа