Categories Общие советы

Принцип работы систем анти плагиата и разбор Advego Plagiatus

Принцип работы систем анти плагиата и разбор Advego Plagiatus

Наверное любой студент знаком с системами анти плагиата. Подобных систем несколько, и я не буду приводить каждую в пример. Так же подобными системами пользуется каждый, кто имеет свой собственный сайт и желает иметь качественный, уникальный контент. И если студенты мягко говоря недолюбливают данные сервисы, то веб мастера очень даже надеются на них.

В чем же суть их работы и как происходит анализ контента (текста)? Главная задача анти плагиат сервисов проанализировать текст, выявить совпадения и указать в какой части текста есть совпадения и с каким источником или несколькими источниками. Поиск источников проводится через интернет. На данный момент большая часть бумажных носителей какой либо информации (учебники например) уже перенесены в цифровой вид. По этому списать текст с какой либо книги и надеяться, что он пройдет проверку на плагиат практически бессмысленно, не говоря уже о том, что бы брать чужой текст прямо из интернета.

Уникальный текстКак же работают такие сервисы? Алгоритмы у каждой системы свои и они тщательно скрываются их разработчиками, но основной принцип действия у всех, плюс- минус одинаков. Система разбивает текст на составные части: предложения и ключевые фразы. Затем используется эти части в качестве поисковых запросов в поисковиках. Далее идет сканирование предлагаемых поисковыми системами страниц. Если фразы или предложения на страницах полностью совпадают с теми, что есть в тексте, то данный сегмент текста помечается как возможный плагиат, а станица сайта как источник.

Завершив проверку, система подсчитывает какое процентное соотношение фраз и предложений имеет совпадения и по итогам делаются выводы на сколько текст уникален. Разные системы ищут совпадения по разному: одни считают за плагиат если слово в слово совпало целое предложение, другим достаточно трех- четырех слов из фразы. Наиболее качественные системы позволяют настроить количество слов во фразе или предложении, совпадения которых необходимо, что бы считать это плагиатом.

Стоит отметить, что алгоритмы постоянно совершенствуются и обмануть системы становится все сложнее. Раньше, например, достаточно было заменить буквы кириллицы на аналогичные латиницы, визуально они не отличаются а система распознавала их как разные (например а->а или е->e). Но прогресс не стоит на месте и в настоящий момент, некоторые системы анализируют не только текст на страницах, но и в документах (например от Word с расширением .docx), предлагаемых поисковиками по запросам.

Теперь предоставлю небольшую инструкцию по программе Advego Plagiatus. Полный перечень настроек Вы сможете найти на официальном сайте разработчика https://advego.ru/plagiatus/, кстати там же Вы ее и скачаете.

Использовать данную программу довольно просто. В основное окно Вставляете проверяемый текст и выбираете один из пунктов «Быстрая проверка» или «Глубокая проверка».Работаем с Advego Plagiatus

Так же если Вы хотите проверить текста на какой либо странице, то можно вставить ссылку страницы в меню «Адрес:», за тем кликните по кнопке «Убрать теги», что бы программа удалила html код и оставила лишь текста. Для того, что бы программа при анализе не ссылалась на саму страницу от куда был взят текст, укажите доменное имя сайта в меню «Игнорировать домены:».Инструкция по Advego Plagiatus

Перед анализом так же следует настроить программу под себя. Если у Вас есть прокси сервер, можете прописать его, для того, что бы поисковики не блокировали Ваш IP адрес при анализе. По «Соединению» советую оставить все по умолчанию, а вот раздел «Поиск» лучше настроить для себя. Настройки будут зависеть от того, какие цели вы ставите при анализе. «Прерывать при совпадении более, %» — это параметр указывает, при каком проценте не уникальности текста программа остановит анализ. По умолчанию стоит 50%, что означает, если совпадения текста будет 50% и более, программа проста остановит анализ. Я не советую ставить слишком низкий процент совпадений, т.к. программа успеет проверить лишь часть текста и может остановиться не обнаружив, что другая часть текста так же имеет совпадения. Лично я полностью отключаю прерывания программы (0%), что позволяет мне анализировать более полные полученные данные.

Параметры «Размер шингла, слов:» и «Поисковая фраза, слов:», позволяют настроить количество слов во фразе идущих подряд и количество слов во фразе соответственно. Т.е. к примеру, если «Размер шингла» указать слишком длинным, то совпадений будет куда меньше, т.к. программа будет считать за совпадения фразу в которой под ряд идет то количество слов, что указано в программе. Если указано значение «7», то даже фраза сходящаяся по 6 словам подряд не будет считаться совпадением.Настройка Advego Plagiatus

Параметр «Поисковые системы:» указывает, какие поисковики будет использовать система для поиска анализируемых страниц. Лично я рекомендую выбирать все поисковики, что есть в списке. Анализ будет проводиться дольше, но зато шансов найти страницу с совпадением больше, ведь какая та страница по тем или иным причинам может не быть в индексе Google или Яндекс.

Так же можно включить «Декапчер», для автоматического проставления капчи при блокировки IP поисковиками, но надежнее будет ввести капчу вручную, тем более, что блокируется IP не часто, и ввести придется всего пару картинок. «Декапчер» следует включать только, если Вам необходимо анализировать очень много текстов.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *