Контент сайта – основа для его раскручивания. Что такое, заем нужен дубликат контента? – Простая его копия? Или нет? Разберемся.
Дубликат (по-другому, неуникальный) контент ресурса – документы с идентичным содержанием. Не обязательно копия. Неполный дубликат («почти дубликат») содержит незначительные изменения, не меняющие суть.
Обнаружение дубликатов в контенте, их удаление позволяет:
• устранять одинаковые документы, выдаваемые информационными системами в качестве релевантного ответа на запрос данного пользователя;
• исключать дублирование информации поступающей часто из разнородных источников;
• определять сходство документов, графических образов, например, обнаружение плагиата, нарушений авторского права.
Для выявления дубликатов документов, Web-страниц разработаны программы «Антиплагиат» (например, Etxt.Антиплагиат, Миралинкс.Антиплагиат, Адвего.Плагиатус и другие). Несмотря на их различие, все работают по общему принципу. Осуществляют, как правило, контекстный синтаксический поиск (последовательностей, состоящих из слов), в соответствии с указанным числом совпадений слов (шинглом) с элементами эвристики. Но важно иметь систему не только синтаксического, но и семантического, лексического поиска, выявления «настоящих» плагиатов – плагиатов идей, с помощью анализа информативных терминов. Используются интеллектуальные автоматизированные процедуры экспертного анализа с исключением малоинформативных и стоп-слов и синонимических конструкций.
Это очень важно для научных работ – и не только с целью обнаружения плагиата (что также важно), но и с целью определения показателей результативности ученого (ПРНД), импакт-фактора журнала.