Уникальность текста: способы проверки

Уникальность текста всегда проверяется поисковыми системами при анализе индексируемых сайтов. И если поисковая система обнаруживает, что существенная часть текста или же весь текст дублированы с других ресурсов, то высоких позиций в рейтинге сайту не видать. А как именно происходит проверка уникальности текста?

При проверке уникальности текста поисковыми системами учитываются так называемые законы Зипфа. Джордж Кингсли Зипф — профессор-лингвист из Гарварда – в 1949 году обнаружил эмпирические закономерности частоты употребления слов естественного языка в каком-либо тексте.

Согласно первому закону Зипфа, произведение вероятности обнаружения слова в тексте на его ранг частоты — величина постоянная (константа). Ранг частоты наиболее часто употребляемого слова принимается как единица.

Второй закон Зипфа гласит, что для всех текстов форма кривой зависимости частоты и количества слов, входящих в текст с этой частотой, одинакова.

На основе этих законов поисковые системы все слова, встречающиеся в тексте проверяемой страницы, разбивают на некоторые группы. Так, наиболее часто в текстах встречаются короткие слова: междометия, предлоги, союзы. Однако эти слова не имеют смыслового значения, а потому поисковые системы их не учитывают при ранжировании. Такие слова называются шумовыми или стоп-словами.

Часть слов, которые имеют важное смысловое значение для каждого конкретного сайта, называют ключевыми словами – их поисковые системы при ранжировании учитывают. Третья группа слов – это случайные слова. Они имеют смысловое значение, но не важны для конкретного сайта. Эти слова при ранжировании не учитываются.

Таким образом, при проверке уникальности текста законы Зипфа позволяют учитывать только слова, несущие смысловую нагрузку, и не учитывать знаки препинания, союзы, предлоги, междометия. Очищение текста от этих «лишних» слов и знаков называется канонизацией текста.

Уникальность текста проверяется поисковыми системами на основе сложных алгоритмов. Один из таких алгоритмов – это алгоритм шинглов. От английского шингл (shingle) – это чешуйка. Перед выполнением проверки уникальности теста по алгоритму шинглов текст должен быть канонизирован.

Проверяемый текст разбивается на небольшие «чешуйки» — цепочки из определенного количества слов (количество слов называется длиной шингла). Второе слово первого шингла является первым словом для второго, второе слово второго – первым для третьего и т.д. Благодаря таком принципу построения цепочек ни одно слово не останется непроверенным.

Для каждого шингла рассчитывается контрольная сумма (сигнатура) – уникальное число, которое ставится в соответствие некоторому участку текста, в данном случае шингла. Расчет контрольной суммы происходит по одному из заранее известных алгоритмов.

У двух разных кусочков текста не может быть одинаковой контрольной суммы — в этом и заключается суть алгоритма шинглов. Из множества контрольных сумм всего текста (их число равно количеству слов в тексте за вычетом длины шингла, уменьшенной на единицу) выбираются только те, которые соответствуют определенному критерию, например, делятся на 10 или 25.

Контрольные суммы двух проверяемых на уникальность тестов сверяются между собой. Найденные совпадения означают неуникальность текста. Чем больше совпадений, тем выше вероятность, что тексты являются копиями. Очевидно, что при таком способе проверки уникальности текста точность результатов возрастает при уменьшении длины шинглов.

Проверка уникальности текста по алгоритму шинглов позволяет находить не только полные копии документов, но и почти-дубликаты, то есть лишь слегка измененные тексты. Это делает алгоритм шинглов очень популярным и на его основе создаются различные онлайн- и десктоп-приложения проверки уникальности текста.

Однако существенным недостатком алгоритма шинглов является сложность выделения из общего текста фразеологизмов, популярных цитат, т.е. очень широко используемых словосочетаний. При наличии в проверяемых текстах совпадений по таким словосочетаниям, алгоритм покажет низкую степень уникальности.

В своей работе специалисты веб-студии добиваются очень высокой уникальности текста (от 95%), что соответствует стандартам качества поисковых систем. Поэтому, заказывая услуги копирайтинга в студии веб-дизайна Вы можете быть уверены, что Вы получаете уникальные, грамотно оптимизированные для web тексты, которые станут эффективным инструментом Вашего бизнеса в Интернет.

Теги:
уникальность текста, проверка уникальности текста, алгоритм шинглов

Источник