Опрос
Как часто вы меняете место работы?
Уникализация контента и поиск дубликатов
Занимаясь продвижением сайта, будьте готовы наибольшую часть своего времени и внимания уделять контенту. Если важен результат, этого не избежать, ведь в данном случае альтернатив полностью оригинальному контенту не существует. Однако это не исключает рерайта, ведь зачастую даже самый добросовестный копирайтер, создавая описания для очередного интернет-магазина, не может обойтись без использования информации из официального каталога производителя.
Составляющие успешного продвижения сайта:
- Уникальность всего контента, открытого для индексации (с точки зрения поисковиков).
- Если задача сайта – конверсия посетителей в покупателей, его контент может быть полностью авторским или максимально глубоким рерайтом.
- На серьезных сайтах, продающих ссылки, уникализация контента может проводиться более грубо: создание большого количества текстов за минимальные деньги.
Расcматривая вопрос уникализации и рерайта информации, все сводится к алгоритмам поисковых систем, распознающим заимствования. Зная, какие модели и алгоритмы они используют, вы сможете сэкономить много сил и средств, особенно, если речь идет о наполнении уникальным контентом тысячи страниц.
Поиск дубликатов
На первый взгляд может показаться, что все до смешного просто: поисковая система индексирует все существующие в интернете документы, поэтому нужно только сравнить все эти страницы и выявить дубли. Все действительно так. Однако чтобы сравнить каждый документ в индексе «Яндекса» с каждым другим, возведите в квадрат число 10 727 736 489, и вы получите необходимое число операций, которые вам придется для этого совершить.
Причем полнотекстовое сравнение, естественно, не даст правильных результатов. Конечно, заменив несколько слов, поменяв некоторые буквы, знаки препинания и переставив местами несколько предложений, вы добьетесь того, что сравнение «лоб в лоб» покажет отсутствие совпадений.
Однако если сравнивать небольшие куски текста (к примеру, разбить его на цепочки из 3-6 слов), то число необходимых операций возрастет в колоссальное количество раз. Компьютеров такой производительности в настоящее время просто не существует.
И все-таки проблему сравнения большого количества документов можно считать в значительной степени решенной. Это по-прежнему ресурсоемкая процедура, но она уже под силу современным компьютерам за счет существенного снижения количества проводимых операций. Теперь это возможно, благодаря алгоритмам шинглов.
Шинглы
В переводе с английского «shingle» означает «гонт» – кровельный материал, дощечки которого соединяются в единый лист посредством пазов и выступов. Однако для нас это, прежде всего, алгоритм поиска дубликатов при помощи вычислений и сопоставлений контрольных сумм выборки канонизированных словосочетаний приблизительной длиной 3-10 единиц.
Принцип работы шинглов:
- Прежде всего, текст «канонизируется», т.е. приводится к исходным словоформам с исключением стоп-слов (предлоги, союзы, частицы, знаки препинания и т.д.). Так, канонизируя текст «люблю грозу в начале мая, когда весенним первым днем», мы получим «любить гроза начало май». Теоретически возможна также более жесткая канонизация: каждое слово при этом приводится к наиболее частотному синониму. В настоящее время это стало бы действенным способом борьбы с ручным рерайтом и синонимайзерами, которые даже не меняют порядок слов в документах, а лишь заменяют их синонимами.
- Канонизированный текст разбивается на цепочки примерной длиной от 3 до 10 слов. При этом разбивка текста может идти как стык в стык, так и внахлест – шаг сдвига может быть различный. Таким образом, любое изменение канонизированного текста, а особенно если оно будет в начале, спровоцирует появление других шинглов.
- Для каждого из шинглов вычисляется контрольная сумма. Какой метод в данном случае применяется – не столь важно. Это может быть любая из существующих хэш-функций: к примеру, CRC (cyclic redundancy code). Главное в этом процессе, что последовательности слов преобразуются в последовательности цифр, потому как с ними компьютеру гораздо проще работать.
- Создается выборка контрольных сумм шинглов.
- Далее, если сравнительный анализ демонстрирует высокий уровень совпадения контрольных сумм, это говорит о том, что данные документы, скорее всего, являются четкими (без изменений) либо нечеткими (с минимальными изменениями) дубликатами.
Альтернатива
Разумеется, шинглы – не единственный метод, позволяющий проверить контент на уникальность и естественность. Зачастую используется статистический анализ частотности слов с применением распределения Ципфа, позволяющим искать аномалии и совпадения в документах, прошедших ручную рерайт-обработку.
Таким образом, можно сказать, что в целом задача распознавания поисковиками дублей контента решена – создание оригинального контента с использованием существующей информации (глубокий рерайт), позволит свести к нулю вероятность применения санкций при ранжировании. Вместе с тем понимание принципов выявления дубликатов позволяет копирайтерам значительно экономить свои усилия, создавая контент для качественных сайтов-доноров.
См. также: