Уникальность контента: шинглы 2011

Создание уникального контента – тема для отдельной статьи, а с точки зрения уникализации и рерайта все дело в все более сложных алгоритмах поисковых систем. Как они все-таки распознают заимствования? Понимание этого вопроса даст существенную экономию сил и средств товарищам, которые занимаются наполнением сайтов. Всем известно, что залить движок и немного подправить шаблон дизайна – дело пары дней, а вот наполнить сайт 550-2560 уникальными страницами – вовсе не простая задача.

Уникальность контента:: поиск дубликатов.

На первый взгляд, все просто: поисковик индексирует все документы в интернете. Почему бы не сравнить все эти страницы, чтобы выявить дубли? Но даже для сравнения каждого документа в индексе «Яндекса» с каждым другим, нужно возвести в квадрат число 10 727 736 489 – это будет необходимым числом операций. Причем понятно, что полнотекстовое сравнение не даст правильных результатов – достаточно заменить несколько слов, букв и знаков препинания, взять фрагмент, переставить местами предложения и так далее, чтобы сравнение «лоб в лоб» показало отсутствие совпадения. Если же сравнивать небольшие кусочки текста (например, разбить каждый документ на цепочки по 3-6 слов), то количество потребных операций возрастет на множество порядков. Таких компьютеров просто не существует, и даже прогресс в создании суперкластеров не даст такой производительности. Но сочетанием математических и лингвистических методов задача сравнения огромного количества документов была в значительной степени решена. Пока это процедура, требующая больших мощностей, однако она под силу существующим компьютерам. Снижение количества операций стало возможным благодаря алгоритмам шинглов.

Шинглы. Shingle переводится как «гонт», а гонт – это кровельный материал: дощечки с пазами и выступами для соединения в единый лист. Это алгоритм для поиска дубликатов путем вычисления и сопоставления контрольных сумм выборки канонизированных словосочетаний длиной от 3 до 10 (приблизительно) единиц. Как это работает? Довольно просто:

Текст «канонизируется», то есть приводится к исходным словоформам с выбросом стоп-слов (предлогов, союзов, частиц, знаков препинания и так далее). Например, «мой дядя самых честных правил, когда не в шутку занемог» после канонизации приобретет вид такого типа: «дядя самый честный правило шутка занемочь». Теоретически, может применяться и более жесткая канонизация, когда каждое слово приводится к самому частотному синониму – тогда после обработки исходник для вычисления шингла станет таким: «дядя самый честный правило болеть». Это стало бы мощным способом борьбы с синонимайзерами и ручным рерайтом для разрушения шинглов, которые не меняют порядок слов в текстах, а только заменяют их синонимами.
Канонизированный текст разбивается на фразы длиной от 3 до примерно 10 (ближе к 10) слов. Разбивка текста документа может идти как стык в стык – «дядя самый честный», «правило болеть уважать»; так и внахлест – «дядя самый честный», «самый честный правило», «честный правило болеть» (возможен различный шаг сдвига). Несомненно, что любое изменение канонизированного текста, особенно если оно случится в начале, приведет к появлению других шинглов. Следовательно, необходимо установить в тексте неочевидные «точки отсчета» для разбивки на шинглы: например, как пишет «Яндекс» в презентации схожего алгоритма «Спамообороны», «от буквы „ю“ до буквы „ю“; или от двухбуквия, сумма численных значений символов (букв) которого кратна 50, до следующего такого же». При этом, особенно для разбивки внахлест, текст может содержать много повреждений (попыток уникализации), но разрушены будут не все шинглы, а только непосредственно затронутые повреждениями.
Для каждого шингла вычисляется контрольная сумма. Применяемый метод не так важен – это может быть любая хэш-функция: например, CRC (cyclic redundancy code) или другой. Главное – последовательности слов переводятся в последовательности цифр, с которыми компьютеру работать гораздо проще.
Создается выборка контрольных сумм шинглов (уже в виде контрольных сумм) – понятно, что сравнение документов по всем шинглам является на порядки более ресурсоемкой (и ненужной) задачей, чем сравнение по нескольким десяткам отобранных значений контрольных сумм. Принцип формирования выборки может быть примерно таким: из заранее созданного списка случайным образом берется 85 математических функций, каждая из которых может описывать интересный для целей data mining параметр: пересечение, вложенность и так далее. Все шинглы документа «пропускаются» через каждое из 85 выражений, что дает на выходе значения, и они присваиваются соответствующему шинглу. Для каждой из 85 функций выбирается шингл с минимальным значением контрольной суммы (просто потому, что нужно выбрать какой-то – можно было бы с таким же успехом брать шингл с максимальным значением). В итоге анализируемый документ получает сигнатуру из 85 значений контрольных сумм. При сравнении с другим документом, над которым была проделана такая же операция, берутся шинглы, отобранные по совпадающим функциям – например, если при отборе шинглов было использовано 27 одинаковых функций из 85, то сравнение идет по 27 этим контрольным суммам.
Если сравнительный анализ показывает высокий уровень совпадения контрольных сумм, документы с очень высокой вероятностью являются четкими (без изменений), либо нечеткими (с небольшими изменениями) дубликатами.

Шинглы – далеко не единственный метод проверки контента на уникальность и естественность. Поисковые системы применяют статистический анализ частотности слов с использованием распределения Ципфа для поиска аномалий, наложение рамок длинных пассажей (абзацеподобных последовательностей слов, длинных шинглов) для поиска совпадений в документах, прошедших ручную обработку (рерайт) с разрушением шинглов и другие алгоритмы. В целом задача распознавания дублей текстового контента поисковиками решена – только очень глубокий рерайт, а фактически – создание оригинального контента с такой же информацией, позволяет снизить вероятность санкций при ранжировании. Тем не менее, понимание принципов определения дубликатов позволяет копирайтерам экономить значительные усилия при создании контента для качественных сайтов-доноров.

Категория: Копирайт | Добавил: vet2008 (31.05.2011)

Просмотров: 1626 | Рейтинг: 4.0/1

Всего комментариев: 0

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]