Узнаем уникальность текста для сателлитов в процентах
Сегодня напишу о том, как узнать насколько уникален тот или иной текст. В частности нижеизложенное будет интересно тем, кто покупает (заказывает) рерайт на стороне. Прочитав эту статью вы узнаете, как узнать насколько уникален ваш рерайт.
Сейчас наиболее эффективным и очевидно точным методом определения уникальности текста является алгоритм (метод) шинглов. Шингл (shingle) - это хеш-значение последовательности слов в тексте определенной длины. Другими словами это контрольная сумма (нечто вроде md5 из PHP) части текста из 5 и более слов, идущих подряд. Так вот, при этом методе текст разбивается на части по N слов и берется контрольная сумма для этих частей. Так делается для старого текста и для нового (рерайт). После чего происходит сравнение контрольных сумм. При совпадении уже можно говорить о повторе и стало быть о неуникальности полученного текста. Вот примерно так и работает данный метод.
Вообще, нетрудно догадаться, что чем меньше слов берем для шингла, тем точнее получим результат. Ну например, если текст делим на части по 10 слов и по 5, то изменить хотя бы одно слово из 10 просто, и контрольная сумма уже будет другой. При 5 словах контрольные суммы будут считаться чаще и результат будет точнее. Чтобы уж совсем было понятно, разберем на примере.
Исходные 10 слов: по лесу ходила девочка и собирала там грибы с ягодами.
Рерайт: по лесу прогуливалась девушка и собирала там грибы с ягодами.
Если шингл на 10 слов, то контрольная сумма точно будет и другой и по идее вроде текст уникальный. При шингле в 5 слов первая контрольная сумма будет отличаться, вторая полностью совпадет с оригиналом. Таким образом уже видим, что где-то текст неуникальный. Думаю теперь понятно.
Это крайне простой пример. Можно долго говорить о том, как разбивать эти шинглы, сколько слов оптимально для шингла брать, что делать с синонимами, словоформами и т.д. Не об этом сейчас. Нам интересно узнать, как же все-таки проверить текст на уникальность.
Оказывается все просто - есть очень полезные программы
Ну а вообще толком не известно, как тот же Яндекс определяет схожесть текстов. Есть лишь мнение, что одним из методов является метод шинглов. А так ли это - никто не знает =))) Так что все вышеизложенное может вообще не имеет смысла.
Комментарии (5) на пост "Узнаем уникальность текста для сателлитов в процентах"
Спасибо автору, за очеь интересную и познавательную статью, для себя узнал много нового.
Спасибо
Спасибо автору за статью. Очень познавательно
подпишусь ка я
Хороший метод проверки на уникальность, пользуюсь только им.
Спасибо.
Shingles Expert - всегда пользовалась этой прогой, а Hkey Shingle Text Compare для меня открытие. Пойду изучать, что это за такое.
Также можно проверять текст на уникальность по Адвего Плагиат.