Узнаем уникальность текста для сателлитов в процентах

21 августа 2009 в 16:15 | Рубрика Копирайтинг
Можно и пощупать, тогда наверняка узнаешь!
 

Сегодня напишу о том, как узнать насколько уникален тот или иной текст. В частности нижеизложенное будет интересно тем, кто покупает (заказывает) рерайт на стороне. Прочитав эту статью вы узнаете, как узнать насколько уникален ваш рерайт.

Сейчас наиболее эффективным и очевидно точным методом определения уникальности текста является алгоритм (метод) шинглов. Шингл (shingle) - это хеш-значение последовательности слов в тексте определенной длины. Другими словами это контрольная сумма (нечто вроде md5 из PHP) части текста из 5 и более слов, идущих подряд. Так вот, при этом методе текст разбивается на части по N слов и берется контрольная сумма для этих частей. Так делается для старого текста и для нового (рерайт). После чего происходит сравнение контрольных сумм. При совпадении уже можно говорить о повторе и стало быть о неуникальности полученного текста. Вот примерно так и работает данный метод.

Вообще, нетрудно догадаться, что чем меньше слов берем для шингла, тем точнее получим результат. Ну например, если текст делим на части по 10 слов и по 5, то изменить хотя бы одно слово из 10 просто, и контрольная сумма уже будет другой. При 5 словах контрольные суммы будут считаться чаще и результат будет точнее. Чтобы уж совсем было понятно, разберем на примере.

Исходные 10 слов: по лесу ходила девочка и собирала там грибы с ягодами.

Рерайт: по лесу прогуливалась девушка и собирала там грибы с ягодами.

Если шингл на 10 слов, то контрольная сумма точно будет и другой и по идее вроде текст уникальный. При шингле в 5 слов первая контрольная сумма будет отличаться, вторая полностью совпадет с оригиналом. Таким образом уже видим, что где-то текст неуникальный. Думаю теперь понятно.

Это крайне простой пример. Можно долго говорить о том, как разбивать эти шинглы, сколько слов оптимально для шингла брать, что делать с синонимами, словоформами и т.д. Не об этом сейчас. Нам интересно узнать, как же все-таки проверить текст на уникальность.

Оказывается все просто - есть очень полезные программы Hkey Shingle Text Compare и Shingles Expert. В общем делают они главное - сравнивают текст методом шинглов. Для повышения точности еще и нормализируют текст, отбрасывают стоп-слова, вырезают теги и многое другое. Более подробно на сайтах авторов программ. Ну и еще может быть полезна моя предыдущая статья Как проверить текст на уникальность .

Ну а вообще толком не известно, как тот же Яндекс определяет схожесть текстов. Есть лишь мнение, что одним из методов является метод шинглов. А так ли это - никто не знает =))) Так что все вышеизложенное может вообще не имеет смысла.


feed  Понравилась заметка? Подписывайся на обновления блога

Google Bookmarks News2.ru БобрДобр.ru del.icio.us Яндекс.Закладки Memori.ru МоёМесто.ru linkstore.ru MyScoop Ваау! Сто Закладок RuSpace RUmarkz Mister Wong smi2.ru korica.info
Лучшее место для копирайтеров и поиска уникального контента!

Комментарии (5) на пост "Узнаем уникальность текста для сателлитов в процентах"
  1. Андрей, 7 сентября 2009 в 05:59

    Спасибо автору, за очеь интересную и познавательную статью, для себя узнал много нового.
    Спасибо

  2. Дмитрий, 30 сентября 2009 в 10:43

    Спасибо автору за статью. Очень познавательно
    подпишусь ка я

  3. Пермский форум, 23 марта 2010 в 04:00

    Хороший метод проверки на уникальность, пользуюсь только им.

  4. Vera, 26 сентября 2010 в 12:30

    Спасибо.
    Shingles Expert - всегда пользовалась этой прогой, а Hkey Shingle Text Compare для меня открытие. Пойду изучать, что это за такое.

  5. Дарья, 16 января 2011 в 10:01

    Также можно проверять текст на уникальность по Адвего Плагиат.