Узнаем уникальность текста для сателлитов в процентах
Сегодня напишу о том, как узнать насколько уникален тот или иной текст. В частности нижеизложенное будет интересно тем, кто покупает (заказывает) рерайт на стороне. Прочитав эту статью вы узнаете, как узнать насколько уникален ваш рерайт.
Сейчас наиболее эффективным и очевидно точным методом определения уникальности текста является алгоритм (метод) шинглов. Шингл (shingle) - это хеш-значение последовательности слов в тексте определенной длины. Другими словами это контрольная сумма (нечто вроде md5 из PHP) части текста из 5 и более слов, идущих подряд. Так вот, при этом методе текст разбивается на части по N слов и берется контрольная сумма для этих частей. Так делается для старого текста и для нового (рерайт). После чего происходит сравнение контрольных сумм. При совпадении уже можно говорить о повторе и стало быть о неуникальности полученного текста. Вот примерно так и работает данный метод.
Вообще, нетрудно догадаться, что чем меньше слов берем для шингла, тем точнее получим результат. Ну например, если текст делим на части по 10 слов и по 5, то изменить хотя бы одно слово из 10 просто, и контрольная сумма уже будет другой. При 5 словах контрольные суммы будут считаться чаще и результат будет точнее. Чтобы уж совсем было понятно, разберем на примере.
Исходные 10 слов: по лесу ходила девочка и собирала там грибы с ягодами.
Рерайт: по лесу прогуливалась девушка и собирала там грибы с ягодами.
Если шингл на 10 слов, то контрольная сумма точно будет и другой и по идее вроде текст уникальный. При шингле в 5 слов первая контрольная сумма будет отличаться, вторая полностью совпадет с оригиналом. Таким образом уже видим, что где-то текст неуникальный. Думаю теперь понятно.
Это крайне простой пример. Можно долго говорить о том, как разбивать эти шинглы, сколько слов оптимально для шингла брать, что делать с синонимами, словоформами и т.д. Не об этом сейчас. Нам интересно узнать, как же все-таки проверить текст на уникальность.
Оказывается все просто - есть очень полезные программы
Ну а вообще толком не известно, как тот же Яндекс определяет схожесть текстов. Есть лишь мнение, что одним из методов является метод шинглов. А так ли это - никто не знает =))) Так что все вышеизложенное может вообще не имеет смысла.
Как проверить текст на уникальность?
Итак, если вы покупаете или пишите статьи на продажу (рекомендуемый сервис для этого TextSale ), то перед вами встает задача на проверку текста на уникальность и отсутствие копий в Интернете. Сегодня поговорим о всех сервисах, которые позволяют проверить текст на оригинальность. Какой-то один сервис не может гарантировать уникальности текста. А вот если использовать их все, в комплексе, то качеству текстов, прошедших проверку, можно доверять.
Хороший и удобный сервис для проверки текстов. Правда база сайтов-источников оставляет желать лучшего. Без регистрации можно проверить текст до 5000 символов, что порой более чем достаточно. Если зарегистрироваться, то это ограничение снимается, также можно выгружать документы для проверки в любых форматах. Регистрация бесплатна.
Отличный сервис, ориентированный на буржунет. Но и с русскими статьями хорошо справляется и отлично ищет копии. Главный недостаток - для каждого домена можно делать не более 10 проверок в месяц. Отличие от Антиплагиат в том, что в Copyscape нельзя проверить статью, взяв и скопировав из Word’a. Там можно проверять только уже готовые странички на сайте. Поэтому если много проверяете, то либо покупайте платный аккаунт, либо регистрируйте блоги на блогохостингах и проверяйте.
Небольшая и простенькая программа от сервиса TextBroker. Подозреваю, что ищет по строгому совпадению по предложениям. В довесок для ранее описанных двух сервисов пойдет.
Ручной поиск по строгому совпадению в ПС
Все просто, берете 3-4 случайных предложения из статьи, вставляете в строку поиска и смотрите на результат. Если его нет, то значит все хорошо и статья уникальная =)) Именно так и проверяется уникальность на TextSale.ru .
Таким образом только использование вместе всех этих способов может гарантировать уникальность статьи. Ну или снизить вероятность ошибки до минимума…
Как продать плохой текст через TextSale
Вообщем спалю тему… Хотя у кого голова варит давно уже это просек. Итак, поговорим о продаже плохого (читай поверхностного рерайта) или узконаправленного (с множеством терминов) текстов. Собственно говоря в чем проблема? Проблема в том, что при таком рерайте в тексте будет множество вхождений и цитат из других источников. Иногда такое возможно, когда рерайтишь текст технической направленности, где куча терминов, которые не имеют нормальных синонимов. Поэтому приходится использовать их “как есть”. В этом случае проверка текста сервисами
Так как это обойти? Все более чем просто - постим статью на продажу, примерно через час смотрим на статус. Если вдруг статья не прошла проверку, то ни в коем случае НЕ УДАЛЯЕМ статью. Просто жмем “редактировать” и ничего не меняя, снова сохраняем. Опять ждем час и смотрим. Очевидно, что в этот раз поиск будет по другим фразам (они берутся случайно) и может быть поисковик не найдет копий. Так, нехитрыми действиями можно получить нужный нам результат.
Естественно я не призываю постить и продавать “дерьмо” через TextSale . Рано или поздно ваши действия проявятся. Те, кто покупают статьи врятли будут полностью верить результату проверки сайта, статус “проверено” это скорее просто “зеленый свет” для покупателей. Конечно же они после перепроверяют статьи. И в итоге у вас просто перестанут покупать. Этот способ пригодится тем, чья статья по какой-то случайности не прошла проверку, не более.
// Главный багаж мужчины - его опыт.
Как защититься от воровства контента из блога
Проблема очень актуальная, сейчас с развитием блогоферм и ростом популярности сплогов контент тянут огромными количествами. Причем даже с непопулярных блогов и с тех же сплогов =))) И вопрос защиты от этого волнует большинство блоггеров.
Но прежде хочется сказать о юридическом аспекте этого вопроса. На подавляющем большинстве блогов, в том числе и на этом), в подвале сайта нет ключевых слов - Все права на материалы сайта принадлежат автору. Перепечатка и использование возможны только с письменного разрешения автора или при наличии активной ссылки на этот сайт. А значит, формально, мы разрешаем ну или не возражаем против воровства контента. Это весьма важный аспект рассматриваемого вопроса.
Начнем с того, как и откуда тянут контент? С развитием технологии RSS этот процесс облегчился. И воруют именно через RSS. Защититься от ручного воровства нереально, а вот кое-что сделать с RSS можно. Рассмотрим несколько возможных способов защиты и теоретические способы (пока нигде не реализованные) от воровства контента.
1. Добавьте авторские ссылки под каждую запись в RSS.
Сделать это можно посредством плагина
2. Сделайте вывод анонсов в RSS.
Возможно, это и не совсем удобно для подписчиков блога, но как вариант защиты подойдет. Также это, возможно, увеличит посещаемость блога - читатели будут переходить из RSS, чтобы дочитать очередную запись. Знаю, что большинство блоггеров - сторонники полных постов в RSS, это дело каждого. Стоит заметить, что некоторые “умные” сплоги умеют вытягивать полный текст непосредственно со страниц блога, в обход RSS. Тут, опять же, сложно что-то сделать. Достоинтсва - простота, недостатки - можем потерять часть подписчиков.
3. Вывод секретного кода в каждой записи.
Сделать это очень просто - воспользоваться функцией PHP md5(). Эта функция 32-значное шестнадцатеричное число (что-то вроде 1f3870be274f6c49b3e31a0c6728957f). Обратного дешифрования нет. Т.е. можно для каждой записи генерировать такое число и выводить его в качестве комментария под записью. Аргументом для функции может быть все что угодно - например, заголовок блога или поста с вашим именем (например, Как защититься от воровства контента из блога - Иванов Иван). Для каждой записи число будет уникальным. Если утянут контент вместе с тегами, то этот комментарий появится и в сплоге. Зачем это надо? При решении вопроса - где первоисточник, вы легко сможете доказать, что автор вы. Достаточно будет объяснить значение этого комментария. В компетентных органах это поможет. Достоинтсва - простота и веский аргумент в судах, недостаток - может не сработать.
4. Вывод скрытого текста.
Где-то в каждой записи блога выводить невидимый текст (например, Этот текст принадлежит автору Ивану Иванову и любое его размещение, кроме ресурса www.blog.ru, запрещено!). Как это сделать? Выводить текст цветом фона, скрывать текст с помощью JavaScript (код должен обязательно идти вне <body></body>, чтобы не скопировали), посредствами CSS (например, сделать абсолютное позиционирование и сместить блок текста на 10000px в сторону), стиль описываем в общем CSS файле. Можно придумать что-то еще, но идея понятна. Из достоинств - простота, недостатки - рискуем попасть под санкции поисковиков.
5. Использование элементов графики.
Это самый передовой и сложный способ. Идея в том, чтобы часть текста заменить изображением. А изображение будет содержать текущий текст. Сделать это можно посредством скрипта на PHP+библиотека GD. К каждому изображению нужно добавить копирайты, водяной знак, в угол добавить адрес вашего блога. Причем выводить эти изображения на сайт надо не через задание абсолютного адреса (http://www.blog.ru/images/image.gif), а через относительное (/images/image.gif). Таким образом, даже если утянут контент вместе с изображениями, на сплоге изображения отображаться не будут. Достоинства - высокая защита, в том числе и от ручного копирования, недостатки - сложность реализации, теряется часть контента, который будет индексироваться поисковиками.
6. Радикальный способ - пожаловаться.
В крайних случаях можно пожаловаться хостеру сплога (врятли поможет, ибо часть “сидит” на заграничных хостингах, а там проблемы русских мало кого волнуют). Куда лучше “настучать” сразу в поисковики - вот ссылки для
Проблема воровства контента в Интернете будет всегда, победить ее нельзя - можно лишь бороться.
Где заработать начинающему копирайтеру?
Когда-то я тоже начинал писать тексты для Интернета. Не рекламные тексты, а просто статьи для сайтов “средней руки”, сателлитов. Но как и все я хочу более-менее стабильного заработка, хочу просто писать тексты, а не заниматься поиском тех, кому их продать. Раньше с этим было сложно - в распоряжении копирайтеров были форумы и доски объявлений. Потом появились сайты для фрилансеров -
Основные биржи статей Рунета.
Бесспорным лидером сейчас является биржа статей TextSale.ru - множество статей в продаже, множество покупателей, возможность самому устанавливать цены и т.д. Этот сервис еще относительно молод, но уже успел стать лидером в этой области. Возможно потому, что оказался первым подобным проектом в Рунете. Хотя надо отдать должное автору проекта - сервис постоянно развивается, появляется что-то новое. Из конкурентов можно отметить TextBroker.ru, Content-Market.ru, Copylancer.ru. Правда пока они явно отстают от лидера и не так раскручены. Поэтому начинать надо только с TextSale.ru .
Как эффективно продавать свои статьи.
Для начала выберите наиболее подходящую категорию в которой собираетесь писать. Естественно она должна быть довольно популярна, иначе продать будет сложно. Каждый месяц сервис TextSale.ru предоставляет статистику о самых популярных категориях, средних ценах. После выбора непосредственно пишем тексты. Я начинал с рерайтинга - т.е. брал готовый текст и переписывал его заново. Во-первых, набьете немного руку, во-вторых быстро накрутите свой рейтинг в системе. Правда рерайтинг должен быть глубоким и полным, уникальность после рерайтинга у меня никогда не опускалась ниже 85 %. Проверить уникальность можно на
Немного о заголовках.
Из опыта знаю, что изголяться с заголовками статей не стоит. Не надо тут придумывать и изобретать. Просто сделайте грамотный заголовок. Очень хорошо действует на покупателей заголовки, начинающиеся со слова “КАК” (Как сэкономить на поездке зарубеж, Как правильно ухаживать за волосами и т.д.). Также неплохо работают заголовки-вопросы - Куда поехать отдыхать этой зимой? или Где купить антиквариат в Питере?
О ценах.
Для начала демпингуйте цены. Нам нужно накрутить свой рейтинг в системе. Тем более мы продаем рерайт. Но, если ваш рерайт с 90 % уникальности, смело указывайте продаваемую статью как Копирайтинг. Цена низкая, контент указан как не рерайт - купят быстрее. И уже когда рейгинг поднимете до 20-30 единиц, тогда и потихоньку поднимайте цены.
Вроде секретов не выдал =))