logo как заработать деньги: СЕО и оптимизация
Интересен bog или тема «Проверь схожесть контента (или слови»? Читайте статьи: ; ; ;   Гугл бабки....

Проверь схожесть контента (или слови

Проверь схожесть контента (или слови пеналь). Последнее время на разных форумах все чаще звучат рассуждения о влиянии контента на выдачу результатов поисковых систем. Большинство СЕОшников сходится во мнении что неуникальный контент может оказывать негативное воздействие.

Как следствие, на рынке появилась масса продуктов которые предлагают решить проблему уникального контента. Начиная от банальных генераторов маркова, синдикаторов или синонимайзеров и заканчивая специализированными системами лингвистической трансформации..

И тут можно заметить один нюанс. Крошечный, но в тоже время критичный. У СЕО комьюнити до сих пор нет единого мнения о том, каким образом определяются дубликаты контента. Так о какой уникальности генерируемых дорвеев могут говорить авторы разнообразных скриптов при отсутствии данной информации? Если же обратиться к оригиналам, то есть к патентам гугла и других поисковых машин, то мы найдем весьма разнообразные методики определения схожести текстов.

Забавно, но при желании можно найти колосальное количество примочек позволяющих создавать уникальный текст, но при этом нет ни одной вменяемой тулзы для обратной задачи.

Нонсенс. Ведь для того чтобы понять насколько хорош ваш генератор текста (или дорвей скрипт), вам жизненно необходимо знать насколько схожими являются создаваемые тексты.

Следующий скрипт (вернее сервис) позволит вам расчитать процент схожести между двумя текстами . Расчет ведется по трем основным методикам используемых поисковиками.

Реализация алгоритмов упрощенная (и анализирует только английский язык), но демонстрирует высокую степень достоверности результатов.

p.s. Да, за повторяющийся контент ДЕЙСТИВТЕЛЬНО можно получить бан. Да, дублированный контент на самом деле НЕ проблема для многих из нас. Для того чтобы понять что может повлиять на ситуацию рекомендую почитать маркетинг пилигрима. Но в любом случае, уникальный контент дает громадное преимущество. Так что тестируйтесь и делайте выводы. ;)

Tags: , , , ,

bog: архив

13 comments for “Проверь схожесть контента (или слови”

А хоть пару слов на тему того, какие методики используются?! //:Anton
Если честно, то подробно хотелось бы рассказать об этом позже... Ибо вначале было бы интересно послушать ваши предположения о том, как устроена эта кухня ;) Но если в кратце, то методик всего 3: класический вариант с шинглами, анализ кореляции низкочастотных слов и сходимость структуры предложений. //bog
Давай-давай, не забрасывай блог, пиши! P. S. Есть ещё два пути - добыча готового контента, который не знают SE, и серые-белые мэшапы. //samlowry
Дубликат - это и есть дубликат, точно повторяющийся контент. Еще не факт, что даже за него тебя забанят. Глянь, например, на PR microbot.ru, где нет и никогда не было вообще ни одной уникальной статьи. Все алгоритмы определения схожести текстов, используемые поисковиками, нужны им, имхо, лишь для поиска related страниц. Если бы на основании нечеткого сходства кто-то кого-то банил, то все новостные сайты, по жизни пересказывающие одно и то же на разные лады, из бана бы не вылезали. //:ERRA
Кстати, БоГ, все эти алгоритмы направленны на сравнение двух текстов, один из которых - чуть модифицированная копия другого. А если это совем не копия другого? А слитые вместе тексты? //samlowry

На самом деле все несколько сложнее.

Изначально определение дублированных страниц задумывалось для экономии ресурсов.

Из сотен идентичных статей имеет смысл выбрать лишь несколько наиболее важных для показа в результатах поиска и регулярного анализа. Все остальное идет или под фильтры или во вспомогательные индексы. Однако в свете последних исследований (и патентов) - акценты сместились. Теперь поиск дубликатов в основном используется для обнаружения спама. Причемвэтомсветеправильнееиспользовать термины near-duplicate content или near-identical (text) variations.

То есть разработчики поисковых систем прекрасно понимают что тексты создаваемые програмными способами будут иметь схожие характеристики но при этом не будут являтся точными копиями. И именно эти характеристики типичны для спама, сплогов и дорвеев. Вообще, на самом деле эт очень большая и сложная тема. Есть масса нюансов которые невозможно описать в нескольких строках, но можно узнатьеслиприложитьдляэтогонемного усилий.

В частности то, что на авторитетные (новостные, трастовые и т.д.) сайты пенальти за подобные проступки не накладываются, можно было узнать перейдя по вышеприведенной ссылке.

//bog
samlowry, эт хороший вопрос. Во первых зависит от методики слияния. Во вторых, чем больше раз ты обьединяешь одинаковые тексты, тем больше вероятность повторений. То есть для проведения коректного анализа лучше всего на основе одного набора текстов создать некоторое количество модификаций, а потом уже сравнить эти модификации на схожесть между собою (не с оригиналами!). //bog
Очень интересно на основании каких данных писался данный скрипт. И что конкретно отдаётся в результатах... Так и не расшифровал что означают выводимые результаты (( Ради интереса ввёл тексты 2-х своих доров... один из них висел 2 месяца в топ30 по односложнику фентермин, из них 2 недели в топ10... второй- месяц в топ30 и неделю в топ10 по тому же кею... результаты анализа этих текстов оказались неутешительными... вот теперь сижу и думаю.... толи лыжи не едут, толи... //:bera

Итак, все у кого было желание поразмять мозги - уже проверили свои домыслы в аське.

Теперь выкатываю инфу на паблик. По причине лени и отвратительной привычки не сохранять копии усвоенной (прочитанной) инфы - ссылок на оригиналы не будет. Кому интересно - гуглим по теме “pdf+(spam|spamdexing)+(?search engines|microsoft|google)” Теперь по скрипту: Freq distribution. В любом тексте присутствуют популярные (общеупотребительные) слова и выражения. Ихлегкоможноизменитьиливыкинуть, без ущерба для текста.

Также для любого уникального документа можно создать уникальный набор специфичных именно для этого документа низкочастотных слов. Совпадения данных совокупностей и их последовательности может влиять на оценку документов и их связей.

//bog

Template similarity это хрень под которую попадает громадное количество документов.

В том числе и с солидных ресурсов. Оценивается шаблонность предложений и текста в целом. К примеру, если анкеты на сайтах знакомств ограничиваются текстами вида: “Привет, меня зовут ИМЯ, я родилась в ГОРОД. Мне ЧИСЛО лет. Мне нравится КЕЙВОРДЫ.” Можно с уверенностью говорить о том, что данные тексты не будут представлять особой ценности для поисковиков. В более сложнойситуацииданныйвариантанализатекста позволяет находить дубликаты созданные с использованием синонимайзеров или специальных генераторов текста.. Corpus similarity - это самый тупой из возможных алгоритмов.

Но тем не менее упоминался в исследованиях микрософта, к тому-же, практически не требует ресурсов. Суть заключается в сравнении словарного запаса используемого при создании текстов. Markov similarity - это классика. Марков одинаково хорошо используется как для генерации текста или машинногоперевода,так идляпоисковдубликатов.

Более привычным названием данного способа является “Шинглинг”. То есть степень схожести последовательных цепочек слов (н-грам или шинглов).

//bog
Я так понял, что вы просто описываете патент на изобретение гугля. Там было так: - сделать выборку документов из похожих - выбрать специфичные термины - выбрать не существенные термины - отранжировать документы по частоте использования правильных и не правильных терминов. //:SergeMikhailov
Точно. Только там несколько разных патентов. Просто учитывая что ресурсы сервера ограничены, в скрипте используется упрощенная модель. //bog
Создавайте уникальные страницы и всё! не надо никаких генераторов текста! www.ardipex.com //:DPex
Что скажешь о Проверь схожесть контента (или слови?
  Ваше имя
Сейчас популярно:
77 оптимизаторов изучают блог СЕО БоГа про оптимизацию. 90 читают ленту новостей поисковой оптимизации и маркетинга aka SEO & SMM. 52 используют уникальные SMM + SEO скрипты и сервисы для заработка денег.
Подписаться на обновления:
Все новости: оптимизаторы зарабатывают деньги

Получать обновления на email:

Доставляет FeedBurner