Проверь схожесть контента (или слови
Проверь схожесть контента (или слови пеналь). Последнее время на разных форумах все чаще звучат рассуждения о влиянии контента на выдачу результатов поисковых систем. Большинство СЕОшников сходится во мнении что неуникальный контент может оказывать негативное воздействие.
Как следствие, на рынке появилась масса продуктов которые предлагают решить проблему уникального контента. Начиная от банальных генераторов маркова, синдикаторов или синонимайзеров и заканчивая специализированными системами лингвистической трансформации..
И тут можно заметить один нюанс. Крошечный, но в тоже время критичный. У СЕО комьюнити до сих пор нет единого мнения о том, каким образом определяются дубликаты контента. Так о какой уникальности генерируемых дорвеев могут говорить авторы разнообразных скриптов при отсутствии данной информации? Если же обратиться к оригиналам, то есть к патентам гугла и других поисковых машин, то мы найдем весьма разнообразные методики определения схожести текстов.
Забавно, но при желании можно найти колосальное количество примочек позволяющих создавать уникальный текст, но при этом нет ни одной вменяемой тулзы для обратной задачи.
Нонсенс. Ведь для того чтобы понять насколько хорош ваш генератор текста (или дорвей скрипт), вам жизненно необходимо знать насколько схожими являются создаваемые тексты.
Следующий скрипт (вернее сервис) позволит вам расчитать процент схожести между двумя текстами . Расчет ведется по трем основным методикам используемых поисковиками.
Реализация алгоритмов упрощенная (и анализирует только английский язык), но демонстрирует высокую степень достоверности результатов.
p.s. Да, за повторяющийся контент ДЕЙСТИВТЕЛЬНО можно получить бан. Да, дублированный контент на самом деле НЕ проблема для многих из нас. Для того чтобы понять что может повлиять на ситуацию рекомендую почитать маркетинг пилигрима. Но в любом случае, уникальный контент дает громадное преимущество. Так что тестируйтесь и делайте выводы. ;)
13 comments for “Проверь схожесть контента (или слови”
На самом деле все несколько сложнее.
Изначально определение дублированных страниц задумывалось для экономии ресурсов.
Из сотен идентичных статей имеет смысл выбрать лишь несколько наиболее важных для показа в результатах поиска и регулярного анализа. Все остальное идет или под фильтры или во вспомогательные индексы. Однако в свете последних исследований (и патентов) - акценты сместились. Теперь поиск дубликатов в основном используется для обнаружения спама. Причемвэтомсветеправильнееиспользовать термины near-duplicate content или near-identical (text) variations.
То есть разработчики поисковых систем прекрасно понимают что тексты создаваемые програмными способами будут иметь схожие характеристики но при этом не будут являтся точными копиями. И именно эти характеристики типичны для спама, сплогов и дорвеев. Вообще, на самом деле эт очень большая и сложная тема. Есть масса нюансов которые невозможно описать в нескольких строках, но можно узнатьеслиприложитьдляэтогонемного усилий.
В частности то, что на авторитетные (новостные, трастовые и т.д.) сайты пенальти за подобные проступки не накладываются, можно было узнать перейдя по вышеприведенной ссылке.
//bogИтак, все у кого было желание поразмять мозги - уже проверили свои домыслы в аське.
Теперь выкатываю инфу на паблик. По причине лени и отвратительной привычки не сохранять копии усвоенной (прочитанной) инфы - ссылок на оригиналы не будет. Кому интересно - гуглим по теме “pdf+(spam|spamdexing)+(?search engines|microsoft|google)” Теперь по скрипту: Freq distribution. В любом тексте присутствуют популярные (общеупотребительные) слова и выражения. Ихлегкоможноизменитьиливыкинуть, без ущерба для текста.
Также для любого уникального документа можно создать уникальный набор специфичных именно для этого документа низкочастотных слов. Совпадения данных совокупностей и их последовательности может влиять на оценку документов и их связей.
//bogTemplate similarity это хрень под которую попадает громадное количество документов.
В том числе и с солидных ресурсов. Оценивается шаблонность предложений и текста в целом. К примеру, если анкеты на сайтах знакомств ограничиваются текстами вида: “Привет, меня зовут ИМЯ, я родилась в ГОРОД. Мне ЧИСЛО лет. Мне нравится КЕЙВОРДЫ.” Можно с уверенностью говорить о том, что данные тексты не будут представлять особой ценности для поисковиков. В более сложнойситуацииданныйвариантанализатекста позволяет находить дубликаты созданные с использованием синонимайзеров или специальных генераторов текста.. Corpus similarity - это самый тупой из возможных алгоритмов.
Но тем не менее упоминался в исследованиях микрософта, к тому-же, практически не требует ресурсов. Суть заключается в сравнении словарного запаса используемого при создании текстов. Markov similarity - это классика. Марков одинаково хорошо используется как для генерации текста или машинногоперевода,так идляпоисковдубликатов.
Более привычным названием данного способа является “Шинглинг”. То есть степень схожести последовательных цепочек слов (н-грам или шинглов).
//bog