logo как заработать деньги: СЕО и оптимизация
Интересен bog или тема «Уязвимости новой технологии гугла.»? Читайте статьи: ; ; ;   7 Вещей о Google Spam Report которые...

Уязвимости новой технологии гугла.

Новогодний подарок от гугла, именуемый “вычисление мусорных документов в информационно поисковых системах основанных на фразах” (перевод мой, вольный... оригинал тут) наделала много шума на всех оптимизаторских форумах.

Отдельные личности, пользуясь моментом, провозглашают смерть дорвеев и маркова в частности, и всей оптимизации в целом. И как бизнесмен, я обязан их поддержать, так как давно известно: чем меньше конкурентов - тем больше прибыль..

Но в честь праздников хочу сделать небольшой подарок и запалить темы.

Итак, как вы возможно уже знаете, гугл кардинально меняет технологии хранения и поиска информации. От индексации по отдельным словам (как это было принято в прошлом веке) гугл постепенно двигается к индексации по фразам. Сразу хочу заметить, что под фразой имеется в виду не целое предложение, а просто достаточно устойчивое словосочетание или даже отдельное слово.

В целом, с точки зрения развития поисковых технологий, это большой шаг вперед который дает огромные возможности. По каким то причинам, разработчики Google решили что наибольшие возможности алгоритм получит в области борьбы со спамом. Наивные...

В целом (еслиб эта заметка писалась в стиле “дорвеи для чайников”) новый алгоритм можно описать так:

  • 1. Google индексирует все доступные ему документы.
  • 2. По окончании анализа этого океана информации, все фразы, которые встретились более Х раз, помещаются в специальную базу. Так же в этой базе накапливаются иные важные данные, в частности статистика совместного использования разных фраз в одном и том же документе (с помощью чего может оцениваться релевантность разных фраз).
  • 3. Используя статистические методы гугл создает базу спам документов.
  • 4. В дальнейшем, попавшие в базу УРЛы, понижаются в выдаче или используются для дальнейшего анализа спама.

Собственно самый важный пункт, который волнует каждого из нас - пункт номер три...

Как поисковик способен определить, что документ является спамом?

Дело в том, что нормальные информационные документы обычно охватывают ограниченное число тем, используют довольно скромный словарный запас. В отличии от спамеров, которые обычно используют большое количество тематических (а в отдельных случаях и разнотематических) кейвордов на одной странице.

Возможно некоторые из вас захотят сказать “Чушь, я не испытываю никаких проблем, гугл хавает и все пучком”... И хорошо, ибо вполне возможно что и в дальнейшем все будет продолжаться точно также.

Дело в том что поисковые системы стремяться делать все абсолютно автоматически используя различные статистические методы..., точно так же как и крупные спамеры, у которых достаточно ресурсов чтобы влиять на статистику. Эффект Google bombing - проявляется не только в изменении позиций сайта путем проставления ссылок с нужным текстом, но и в изменении тригеров естественного наращивания ссылок (который спамеры успешно обходят), и в изменении релевантности слов (фентермин и казино - братья навек) и т.д.

Поэтому по настоящему массовое клепание статистически схожих страниц так же может на корню сломать планы гугла..

Ну а для тех кто нифига не понял, обьясняю еще проще. Раньше, одним из наиболее важных критериев ранжирования была плотность ключевых слов (keyword density). PhraseRank (так буржуи обозвали новый алгоритм) - это тематическая плотность фраз. Чем она больше - тем с одной стороны лучше, но с другой стороны тем выше вероятность что вас примут за спамера. Как этим пользоваться - думаю знает даже самый неопытный оптимизатор.

SEO blackhat google patents phraserank

bog: архив

24 comments for “Уязвимости новой технологии гугла.”

smile //:mavook
классный пост! //:Alexei
отличная заметка спасибо //:pir8
Спасибо. photo отличная заметка спасибо Ради интереса... Эту статью добавляли на ньюс2.ру, где ее практически сразу кто-то забанил. Если у вас есть аккаунт, проголосуйте здесь news2.ru/story.php?story_id=18783 Интересно ведь узнать, чему в итоге отдает предпочтение эта система: одной жалобе на сомнительное содержание, или рейтингу от большого количества пользователей. //bog
На ньюз2ру вашу статью никто не закапывал. Сейчас 14 голосов и 10 часов со времени создания новости - возможно динамика набора голосов была плохая, голоса медленно набирались, поэтому не попала на главную страницу. Новые участники мало влияют на рейтинг, а пометка Спам(которой у вас нет) от старого и рейтингового участника - очень сильно опускает статью вниз //:sheller

sheller, да наверное так и было.

Но проблема не в том, что новости не было на главной, а в том, что ее не было вообще ни в одной из рубрик (при наличии в тех же рубриках более старых и более новых новостей с меньшим кол-вом голосов). Причем насколько я помню в тематических разделах даже закопанные статьи показываются (но с серой кнопкой).

Сейчас кнопка голосования стала оранжевой и статья попала в соответствующие категории. Так что будем считать что это глюк илинедоработкаалгоритмов.P.S.вывод:никогда не сабмитить новости в ньюс2.ру в период с 23 до 12утра по Москве, так как в это время динамика активности участников наименьшая....

//bog
или это я такой трудный или жизни отстал или автор хитрит :) воопще не могу логически осмыслить некоторые фрагменты статьи.... :( //:wastemaster
Мда, еле дочитал, криво и недоходчиво описано. А так интересно начиналось “cпалю тему... как бизнесмен” smile Ну влияют крупные спамеры на анализ гугла и чего? Количество кейвордов на странице замечательно регулируется, этот тут при чем? Автор, ты сам то понимаешь о чем речь? //max
я кажется понял, это тестовая обкатка нового генератора контента smile //max

wastemaster, а что именно непонятно? Эх, говорили мне что нельзя писать статьи в 3 часа ночи.

В принципе старался наоборот как можно более просто и доступно изложить суть.

Без упоминаний матриц, векторов и прочих умных выражений.... Видать не получилось. Ок, max, обьясняю конкретно на примерах при чем тут кейворд денсити (не путать с кол-вом кейвордов). К примеру есть страница состоящая из текста “VIAGRA - Viagra viagra”... плотность слова ваиагра - 100%. Страница идетвбаню...(ещеразна всякий случай - это только пример для демонстрации теории.

Я в курсе, что даже такая страница может прекрасно жить и давать траф :))...

//bog

Продолжаем... Чтобы уменьшить плотность оптимизаторы заменяли текст синонимами или схожими кейвордами.

Получали страницу с текстом “Viarga help man with erectial disfunctions.

Fazer is our god. Viagra is better than cialis, so buy viagra online”. Подобный текст во первых собирал большее кол-во трафика, так как включал большое кол-во кейвордов, а во вторых не детектился алгоритмами поисковиков, так как кейворд денсити оставался в пределах нормы. Теперь то, очемяизначальнотолковал.Несмотря на то, что слова в последнем тексте были разные, они все являются кейвордами одной и той же темы.

Т.е. плотность тематических фраз в нем равно 100%. Дор идет в баню.

Но если использовать текст вида I used viagra recently, it was a good expirince for me and my partner. Thanks my father and fizer for this wonderfull night то тематическая плотность текста становиться меньше и он пройдет новые фильтры. Теперь почему я заговорил о крупных спамерах...Порогмаксимальнойплотности покаждойтеме гугл определяет автоматически как арифметическое среднее для всех тематических страниц.

Соответственно если большое кол-во страниц будет по прежнему использовать тексты вида “Viarga help , so buy viagra online”, то порог плотности по тематике виагра будет достаточно высоким и большая часть дорвеев будет по прежнему просачиваться в индекс.

//bog
Всё равно, плотность, количество, суть одна... С чего взято, что при генерации текста используются другие кейворды? У гугла другой механизм, он анализирует фразы таким образом что при наличии одного слова должно быть скорее всего и другое, с которым они часто стоят в паре. Если много несовпадений - бан. smile //max
А ты патент в оригинале читал? Покажи конкретное место где говорят про то что если несовпадает - то бан. Хоть бог и умолчал о паре фишек, но то, о чем ты говоришь, в патенте не описывается. Дружно учим английский чтоб избегать недоразумений smile //:maybah

max, когда человек считает что “плотность” и “количество” это одно и тоже, то обьяснять чем отличается “последовательность” от “сочетаемости” смысла нет. Да и ситуация не та, когда нужно отстаивать свою правоту.

В источнике вся инфа есть.

Найдите человека который разбирается в высшей математике, знает английский, и имеет опыт перевода подобного рода текстов. А строить догадки на основе пересказов людей, которые “где то, чтотонаэтутемучитали” - занятие не самое разумное.

Т.е. теория и догадки - это хорошо, но на практике обычно в патенте дается достаточная информация о том как именно будет работать тот или иной алгоритм.

//bog
maybah, imho я сказал БОЛЕЕ чем достаточно для того чтобы дорвейщики спокойно могли делать дорвеи, а оптимизаторы спокойно использовать существующие схемы.photo :maybah //bog
Как поиск_овик спосо_бен опр_еделить, что до_кумент явл_яется спа_мом? Так ж_е, как он сей_час эффе_ктивно блекли_стит рес_урсы дл_я сп_ама, линкопо_мойки и пр. Да уж, тут п_араноидальный анти_спам фи_льтр. //:гость
Ну насчет эффективности бана ресурсов под спам, линкопомоек и других методов получения линков - можно поспорить. Баниться в основном то, что юзается пионерами (в плохом смысле этого слова). При правильной организации процесса эти методы по прежнему работают. p.s. антиспам фильтр у меня конечно зверский, но иначе просто громадное кол-во спама на сайт идет. А слова можно было не коверкать, при подтверждении другие алгоритмы используются и обычно комент даже без изменений проходит. //bog
smile //dDan
smile //mavook
отличная статья //:Fisherman
Добавь даты к статьям ;) Вообще я так понял это для некоторых личностей уже давно не новость, т.к. спам с учетом подобного алгоритма я уже наблюдаю давненько :) //Nike
Да, даты, пожалуйста. А то невозможно. //Hb-fetal
Если получать RSS или смотреть ленту пользователя, то там даты есть; показывет что заметка последний раз редактировалась 10 Jan 2007. Для добавления даты в тело заметки надо будет внести серьезные изменения в движок. Заодно планируется нормальные таги с поиском сделать. Но на это уйдет некоторое время. //bog
kogda pojavitsa novaa texnologia ot googla to pojavitsa chelovek kotorii posle paru dnei raboti s nei spravitsa photo karkusha //karkusha
Что скажешь о Уязвимости новой технологии гугла.?
  Ваше имя
Сейчас популярно:
54 оптимизаторов изучают блог СЕО БоГа про оптимизацию. 76 читают ленту новостей поисковой оптимизации и маркетинга aka SEO & SMM. 38 используют уникальные SMM + SEO скрипты и сервисы для заработка денег.
Подписаться на обновления:
Все новости: оптимизаторы зарабатывают деньги

Получать обновления на email:

Доставляет FeedBurner