M$ борется с поисковым спамом
Прочел на вебпланете заметку, что они собираются бороться с “поисковым спамом” (долго собирались что-то...).Ну ладно, дело не в этом. Они предлагают отслеживать, куда ведут ссылки с исследуемого документа. По словам И-Минь Вана, если большое количество документов ссылаются на один и тот же сайт, то он, скорее всего, [раскручиваетсяk незаконным способом (то есть при помощи дорвеев).
В первую очередь Strider Search Defender [прошерститk форумы и блоги, анализируя найденные страницы и пытаясь определить, не ссылается ли большая их часть на какой-нибудь определенный сайт. Затем URL сайта проверят по базе [белых адресовk, после чего будет вынесен вердикт - отнести адрес к разряду спамерских или оставить в покое.
Во-первых, совершенно непонятно как они собираются сформировать базу “белых адресов” и каким критериям должен удовлетворять тот или иной сайт, чтобы быть в нее внесен. Ведь по сути, если имеется дор и если он определяется поисковиком именно как дор, то банится автоматом, о чем уже не раз говорили сотрудники искалок.
Если сайт не дор, то он “белый” и имеет право присутствовать в поиске. Тогда причем тут база “белых” адресов и как она формируется? Спору нет, всегда есть способы что-то обойти, но тем не менее. Во-вторых, вопрос относительно [прошерстенияk блогов и форумов. Естественно, имеется определенная часть мусора, которая бесспорно заслуживает наказания, но, вместе с этим, как быть с флешмобами, то есть когда на одном “светлом” сайте появляется какая-то новость или что-то в этом духе и сразу же на нее появляется куча ссылок по блогам и форума, как, например, известный случай с напитком “йад”? По вышеуказанным определениям - типичный пример спама, однако, если подумать, то нет......
Я, конечно, не думаю, что весь алгоритм ограничивается только двумя указанными характеристиками, но вместе с этим очень быстро нашелся контрпример, который всю идею метода сводит на нет. Надеюсь, что они как-то умеют учитывать и обходить подобные ситуации..
Source: http://www.blogger.com/feeds/22500138/posts/full/115288837234350883
