Duplicate Content Checker Tool
На просторах интернета наткнулся вот на такую программу (2.5Мб), которая проверяет сходство страниц сайта.Для тех, кто умеет читать на английском:This tool crawls your entire site and then analyzes all your pages for duplicate content. It shows similarity percentage among all pages on your site, so you can see what pages are similar enough to trigger a flag in major search engines and consequently they can penalize your site for duplicate content.
(оригинал)Она индексирует весь сайт или отдельно указанные страницы и по своему хитрому алгоритму (действительно интересно, как он у нее релизован) и на локальной машине проверяет их сходство. Чем больше сайт, тем больше будет это дело проверяться, как как все страницы сайта между собой сравниваются, соответсвенно порядок сравнений равен числу страниц сайта в квадрате (точное число сравнений = n2 - n).
Так, что по времени это дело всема емкое и для больших сайтов неприменимое. Для теста я запустил сравнение страниц своего блога. Осталось еще порядка 13 тыс. сравнений. Думаю, до утра справится :)Upd: эксперимент не удался. Через три часа после начала работы программа свалилась с ошибкой “request timeout”..
Source: http://www.blogger.com/feeds/22500138/posts/full/114863586094445543
