Готовые дорвеи. Халява.
Некоторое время назад я серьезно озаботился глобальным изменинием алгоритмов генерации текста кашерного для скармливания поисковикам. Если кто помнит то в свое время я перепробовал: генерацию контента основываной на большой базе англоязычных текстов; использование шаблонов предложений; цепи маркова; синомизацию и многое другое...
Проблемы любого генератора текста используемого в промышленных масштабах это повторение определенных патернов и отклонение от нормальных статистических показателей характерных для какой либо конкретной тематики или стилистики.
Грубо говоря (не используя жутких терминов) - в любом нормальном тексте по определенной теме, распределение слов, пар слов и словосочетаний (N-gram) подверженно определенным правилам характерным для всех текстов по данной тематике. Любые отклонениния от нормальных показателей (столь характерные для дорвеев) - являются индикатором искуственности текста.
В принципе НА ДАННЫЙ момент на это можно не обращать внимание, так как поисковики не уделяют достаточного внимания непосредственно анализу текстов. Но тем не менее если обратить внимание на патенты, то можно убедиться что используя н-грамы SE могут определять как тематику текста, так и его осмысленность или нормальность.
Т.е. если вы хотите массово создавать уникальный текст для google, msn, yahoo и других поисковиков, то мало иметь шаблоны, кейворды или тексты, желательно также учитывать частоту употребления слов и словосочетаний.
Теперь о хорошем. Для того чтобы получить данные по частоте использования н-грам - нужно проанализировать большой обьем текстов. Мне в свое время пришлось несколько месяцев использовать несколько серверов для того чтоб напарсить несколько гигабайт осмысленного текста, а потом проанализировать полученные данные. Однако всего этого можно было избежать...
Reuters в свое время опубликовала архив новостных документов обьемом в 2.5 гигабайта. Данная информация естественно может использоваться для анализа или просто для генерации дорвеев, (ну сколько можно издеваться над владельцем literotica). В общем говорим спасибо National Institute of Standards and Technology, идем сюда и заказываем CD с текстами.
Только естественно не надо писать что вы Лена Беркова и хотите заказать диск на дом для колекции. Если вы представитесь сотрудником научной организации или представителем университета занимающегося компьютерной лингвистикой то ваши шансы на получения нужной информации заметно возрастут..
