В поисках уникального контента

Тема поста опять о том, где брать уникальный контент.
В этом блоге про данную затейливость написано две заметки. Сейчас я Вам расскажу про секретную технологию нахождения уникального контента в интернете.
Задумывался ли кто-нибудь из вас о том, что в интернете существуют блоги с очень качественным уникальным контентом, но по каким-то причинам не проиндексированы яндексом. Я говорю с уверенностью, что таковые есть.
Теперь о том, как их искать. Нам понадобится программа для поиска блогов. Называется она Fast Blog Finder. Программа платная, и просят за неё всего 25 долларов. Могу сказать, что этих денег она стоит. Назначение у программы немного другое. Она ищет пиаристые блоги на движке WordPress с плагином DoFollow. Но мы будем использовать её не по назначению. Нам от неё нужна только возможность найти блоги и выдать списочек в виде текстового файла.
Жмём кнопочку импорта и сохраняем списочек в текстовый файл. Далее берём полученный списочек ссылок и проверяем их на проиндексированность яндексом. Делается это программой Yandexoid. После проверки возникнет картина, что из всего списка в индексе яндекса отсутствует около четверти страничек из списка.
Но это ещё не конец. Работа только начинается. Теперь надо найти из этого списка тот самый уникальный контент. Делается это ручками и головой, ибо тут нужен интеллект. Работа похожа на поиски иголки в стоге сена. А с учётом того, что ищем-то мы русскоязычный контент, то не в стоге сена, а в огромной куче не очень приятно пахнущего навоза.
Способ первый.
Тупо открываем все странички с полученного списка. С первого взгляда определяем, что за сайт высветился в окне браузера и если он похож на то, что сделано для людей, проверяем его на уникальность контента. Сделать это очень просто. Надо всего лишь забить в яндекс строчку текста с контента этого сайта. И если документов в индексе с точно таким текстом нет, то считается, что контент уникальный. Дальше проверяем, сколько страничек сайта вообще проиндексировано. Как это сделать знает каждый вебмастер. Если сайт не проиндексирован и у него нормальный человекопонятный контент, то смело берём его себе.
Второй способ.
Глазками просматриваем список ссылок. И выкидываем все бессмысленные url. Обычно то, что нужно выбросить, даже прочитать с первого раза не удаётся. Дальше, как и в первом способе проверяем остаток ручками и человеческим интеллектом.
Способ третий.
Этот способ самый продвинутый. В ходе отбора было замечено, что блоги не просто так вылетают из яндекса. Они должны были это заслужить. Вылетали они в основном за дублирование контента. Дубликаты нам не интересны. А вот те, которые нам нужны, вылетали из-за заспамливания тупыми комментариями. Как известно яндекс за то, что сайт не модерируется сажает его попкою на кол. Тут надо вернуться к программе Fast Blog Finder. В результатах поиска можно узреть какое количество исходящих ссылок имеет страничка блога. Предполагается, что блог был зиспамлен, а это значит, что в комментариях должно содержаться огромное количество исходящих ссылок. Начать правильно будет с тех сайтов, в которых этого спама больше всех.
Нам понадобится импортировать два списка из программы для поиска блогов. Первый список для того, чтобы проверить его на проиндексированность яндексом, второй список такой же, но с маленьким дополнением. Нужен ещё столбец с количеством внешних ссылок. Разделителем между урлом и количеством исходящих должен быть TAB.
Проверяем первый список на проиндексированность. Загоняем вот в эту программку второй список и список, который получился на выходе яндексоида и именуется первым. Жмём кнопочку GO. Получаем списочек со страничками, которых нет в яндексе, и напротив каждого url имеется число исходящих ссылок. Сохраняем списочек с удобным для нас расширением - txt или excel. Дальше всё как в первом или втором пункте - проверяем те странички, на которых больше всех исходящих ссылок. Остальные можно смело пропустить, ибо они нам не подходят.
С нетерпением жду Ваших комментариев.
Vladimir Toropchin
Адрес заметки: http://toropchin.com/post_1224778063.html
Обязательные для заполнения поля помечены карандашом.
email при указании не будет опубликован.
Адреса с http:// преобразуются в ссылки автоматически.
Для этого отделяйте их от текста ПРОБЕЛАМИ с обеих концов.
Теги запрещены.