<?xml version="1.0" encoding="windows-1251"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/">
<channel>
 <title>Блог Владимира Торопчина</title>
 <link>http://toropchin.com/</link>
 <description>Toropchin Blogging Engine</description>
 <language>ru</language>
 <image>
  <url>http://toropchin.com/i/lastoblog.png</url>
  <title>Блог Владимира Торопчина</title>
  <link>http://toropchin.com/</link>
 </image>


<item>
<title>В поисках уникального контента</title>
<link>http://toropchin.com/post_1224778063.html</link>
<description>&lt;p&gt;&lt;img class=image src=http://toropchin.com/i/p/000000001.jpg align=&quot;left&quot; alt=&quot;В поисках уникального контента.&quot;&gt;&lt;/p&gt;



&lt;p&gt;Тема поста опять о том, где брать уникальный контент.&lt;/p&gt;&lt;br&gt;



&lt;p&gt;В этом блоге про данную затейливость написано две заметки. Сейчас я Вам расскажу про секретную технологию нахождения уникального контента в интернете.&lt;/p&gt;&lt;br&gt;



&lt;p&gt;Задумывался ли кто-нибудь из вас о том, что в интернете существуют блоги с очень качественным уникальным контентом, но по каким-то причинам не проиндексированы яндексом. Я говорю с уверенностью, что таковые есть.&lt;/p&gt;&lt;br&gt;



&lt;p&gt;Теперь о том, как их искать. Нам понадобится программа для поиска блогов. Называется она Fast Blog Finder. Программа платная, и просят за неё всего 25 долларов. Могу сказать, что этих денег она стоит. Назначение у программы немного другое. Она ищет пиаристые блоги на движке WordPress с плагином DoFollow. Но мы будем использовать её не по назначению. Нам от неё нужна только возможность найти блоги и выдать списочек в виде текстового файла.&lt;/p&gt;&lt;br&gt;



&lt;p&gt;Жмём кнопочку импорта и сохраняем списочек в текстовый файл. Далее берём полученный списочек ссылок и проверяем их на проиндексированность яндексом. Делается это программой &lt;a href=&quot;http://toropchin.com/yandexoid.html&quot; target=&quot;_blank&quot;&gt;Yandexoid&lt;/a&gt;. После проверки возникнет картина, что из всего списка в индексе яндекса отсутствует около четверти страничек из списка.&lt;/p&gt;

&lt;br&gt;



&lt;p&gt;Но это ещё не конец. Работа только начинается. Теперь надо найти из этого списка тот самый уникальный контент. Делается это ручками и головой, ибо тут нужен интеллект. Работа похожа на поиски иголки в стоге сена. А с учётом того, что ищем-то мы русскоязычный контент, то не в стоге сена, а в огромной куче не очень приятно пахнущего навоза.&lt;/p&gt;&lt;br&gt;



&lt;p&gt;Способ первый.&lt;/p&gt;&lt;br&gt;



&lt;p&gt;Тупо открываем все странички с полученного списка. С первого взгляда определяем, что за сайт высветился в окне браузера и если он похож на то, что сделано для людей, проверяем его на уникальность контента. Сделать это очень просто. Надо всего лишь забить в яндекс строчку текста с контента этого сайта. И если документов в индексе с точно таким текстом нет, то считается, что контент уникальный. Дальше проверяем, сколько страничек сайта вообще проиндексировано. Как это сделать знает каждый вебмастер. Если сайт не проиндексирован и у него нормальный человекопонятный контент, то смело берём его себе.&lt;/p&gt;&lt;br&gt;



&lt;p&gt;Второй способ.&lt;/p&gt;&lt;br&gt;



&lt;p&gt;Глазками просматриваем список ссылок. И выкидываем все бессмысленные url. Обычно то, что нужно выбросить, даже прочитать с первого раза не удаётся. Дальше, как и в первом способе проверяем остаток ручками и человеческим интеллектом.&lt;/p&gt;&lt;br&gt;



&lt;p&gt;Способ третий.&lt;/p&gt;&lt;br&gt;



&lt;p&gt;Этот способ самый продвинутый. В ходе отбора было замечено, что блоги не просто так вылетают из яндекса. Они должны были это заслужить. Вылетали они в основном за дублирование контента. Дубликаты нам не интересны. А вот те, которые нам нужны, вылетали из-за заспамливания тупыми комментариями. Как известно яндекс за то, что сайт не модерируется сажает его попкою на кол. Тут надо вернуться к программе Fast Blog Finder. В результатах поиска можно узреть какое количество исходящих ссылок имеет страничка блога. Предполагается, что блог был зиспамлен, а это значит, что в комментариях должно содержаться огромное количество исходящих ссылок. Начать правильно будет с тех сайтов, в которых этого спама больше всех.&lt;/p&gt;&lt;br&gt;



&lt;p&gt;Нам понадобится импортировать два списка из программы для поиска блогов. Первый список для того, чтобы проверить его на проиндексированность яндексом, второй список такой же, но с маленьким дополнением. Нужен ещё столбец с количеством внешних ссылок. Разделителем между урлом и количеством исходящих должен быть TAB.&lt;/p&gt;&lt;br&gt;



&lt;p&gt;Проверяем первый список на проиндексированность. Загоняем вот в &lt;a href=&quot;http://toropchin.com/i/other/programma.exe&quot; target=&quot;_blank&quot;&gt;эту программку&lt;/a&gt; второй список и список, который получился на выходе яндексоида и именуется первым. Жмём кнопочку GO. Получаем списочек со страничками, которых нет в яндексе, и напротив каждого url имеется число исходящих ссылок. Сохраняем списочек с удобным для нас расширением - txt или excel. Дальше всё как в первом или втором пункте - проверяем те странички, на которых больше всех исходящих ссылок. Остальные можно смело пропустить, ибо они нам не подходят.&lt;/p&gt;

&lt;br&gt;



&lt;p&gt;С нетерпением жду Ваших комментариев.&lt;/p&gt;&lt;br&gt;&lt;br&gt;&lt;a href=http://toropchin.com/comment_1224778063.html&gt;Оставить комментарий&lt;/a&gt;</description>
<pubDate>Thu, 23 Oct 2008 09:07:43 GMT</pubDate>
</item>

  </channel>
</rss>