Автоматическое составление базы для холодных звонков с помощью нейронной сети. Постановка задачи.

Введение

Одним из способов привлечения клиентов для SEO-компании является холодный обзвон владельцев сайтов коммерческой направленности (чаще всего интернет-магазинов). Понятно, что обзванивать всевозможные сайты занятие очень трудоёмкое, поэтому, чтобы повысить КПД таких звонков необходимо провести фильтрацию, отбросив заведомо бесперспективные. Собственно автоматизируются 2 процесса

  • сбор полного списка сайтов;
  • прореживание (фильтрация) полного списка.

Сбор полного списка сайтов

Определение тематики.

Тематика определяется набором ключевых запросов. Например, такую тематику «банки» достаточно полно характеризуют ключевые запросы: «оформить кредит в банке»,»выгодные вклады»,»услуги банка». Отдельно отметим, что количества шлака в полном списке сайтов сильно зависит от качества подбора ключевых слов. Они должны быть максимально коммерческими, полностью имитируя запросы человека, пытающегося найти через поисковики поставщика товаров и услуг данной тематики. Ключевики вида «банки», «виды вкладов», «ссудный процент» подходят для этого слабо.

Сбор сайтов тематики.

По каждому из ключевиков тематики делается запрос к Яндексу. Вполне легально через через сервис Яндекс-XML можно автоматически сделать 1000 запросов в сутки, что даст несколько тысяч (возможно даже десятков тысяч) сайтов для полного списка. Список требуется сохранить вместе с ключевиками, ко которым эти сайты были извлечены и с позициями на которых находились.

 

Фильтрация полного списка

Убираем одиночки

Нас интересуют только сайты, которые попали в выборки ключевиков тематики минимум 2 раза. Случайные-залётные мы дальше не пропускаем. То есть для тех же банков, например, интересны сайты, попавшиеся в выдаче и по «оформить кредит в банке и по «выгодные вклады».

Убираем сайты без контактов

Нас не интересую сайты без контактов, с владельцами которых нельзя связаться. То есть сайты не имеющие на главной странице одно из слов:

  • «Контакт»;
  • «Контактн»;
  • «Телефон».

тоже отправляются в корзину.

Убираем сайты без каталога продукции или магазина

От сайтов некоммерческой направленности тоже лучше избавиться. Дальше не проходят сайты, не имеющие на главной слов

  • «Купить»;
  • «Магазин»;
  • «Продукци».

 

Оцениваем сайты по нескольким критериям.

Сразу хочется отметить, что многие из перечисленных оценок не могут быть получены достаточно точно. Этот недостаток нивелируется за счет применения нейросети, для принятия решения на основе этих оценок. Как известно, нейросети проявляют определённую стойкость к погрешностям входных данных и помехам.

Оценка сайта  по критерию — это число от 0 до 1, определяющее степень соответствия критерия-утверждения истине. 0 — точно нет, 1 — точно да, 0.5 — хрен его знает. Кстати, о.5 допустимая оценка для случая, если автоматическое определение критерия столкнулось с проблемой технического характера.

Итак. Основные критерии-утверждения (далеко не все)

  1. На сайте есть sitemap.xml (запрос на сам сайт);
  2. На сайте есть robots.txt (запрос на сам сайт);
  3. Сайт занимает высокие позиции в Яндексе по своей тематике (на основе формирования полного списка. Сайт попадает туда с позицией);
  4. Сайт хорошо проиндексирован в Яндексе (http://yandex.ru/yandsearch?text=site%3Aperpetum-mobile.ru&lr=51);
  5. Сайт есть в yandex-каталоге (http://bar-navig.yandex.ru/u?ver=2&url=http://npravdina.ru&show=2&post=0);
  6. ТИЦ сайта высок (http://bar-navig.yandex.ru/u?ver=2&url=http://npravdina.ru&show=2&post=0);
  7. На домен сайта много кто ссылается (достаточно косвенный метод, и тем неменее запрашиваем у яндекса http://имя_домена и считаем ссылками на него все результаты, не являющиеся самим доменом);
  8. На главной странице сайта много внешних ссылок (грузим главную, парсим все ссылки и считаем те, что ссылаются не на сам сайт);
  9. Главная страница быстро отдаётся web-сервером (грузим главную и гамеряем время отдачи);
  10. На главной странице много flash-банеров (грузим главную и считаем количество тегов object);
  11. Главная страница обладает большим размером исходного кода (грузим главную и считаем объём кода при более чем 360 КБ считаем что оценка равна 1);
  12. На главной станице много текста (грузим главную, вырезаем теги и смотрим соотношения объёма к исходному. Если отношение более 0.5 — оценка 1);
  13. Применяется преимущественно блочная вёрстка (грузим главную, считаем отношение тегов div+ul+ol+li к table+tr+td+th. Оценка определяется как «количество блочных»/»сумма блочных и табличных»);

Классифицируем сайты по нескольким классам с помощью нейронной сети.

Нейронная сеть классифицирует элементы отфильтрованного списка по классам.

  • Бесперспективные сайты
  • Интересные сайты для звонка

Ставя степень уверенности в принадлежности сайта каждому классу от 0 до 1

Итог.

На выходе у нас получаются списки сайтов по классам, отсортированные по убыванию уверенности в принадлежности к классу. ТОП этих списков можно использовать для дальнейшего обучения нейросети и звонков. Сайты, использованные в качестве примеров для обучения и звонков, логично из списков по классам убирать, чтобы не мешались.

Построение нейросети и её обучение в данной статье рассматриваться не будет.


Добавить комментарий