Сервис изнутри
Как приготовить лучшую базу ключей на рынке?
Набрать массу
Когда перед нами встала задача наполнения базы ключевых слов, а это, без сомнения, наиболее важный элемент любого подобного сервиса, мы подошли к процессу масштабно. Из большинства доступных источников – подсказки Яндекса, на тот момент еще открытые данные счетчиков Метрики, данные из счетчиков Liveinternet – были собраны примерно 1.5 млрд ключевых слов. Всем этим словам была проверена частотность Wordstat и из всей базы мы выбрали 150 000 000 наиболее часто запрашиваемых слов. При сортировке всех 1.5млрд по столбцу «Частотность», строка под номером 150 000 000 имела показатель 4 показа в месяц. Мы решили, что это – та самая граница, которую мы искали.
Уникальные алгоритмы фильтрации и объединений
Мы разработали алгоритм выделения перефразированных запросов и запросов с одинаковыми словами в разном порядке, долго и упорно экспериментировали с этими подходами в попытках сделать базу чище, получили, как нам казалось, хорошие результаты. Используя этот подход, мы сделали выборку наиболее уникальных и запрашиваемых слов, получилось немногим более 70 000 000 фраз, именно они послужили отправной точкой. Но пришло время меняться.
Шпионаж и конкуренция - ведь именно это наш конёк!
Какое то время назад, наш сервис периодически критиковали, ссылаясь на недостаток «тех самых, особо коммерческих ключей». Чтобы свести подобные разговоры к минимуму мы постарались получить максимум запросов из конкурирующих сервисов, влили полученные объемы (а мы их оцениваем в 80-85% от базы каждого из конкурентов) в нашу исходную базу размером в 150 млн ключей, после слияния нашей базы и баз трех конкурентов, количество ключей изменилось совсем не сильно – добавилось порядка 15 млн запросов.

Следом были вычищены ключи с повторами слов и с недопустимыми символами, удалены все фразы длиннее 7 слов — для них невозможно получить данные о ставках в Директе.
Новый оператор Яндекса
Яндекс сделал нам подарок: появился новый оператор запросов в wordstat.yandex.ru – квадратные скобки. Этот оператор фиксирует порядок слов, т.е. теперь наконец можно точно сказать, что "билет москва петербург" заметно популярнее, нежели "билет петербург москва". Такого оператора ждал весь рунет и событие нельзя было пропустить. Имевшимся примерно 160 млн ключей была запрошена частотность в новом формате.

При использовании нового оператора, фиксирующего порядок слов в запросе, с применением привычных операторов «Кавычки» и «Восклицательный знак» мы смогли наконец стать уверенными в том, что знаем истинное количество показов конкретного ключа в конкретной форме. Все наши ноу хау по выборке более вероятной формы оказались совсем не нужными, чему мы несказанно рады. Мы отсортировали 160 млн ключей по "[!годовой !частотности !в !новом !формате]", выбрали топ 80 млн ключей и именно они легли в основу базы данных Keys.so для региона Яндекс:Москва.

Для дополнительных регионов (Петербург, Екатеринбург, Минск, Киев, Ростов-на-Дону, Нижний Новгород, Краснодар) мы взяли топы нашей исходной базы, оставив то количество запросов, которое мы способны оперативно обрабатывать. Для Петербурга, Киева и Минска это число равно 20 000 000, для остальных регионов - более 13 000 000 запросов. Точные данные всегда доступны на странице статистики системы.