Первая ласточка
Около года назад ЗАО "Поисковые технологии" запустило бета-версию
"Персонального поиска" в рамках проекта "Новотека" (personal.novoteka.ru),
который позволил желающим создавать свои тематические поисковые системы. Для
использования сервиса "Новотека" предлагает несколько вариантов использования, в
том числе и бесплатный (в результатах поиска которого демонстрируется реклама).
Платные варианты отличаются размером дисковой квоты и количеством разрешенных за
месяц запросов. Так же, они позволяют экспортировать результаты поиска в
XML-формате.
Автор тематического поисковика должен настроить поискового робота, указывая ему точки входа на сайты
(страницы, с которых начнется индексация содержимого сайта) и маски, по которым
робот будет отбирать ссылки на веб-страницы для скачивания. Размер поисковой
базы ограничен дисковой квотой, которая в бесплатном варианте составляет 1 Гб –
этого объема достаточно в большинстве случаев. Некоторые из поисковиков,
разработанными на базе "Новотеки" оказались достаточно популярными.
Например,
поиск по антивирусных сайтам от Игоря Ашманова - public.novoteka.ru/antivirus или по ресурсам для поисковых оптимизаторов public.novoteka.ru/seoteka.
Несмотря на жесткие правила по регистрации новых посетителей, уже
опубликовано более 550 поисковых систем на различные темы, от поиска по
электронным библиотекам и научным сайтам до поисков по недвижимости и
тендерам.
Следующим этапом эволюции "Персонального поиска" станет проект Flexum
(www.flexum.ru), запуск которого запланирован на дни выхода данной статьи в
печать. Как обещают разработчики, пользователи "Персонального поиска" будут
автоматически перенесены во Flexum, но об этом чуть позже.
Гигант поиска, в т. ч. тематического
Через несколько месяцев после запуска "Персонального поиска", и Google
объявил об открытии сервиса "Google Custom Search Engine" (google.com/coop/cse).
Поисковому гиганту нет нужды в выделении каких-либо дополнительных мощностей под
хранение данных тематического поиска, достаточно лишь использовать уже
существующую огромную базу.
Как раз благодаря использованию уже готовой глобальной базы, нет
необходимости в использовании поискового робота, достаточно настроить фильтрацию
существующей поисковой базы. Настройка Google CSE достаточно гибка, проста и
интуитивно понятна. Она заключается в указании фрагментов ссылок на страницы,
которые будут использоваться в тематическом поиске. У автора поисковика также
есть возможность присвоить сайтам тэги, выбирая которые, пользователь сможет еще
больше конкретизировать свой запрос.
В отличие от "Персонального поиска", Google CSE не представляет возможности
экспорта результатов в XML. Интеграция с поиском возможна только с
использованием JavaScript или AJAX. Это действительно проще, но накладывает
ограничения на программную обработку результатов поиска.
Google SCE, как и системе от "Новотеки" не хватает поддержки регулярных
выражений в масках. Нельзя сказать, что она жизненно необходима, но в ряде
случаев довольно удобна. В некоторых случаях регулярные выражения позволили бы
сделать запись более компактной. Например, вместо нескольких ссылок, вроде
site.ru/hunting, site.ru/fishing и site.ru/justforfun, можно было бы
использовать более краткий вариант: site.ru/(hunting|fishing|justforfun).
Сервисная специфика
Опыт использования упомянутых движков для реализации поиска по материалам о
программировании показывает, что Google CSE часто позволяет более качественно и
в то же время просто фильтровать контент при включении в поиск только отдельных
частей сайтов. В "Персональном поиске" нередко приходилось использовать
несколько точек входа, количество которых, к слову, для одного сайта ограничено,
что сужает возможности настройки.
На многих сайтах размещены статьи различной тематики. Например, на одном и
том же сайте может присутствовать как документация по программированию на PHP,
так и статьи о веб-дизайне. Можно выделить два способа построения ссылок при
разбиении сайта на тематические разделы. В первом случае имеют место статьи с
адресами вида site1.ru/category_name/article_name.htm и оглавление раздела со
ссылками на статьи по адресу site1.ru/category_name/. А во втором
соответственно site2.ru/article_name.htm и site2.ru/category_name.htm.
При работе с "Персональным поиском" оба способа одинаково удобны: задается
одна или несколько точек входа – по количеству страниц оглавлений разделов – и
статьи, на которые они ссылаются, будут проиндексированы.
В Google CSE очень просто работать со ссылками первого типа: для
каждого раздела достаточно добавить фрагмент текста, который присутствует в
адресах входящих в него статей – "site1.ru/category_name". Со вторым типом
возникают проблемы. Если указать строку "site2.ru", то в поиске будут
задействованы статьи всех разделов, даже ненужных. В таких случаях можно
добавлять в базу ссылки на статьи нужной тематики по одной, но это трудоемкое
занятие, если статей на сайте сотни. К счастью, большинство качественных
ресурсов использует первый способ адресации статей и разделов.
Рассматривая Google CSE, стоит также отметить возможность показа объявлений
Google AdSense в тематическом поиске, которые приносят автору поисковика
дополнительный доход. Также сервис Google позволяет выводить на странице поиска
список наиболее популярных запросов.
Отсутствие у "Новотеки" общих поисковых баз не стоит однозначно трактовать
как недостаток. "Персональный поиск" предоставляет возможность создания своей
собственной поисковой базы. Некоторые веб-страницы по различным причинам могут
отсутствовать в индексе Google. "Персональный поиск" лишен этого недостатка и в
базу будет включено точно то, что указано в настройках робота. И обновляться она будет с заданной периодичностью.

Потенциал Flexum
Как в Google CSE так и в будущем Flexum автор может приглашать к себе
соавторов для совместной работы над настройкой своего поиска. Но в Flexum это
более явно выделено в концепцию "социального поиска". Вокруг создателей
поисковых систем организуется социальная сеть, в которой они могут общаться,
искать себе новых соавторов, давать друг другу права на работу со своими
поисковыми системами (добавлять, редактировать описания или удалять сайты из
поисковой системы, работать с тэгами), оценивать качество работы других
поисковых систем и т.д.
Все это позволяет в будущем создать на основе Flexum социальную
саморегулируемую поисковую систему, построенную самими участниками-авторами
Flexum.
Кроме того, в Flexum автор имеет большие возможности по управлению поисковой
системой, такие как:
- редактирование релевантности, то есть назначение каким-либо сайтам своего
поиска более высокого веса, чем остальным.
- создание тематических
статей-объявлений, связанных с поисковыми запросами и появляющихся в поисковой
выдаче выше результатов обычного поиска.
- заимствование описания сайтов у
других авторов.
Кроме стандартного списка документов, присутствующих в любой поисковой
системе, пользователь может увидеть реферат найденного документа, автоматически
построенный по тексту документа и заданному пользователем запросу, тем самым
можно оценить, насколько информация в документе соответствует запросу
пользователя, перед тем как непосредственно перейти на выбранный сайт. Описанные
возможности Flexum реализованы в действительно удобном интерфейсе, построенном
на AJAX.

В заключение, хотелось бы отметить, что двумя вышеперечисленными сервисами
весь список онлайн-средств для создания тематических поисковиков. Например,
есть Rollyo (rollyo.com) и Swicki (swicki.eurekster.com).
Последний имеет
большую социальную составляющую, так как его удобно адаптировать не только к
определенной тематике, но и конкретному онлайн-комьюнити. К тому же этот сервис
отличает ряд интересных возможностей, таких как самообучение на основе прошлых
запросов, демонстрация "облака" популярных запросов и т. д. Большая ложка дегтя
заключается в том, что Swicki упорно не хочет сколько-нибудь прилично работать с
русским языком. Да и у Rollyo в этом плане не все благополучно. Возможно
поэтому, сервисы по сей день остались практически не востребованными в
Рунете.
BYOMS
Достаточно оригинальную вариацию тематического поиска воплотили в жизнь
разработчики системы BYOMS, что расшифровывается, как "build your own mobile
search" (построй свой собственный мобильный поиск). Впрочем, к мобильному
телефону сервис имеет весьма отдаленное отношение. Сеть его работы состоит в
следующем.
Пользователь регистрируется на сайте системы, после чего составляет
список ресурсов для индексации, параллельно указывая ряд дополнительных
параметров для работы. После этого пользователь получает к системе через
IM-клиент (увы, поддерживается только AIM). В списке интернет-пейджера
появляется новый контакт. Это бот, который воспринимает реплики пользователя в
качестве поисковых запросов и отвечает результатами поиска. С мобильниками BYOMS
связывает только то, что многие телефоны поддерживают работу с IM-клиентами, и в
этом случае еще ярче проявляется удобство такой формы поиска. –
Р.Н.