Алексей Кутовенко
Профессиональный поиск в Интернете

http://www.piter.com.

Глава 1
Универсальные интернет-поисковики

   Универсальные интернет-поисковики – это основное и наиболее известное средство интернет-поиска. Такие поисковики обеспечивают максимальный охват различных ресурсов. Именно к универсальному типу относятся крупнейшие и наиболее популярные поисковые машины. Это действительно мощные решения с большим количеством возможностей и инструментов, о которых зачастую не знают многие пользователи. Понимание особенностей и возможностей универсального поиска позволяет узнать сильные и слабые стороны таких систем и осознанно выбирать максимально эффективные инструменты поиска.
   Рынок универсальных поисковиков достаточно велик. В этой главе мы рассмотрим только наиболее мощные машины, способные достойно работать с запросами на русском языке. Открывают главу рассказы о лидерах русского поиска – системах Google.ru и Яндекс. О каждом из этих поисковиков написаны книги и масса статей. Мы сосредоточимся на основных характеристиках, имеющих значение для конечного пользователя, а также попытаемся определить их сильные стороны.
   Компанию им составляет новая поисковая разработка корпорации Microsoft – система Bing, которая пока заметно обделена вниманием, а также полезный и достаточно мощный поисковик Exalead, преимуществом которого является хорошая поддержка поиска в европейских интернет-ресурсах. Данная система – пока редкий гость в поисковом арсенале наших пользователей, поэтому она рассматривается подробнее остальных.
   В этой главе при обзоре систем Google и Яндекс мы сосредоточимся только на возможностях веб-поиска, а поиск в специализированных базах этих проектов рассматривается в следующих главах, посвященных поиску изображений и видео. Для других универсальных поисковиков сведения о мультимедиа-поиске приводятся сразу же при знакомстве с ними.
   Поскольку три из четырех героев этой главы имеют зарубежное происхождение, сразу отметим, что мы анализируем возможности только их русских версий. Дело в том, что некоторые функции зарубежных систем, особенно экспериментальные, зачастую доступны только в оригинальных, как правило, англоязычных версиях сервисов.

Google

   Поисковик Google заслуженно считается мировым лидером современного интернет-поиска. Основанная в 1998 году компания Google по сей день остается среди ведущих законодателей мод в сфере интернет-поиска и веб-сервисов.
   Разработчики Google всегда отличались повышенным вниманием к совершенствованию алгоритмов своего поисковика, а также разумным консерватизмом в области пользовательского интерфейса. Возможности составления запроса на Google можно назвать классическими, да и способы отображения результатов поиска также стали своеобразным стандартом. В последнее время разработчики Google предприняли серьезные изменения в этих областях – слишком уж старомодно стал смотреться крупнейший поисковик на фоне молодых конкурентов.
   Google обладает одной из крупнейших в мире индексных баз, что обеспечивает широкий охват источников информации. Индексная информация Google сведена в несколько вертикальных баз. Кроме наиболее известной базы «Веб», это несколько мультимедиа-баз («Картинки», «Видео»), работающих с источниками актуальной информации и сообщениями на RSS-лентах база «Новости», а также индексирующая сетевые дневники база «Блоги». Кроме того, Google предлагает широкий выбор дополнительных ресурсов, среди которых стоит отметить картографический сервис, каталог сайтов, службу вопросов и ответов. Эти ресурсы также можно рассматривать как инструменты поиска.
   В базе «Веб» для составления запроса Google предлагает режимы простого и расширенного поиска. В режиме простого поиска из дополнительных инструментов доступна только виртуальная клавиатура. Расширенный поиск предлагает больше возможностей. Поскольку форма расширенного поиска доступна практически во всех поисковых продуктах Google, остановимся на ней подробнее (рис. 1.1).
   Рис. 1.1. Форма расширенного поиска Google
 
   Данная форма разделена на четыре зоны. Первая выделенная цветом зона содержит инструменты составления запроса с использованием логических операторов. Поддерживается поиск по точной фразе. Между словами, внесенными в поле. Со всеми словами, будет автоматически поставлено логическое «И». Поле С любым из слов добавляет между словами запроса логическое «ИЛИ», а Без слов – оператор «НЕ». В этой же зоне находится выпадающее меню, позволяющее выбрать количество результатов на странице выдачи в диапазоне от десяти до ста ссылок.
   Следующая зона формы расширенного поиска содержит перечень основных фильтров. С их помощью можно ограничить поиск ресурсами на определенном языке или ресурсами, относящимися к какой-либо одной доменной зоне. Полезным часто становится фильтр. Дата, с помощью которого можно отбирать веб-страницы, проиндексированные в определенный промежуток времени. Поддерживается и поиск по конкретному, указанному пользователем сайту. Фильтр Расположение слов дает возможность указать, в каком элементе веб-страницы должны находиться указанные ключевые слова. Фильтр Права использования предназначен для отбора контента, распространяемого под определенными условиями. Данный фильтр особенно актуален при поиске файлов. Предлагается и семейный фильтр под названием. Безопасный поиск; он предназначен для автоматического исключения из результатов поиска потенциально оскорбительного или неприличного контента. Данный фильтр имеет три уровня действия. Строгий уровень отбрасывает все сомнительные сайты, умеренный действует только при поиске изображений, не сказываясь на результатах веб-поиска. Кроме того, фильтрацию можно полностью отключить. Как известно, Google индексирует не только веб-страницы, но и файлы различных типов: документы в форматах Microsoft Office, Google Earth, PDF, PostScript, RTF и SWF. Включить поиск по какому-либо из этих типов файлов можно, используя фильтр. Формат файлов.
   Зона поиска по странице позволяет искать сайты, ссылающиеся на указанную веб-страницу (поле Ссылки), а также сайты, содержащие ключевые слова, тематически близкие указанной в поле Похожие веб-странице.
   Расположенная в нижней части формы расширенного поиска зона Поиск по темам в настоящее время предлагает доступ только к поиску по исходному коду программ, распространяющихся с открытыми исходными кодами (Open Source).
   При обработке запроса на русском языке Google достаточно осторожно использует изменение морфологических форм слова. Это сознательная позиция разработчиков. Взамен предлагаются поисковые уточнения, демонстрируемые над списком выдачи, в который и предлагаются другие словоформы наравне с предложениями по исправлению орфографии, опечаток, а также слов, ошибочно набранных при неправильной раскладке.