Exalead располагает собственными индексными базами. Основные поисковые ресурсы системы – это базы веб-документов, изображений, видео и новостей. Стартовая страница Exalead предлагает возможность персональной настройки. На этой странице можно разместить ссылки на свои любимые сайты – они будут отображаться в виде графических миниатюр-скриншотов. Правда, для этого придется бесплатно зарегистрировать аккаунт, а также разрешить браузеру хранить куки-файлы Exalead.
   Веб-поиск Exalead предлагает режимы простого и расширенного поиска. Форма расширенного поиска, как и в Bing, открывается прямо на странице выдачи Отметим, что Exalead предлагает не просто привычную форму с набором дополнительных полей, а сложное выпадающее меню, которое играет роль мастера по уточнению запроса (рис. 1.7). При выборе того или иного пункта в меню мастера в строку запроса добавляются новые элементы, а при необходимости операторы и спецсимволы.
   Рис. 1.7. Мастер расширенного поиска Exalead
 
   В меню мастера выделено три тематических блока. Первый блок дает возможность определиться с вариантами уточнения запроса. Предлагаются поиск по фразе, обязательное включение и исключение заданных пользователем слов, а также поиск с помощью масок. Поддерживается использование в запросе стандартных логических операторов. Кроме этих базовых опций, предлагаются и более интересные варианты. В режиме Approximate Spelling Search ищутся слова, подобные по написанию заданным. Режим Phonetic Search позволяет найти слова, похожие по своему звучанию на указанные пользователем. Если предложения по исправлению опечаток уже давно можно найти на других поисковиках, то поиск по звуковой транскрипции слова можно назвать новинкой.
   Оставшиеся два блока расширенного поиска предлагают отфильтровать результаты по дате их появления в индексе поисковика, а также ограничить поиск определенным сайтом, заголовком страницы или другим формальным признаком.
   Каждую позицию в перечне найденных ссылок на странице выдачи сопровождают миниатюры-скриншоты страниц и краткая текстовая аннотация (рис. 1.8). Страница выдачи Exalead также отличается широким выбором вспомогательных инструментов, собранных на боковой панели. Первый блок фильтров позволяет ограничить выдачу результатами, найденными на сайтах и в блогах. Следующие два блока позволяют отобрать контент определенного формата. Распознается большое количество «офисных» форматов файлов, а также видео– и аудиофайлы. Фильтр даты публикации позволяет быстро просмотреть результаты, проиндексированные в определенный промежуток времени. По умолчанию шаг такого фильтра – один год. Фильтр Related Terms предлагает ознакомиться с автоматически подобранными дополнительными ключевыми словами, которые способны помочь в уточнении запроса.
   Рис. 1.8. Страница результатов поиска системы Exalead
 
   Два последних блока фильтров выполнены в виде интерактивных круговых диаграмм. Они демонстрируют процентное распределение результатов поиска по языковому признаку и по принадлежности к национальным сегментам интернета. Щелкая на секторах диаграмм или же на соответствующих позициях сопровождающих списков, можно быстро отфильтровать результаты поиска по выбранному критерию. Любой найденный сайт можно добавить в свою персональную базу закладок.
   Отдельным видом поиска в Exalead является поиск в Википедии. В этом режиме на странице выдачи все найденные ссылки сопровождаются не только стандартным скриншотом и текстовой выдержкой, но и перечнем тематических категорий, персон, организаций и местоположений, упомянутых в найденной статье энциклопедии. Страница выдачи содержит боковую панель с облаком тегов, в котором также выделены названные перечни дополнительных признаков. Кроме того, поддерживается быстрая сортировка результатов по языку с помощью выпадающего меню.
   Exalead предлагает хорошие возможности для поиска мультимедиаконтента – изображений и видео. Инструменты расширенного поиска изображений вынесены на специальную панель фильтров, которая располагается над списком выдачи Кроме стандартных фильтров по размеру картинки и типу файла, предлагаются возможности отбора изображений по ориентации снимка (книжная или альбомная). Есть у Exalead и визуальные фильтры. С их помощью можно отбирать картинки по цветовой гамме – соответствующая палитра доступна на панели фильтров, а также разделить фотоснимки и рисованную графику, правда, эта опция не всегда работает уверенно.
   При просмотре результатов поиска изображений доступен режим вывода найденных картинок в виде бесконечной ленты. Это значит, что результаты поиска не разбиваются на отдельные страницы, а новые миниатюры просто автоматически подгружаются по мере прокрутки страницы результатов. Включить эту возможность можно при настройке поисковика, установив флажок Allow infinite scroll in image search.
   Видеопоиск Exalead работает в базах крупных видеохостингов. Полного списка поддерживаемых ресурсов разработчики не сообщают, однако в результатах тестовых запросов удалось отследить примерно два десятка ресурсов. Среди них – YouTube, Metacafe, Dailymotion, Reuters, Comedy Central и ряд других. Отметим, что в результатах попадались и ролики Rutube. На боковой панели страницы выдачи предлагаются опции для отбора результатов поиска по продолжительности ролика, источнику, а также тематической категории. В последнем случае используются теги, которыми ролики помечены на хостинге-источнике. Результаты можно отсортировать не только по релевантности, но и по дате добавления, а также рейтингам роликов на видеохостингах.
   Для поиска новостных сюжетов можно воспользоваться вертикальным сервисом Voxalead News. Источниками роликов служат базы трех десятков телеканалов. Представлены проекты на английском, французском, китайском и арабском языках. Диапазон достаточно широк: от CNN до Al Jazeera, есть в списке и Russia Today. Результаты можно ограничить только выбранными пользователем каналами. Такая настройка доступна в меню Select Sources. Любопытно, что кроме поиска новостного видео Exalead предлагает поиск записей новостей десятка радиостанций. Щелчок на любой позиции в списке результатов, будь то видео или аудио, открывает страницу со встроенным плеером, а также полным текстом новости. Для каждого ролика предлагается панель тегов, состоящая из трех вкладок: People, Organization и Location. На них группируются автоматически выделенные из текста новости ключевые слова, относящиеся к персонам, организациям или географическим пунктам. Щелчки на них подсвечивают соответствующие фрагменты в тексте новости, а также включают переход в ролике к данному фрагменту.
   Как и положено серьезным проектам интернет-поиска, Exalead обзавелся собственной «лабораторией», в которой представлен ряд экспериментальных разработок, пока не внедренных в основной поиск.
   Экспериментальный интерфейс Exalead Constellations предназначен для визуализации результатов поиска. Найденные по запросу ссылки демонстрируются в виде своеобразной «звездной карты». При ее построении учитывается количество ссылок на тот или иной сайт – они демонстрируются в виде цветных лучей. Чем их больше, тем ближе к центру «галактики» будет расположена «звезда» сайта. Над полем поиска выводятся уточнения, с помощью которых можно быстро отсортировать ресурсы, посвященные персоналиям. Кроме того, в Constellations доступны практически все инструменты фильтрации стандартного варианта Exalead. Вызвать соответствующую панель фильтров можно с помощью ссылки Refines.
   Любопытен экспериментальный сервис Exalead Wikifier. С его помощью можно «викифицировать» любую веб-страницу в ходе серфинга. Смысл этой операции заключается в том, что сервис ищет на открытой веб-странице ключевые слова, значения которых есть в Википедии, после чего подсвечивает их цветным выделением. Наведя на него указатель мыши, пользователь получает всплывающее окошко с информацией из сетевой энциклопедии, а также ссылки на страницу. Википедии и результаты поиска Exalead выделенного слова. Викифицировать можно не только указанную веб-страницу, но и текст, введенный в поле на стартовой странице Wikifier. В результате получается своеобразный встроенный справочник, прозрачно работающий во время серфинга.
   Проект Chromatik Search предлагает поиск изображений по визуальным признакам. Поиск можно начинать с ключевого слова, а можно сразу же воспользоваться панелью визуальных инструментов. С помощью палитры выбираются цвета, которые должны присутствовать в нужном вам изображении. Их процентное соотношение устанавливается простым перетаскиванием ползунка Adjust Proportions. В результате можно достаточно точно описать характеристики искомой картинки. Благодаря этому простому в работе средству разработчикам Chromatik удалось, с одной стороны, добиться высокой точности запроса, а с другой стороны, сделать этот процесс максимально простым для пользователя. Во всяком случае, решающий аналогичные задачи алгоритм IBM QBIC заметно сложнее в освоении. Дополнительная настройка запроса позволяет управлять цветностью искомой картинки, а также искать более светлые или более темные изображения. Интересно, что характеристики запроса, составленные с помощью графических инструментов, дублируются текстом, который выводится над областью выдачи результатов. В результате Exalead предлагает один из наиболее удобных на сегодняшний день интерфейсов для визуального поиска изображений (рис. 1.9).
   Рис. 1.9. Экспериментальный проект Exalead Chromatic Search
 
   Есть у Exalead и своя экспериментальная поисковая машина для Twitter, которая называется Tweepz. В настоящее время она индексирует более пятнадцати миллионов аккаунтов. Интересно выполнена заявка на включение в индекс. Если пользователь желает, чтобы его сообщения попадали в базу Tweepz, достаточно зафолловить канал @tweepz. Система поддерживает собственный язык запросов. Он позволяет работать с масками, вести поиск по именам и географическому местоположению пользователей. Страница результатов поиска содержит боковую панель с хорошим выбором фильтров. Результаты можно сортировать по релевантности, количеству фолловеров и языкам. Кроме того, в Tweepz работает система автоматического поиска дополнительных ключевых слов, с помощью которых можно уточнить запрос.
   Если рассмотренные нами ранее проекты отличаются своей технической сложностью, то Exalead Light демонстрирует прямо противоположный подход к поиску. Это «легкая», максимально упрощенная версия поиска Exalead, предлагающая только текстовые инструменты уточнения запросов Exalead Light отличается также более высокой скоростью работы. В то же время здесь не поступились качеством поиска – доступны все вертикальные базы проекта.
   Exalead обладает хорошей подборкой дополнительных программ. Букмарклет Exalead позволяет создавать закладки на веб-страницы в ходе серфинга и сохранять их в своем онлайновом профиле. Поисковый плагин Exalead предлагает стандартные опции и работает в браузерах Internet Explorer и Firefox. Для веб-мастеров предлагается поиск по сайту на основе технологии Exalead. Впечатление от него двоякое. С одной стороны, там работают многие фирменные «фишки» Exalead, например визуальные фильтры-диаграммы. С другой стороны, глубина индексирования сайтов сильно зависит от страны их происхождения. Для русскоязычных сайтов такой поиск пока практически бесполезен.

Выводы и рекомендации

   Для большинства пользователей универсальные поисковики являются основным, а зачастую и единственным средством интернет-поиска. Они предлагают хороший охват источников, а также набор инструментов, достаточный для решения основных поисковых задач.
   Удобными особенностями интерфейса Google являются вынесенные на боковую панель страницы выдачи инструменты уточнения запроса, а также активное использование «универсального поиска» с равноправным ранжированием по релевантности результатов, полученных из его различных специализированных баз. Заслуживает внимания и удобный режим просмотра «Живой поиск».
   В безусловном активе системы Яндекс – гибкий учет морфологии русского языка в ходе веб-поиска. Кроме того, данный поисковик предлагает достаточно удачную форму расширенного поиска, а также большой выбор поисковых операторов.
   От знакомства с поисковиком Microsoft Bing в его современном состоянии остаются двойственные впечатления. С одной стороны, заметного изменения качества интернет-поиска не произошло и трудно давать прогнозы о возможных изменениях в данном направлении. К минусам отнесем также отсутствие в локализованных версиях Bing ряда дополнительных сервисов, теоретически способных привлечь пользователей. С другой стороны, с интерфейсом нового поисковика поработали серьезно и достаточно успешно. Кроме того, весьма неплох в Bing мультимедиа-поиск.
   Поисковик Exalead демонстрирует хорошие результаты поиска ресурсов на европейских языках. Несложно самостоятельно убедиться, что, допустим, при поиске по одинаковому запросу на итальянском языке Exalead заметно выигрывает у Google как по широте охвата веб-ресурсов, так и по степени глубины их индексации. Тестовый поиск французских и немецких ресурсов не позволяет выявить однозначного лидера: в зависимости от запроса вперед может выйти и Exalead, и Google. В англоязычном поиске сильнее оказывался Google.
   При выборе универсального поисковика важную роль играет качество находимых с его помощью ресурсов. Определить предпочтительный для конкретных задач поисковик можно «методом маркера». Суть его состоит в том, что вначале составляется некий тематический поисковый запрос, после чего опрашивается группа людей-экспертов в данной области на предмет выявления лучших, по их мнению, интернет-ресурсов по избранной теме. На основе данных опроса формируется список сайтов-маркеров, гарантированно релевантных запросу и содержащих качественную информацию. Затем запрос отправляется на тестируемые поисковики. Логика оценки проста: чем выше в результатах поиска будут расположены сайты-маркеры, тем лучше конкретный ресурс подходит для поиска информации по тестовой теме.
   Эту схему вполне может применить и частный пользователь. Поскольку далеко не у всех под рукой имеется группа экспертов, основная проблема заключается в определении сайтов-маркеров. Для ее решения можно проанализировать разделы полезных ссылок, часто встречающиеся на тематических сайтах. Найдя действительно серьезный тематический ресурс по интересной вам теме, загляните в такой раздел – там вы найдете ссылки, отобранные энтузиастами своего дела, что позволит выявить сайты-маркеры, а приводимые в таких разделах описания ресурсов являются хорошими заготовками для конструирования тестового запроса.

Глава 2
Вертикальный поиск

   Важным направлением развития современного интернет-поиска стало появление большого количества специализированных поисковиков, предназначенных для углубленного поиска определенного тематического контента. Такие интернет-машины часто называют «вертикальными». Среди таких проектов можно найти немало полезных ресурсов.
   Вертикальные поисковики удачно дополняют универсальный интернет-поиск. Если вы интересуетесь какой-либо определенной тематикой и нашли соответствующий специализированный поисковик – можете принимать поздравления: эффективность поиска заметно возрастет. Улучшение качества поиска достигается за счет обращения в первую очередь к заранее отобранным тематическим ресурсам. Это позволяет значительно уменьшить количество информационного шума в списке выдачи Кроме того, сортировка результатов поиска зачастую производится с учетом особенностей тематического контента. Исключительно заметной разница универсального и вертикального вариантов поиска становится в ситуациях, когда у ключевых слов запроса есть синонимы в других областях. Простейший пример такого запроса – слово «библиотека», которое может иметь различное значение в зависимости от контекста. Это может быть и реальное учреждение, и сетевое собрание электронной литературы, и компонент компьютерного приложения. Многие вертикальные машины обладают дополнительными алгоритмами обработки запросов, учитывающими наличие сленга, аббревиатур и других тонкостей, так или иначе присущих конкретным тематическим областям.
   Необходимо заметить, что вертикальные поисковики являются хорошей альтернативой тематическим порталам, снабженным собственными системами поиска. В популярных тематических нишах таких порталов немало, и для того чтобы составить полную информационную картину той или иной темы, пользователю приходится немало поработать. Рано или поздно возникает естественное желание получить некий общий поисковик, который позволил бы собрать в едином интерфейсе информацию с нескольких ценных ресурсов. Другими словами, мы опять приходим к идее вертикального поисковика.
   В этой главе рассматриваются три группы вертикальных поисковиков. Это специализированные учебные и научные поисковики, особенно актуальные для читателей, получающих образование или повышающих квалификацию. Этим же читателям, надеемся, будут полезны сведения о системах поиска в сетевых электронных библиотеках. Дополняет картину рассказ о специализированных поисковиках компьютерных программ. Эта задача универсальна и время от времени возникает у большинства пользователей.

Научный интернет-поиск

   Современные универсальные системы интернет-поиска не самым лучшим образом приспособлены для поиска научной информации. В результате поиск научных публикаций с их помощью становится достаточно сложной задачей. Решить ее с максимальной эффективностью помогут специализированные научные поисковики, которые являются разновидностью вертикальных машин интернет-поиска. Сейчас можно найти немало таких машин, в основном отраслевого характера. Кроме того, на современном информационном рынке встречается значительное количество коммерческих предложений баз данных научной информации, подписка на доступ к которым может быть весьма дорогостоящей. Мы же остановимся на многоотраслевых интернет-поисковиках, специализирующихся на свободно доступном научном и учебном контенте. В ходе научного интернет-поиска кроме специализированных проектов можно использовать и вертикальные сервисы универсальных поисковиков. Пожалуй, наиболее известным ресурсом такого плана является проект Академия Google.

Академия Google

   Когда же может потребоваться обращение к такому специализированному научному поиску? Типичные ситуации – подготовка рефератов, курсовых и других учебных работ. Представим себе студента, которому нужно подготовить такую письменную работу. Скачивать готовую курсовую – низкий класс, тем более что по узким темам готовых рефератов немного, соответственно, они хорошо известны всем, в том числе и преподавателям. Да и пользы от таких рефератов для самого студента – ноль, разве что время экономится. Итак, наш герой принимает правильное и максимально полезное для качества своего образования решение: работать самостоятельно. Первый этап подготовки любой учебной работы – поиск источников по теме. Вполне логично использовать для этих целей не только традиционные, но и интернет-источники. Однако при обращении к сетевым источникам возникает несколько проблем, главная из которых – проблема оценки качества найденных публикаций. Если искать обычными универсальными поисковиками, то отличить первоисточник от «перепева» или банального плагиата очень сложно. Кроме того, никто не дает гарантии, что приводимая информация не была искажена. Специализированный поисковик ограничит поиск только заранее отобранными ресурсами, содержащими качественную информацию. Проведем практический эксперимент и отправим одинаковые запросы в универсальном поисковике Google и в Академии Google. Тестовым ключевым словом выступит «абиогенез» – одна из концепций современной биологии, описывающая происхождение живой материи из неживой. Первые две страницы выдачи «обычного» поисковика Google будут заняты ссылками на краткие статьи словарей и энциклопедий с редкими вкраплениями предложений скачать рефераты по близким темам. Список выдачи Академии Google с первых же страниц полностью состоит из ссылок на научные и научно-популярные статьи, материалы конференций и разделы книг по теме запроса. Поскольку рядом с каждым материалом приводятся сведения о его цитируемости в других работах, это позволяет достаточно быстро найти основные работы, с которыми, по всей видимости, стоит ознакомиться в первую очередь.
   Давайте подробнее познакомимся с возможностями и инструментами Академии Google. Бета-версия данного сервиса под оригинальным названием Google Scholar стартовала в октябре 2004 года. Академия Google индексирует ресурсы открытого доступа, интернет-сайты, а также издательские сервисы, предоставляющие доступ к публикациям на коммерческих условиях. Кроме того, научный поисковик Google развивает программу интеграции с электронными каталогами классических (офлайновых) научных библиотек. Данная программа предназначена для библиотек, располагающих онлайновыми электронными каталогами, поддерживающими формат OpenURL. Подключение библиотек к научному проекту Google свободное и бесплатное. В зависимости от настройки сервера библиотеки просмотр каталога может предоставляться как всем желающим, так и только зарегистрированным пользователям библиотеки. Русскоязычная версия Академии Google по умолчанию поддерживает поиск по электронному каталогу Государственной публичной научно-технический библиотеки (ГПНТБ). При настройке механизма поиска пользователь может добавить до трех собственных ссылок на онлайновые каталоги библиотек, поддерживающих названные технологии.
   Интерфейс поисковика выдержан в строгом стиле и предлагает не так много дополнительных инструментов. К средствам быстрой фильтрации результатов отнесем, разве что, хронологическое меню, позволяющее переходить к просмотру публикаций определенного года выхода. Если публикация была найдена на нескольких ресурсах, то в результатах поиска появится ссылка для просмотра полного списка копий такого материала. При оценке релевантности той или иной ссылки, влияющей на ее позицию в списке выдачи поисковика, учитывается индекс цитирования публикации и ее автора, а также известность интернет-источника или издания, опубликовавшего статью (рис. 2.1).
   Рис. 2.1. Страница результатов поиска сервиса Академия Google
 
   Режим расширенного поиска. Академии Google, кроме стандартного набора инструментов формирования запроса (поиск по фразе, на включение и исключение указанных слов), предлагает поиск по именам авторов и по публикациям определенных журналов, а также позволяет указать диапазон дат публикации нужных материалов.
   Каждая ссылка на странице выдачи снабжается кратким библиографическим описанием источника, счетчиком индекса цитирования данной публикации, а также ссылкой для поиска похожих материалов. При настройке системы доступен инструмент. Библиографический менеджер, позволяющий получить корректное библиографическое описание источника, которое можно использовать в списке литературы к своим работам. К сожалению, предусмотрены только зарубежные стандарты описания ресурсов, форматы наших библиографических. ГОСТов здесь не поддерживаются, что определенно смазывает впечатление от этой полезной функции.
   К достоинствам. Академии Google отнесем простоту освоения, высокую скорость работы, а также функцию поиска в каталогах крупных «офлайновых» научных библиотек. Недостатками проекта является небольшой выбор дополнительных инструментов управления поиском, а также информационный шум в результатах для пользователя, ориентирующегося на источники свободного доступа. В списке выдачи этого поисковика много ссылок на коммерческие ресурсы, что означает прямую доступность только аннотаций или кратких выдержек из текста публикаций.

Scholar.ru

   Система Scholar.ru специализируется на русскоязычном учебном и научном контенте. Поисковик индексирует различные виды документов: статьи, монографии, а также авторефераты диссертаций, представленные в широко распространенных форматах электронных книг: HTML, PDF и DjVu (рис. 2.2).
   Рис. 2.2. Страница результатов поиска сервиса Scholar.ru
 
   Пополнение индекса ведется в комбинированном режиме. Основным источником данных служат результаты автоматической индексации нескольких крупных онлайновых проектов, в том числе сети SciPeople, собирающих электронные версии научных публикаций и предлагающих их в общем доступе. Кроме того, материал может быть добавлен в поиск самим автором. Соответствующая форма предлагается на страницах проекта. Следствием такого подхода стало, с одной стороны, практически полное отсутствие информационного шума в результатах, а с другой – сравнительно небольшой объем базы проекта. На данный момент в ней порядка 80 тысяч публикаций.