«Мы стали думать, чтобы еще такое поиндексировать, – отмечает Волож особенность переломного момента в жизни проекта по созданию технологии поиска. – И мы занялись Библией… Библия – это большой текст. Точнее – большой массив неструктурированных текстов. Именно свободных текстов, а не баз данных. Здесь все ищется по-особому. Эта технология и стала впоследствии “Яндексом”».
То есть технологией поиска данных в неструктурированном тексте, каковым по определению является Библия, написанная в разные времена разными людьми, разнесенными друг от друга географическими и временными континуумами, работающими с одной целью, но не сообща. Каковым, кстати, в самом общем приближении является почти безразмерный и вневременной Интернет.
По сути, за основу нового проекта был взят тысячелетний опыт изучения священных текстов Библии, поиск в которых всегда был важнейшей задачей для богословов и церкви.
«Чтобы продемонстрировать обществу наши возможности, я втянул компанию “Аркадия” в проект “Цифровая Библия”, – пояснял Илья Сегалович. – Мы делали это исключительно из общегуманитарных соображений».
Как раз в 1994 г. Российское библейское общество (РБО) выпустило новое издание «Полной симфонии на канонические книги Священного Писания» (Библии), которое, видимо, просто попалось на глаза Сегаловичу. Слова из Библии объединялись в статьи симфонии по формальному принципу (то есть по словоформам). По сути, симфония была поисковой системой. Оставалось только усвоить этот многовековый опыт и соединить с морфологическим поиском, уже опробованным в проектах Воложа.
В итоге был создан «Библейский компьютерный справочник» (точнее, информационно-поисковая система, обеспечивающая работу с синодальным переводом Ветхого и Нового Заветов), возможно, первое в России цифровое издание синодального перевода Библии. Потрудиться пришлось даже жене Воложа Ирине.
При разработке нового принципа поиска Илья Сегалович взял за основу симфонию Библии, которая также составлена с учетом морфологии, именно этот подход, как мы знаем, и лег впоследствии в основу поисковой системы «Яндекса».
Уже в 1994 г. CompTek, по словам Сегаловича, стал «продавать “Библейский компьютерный справочник” с возможностью поиска на дискетах». Оцифрованная синодальная Библия с поиском на дискетах оказалась востребована. И была замечена, что называется, на рынке и коллегами. Сегалович даже делал доклады на ИТ-конференциях, в которых рассказывал о новой технологии.
Следом пришел заказ из Института мировой литературы – на цифровые издания с поиском полных академических собраний сочинений А. С. Грибоедова и А. С. Пушкина. Полученный аванс был очень кстати.
Загадка. Еще одна удача. Положительный результат в этом проекте был не очевиден. Вновь Волож подтвердил свою славу везунчика. Все оказалось не зря.
В этом же году стартовал Рунет, кириллический сектор Интернета, который по признанию Воложа, его совсем не поразил: «С вебом я познакомился… да как-то постепенно. Я не помню, чтобы меня поразил Интернет. Меня скорее за три года до этого впечатлила электронная почта». Это Аркадий вспоминает ту самую историю, когда он в августе 1991 г. сумел отправить кормящей жене из США, где он был на переговорах по поводу поставок оборудования для CompTek, первое в своей жизни электронное письмо.
В 1995 г. стартовал проект «Академическое издание классиков на CD-ROM», разрабатываемый совместно с НТЦ «Информрегистр» и Институтом мировой литературы им. М. Горького РАН (ИМЛИ) при поддержке Роскоминформа. В рамках проекта была создана универсальная технология «Аргонавт», которая позволяла осуществлять атрибутированную навигацию, поиск, разметку и отображение текстов. На основе этой технологии вышло три издания – справочник стандартов «Информ – Норматив», электронное научное издание «А. С. Грибоедов» и «Пушкин. Электронный фонд русской классической литературы». Также был создан словарь языка Грибоедова.
Примерно тогда же в историческом обозе «Яндекса» появляется уже не раз упомянутая Елена Колмановская, которая, числясь до конца ноября 2012 г. главным редактором «Яндекса», на самом деле таковым никогда не являлась, потому как редакции, как мы помним из слов Воложа, в «Яндексе» нет. По мнению Колмановской, «в “Яндексе” ничего не редактируют».
И, опять же, по словам Воложа, Колмановская до ухода на синекуру занималась маркетингом, а делала это, как следует опять же из слов Воложа, в свободное от работы время в качестве личного биографа Воложа. Или же, как однажды высказалась Колмановская, «на самом деле я работаю Аркашиным архивом».
«Волож ее (Елену Колмановскую. – В.Д.) уговорил стать нашим маркетологом. Как позже вспоминала сама Елена, она была первым человеком в “Яндексе”, кто не писал код. Первым ее заданием был обзор поисковых решений, которые существовали на рынке. По результатам этого анализа мы оказались лучшими. Колмановская влилась в команду, и буквально за три месяца мы вышли на рынок с названием Яndex. А уже в сентябре 1996 г. (на выставке Netcom’96, 18 октября 1996 г. – В.Д.) появился наш коробочный софт – Яndex.Site, Яndex.Lib, Яndex.CD, а вскоре и онлайновый Яndex.Web… Начиная с 1996 г. мы предлагали потребителю приобрести эту систему как самостоятельный сервис… На протяжении 1996 г. мы работали над изготовлением цифровых копий произведений русских классиков и параллельно переделывали ядро поиска, чтобы можно было использовать его в Интернете. Ядро технологий было готово к лету того года, оно работало на операционной системе Unix и годилось для общих задач поиска в Интернете», – фиксировал даты Илья Сегалович.
«Всемирная сеть развивалась, и в конце 1996 г. мы решили связать будущее Яndex с Интернетом… И получается, что и я стал одним из создателей известного “поисковика”, одного из лидеров Рунета. А ведь поначалу не понимал, что такие технологии будут востребованы, просто решил подзаработать», – как всегда искренен Сегалович.
Кстати, полученные за работу над академическими изданиями русских классиков $20 000 позволили вдвое увеличить команду программистов под проект, который вдохновенно вел Сегалович. На протяжении 1996 г. параллельно с изготовлением цифровых копий русской классики шла подготовка к запуску собственной поисковой машины в Интернете.
Под руководством Сегаловича был разработан алгоритм построения гипотез. Теперь морфологический разбор не привязывался к словарю. Отныне, если какого-либо слова в словаре не оказывалось, модель словоизменения строилась на основе поиска похожих на него слов.
Илья Сегалович: «В 1995 г. мы наконец подключились к Интернету, и всем сразу стало понятно, что надо для него что-то делать… Посмотрели на поиск Altavista и поняли, что надо делать вещи для Интернета».
Владельцы и руководители CompTek пришли к выводу, что развитие самой поисковой технологии важнее и интереснее, чем создание прикладных продуктов на базе поиска. В итоге было принято решение об использовании поискового приложения Яndex для Интернета.
18 октября 1996 г. на выставке Netcom’96 были представлены первые продукты серии «Яndex»: Яndex.Site – поиск по своему сайту, до сих пор установленный на сотнях серверов Рунета, и Яndex.Dict, морфологическое расширение запроса.
25 ноября приложение Яndex.Dict заработало на поисковике AltaVista.
«И уже к 1996 г., работая одновременно над Грибоедовым, мы дописали “Яндекс”, чтобы он работал в Сети», – вспоминал Сегалович.
В 1996 г. в мировую Сеть вышел поисковик «Рамблер», созданный группой инженеров Института биохимии и физиологии микроорганизмов РАН. Лидера, и затем главного конкурента «Яндекса» в Рунете.
До интернет-премьеры «Яндекса» оставался год.
Существующие к тому моменту в Рунете поисковики AltaVista (переводится как «взгляд сверху»; появился в декабре 1995 г.) и «Рамблер» (переводится как «бродяга»; работает в Сети с октября 1996 г.) искали по английскому принципу. Но в английском языке слова практически не склоняются. Русский и английский принадлежат к разным группам, к их анализу следует подходить по-разному. Русский язык принадлежит к группе флективных языков – различные словоформы получаются с помощью окончаний. Имя существительное, например, может встречаться в 12 различных формах: шесть падежей в единственном числе и еще шесть – во множественном. Некоторые существительные образуют новые словоформы с помощью изменения основы слова. Поэтому для поиска в русскоязычном тексте поисковые машины должны использовать сложные лемматизирующие алгоритмы, которые предполагают составление леммы слова, то есть перечень всех его словоформ, и учет всех этих словоформ в документе.
В английском падежей меньше, корни слов изменяются только в исключительных случаях, например в неправильных глаголах. Для анализа английских текстов поисковые машины используют стемминг, то есть анализ по основе слова. То есть англоязычным поисковикам, чтобы понять русскую речь, надо менять алгоритм поиска в соответствии с русской морфологией.
И другой подход к поиску в русскоязычном секторе Интернета не работает. Бессмысленная тупиковая самонадеянность западных поисковиков, которые пытались нахрапом захватить русскоязычный поиск в 1990-х гг. и даже в первой половине 2000-х, создавая русский интерфейс на основе английского языка, свидетельствует именно об этом.
Основатели «Яндекса» это понимали еще в середине 1990-х гг. Тогда же был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю – если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения.
Елена Колмановская уточняет: «В Рунет “Яндекс” попал почти случайно. Мы ведь продавали “искалки”. Вот и сделали демоверсии на трех красивых примерах: Библии, полном собрании сочинений Пушкина и Рунете, тогда, в 1997 г., в сумме тянувшем на 4–5 ГБ. Пользователи были потрясены. Еще бы! Например, на слово “жених” выскакивало аж 48 ссылок!»
«К 1996 г. мы уже попали на улицу Губкина, в Институт генетики, в теплицу. Так что “Яндекс”, можно сказать, рождался в теплице». При этом поисковик, по словам Воложа, был рассчитан лишь на поиск покупателей собственно самой программы, а не пользователей этой программы. «Когда примерно в 1995–1996 гг. появился Интернет, мы поняли, что вот есть еще одно место, куда его применить, – поиск по сайту сделать… Мы думали, что будем жить от продажи своих технологий другим компаниям. Приходили, например, в “Рамблер”, поиск которого не знал русского языка, в “Инфоарт”… Мы говорили: хорошо бы соединить ваш прекрасный поиск с нашими замечательными лингвистическими технологиями. Но как-то они не загорелись… Предлагали выкупить нашу технологию за $15 000, потом за $50 000, никто не покупал… В попытке как-то еще разрекламировать эту технологию мы запустили сайт http://yandex.ru, на котором, собственно, демонстрировали – мы надеялись, что поиск по вебу это будет хорошая демонстрация, – что мы умеем на самом деле делать. Серьезно». Похоже, когда Воложу вспоминается начальный период становления «Яндекса», он сам удивляется своей тогдашней наивности и неумению понять перспективы. Это теперь все очевидно, а тогда надо было деньги зарабатывать.
Потенциальным покупателям программы объясняли преимущества поиска, основанного на принципах русской морфологии (строение слов в их различных грамматических формах), что позволяло искать ответ на запрос в несколько раз результативнее и точнее, чем у существующих тогда конкурентов. Но не судьба.
Получается, что до сентября 1997 г., когда «Яндекс» вошел в Интернет, чтобы там и остаться, отцы-основатели продолжали упорно продавать свой алгоритм поиска уже работающим в Интернете поисковикам.
Впрочем, ясности не будет и спустя несколько лет.
«Когда сюда в 2003 г. приезжали гугловские ребята, мы с Сегаловичем пытались и им продать эту идею. Но они сказали, что это неважно – то есть для России, может, и важно, но не в международном масштабе. А через несколько лет они сделали то же самое не только для России, но и для арабского мира – в общем, поняли, что идея все-таки хорошая». Нет, все-таки доля везения, доля случая в судьбе человека очень велика. И даже в судьбе самых удачливых и умных, умеющих анализировать данные, как, например, Аркадий Волож.
Это его откровение показывает следующее. Даже когда стало ясно, что технология морфологического поиска оказалась значительнее и важнее прикладных задач, ради решения которых эту технологию создавали, ее создатели отчетливо еще не осознавали, что они уцепили за бороду бога.
Как же велика доля случая, который сделал «Яндекс» первым русским поисковиком, использующим технологию поиска, основанную на принципах русской морфологии. И косвенным образом утвердившего в мировой Сети принцип морфологического поиска!
http://yandex.ru, а в 1998 г. мы уже продали на нем первый контекстный баннер», – впоследствии прокомментирует Волож выход проекта в публичное пространство. Факт очевиден. От коммерческого старта и до первого заказа пройдет почти год. И это лишнее подтверждение того, что «Яндекс» – никакой не венчурный проект. В отношении «Яндекса» – это притянутый за уши термин, поскольку на начальном этапе работы над проектом ни цель, ни назначение, ни модель монетизации его создателям не были ясны, как, впрочем, не был известен и термин «венчурный».
То есть технологией поиска данных в неструктурированном тексте, каковым по определению является Библия, написанная в разные времена разными людьми, разнесенными друг от друга географическими и временными континуумами, работающими с одной целью, но не сообща. Каковым, кстати, в самом общем приближении является почти безразмерный и вневременной Интернет.
По сути, за основу нового проекта был взят тысячелетний опыт изучения священных текстов Библии, поиск в которых всегда был важнейшей задачей для богословов и церкви.
«Чтобы продемонстрировать обществу наши возможности, я втянул компанию “Аркадия” в проект “Цифровая Библия”, – пояснял Илья Сегалович. – Мы делали это исключительно из общегуманитарных соображений».
Как раз в 1994 г. Российское библейское общество (РБО) выпустило новое издание «Полной симфонии на канонические книги Священного Писания» (Библии), которое, видимо, просто попалось на глаза Сегаловичу. Слова из Библии объединялись в статьи симфонии по формальному принципу (то есть по словоформам). По сути, симфония была поисковой системой. Оставалось только усвоить этот многовековый опыт и соединить с морфологическим поиском, уже опробованным в проектах Воложа.
В итоге был создан «Библейский компьютерный справочник» (точнее, информационно-поисковая система, обеспечивающая работу с синодальным переводом Ветхого и Нового Заветов), возможно, первое в России цифровое издание синодального перевода Библии. Потрудиться пришлось даже жене Воложа Ирине.
При разработке нового принципа поиска Илья Сегалович взял за основу симфонию Библии, которая также составлена с учетом морфологии, именно этот подход, как мы знаем, и лег впоследствии в основу поисковой системы «Яндекса».
Уже в 1994 г. CompTek, по словам Сегаловича, стал «продавать “Библейский компьютерный справочник” с возможностью поиска на дискетах». Оцифрованная синодальная Библия с поиском на дискетах оказалась востребована. И была замечена, что называется, на рынке и коллегами. Сегалович даже делал доклады на ИТ-конференциях, в которых рассказывал о новой технологии.
Следом пришел заказ из Института мировой литературы – на цифровые издания с поиском полных академических собраний сочинений А. С. Грибоедова и А. С. Пушкина. Полученный аванс был очень кстати.
Загадка. Еще одна удача. Положительный результат в этом проекте был не очевиден. Вновь Волож подтвердил свою славу везунчика. Все оказалось не зря.
В этом же году стартовал Рунет, кириллический сектор Интернета, который по признанию Воложа, его совсем не поразил: «С вебом я познакомился… да как-то постепенно. Я не помню, чтобы меня поразил Интернет. Меня скорее за три года до этого впечатлила электронная почта». Это Аркадий вспоминает ту самую историю, когда он в августе 1991 г. сумел отправить кормящей жене из США, где он был на переговорах по поводу поставок оборудования для CompTek, первое в своей жизни электронное письмо.
В 1995 г. стартовал проект «Академическое издание классиков на CD-ROM», разрабатываемый совместно с НТЦ «Информрегистр» и Институтом мировой литературы им. М. Горького РАН (ИМЛИ) при поддержке Роскоминформа. В рамках проекта была создана универсальная технология «Аргонавт», которая позволяла осуществлять атрибутированную навигацию, поиск, разметку и отображение текстов. На основе этой технологии вышло три издания – справочник стандартов «Информ – Норматив», электронное научное издание «А. С. Грибоедов» и «Пушкин. Электронный фонд русской классической литературы». Также был создан словарь языка Грибоедова.
Примерно тогда же в историческом обозе «Яндекса» появляется уже не раз упомянутая Елена Колмановская, которая, числясь до конца ноября 2012 г. главным редактором «Яндекса», на самом деле таковым никогда не являлась, потому как редакции, как мы помним из слов Воложа, в «Яндексе» нет. По мнению Колмановской, «в “Яндексе” ничего не редактируют».
И, опять же, по словам Воложа, Колмановская до ухода на синекуру занималась маркетингом, а делала это, как следует опять же из слов Воложа, в свободное от работы время в качестве личного биографа Воложа. Или же, как однажды высказалась Колмановская, «на самом деле я работаю Аркашиным архивом».
«Волож ее (Елену Колмановскую. – В.Д.) уговорил стать нашим маркетологом. Как позже вспоминала сама Елена, она была первым человеком в “Яндексе”, кто не писал код. Первым ее заданием был обзор поисковых решений, которые существовали на рынке. По результатам этого анализа мы оказались лучшими. Колмановская влилась в команду, и буквально за три месяца мы вышли на рынок с названием Яndex. А уже в сентябре 1996 г. (на выставке Netcom’96, 18 октября 1996 г. – В.Д.) появился наш коробочный софт – Яndex.Site, Яndex.Lib, Яndex.CD, а вскоре и онлайновый Яndex.Web… Начиная с 1996 г. мы предлагали потребителю приобрести эту систему как самостоятельный сервис… На протяжении 1996 г. мы работали над изготовлением цифровых копий произведений русских классиков и параллельно переделывали ядро поиска, чтобы можно было использовать его в Интернете. Ядро технологий было готово к лету того года, оно работало на операционной системе Unix и годилось для общих задач поиска в Интернете», – фиксировал даты Илья Сегалович.
«Всемирная сеть развивалась, и в конце 1996 г. мы решили связать будущее Яndex с Интернетом… И получается, что и я стал одним из создателей известного “поисковика”, одного из лидеров Рунета. А ведь поначалу не понимал, что такие технологии будут востребованы, просто решил подзаработать», – как всегда искренен Сегалович.
Кстати, полученные за работу над академическими изданиями русских классиков $20 000 позволили вдвое увеличить команду программистов под проект, который вдохновенно вел Сегалович. На протяжении 1996 г. параллельно с изготовлением цифровых копий русской классики шла подготовка к запуску собственной поисковой машины в Интернете.
Под руководством Сегаловича был разработан алгоритм построения гипотез. Теперь морфологический разбор не привязывался к словарю. Отныне, если какого-либо слова в словаре не оказывалось, модель словоизменения строилась на основе поиска похожих на него слов.
Илья Сегалович: «В 1995 г. мы наконец подключились к Интернету, и всем сразу стало понятно, что надо для него что-то делать… Посмотрели на поиск Altavista и поняли, что надо делать вещи для Интернета».
Владельцы и руководители CompTek пришли к выводу, что развитие самой поисковой технологии важнее и интереснее, чем создание прикладных продуктов на базе поиска. В итоге было принято решение об использовании поискового приложения Яndex для Интернета.
18 октября 1996 г. на выставке Netcom’96 были представлены первые продукты серии «Яndex»: Яndex.Site – поиск по своему сайту, до сих пор установленный на сотнях серверов Рунета, и Яndex.Dict, морфологическое расширение запроса.
25 ноября приложение Яndex.Dict заработало на поисковике AltaVista.
«И уже к 1996 г., работая одновременно над Грибоедовым, мы дописали “Яндекс”, чтобы он работал в Сети», – вспоминал Сегалович.
В 1996 г. в мировую Сеть вышел поисковик «Рамблер», созданный группой инженеров Института биохимии и физиологии микроорганизмов РАН. Лидера, и затем главного конкурента «Яндекса» в Рунете.
До интернет-премьеры «Яндекса» оставался год.
Существующие к тому моменту в Рунете поисковики AltaVista (переводится как «взгляд сверху»; появился в декабре 1995 г.) и «Рамблер» (переводится как «бродяга»; работает в Сети с октября 1996 г.) искали по английскому принципу. Но в английском языке слова практически не склоняются. Русский и английский принадлежат к разным группам, к их анализу следует подходить по-разному. Русский язык принадлежит к группе флективных языков – различные словоформы получаются с помощью окончаний. Имя существительное, например, может встречаться в 12 различных формах: шесть падежей в единственном числе и еще шесть – во множественном. Некоторые существительные образуют новые словоформы с помощью изменения основы слова. Поэтому для поиска в русскоязычном тексте поисковые машины должны использовать сложные лемматизирующие алгоритмы, которые предполагают составление леммы слова, то есть перечень всех его словоформ, и учет всех этих словоформ в документе.
В английском падежей меньше, корни слов изменяются только в исключительных случаях, например в неправильных глаголах. Для анализа английских текстов поисковые машины используют стемминг, то есть анализ по основе слова. То есть англоязычным поисковикам, чтобы понять русскую речь, надо менять алгоритм поиска в соответствии с русской морфологией.
И другой подход к поиску в русскоязычном секторе Интернета не работает. Бессмысленная тупиковая самонадеянность западных поисковиков, которые пытались нахрапом захватить русскоязычный поиск в 1990-х гг. и даже в первой половине 2000-х, создавая русский интерфейс на основе английского языка, свидетельствует именно об этом.
Основатели «Яндекса» это понимали еще в середине 1990-х гг. Тогда же был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю – если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения.
Елена Колмановская уточняет: «В Рунет “Яндекс” попал почти случайно. Мы ведь продавали “искалки”. Вот и сделали демоверсии на трех красивых примерах: Библии, полном собрании сочинений Пушкина и Рунете, тогда, в 1997 г., в сумме тянувшем на 4–5 ГБ. Пользователи были потрясены. Еще бы! Например, на слово “жених” выскакивало аж 48 ссылок!»
«К 1996 г. мы уже попали на улицу Губкина, в Институт генетики, в теплицу. Так что “Яндекс”, можно сказать, рождался в теплице». При этом поисковик, по словам Воложа, был рассчитан лишь на поиск покупателей собственно самой программы, а не пользователей этой программы. «Когда примерно в 1995–1996 гг. появился Интернет, мы поняли, что вот есть еще одно место, куда его применить, – поиск по сайту сделать… Мы думали, что будем жить от продажи своих технологий другим компаниям. Приходили, например, в “Рамблер”, поиск которого не знал русского языка, в “Инфоарт”… Мы говорили: хорошо бы соединить ваш прекрасный поиск с нашими замечательными лингвистическими технологиями. Но как-то они не загорелись… Предлагали выкупить нашу технологию за $15 000, потом за $50 000, никто не покупал… В попытке как-то еще разрекламировать эту технологию мы запустили сайт http://yandex.ru, на котором, собственно, демонстрировали – мы надеялись, что поиск по вебу это будет хорошая демонстрация, – что мы умеем на самом деле делать. Серьезно». Похоже, когда Воложу вспоминается начальный период становления «Яндекса», он сам удивляется своей тогдашней наивности и неумению понять перспективы. Это теперь все очевидно, а тогда надо было деньги зарабатывать.
Потенциальным покупателям программы объясняли преимущества поиска, основанного на принципах русской морфологии (строение слов в их различных грамматических формах), что позволяло искать ответ на запрос в несколько раз результативнее и точнее, чем у существующих тогда конкурентов. Но не судьба.
Получается, что до сентября 1997 г., когда «Яндекс» вошел в Интернет, чтобы там и остаться, отцы-основатели продолжали упорно продавать свой алгоритм поиска уже работающим в Интернете поисковикам.
Впрочем, ясности не будет и спустя несколько лет.
«Когда сюда в 2003 г. приезжали гугловские ребята, мы с Сегаловичем пытались и им продать эту идею. Но они сказали, что это неважно – то есть для России, может, и важно, но не в международном масштабе. А через несколько лет они сделали то же самое не только для России, но и для арабского мира – в общем, поняли, что идея все-таки хорошая». Нет, все-таки доля везения, доля случая в судьбе человека очень велика. И даже в судьбе самых удачливых и умных, умеющих анализировать данные, как, например, Аркадий Волож.
Это его откровение показывает следующее. Даже когда стало ясно, что технология морфологического поиска оказалась значительнее и важнее прикладных задач, ради решения которых эту технологию создавали, ее создатели отчетливо еще не осознавали, что они уцепили за бороду бога.
Как же велика доля случая, который сделал «Яндекс» первым русским поисковиком, использующим технологию поиска, основанную на принципах русской морфологии. И косвенным образом утвердившего в мировой Сети принцип морфологического поиска!
http://yandex.ru, а в 1998 г. мы уже продали на нем первый контекстный баннер», – впоследствии прокомментирует Волож выход проекта в публичное пространство. Факт очевиден. От коммерческого старта и до первого заказа пройдет почти год. И это лишнее подтверждение того, что «Яндекс» – никакой не венчурный проект. В отношении «Яндекса» – это притянутый за уши термин, поскольку на начальном этапе работы над проектом ни цель, ни назначение, ни модель монетизации его создателям не были ясны, как, впрочем, не был известен и термин «венчурный».
Индексированная копия Рунета образца осени 1997 г. поместилась на одном SCSI-диске на сервере под столом одного из первых разработчиков «Яндекса» Дмитрия Тейблюма. Тогда паук-поисковик «Яндекса» индексировал Рунет в еженедельном режиме.
Кстати, полезно понимать, что даже самая полная база одной поисковой системы охватывает около 40–50 % открытой части веба, остальная часть мировой Сети скрыта или недоступна. Именно по этой причине «Яндекс» в конце страницы выдачи предлагает пользователю сделать запрос и к другим поисковым системам. Единственный, кстати, из поисковых систем.
«Мы сделали “Яндекс” с простым намерением продемонстрировать наши революционные технологии», – такими словами Волож отдает дань великому случаю в интернет-судьбе «Яндекса». Планов завоевать мир пока еще не было.
«Яндекс» пришел в Интернет на полгода позже «Рамблера». Однажды Волож выскажется на этот счет: «Тогда в головах у людей мы были вовсе не первыми. И даже после того, как мы догнали “Рамблер” по объективным показателям, нам понадобился еще почти год, чтобы поменялась картина в головах у пользователей и мы стали субъективно первыми».
На две недели отстал «Яндекс» и от Google, который 14 сентября 1997 г. (по другой версии, 15-го) зарегистрировал домен http://google.com.
Кстати, в 1997 г. Воложу и Сегаловичу исполнилось по 33 года – первому 11 февраля, второму 13 сентября. Одноклассникам захотелось год мистического духовного взросления отметить выдающимся событием. У них получилось.
23 сентября 1997 г. на выставке Softool впервые была представлена поисковая система Яndex как самостоятельный проект. От этой даты принято отсчитывать возраст поисковика, хотя проект получил юридическое оформление в качестве самостоятельной компании лишь в марте 2000 г. Презентация поисковой машины Яndex-Web состоялась в четверг, 25 сентября в 16:00, на выставке Softool на стенде Д17 (разумеется, на стенде компании CompTek).
Процитирую распространенный тогда на выставке пресс-релиз:
Запущена новая поисковая машина Яndex-Web
23 сентября, Москва – фирма CompTek сообщает об открытии новой поисковой машины http://yandex.ru. Поисковая машина использует механизм Яndex-Web, областью поиска являются Web-сервера доменов. su и.ru, а также иностранные русскоязычные сервера, в том числе – стран СНГ. Яndex-Web представляет собой естественное развитие программных продуктов серии Яndex (Яndex.Site, Яndex.CD, Яndex.Dict, Яndex.Lib). Как и все Яndex-системы, Яndex-Web является полнотекстовой поисковой системой с учетом морфологии русского и английского языков. В отличие от популярной морфологической надстройки к поисковой системе AltaVista (http://www.comptek.ru/alta.html), Яndex-Web является полностью оригинальной разработкой CompTek. В настоящий момент робот (сетевой паук) обходит 5000 серверов (около 4 ГБ текстов) каждую неделю, список серверов пополняется. При индексировании проверяется уникальность документов – это значит, что, если документ существует в нескольких кодировках и/или на нескольких зеркалах, в списке найденного он будет указан один раз (и, соответственно, один раз учтен в статистике). Алгоритмы морфологического разбора, основанные на грамматическом словаре, умеют нормализовать слова, то есть находить их начальную форму. Для неизвестных Яndex слов строится гипотетическая словарная статья, позволяющая обрабатывать (анализировать и синтезировать) такие слова аналогично известным. Язык запросов (как и в других продуктах Яndex), помимо стандартных логических операторов (И, ИЛИ), включает оператор исключения (И НЕ), а также позволяет осуществлять поиск внутри абзаца, внутри документа, в заголовках и других полях, а также с указанием расстояния между словами. В дополнение к обычной практике Яndex – нормализации слов при индексации и поиске – реализован также запрос по точной словоформе. Язык запросов более подробно описан на странице http://yandex.ru/ya_detail.html. Найденные документы отсортированы по релевантности, которая учитывает не только «контрастность» слова, то есть его относительную частоту для данного документа, но и расстояние между словами и положение слова в документе. Яndex-Web при индексировании запоминает позицию слова в документе, что дает возможность не только искать «с расстоянием», но и выделить (подсветить) слова, найденные в тексте. Если документы были изменены после индексирования, выдается соответствующее предупреждение.
Обратите внимание: компания CompTek названа фирмой – вероятно, ее руководителям тогда казалось, что так солиднее.
Проект представляли трое – Аркадий Волож (неизменно в центре, как обычно, в мешковатом пиджаке), Илья Сегалович (в галстуке, улыбающийся своей искрометной харизматической улыбкой), Елена Колмановская (задумчивая, хотя и довольная).
«Это было маленькое приложение, там было всего 4 ГБ всех текстов, которые мы смогли наиндексировать (2–5 млн документов тогдашнего Рунета. – В.Д.)… Но в сентябре 1997 г. вдруг выяснилось, что это не просто демонстрашка, а целый сервис, народ пошел туда, стали много искать, заваливать нас запросами», – фиксирует Волож прошлое.
Но еще не пришло время отделения от матки, компании CompTek, которая всего за несколько лет под руководством Аркадия Воложа с насмешливым взглядом, эдакого авторитарного лидера с манерами демократа, стала крупнейшим дистрибьютором Cisco Systems в России и СНГ с объемом поставок сетевого и телекоммуникационного оборудования в десятки миллионов долларов в год. Потому что в России компьютерная техника была наиболее ходовым (или даже практически единственным на тот момент) серьезным коммерческим продуктом на рынке информационных технологий.
При этом Волож понимал, что единственным конкурентным преимуществом и коммерческим результатом проекта Яndex могут стать только востребованные прорывные технологии. На тот момент в поиске.
Теперь бы разобраться, что же такое поиск в Интернете. Разумеется, всего лишь на пользовательском уровне. Потому что людей, понимающих суть этого процесса, на планете немного. И я сам на это не претендую.
Я, например, даже не догадывался до начала работы над книгой о Воложе и «Яндексе» (можно в другой последовательности), что между событием, произошедшим в Сети, и его отображением в поисковой базе всегда есть временной промежуток, всегда есть небольшая дистанция, в которую можно упрятать вечность или ее отсутствие. Потому что «Яндекс» ищет ответы на вопросы пользователей не в Сети, а в ее слепке, в муляже, созданном запущенными в Сеть роботами-пауками. И в этом смысле «Яндекс» (как и все поисковики) является творцом гигантской, почти необозримой виртуальной вселенной.
Конечно, технология за годы существования поисковых систем сильно изменилась, но все же основы были заложены тогда, на заре Интернета. Это было счастливое время, когда зарождалось многое привычное сегодня.
23 сентября, Москва – фирма CompTek сообщает об открытии новой поисковой машины http://yandex.ru. Поисковая машина использует механизм Яndex-Web, областью поиска являются Web-сервера доменов. su и.ru, а также иностранные русскоязычные сервера, в том числе – стран СНГ. Яndex-Web представляет собой естественное развитие программных продуктов серии Яndex (Яndex.Site, Яndex.CD, Яndex.Dict, Яndex.Lib). Как и все Яndex-системы, Яndex-Web является полнотекстовой поисковой системой с учетом морфологии русского и английского языков. В отличие от популярной морфологической надстройки к поисковой системе AltaVista (http://www.comptek.ru/alta.html), Яndex-Web является полностью оригинальной разработкой CompTek. В настоящий момент робот (сетевой паук) обходит 5000 серверов (около 4 ГБ текстов) каждую неделю, список серверов пополняется. При индексировании проверяется уникальность документов – это значит, что, если документ существует в нескольких кодировках и/или на нескольких зеркалах, в списке найденного он будет указан один раз (и, соответственно, один раз учтен в статистике). Алгоритмы морфологического разбора, основанные на грамматическом словаре, умеют нормализовать слова, то есть находить их начальную форму. Для неизвестных Яndex слов строится гипотетическая словарная статья, позволяющая обрабатывать (анализировать и синтезировать) такие слова аналогично известным. Язык запросов (как и в других продуктах Яndex), помимо стандартных логических операторов (И, ИЛИ), включает оператор исключения (И НЕ), а также позволяет осуществлять поиск внутри абзаца, внутри документа, в заголовках и других полях, а также с указанием расстояния между словами. В дополнение к обычной практике Яndex – нормализации слов при индексации и поиске – реализован также запрос по точной словоформе. Язык запросов более подробно описан на странице http://yandex.ru/ya_detail.html. Найденные документы отсортированы по релевантности, которая учитывает не только «контрастность» слова, то есть его относительную частоту для данного документа, но и расстояние между словами и положение слова в документе. Яndex-Web при индексировании запоминает позицию слова в документе, что дает возможность не только искать «с расстоянием», но и выделить (подсветить) слова, найденные в тексте. Если документы были изменены после индексирования, выдается соответствующее предупреждение.
Конец бесплатного ознакомительного фрагмента