Страница:
После этой странноватой истории один из довольно известных (во всяком случае, голосистых) деятелей Linux-сообщества, американец Джон Барр, решил поподробнее изучить активность «Лаборатории Касперского» на поприще антивирусной борьбы в среде Linux. Причина его интереса в том, что K-Lab по меньшей мере с 2001 года то и дело объявляет о выявленных ею угрозах для ОС Linux. Барр же работает — причем весьма интенсивно — исключительно под Linux с 1999 года, но при этом НИ РАЗУ за прошедшее время не сталкивался с Linux-вирусами «вживую» (а не в виде чисто лабораторных образцов, «подтверждающих концепцию»).
Отправившись на веб-сайт K-Lab, Барр нашел там наиболее свежий аналитический отчет специалистов фирмы, посвященный «эволюции вредоносных программ под ОС *nix в 2005 году». Конкретно для Linux, в частности, там приведены данные о крутейшем росте числа вирусов — всего за год, с 2004 по 2005, их количество по оценкам «Лаборатории Касперского» подскочило с 4 до 91 штуки!
Если человек ни разу в жизни не видел ни одного реального Linux-вируса, а известные специалисты за год обнаружили их целых 87, то вполне естественным выглядит желание узнать поподробнее о столь неуловимых бестиях. Поэтому Барр послал в K-Lab запрос относительно какой-либо документации, подтверждающей их заявления. Для начала Барра отправили в «Энциклопедию вирусов», которая ведется на сайте Лаборатории.
Поиск вредителей для Linux в этой энциклопедии принес поражающие воображение 972 позиции. Правда, если взглянуть на всю эту жуть чуть внимательнее, то ситуация оказывается далеко не столь тревожной. Скорее даже — искусственно раздутой. Вот лишь несколько характерных особенностей, выявленных Барром в этом длиннющем списке.
Первые 256 позиций оказались вообще никак не задокументированы. Собственно вирусы в остальных позициях гипотетических угроз почти не присутствовали, а мало-мальски вразумительное описание обнаружилось лишь у 21 вируса — то есть примерно для 2% списка. Из этих 21 два оказались дубликатами. Еще один из 21 оказался вирусом Windows, а не Linux. Наконец, практически все из 21 известной «вредоносной программы» модифицируют файлы в соответствии со стандартными разрешениями, принятыми в операционных системах семейства Unix, где принципиально отличаются полномочия пользователя и администратора.
Поскольку все это даже близко не походило на «91 выявленный Linux-вирус», Джон Барр более настойчиво запросил конкретную документацию. Через несколько дней ему прислали список на 91 позицию, но в перечне этом не было абсолютно ничего, кроме голых названий. Для первого же номера данного списка в «энциклопедии» Касперского не оказалось вообще никакого упоминания. Это название удалось найти на сайте другой антивирусной компании, McAfee, однако и там не было никакой содержательной информации о вирусе. Дополнительные изыскания лишь подтвердили истину, давно известную для всей антивирусной индустрии. Единой системы классификации вирусов и прочих компьютерных вредителей здесь не существует, так что каждая компания дает им собственные имена. Таблицы соответствий для наиболее распространенных угроз по мере сил ведут лишь одиночки-энтузиасты, а в целом информация о любом новом «вредоносном коде» просто автоматически размножается без анализа и описаний, поскольку для бизнеса антивирусных компаний элементарно выгодно плодить число всевозможных угроз.
Тогда, любопытства ради, Барр решил сверить названия 21 документированного вируса в общем списке «Linux-вредителей» из 972 позиций энциклопедии и свежеполученного списка «Linux-вирусов» из 91 позиции. Таких пересечений оказалось 10. Из этих десяти два были обнаружены в 2000 году, четыре в 2001 году, три в 2002 и один в 2003… При переводе этой арифметики в обычные слова получается, что ни на один из «выявленных в 2005 году 87 Linux-вирусов» у K-Lab для въедливого запроса со стороны не обнаружилось ни документации, ни вообще хоть какого-то описания.
Подводя итог своему исследованию, Джон Барр имел, как видим, все основания констатировать, что «Лаборатория Касперского» делает крайне сильные заявления о вредоносных кодах в Linux, однако не имеет абсолютно ничего реального в подтверждение своих слов. Справедливости ради, Барр тут же делает оговорку, что подобными вещами занимается вовсе не только K-Lab, но и остальные антивирусные компании. Просто российская фирма наиболее заметна на рынке в своих энергичных попытках продвигать антивирусное ПО для Linux. А кому нужно такое ПО, если нет вирусов?
Находчивые слуги
Отправившись на веб-сайт K-Lab, Барр нашел там наиболее свежий аналитический отчет специалистов фирмы, посвященный «эволюции вредоносных программ под ОС *nix в 2005 году». Конкретно для Linux, в частности, там приведены данные о крутейшем росте числа вирусов — всего за год, с 2004 по 2005, их количество по оценкам «Лаборатории Касперского» подскочило с 4 до 91 штуки!
Если человек ни разу в жизни не видел ни одного реального Linux-вируса, а известные специалисты за год обнаружили их целых 87, то вполне естественным выглядит желание узнать поподробнее о столь неуловимых бестиях. Поэтому Барр послал в K-Lab запрос относительно какой-либо документации, подтверждающей их заявления. Для начала Барра отправили в «Энциклопедию вирусов», которая ведется на сайте Лаборатории.
Поиск вредителей для Linux в этой энциклопедии принес поражающие воображение 972 позиции. Правда, если взглянуть на всю эту жуть чуть внимательнее, то ситуация оказывается далеко не столь тревожной. Скорее даже — искусственно раздутой. Вот лишь несколько характерных особенностей, выявленных Барром в этом длиннющем списке.
Первые 256 позиций оказались вообще никак не задокументированы. Собственно вирусы в остальных позициях гипотетических угроз почти не присутствовали, а мало-мальски вразумительное описание обнаружилось лишь у 21 вируса — то есть примерно для 2% списка. Из этих 21 два оказались дубликатами. Еще один из 21 оказался вирусом Windows, а не Linux. Наконец, практически все из 21 известной «вредоносной программы» модифицируют файлы в соответствии со стандартными разрешениями, принятыми в операционных системах семейства Unix, где принципиально отличаются полномочия пользователя и администратора.
Поскольку все это даже близко не походило на «91 выявленный Linux-вирус», Джон Барр более настойчиво запросил конкретную документацию. Через несколько дней ему прислали список на 91 позицию, но в перечне этом не было абсолютно ничего, кроме голых названий. Для первого же номера данного списка в «энциклопедии» Касперского не оказалось вообще никакого упоминания. Это название удалось найти на сайте другой антивирусной компании, McAfee, однако и там не было никакой содержательной информации о вирусе. Дополнительные изыскания лишь подтвердили истину, давно известную для всей антивирусной индустрии. Единой системы классификации вирусов и прочих компьютерных вредителей здесь не существует, так что каждая компания дает им собственные имена. Таблицы соответствий для наиболее распространенных угроз по мере сил ведут лишь одиночки-энтузиасты, а в целом информация о любом новом «вредоносном коде» просто автоматически размножается без анализа и описаний, поскольку для бизнеса антивирусных компаний элементарно выгодно плодить число всевозможных угроз.
Тогда, любопытства ради, Барр решил сверить названия 21 документированного вируса в общем списке «Linux-вредителей» из 972 позиций энциклопедии и свежеполученного списка «Linux-вирусов» из 91 позиции. Таких пересечений оказалось 10. Из этих десяти два были обнаружены в 2000 году, четыре в 2001 году, три в 2002 и один в 2003… При переводе этой арифметики в обычные слова получается, что ни на один из «выявленных в 2005 году 87 Linux-вирусов» у K-Lab для въедливого запроса со стороны не обнаружилось ни документации, ни вообще хоть какого-то описания.
Подводя итог своему исследованию, Джон Барр имел, как видим, все основания констатировать, что «Лаборатория Касперского» делает крайне сильные заявления о вредоносных кодах в Linux, однако не имеет абсолютно ничего реального в подтверждение своих слов. Справедливости ради, Барр тут же делает оговорку, что подобными вещами занимается вовсе не только K-Lab, но и остальные антивирусные компании. Просто российская фирма наиболее заметна на рынке в своих энергичных попытках продвигать антивирусное ПО для Linux. А кому нужно такое ПО, если нет вирусов?
Находчивые слуги
Автор: Дмитрий Смирнов.
© 2003-2006, Издательский дом | http://www.computerra.ru/
Журнал «Домашний компьютер» | http://www.homepc.ru/
Этот материал Вы всегда сможете найти по его постоянному адресу: /2006/122/284569/
Первым механизмом, который лег в основу интернет-поисковиков, стал так называемый crawler («ползунок» по Интернету). Написал его в июне 1993 года студент Массачусетского технологического института Мэтью Грей (Matthew Gray) с целью измерения пространства Сети. Программа называлась World Wide Web Wanderer, была написана на Perl, переходила с одного сайта на другой по ссылкам (спасибо коллекциям линков) и таким образом считала сайты и связи между ними. Простой арифметикой дело не ограничилось, и в конце того же 1993 года на основе «Скитальца» была создана первая в мире поисковая машина Wandex. Но до наших дней сей пионер, увы, не дожил.
Вторая поисковая машина — Aliweb (Archie Like Indexing for the Web) — была создана в октябре того же 1993 года и, в отличие от Wandex, жива и поныне. Это была первая целенаправленно созданная поисковая система (Wandex все-таки был экспериментальной разработкой-наследником Wanderer’а). Разработчик Aliweb Мартин Костер (Martijn Koster) впоследствии участвовал в создании стандарта Robots Exclusion Standard (механизма, позволяющего дать указание поисковым машинам не индексировать/не сохранять те или иные страницы или сайты целиком и не добавлять их в каталоги). В настоящий момент идет работа по полной переделке кода Aliweb. Основатели сервиса грозятся выпустить в 2007 году его новую версию и «убрать» с рынка поисковиков всех конкурентов, начиная с Google и заканчивая MSN и Yahoo. Мы уж начали бояться, нет, правда!
Следующим после Aliweb на рынок поисковиков вышел проект с говорящим названием WebCrawler, случилось это в начале 1994-го. Он тоже стал по-своему пионером: в нем впервые был задействован полнотекстовый поиск — не только по названиям/заголовкам/ключевым словам, но и по всему тексту любой страницы. Впоследствии это стало стандартом работы поисковых машин. WebCrawler первым приобрел популярность и признание, все предыдущие проекты не были столь «всенародными».
В том же 1994 году были запущены проекты Infoseek и Lycos (первым попытавшийся сделать поиск коммерческим предприятием). А в течение последующих трех лет на рынок вышли Altavista (долгое время считавшаяся лучшей поисковой системой, а сейчас практически забытая), Excite, Dogpile, Inktomi, Ask.com и Northern Light.
Ask.com, кстати, сначала называлась Ask Jeeves — по имени Дживса, героя серии книг П. Г. Вудхауза «Дживс и Вустер», знаменитого своей бесконечной эрудицией и способностью находить ответы на любые вопросы. Эта поисковая машина первой предложила пользователям задавать вопросы простым английским языком, нормальными предложениями, начинающимися с вопросительного слова. Работало, если честно, не очень эффективно, но сам подход вызывал уважение.
Сегодня на Ask.com написано, что Дживс, десять лет служивший сетевому сообществу верой и правдой, исполнил свой долг и отправился на заслуженный отдых; что долгое время он был знаковой фигурой, виртуальным дворецким, которому нравилось находить ответы на вопросы посетителей, но — времена меняются. Сегодня, по мнению Ask.com, Интернет уже другой — он стал средой обитания реального времени, пользователям нужны моментальные ответы на все более сложные запросы. Другими словами, Дживсу сделали ребрендинг (в итоге отказавшись от модели «вопросов по-людски»), а сервис, конечно же, обещает становиться лучше и лучше, служить пользователям и стать лучшим поисковиком на свете. (Пока же мы, в надежде, что в будущем хорошая идея (над которой, кстати, давно бьются в Microsoft) будет успешно реализована, иллюстрируем статью персонажами Вудхауза, из которых Дживс (условно) будет олицетворять посковые системы будущего, а Вустер… ну, отнесемся к себе с долей критики.)
Между прочим, сейчас технология «человеческих вопросов» в некотором виде работает, в частности, на «Яндексе»: если на простые ключевые слова это поисковик выдает только соответствующие страницы, то на выражения типа «что такое то-самое-ключевое-слово» — сначала словарные определения, если таковые есть, а потом уже обычные результаты поиска.
Кроме поисковых машин существовали еще и сайты-каталоги (они же рубрикаторы, они же директории). Каждый сайт в них был отнесен к тому или иному разделу, и пользователь, углубляясь в интересующем направлении (например, Каталог/Культура/Музыка/Классическая музыка), сам должен был находить нужные ссылки и описания. В сайтах-рубрикаторах, разумеется, был и встроенный поиск по каталогу — по названию и краткому описанию сайта. Большинство каталогов были пре— или постмодерируемыми. Наиболее известным на Западе сайтом такого типа стал Yahoo!, появившийся в 1995 году и до сих пор являющийся одним из наиболее посещаемых ресурсов в мире. Попасть в его базу было непросто, и это считалось довольно почетным. Конечно, поисковые машины и каталоги были конкурирующими идеологиями, но для конечного пользователя они, скорее, дополняли друг друга. В конце концов, эти два способа упорядочивания Сети слились — так в 2004 году появился сервис Yahoo! Search (Yahoo купила в 2002 году Inktomi, a в 2003 — Overture, которая к тому времени владела, в свою очередь, проектами Altavista и появившимся в 1999 году AllTheWeb), такая же судьба постигла и остальные дожившие до наших дней проекты. А до запуска своего поиска Yahoo! использовала поисковые возможности героев следующей главы нашего рассказа.
Именно в этом году возникла очередная поисковая машина, которой было суждено если не перевернуть представления о поиске, то, во всяком случае, показать миру, какой потенциал таит в себе эта отрасль. Большая цифра — единица со ста нулями — называется по-английски Googol (гугол). После небольшой обработки напильником это слово превратилось в Google. Согласно официальной легенде, название отражает стремление компании организовать и упорядочить сколь угодно большие объемы информации.
«Гугл» был основан выпускниками Стэндфордского университета Ларри Пэйджем (Larry Page) и выходцем из России Сергеем Брином. Разработка началась еще в 1996 году — именно тогда были заложены основы системы PageRank — алгоритма расчета авторитетности страницы. Система была основана на подсчете количества и «веса» ссылок, ведущих на тот или иной ресурс. Создатели Google предположили, что на интересный, полезный или популярный сайт ссылаться должны чаще, чем на скучный и одноразовый.
Первоначальные вложения в проект составили около 1 миллиона долларов. В сентябре 1998 года система, стартовавшая в статусе бета-версии, уже тогда обрабатывала десятки тысяч запросов в день. На поисковик обратили внимание интернет-гиганты AOL (купивший к тому времени портал Netscape) и Yahoo!. Каждый, в свою очередь, интегрировал поиск Google на свои порталы, и к концу 2000 года сервис обрабатывал до 100 миллионов (!) запросов ежедневно. (После обособления Yahoo! нагрузка снизилась, сегодня Google отвечает примерно на 50 миллионов запросов в день.)
Успех Google был во многом обусловлен качественным поисковым алгоритмом. Любая поисковая машина, разрастаясь, рискует стать свалкой. Сайты рождаются и умирают, их популярность изменяется, а кроме того, всем хочется всплыть на первую страницу результатов поиска, поэтому многие веб-мастера прибегают к так называемому «поисковому спаму» (о нем мы еще расскажем ниже). Задав один и тот же ключ поиска разным поисковым машинам, можно получить принципиально разные результаты, причем из года в год они могут изменяться еще более удивительным образом.
Если ранние поисковые машины просто индексировали все содержимое страницы, и особое внимание обращали на так называемые «метаописания», то Google действовал иначе. Его «движок» всегда игнорировал метаданные, ибо каждый охотник… то есть каждый неленивый веб-мастер писал туда все популярные ключи запросов в надежде увеличить стихийную, бесполезную, пусть даже чисто техническую посещаемость своего сайта.
Но хитрый Google анализирует всю страницу сайта, обращает внимание на размер и цвет шрифта, места расположения заголовков и текстовых абзацев, то есть, грубо говоря, моделирует в своем «мозгу» страницу, как ее увидел бы обычный пользователь, и сам расставляет на ней смысловые акценты.
Кроме того, Google подкупает пользователя простейшей и в меру забавной главной страницей: на ней нет ничего лишнего. Не стоит думать, что простота эта обусловлена ленью дизайнеров — за каждым элементом интерфейса сервисов Google стоят очень серьезные специалисты, и это приносит компании куда более значительные результаты, чем может показаться на первый взгляд.
Залог успеха Google — PageRank (сокращенно PR). Этот механизм обсчитывает важность той или иной страницы с точки зрения «мировой революции» (то есть в контексте всех других существующих страниц Интернета). PR высчитывается, исходя из количества ссылок на данную страницу, а также «веса» каждой ссылающейся страницы — зачастую ссылка с одного «важного» сайта окажется дороже ссылки с сотни, если не тысячи незначимых, спамерских. Таким образом, если вам пожал руку Пол Маккартни, с точки зрения Google вы будете куда авторитетнее человека, которому пожали руку сто человек по имени Павел Макаров — как-то так.
Кстати, ссылки с сайтов, специально предназначенных только для ссылок, Google фильтрует. PR специально накручиваемых сайтов может раз и навсегда обнулиться. Сайты, которые будут ссылаться на «проштрафившиеся» ресурсы с PR=0, также могут быть оштрафованы — «по подозрению в преступном сговоре». Google рекомендует: семь раз подумать и один раз сослаться.
Поиск в Google можно описать следующим алгоритмом:
1) отбираются все страницы, в которых содержатся искомые слова;
2) страницы сортируются по текстовым критериям («всплывают» страницы, на которых искомая фраза встречается чаще и точнее);
3) производится поиск в тексте ссылок на каждый сайт;
4) окончательные результаты «причесываются» с учетом PR сайтов.
Приведенный пример довольно груб; для вычисления пункта номер 4 Google использует больше сотни факторов ранжирования, как положительно, так и отрицательно влияющих на положение сайтов в результате поиска. Специалисты по продвижению сайтов — «оптимизаторы» — знают все или почти все эти критерии (мы нашли в Сети классификацию 38 положительных и 24 отрицательных свойства сайта, а также 43 положительных и 13 отрицательных внешних факторов, влияющих на PR) и используют свои знания в профессиональных целях, разумеется, не бесплатно. В свою очередь, Google борется с подобными специалистами и результатами их деятельности, ратуя за естественную расстановку сил в Интернете.
Технологию, подобную PageRank, использует и «Яндекс». Практически все описанное выше, плюс-минус национальные особенности, применимо и к нему, но в его терминологии «авторитетность» сайта — это «тематический индекс цитирования» или тИЦ. Подробнее об этом начинающие веб-мастера можно узнать, пойдя по ссылке на странице help.yandex.ru/catalogue.
Поисковые технологии на службе других сервисов — актуальнейшая тема современности. И именно Google показывает на этом поприще наиболее внушительные результаты.
Один из наиболее удачных сервисов — Gmail (Google Mail) — популярная почта от Google. Он до сих пор находится в статусе beta-версии и официально закрыт для публичной регистрации, но это уже напоминает маркетинговый ход. Дело в том, что у большинства пользователей Gmail есть до 100 пригласительных кодов, которые они могут раздать своим знакомым (или незнакомым) — для этой цели создано множество сетевых ресурсов. Каждый вновь зарегистрировавшийся в Gmail получает свою порцию приглашений, и история повторяется. Система приглашений напоминает социальную сеть, некий неявный эксперимент Google, но об этом мы вряд ли узнаем в скором времени.
Запустив этот сервис, Google произвел революцию в мире бесплатной почты. Дело в том, что в самом начале пользователям предлагался под почту целый гигабайт. Вскоре после запуска лимит был передвинут до двух гигабайт, а впоследствии начал плавно расти в реальном времени, и сейчас приближается к 3 Гбайтам (этот шаг, кстати, подвиг многие популярные почтовики серьезно увеличить квоту на место под почту, за что Google можно только поблагодарить). «Гугл» предлагает не удалять почту, а маркировать ее тематическими ярлыками и складывать в архив, то есть не складывать деловое письмо от друга из соседней компании в папку «Друзья» и копию — в папку «Работа», а приклеить к письму соответствующие ярлыки и впоследствии находить это письмо по ним, в зависимости от контекста. Для поиска и упорядочивания, разумеется, задействованы поисковые механизмы Google.
Разумеется, за любой бесплатный сервис кто-то все равно платит. Google компенсирует свои затраты с помощью собственной системы текстовой контекстной рекламы, которую показывает на страницах почтового сервиса (и не только там).
Реклама от Google называется AdSense — дословно «чувство рекламы». Она хороша тем, что показывается неслучайно: Google анализирует содержимое страницы и выдает информацию (напоминаем: текстовую, никакой раздражающей графики!), которая может заинтересовать читателей именно этой страницы. Нет, Google не читает вашу почту; робот анализирует текст, выбирает наиболее подходящее, по его мнению, объявление и забывает ваше письмо, переходя к следующей задаче. Опять же, не вся реклама бесполезна, и если уж от нее нельзя избавиться, лучше видеть что-то действительно интересное. Выбор наилучшей рекламы напоминает действие кнопки «Мне повезет!» на главной странице поисковика, только область поиска в данном случае — это пространство рекламных объявлений, а ключ — содержимое страницы. Получается «поиск наоборот», и тем не менее — это поисковый механизм…
Сервис Google Base предоставляет возможность размещения в Сети практически любой информации. Сейчас предлагаются на выбор пара десятков категорий вроде «Событий и мероприятий», «Новостей» «Биографий», «Подкастов» и т. д. Также можно создать свою категорию. Если, к примеру, вы хотите поделиться с миром каким-то рецептом, но не знаете, как это лучше сделать и где найти аудиторию, воспользуйтесь Google Base. Выбрав соответствующую категорию, просто заполните все поля (в «готовых» категориях необходимые поля уже заведены, остается их заполнить), укажите ярлыки (да-да, как в почте) — например, «котлета» и «по-киевски», — а также, если хотите, укажите свое имя, контактные данные и даже место вашего жительства на Google Maps. Ваш постинг будет жить на серверах Google в течение месяца и отображаться в результатах запросов на основном поиске Google, на Google Base, а также на Froogle и Google Maps.
Кстати, о Maps. Google сделал практически невозможное: создал сервис, показывающий спутниковые фотографии всей поверхности планеты. Крупные города сняты настолько подробно, что видны автомобили, а с мелкоскопом — даже люди. Провинция показана менее детально, но леса-поля-реки-дороги читаются прекрасно. На спутниковую съемку наложена карта многих стран, а также местоположение и координаты большинства городов мира (к примеру, город Юхнов, что в Калужской губернии, прекрасно находится по ключу Yukhnov Russia).
Поделюсь и своим маленьким ноу-хау. Однажды я придумал, как использовать поиск картинок Google в качестве переводчика с любого языка. Встретившееся незнакомое слово следует аккуратно перенести в строку запроса поиска картинок и нажать клавишу Enter. После этого внимательно посмотреть на результат и назвать его на родном языке. Конечно, для сильно абстрактных понятий типа «человечность» способ вряд ли полезен, но для перевода какого-нибудь каталога автоинструментов с венгерского на английский вполне работает.
Увлеченный рассказ о сервисах Google, число коим десятки, можно было бы продолжать еще долго, но мы рискуем превратить наш материал в песню про Уездный город N о семнадцати куплетах и начисто извести журнальное место — недаром сегодня можно встретить книжки-самоучители, целиком посвященные этой системе. Однако в этих книжках редко пишут о «побочных» следствиях развития поисковых систем.
Как мы уже упомянули во врезке, «оптимизация сайтов», которую предлагает каждый второй спамер, — это кому наука, а кому и профессия. Кроме того, наверняка вам встречались в Сети и вне ее предложения «взлета сайта ракетой». Для этого используются еще более грязные технологии. Правда, «технологи» не упоминают, что после взлета ракетой через некоторое время, скорее всего, последует падение в стиле «Станции Мир» — с громким бульком и без шансов взлететь еще раз.
Для быстрого «взлета» используются так называемые «дорвеи» (doorways) — сайты, созданные специально для раскрутки других сайтов. Если «дорвей» (буквально — дверной проем, то есть «входная страница») обладает высоким PageRank или тИЦ, то ссылка с него на ваш ресурс будет для Google (или «Яндекса») аргументом для подъема вашего сайта вверх по тому или иному запросу. Правда, ненадолго, ибо поисковики ведут с дорвеями жесткую войну.
По сути, дорвей — это страница, предназначенная для накрутки рейтинга определенного словосочетания (обычно — из трех или даже четырех слов, ибо отдельные слова или короткие фразы уже давно заняты, их рейтинг сложно «перебить»; классический пример фразы для дорвея — «отдых на курортах Турции»). Для накрутки рейтинга используются генераторы страниц, которые создают на бесплатных хостингах и других любым образом открытых ресурсах (форумах, гостевых, веб-профилях пользователей любых сервисов и т. д.) многочисленные ссылки на данную страницу с нужными ключевыми словами.
Профессиональные дорвейщики даже платят (правда, копейки) студентам и прочим любителям, казалось бы, «легкого» заработка в Сети за размещение тех или иных ссылок на форумах и других ресурсах, где автоматически спамить не получается.
Создав страницу с высоким тИЦ или PR, дорвейщик продает ссылки с нее на другие ресурсы, которые и «взлетают ракетой». Но как только охотники за нечистью из Google или «Яндекса» замечают накрутку, дорвей попадает в бан-лист, а ссылки с него начинают играть роль дурной кармы рекламируемого сайта. Впрочем, к тому времени дорвейщика это волнует мало — он уже занят следующими словосочетаниями и проектами.
На фоне дорвейщиков «белые оптимизаторы» выглядят поистине рыцарями на конях соответствующего оттенка. Они используют правила игры, установленные поисковиками, и применяют свои знания, по возможности, с минимальными потерями для клиента. Оптимизаторы тоже создают сайты для раскрутки других сайтов, но делают они это более кропотливо и с «долгоиграющими» перспективами. Так, если дорвей — это, как правило, сайт с бессмысленным набором слов на заданную тематику (для этого обычно используется знаменитый генератор Маркова), то оптимизатор не поленится и создаст вполне читаемый сайт, к содержимому которого нельзя будет применить понятие «чистый поисковый спам».
В общем, основная разница между двумя профессиями в том, что на дорвейщиков идет постоянная охота, и им нужно постоянно плодить новые сайты, быстрее, чем будут убивать (с точки зрения PR) старые. «Принцип таракана»: убегать и плодиться быстрее, чем давят. Оптимизаторы работают на будущее, вкладывают в сайты на порядок больше усилий, но и получают более «долгоиграющие» механизмы. Впрочем, они столь же, по сути, бесполезны: как те, так и другие перекачивают воздух. Дешевые способы раскрутки дадут дешевый эффект, законы сохранения энергии еще никто не отменял. А гении в этой профессии, как и в любой другой, встречаются редко. (Впрочем, история знает примеры самораскрутки сайтов с помощью простейших гениальных идей. Задание для самостоятельного исследования: The very last page of the Internet, HotOrNot.com, MillionDollarHomePage.com. Почитайте истории об этих проектах.)
И еще об оптимизации. Один из дурных приемов поискового спама — «невидимый текст». Суть его в том, что часть страницы отводится под мелкий (а иногда и крупный) текст, написанный тем же цветом, что и фон под ним. Увидеть его можно, только выделив содержимое страницы мышкой или сочетанием Ctrl+A, что делают немногие. Поисковик же, если он не оснащен средствами проверки текста на видимость, может посчитать, что страница эта просто кишит нужным словосочетанием, и вывести ее в топ. Классический пример — страница, иллюстрирующая данное явление — spam-page.narod.ru.
Журнал «Домашний компьютер» | http://www.homepc.ru/
Этот материал Вы всегда сможете найти по его постоянному адресу: /2006/122/284569/
Один мой друг (он стоит двух, он ждать не привык) спрашивает у «Яндекса» так: (naked | nu) /+2 («britney spears» | «brittany spears»). Ладно, спрашивает он о другом, но синтаксис использует похожий. Однако многие сетяне (включая автора статьи) за долгие годы жизни в Интернете так и не освоили искусство сложных запросов и все еще надеются, что однажды смогут спросить поисковую машину в стиле Space Odyssey 2001 — простым человеческим языком, вслух, без нереального синтаксиса: скажи, мол, HAL-900028, где найти фот… в смысле, когда же будет концерт Бритни в Москве? И ответит искусственный разум: «This conversation can serve no purpose anymore. Goodbye». Ну а пока светлое будущее не наступило, поговорим о прошлом и настоящем поисковых технологий и систем, эдаких слуг, без помощи которых мы сегодня не можем ступить в Интернете и шагу.
Эволюция краулеров
Первым механизмом, который лег в основу интернет-поисковиков, стал так называемый crawler («ползунок» по Интернету). Написал его в июне 1993 года студент Массачусетского технологического института Мэтью Грей (Matthew Gray) с целью измерения пространства Сети. Программа называлась World Wide Web Wanderer, была написана на Perl, переходила с одного сайта на другой по ссылкам (спасибо коллекциям линков) и таким образом считала сайты и связи между ними. Простой арифметикой дело не ограничилось, и в конце того же 1993 года на основе «Скитальца» была создана первая в мире поисковая машина Wandex. Но до наших дней сей пионер, увы, не дожил.
Вторая поисковая машина — Aliweb (Archie Like Indexing for the Web) — была создана в октябре того же 1993 года и, в отличие от Wandex, жива и поныне. Это была первая целенаправленно созданная поисковая система (Wandex все-таки был экспериментальной разработкой-наследником Wanderer’а). Разработчик Aliweb Мартин Костер (Martijn Koster) впоследствии участвовал в создании стандарта Robots Exclusion Standard (механизма, позволяющего дать указание поисковым машинам не индексировать/не сохранять те или иные страницы или сайты целиком и не добавлять их в каталоги). В настоящий момент идет работа по полной переделке кода Aliweb. Основатели сервиса грозятся выпустить в 2007 году его новую версию и «убрать» с рынка поисковиков всех конкурентов, начиная с Google и заканчивая MSN и Yahoo. Мы уж начали бояться, нет, правда!
Следующим после Aliweb на рынок поисковиков вышел проект с говорящим названием WebCrawler, случилось это в начале 1994-го. Он тоже стал по-своему пионером: в нем впервые был задействован полнотекстовый поиск — не только по названиям/заголовкам/ключевым словам, но и по всему тексту любой страницы. Впоследствии это стало стандартом работы поисковых машин. WebCrawler первым приобрел популярность и признание, все предыдущие проекты не были столь «всенародными».
В том же 1994 году были запущены проекты Infoseek и Lycos (первым попытавшийся сделать поиск коммерческим предприятием). А в течение последующих трех лет на рынок вышли Altavista (долгое время считавшаяся лучшей поисковой системой, а сейчас практически забытая), Excite, Dogpile, Inktomi, Ask.com и Northern Light.
Ребрендинг Дживса
Ask.com, кстати, сначала называлась Ask Jeeves — по имени Дживса, героя серии книг П. Г. Вудхауза «Дживс и Вустер», знаменитого своей бесконечной эрудицией и способностью находить ответы на любые вопросы. Эта поисковая машина первой предложила пользователям задавать вопросы простым английским языком, нормальными предложениями, начинающимися с вопросительного слова. Работало, если честно, не очень эффективно, но сам подход вызывал уважение.
Сегодня на Ask.com написано, что Дживс, десять лет служивший сетевому сообществу верой и правдой, исполнил свой долг и отправился на заслуженный отдых; что долгое время он был знаковой фигурой, виртуальным дворецким, которому нравилось находить ответы на вопросы посетителей, но — времена меняются. Сегодня, по мнению Ask.com, Интернет уже другой — он стал средой обитания реального времени, пользователям нужны моментальные ответы на все более сложные запросы. Другими словами, Дживсу сделали ребрендинг (в итоге отказавшись от модели «вопросов по-людски»), а сервис, конечно же, обещает становиться лучше и лучше, служить пользователям и стать лучшим поисковиком на свете. (Пока же мы, в надежде, что в будущем хорошая идея (над которой, кстати, давно бьются в Microsoft) будет успешно реализована, иллюстрируем статью персонажами Вудхауза, из которых Дживс (условно) будет олицетворять посковые системы будущего, а Вустер… ну, отнесемся к себе с долей критики.)
Между прочим, сейчас технология «человеческих вопросов» в некотором виде работает, в частности, на «Яндексе»: если на простые ключевые слова это поисковик выдает только соответствующие страницы, то на выражения типа «что такое то-самое-ключевое-слово» — сначала словарные определения, если таковые есть, а потом уже обычные результаты поиска.
Yahoo! и другие
Кроме поисковых машин существовали еще и сайты-каталоги (они же рубрикаторы, они же директории). Каждый сайт в них был отнесен к тому или иному разделу, и пользователь, углубляясь в интересующем направлении (например, Каталог/Культура/Музыка/Классическая музыка), сам должен был находить нужные ссылки и описания. В сайтах-рубрикаторах, разумеется, был и встроенный поиск по каталогу — по названию и краткому описанию сайта. Большинство каталогов были пре— или постмодерируемыми. Наиболее известным на Западе сайтом такого типа стал Yahoo!, появившийся в 1995 году и до сих пор являющийся одним из наиболее посещаемых ресурсов в мире. Попасть в его базу было непросто, и это считалось довольно почетным. Конечно, поисковые машины и каталоги были конкурирующими идеологиями, но для конечного пользователя они, скорее, дополняли друг друга. В конце концов, эти два способа упорядочивания Сети слились — так в 2004 году появился сервис Yahoo! Search (Yahoo купила в 2002 году Inktomi, a в 2003 — Overture, которая к тому времени владела, в свою очередь, проектами Altavista и появившимся в 1999 году AllTheWeb), такая же судьба постигла и остальные дожившие до наших дней проекты. А до запуска своего поиска Yahoo! использовала поисковые возможности героев следующей главы нашего рассказа.
1998
Именно в этом году возникла очередная поисковая машина, которой было суждено если не перевернуть представления о поиске, то, во всяком случае, показать миру, какой потенциал таит в себе эта отрасль. Большая цифра — единица со ста нулями — называется по-английски Googol (гугол). После небольшой обработки напильником это слово превратилось в Google. Согласно официальной легенде, название отражает стремление компании организовать и упорядочить сколь угодно большие объемы информации.
«Гугл» был основан выпускниками Стэндфордского университета Ларри Пэйджем (Larry Page) и выходцем из России Сергеем Брином. Разработка началась еще в 1996 году — именно тогда были заложены основы системы PageRank — алгоритма расчета авторитетности страницы. Система была основана на подсчете количества и «веса» ссылок, ведущих на тот или иной ресурс. Создатели Google предположили, что на интересный, полезный или популярный сайт ссылаться должны чаще, чем на скучный и одноразовый.
Первоначальные вложения в проект составили около 1 миллиона долларов. В сентябре 1998 года система, стартовавшая в статусе бета-версии, уже тогда обрабатывала десятки тысяч запросов в день. На поисковик обратили внимание интернет-гиганты AOL (купивший к тому времени портал Netscape) и Yahoo!. Каждый, в свою очередь, интегрировал поиск Google на свои порталы, и к концу 2000 года сервис обрабатывал до 100 миллионов (!) запросов ежедневно. (После обособления Yahoo! нагрузка снизилась, сегодня Google отвечает примерно на 50 миллионов запросов в день.)
Успех Google был во многом обусловлен качественным поисковым алгоритмом. Любая поисковая машина, разрастаясь, рискует стать свалкой. Сайты рождаются и умирают, их популярность изменяется, а кроме того, всем хочется всплыть на первую страницу результатов поиска, поэтому многие веб-мастера прибегают к так называемому «поисковому спаму» (о нем мы еще расскажем ниже). Задав один и тот же ключ поиска разным поисковым машинам, можно получить принципиально разные результаты, причем из года в год они могут изменяться еще более удивительным образом.
Если ранние поисковые машины просто индексировали все содержимое страницы, и особое внимание обращали на так называемые «метаописания», то Google действовал иначе. Его «движок» всегда игнорировал метаданные, ибо каждый охотник… то есть каждый неленивый веб-мастер писал туда все популярные ключи запросов в надежде увеличить стихийную, бесполезную, пусть даже чисто техническую посещаемость своего сайта.
Но хитрый Google анализирует всю страницу сайта, обращает внимание на размер и цвет шрифта, места расположения заголовков и текстовых абзацев, то есть, грубо говоря, моделирует в своем «мозгу» страницу, как ее увидел бы обычный пользователь, и сам расставляет на ней смысловые акценты.
Кроме того, Google подкупает пользователя простейшей и в меру забавной главной страницей: на ней нет ничего лишнего. Не стоит думать, что простота эта обусловлена ленью дизайнеров — за каждым элементом интерфейса сервисов Google стоят очень серьезные специалисты, и это приносит компании куда более значительные результаты, чем может показаться на первый взгляд.
Ты меня уважаешь?
Залог успеха Google — PageRank (сокращенно PR). Этот механизм обсчитывает важность той или иной страницы с точки зрения «мировой революции» (то есть в контексте всех других существующих страниц Интернета). PR высчитывается, исходя из количества ссылок на данную страницу, а также «веса» каждой ссылающейся страницы — зачастую ссылка с одного «важного» сайта окажется дороже ссылки с сотни, если не тысячи незначимых, спамерских. Таким образом, если вам пожал руку Пол Маккартни, с точки зрения Google вы будете куда авторитетнее человека, которому пожали руку сто человек по имени Павел Макаров — как-то так.
Кстати, ссылки с сайтов, специально предназначенных только для ссылок, Google фильтрует. PR специально накручиваемых сайтов может раз и навсегда обнулиться. Сайты, которые будут ссылаться на «проштрафившиеся» ресурсы с PR=0, также могут быть оштрафованы — «по подозрению в преступном сговоре». Google рекомендует: семь раз подумать и один раз сослаться.
Поиск в Google можно описать следующим алгоритмом:
1) отбираются все страницы, в которых содержатся искомые слова;
2) страницы сортируются по текстовым критериям («всплывают» страницы, на которых искомая фраза встречается чаще и точнее);
3) производится поиск в тексте ссылок на каждый сайт;
4) окончательные результаты «причесываются» с учетом PR сайтов.
Приведенный пример довольно груб; для вычисления пункта номер 4 Google использует больше сотни факторов ранжирования, как положительно, так и отрицательно влияющих на положение сайтов в результате поиска. Специалисты по продвижению сайтов — «оптимизаторы» — знают все или почти все эти критерии (мы нашли в Сети классификацию 38 положительных и 24 отрицательных свойства сайта, а также 43 положительных и 13 отрицательных внешних факторов, влияющих на PR) и используют свои знания в профессиональных целях, разумеется, не бесплатно. В свою очередь, Google борется с подобными специалистами и результатами их деятельности, ратуя за естественную расстановку сил в Интернете.
Технологию, подобную PageRank, использует и «Яндекс». Практически все описанное выше, плюс-минус национальные особенности, применимо и к нему, но в его терминологии «авторитетность» сайта — это «тематический индекс цитирования» или тИЦ. Подробнее об этом начинающие веб-мастера можно узнать, пойдя по ссылке на странице help.yandex.ru/catalogue.
Мирный атом
Поисковые технологии на службе других сервисов — актуальнейшая тема современности. И именно Google показывает на этом поприще наиболее внушительные результаты.
Один из наиболее удачных сервисов — Gmail (Google Mail) — популярная почта от Google. Он до сих пор находится в статусе beta-версии и официально закрыт для публичной регистрации, но это уже напоминает маркетинговый ход. Дело в том, что у большинства пользователей Gmail есть до 100 пригласительных кодов, которые они могут раздать своим знакомым (или незнакомым) — для этой цели создано множество сетевых ресурсов. Каждый вновь зарегистрировавшийся в Gmail получает свою порцию приглашений, и история повторяется. Система приглашений напоминает социальную сеть, некий неявный эксперимент Google, но об этом мы вряд ли узнаем в скором времени.
Запустив этот сервис, Google произвел революцию в мире бесплатной почты. Дело в том, что в самом начале пользователям предлагался под почту целый гигабайт. Вскоре после запуска лимит был передвинут до двух гигабайт, а впоследствии начал плавно расти в реальном времени, и сейчас приближается к 3 Гбайтам (этот шаг, кстати, подвиг многие популярные почтовики серьезно увеличить квоту на место под почту, за что Google можно только поблагодарить). «Гугл» предлагает не удалять почту, а маркировать ее тематическими ярлыками и складывать в архив, то есть не складывать деловое письмо от друга из соседней компании в папку «Друзья» и копию — в папку «Работа», а приклеить к письму соответствующие ярлыки и впоследствии находить это письмо по ним, в зависимости от контекста. Для поиска и упорядочивания, разумеется, задействованы поисковые механизмы Google.
Разумеется, за любой бесплатный сервис кто-то все равно платит. Google компенсирует свои затраты с помощью собственной системы текстовой контекстной рекламы, которую показывает на страницах почтового сервиса (и не только там).
Реклама от Google называется AdSense — дословно «чувство рекламы». Она хороша тем, что показывается неслучайно: Google анализирует содержимое страницы и выдает информацию (напоминаем: текстовую, никакой раздражающей графики!), которая может заинтересовать читателей именно этой страницы. Нет, Google не читает вашу почту; робот анализирует текст, выбирает наиболее подходящее, по его мнению, объявление и забывает ваше письмо, переходя к следующей задаче. Опять же, не вся реклама бесполезна, и если уж от нее нельзя избавиться, лучше видеть что-то действительно интересное. Выбор наилучшей рекламы напоминает действие кнопки «Мне повезет!» на главной странице поисковика, только область поиска в данном случае — это пространство рекламных объявлений, а ключ — содержимое страницы. Получается «поиск наоборот», и тем не менее — это поисковый механизм…
Сервис Google Base предоставляет возможность размещения в Сети практически любой информации. Сейчас предлагаются на выбор пара десятков категорий вроде «Событий и мероприятий», «Новостей» «Биографий», «Подкастов» и т. д. Также можно создать свою категорию. Если, к примеру, вы хотите поделиться с миром каким-то рецептом, но не знаете, как это лучше сделать и где найти аудиторию, воспользуйтесь Google Base. Выбрав соответствующую категорию, просто заполните все поля (в «готовых» категориях необходимые поля уже заведены, остается их заполнить), укажите ярлыки (да-да, как в почте) — например, «котлета» и «по-киевски», — а также, если хотите, укажите свое имя, контактные данные и даже место вашего жительства на Google Maps. Ваш постинг будет жить на серверах Google в течение месяца и отображаться в результатах запросов на основном поиске Google, на Google Base, а также на Froogle и Google Maps.
Кстати, о Maps. Google сделал практически невозможное: создал сервис, показывающий спутниковые фотографии всей поверхности планеты. Крупные города сняты настолько подробно, что видны автомобили, а с мелкоскопом — даже люди. Провинция показана менее детально, но леса-поля-реки-дороги читаются прекрасно. На спутниковую съемку наложена карта многих стран, а также местоположение и координаты большинства городов мира (к примеру, город Юхнов, что в Калужской губернии, прекрасно находится по ключу Yukhnov Russia).
Поделюсь и своим маленьким ноу-хау. Однажды я придумал, как использовать поиск картинок Google в качестве переводчика с любого языка. Встретившееся незнакомое слово следует аккуратно перенести в строку запроса поиска картинок и нажать клавишу Enter. После этого внимательно посмотреть на результат и назвать его на родном языке. Конечно, для сильно абстрактных понятий типа «человечность» способ вряд ли полезен, но для перевода какого-нибудь каталога автоинструментов с венгерского на английский вполне работает.
Увлеченный рассказ о сервисах Google, число коим десятки, можно было бы продолжать еще долго, но мы рискуем превратить наш материал в песню про Уездный город N о семнадцати куплетах и начисто извести журнальное место — недаром сегодня можно встретить книжки-самоучители, целиком посвященные этой системе. Однако в этих книжках редко пишут о «побочных» следствиях развития поисковых систем.
Вверх и вниз
Как мы уже упомянули во врезке, «оптимизация сайтов», которую предлагает каждый второй спамер, — это кому наука, а кому и профессия. Кроме того, наверняка вам встречались в Сети и вне ее предложения «взлета сайта ракетой». Для этого используются еще более грязные технологии. Правда, «технологи» не упоминают, что после взлета ракетой через некоторое время, скорее всего, последует падение в стиле «Станции Мир» — с громким бульком и без шансов взлететь еще раз.
Для быстрого «взлета» используются так называемые «дорвеи» (doorways) — сайты, созданные специально для раскрутки других сайтов. Если «дорвей» (буквально — дверной проем, то есть «входная страница») обладает высоким PageRank или тИЦ, то ссылка с него на ваш ресурс будет для Google (или «Яндекса») аргументом для подъема вашего сайта вверх по тому или иному запросу. Правда, ненадолго, ибо поисковики ведут с дорвеями жесткую войну.
По сути, дорвей — это страница, предназначенная для накрутки рейтинга определенного словосочетания (обычно — из трех или даже четырех слов, ибо отдельные слова или короткие фразы уже давно заняты, их рейтинг сложно «перебить»; классический пример фразы для дорвея — «отдых на курортах Турции»). Для накрутки рейтинга используются генераторы страниц, которые создают на бесплатных хостингах и других любым образом открытых ресурсах (форумах, гостевых, веб-профилях пользователей любых сервисов и т. д.) многочисленные ссылки на данную страницу с нужными ключевыми словами.
Профессиональные дорвейщики даже платят (правда, копейки) студентам и прочим любителям, казалось бы, «легкого» заработка в Сети за размещение тех или иных ссылок на форумах и других ресурсах, где автоматически спамить не получается.
Создав страницу с высоким тИЦ или PR, дорвейщик продает ссылки с нее на другие ресурсы, которые и «взлетают ракетой». Но как только охотники за нечистью из Google или «Яндекса» замечают накрутку, дорвей попадает в бан-лист, а ссылки с него начинают играть роль дурной кармы рекламируемого сайта. Впрочем, к тому времени дорвейщика это волнует мало — он уже занят следующими словосочетаниями и проектами.
На фоне дорвейщиков «белые оптимизаторы» выглядят поистине рыцарями на конях соответствующего оттенка. Они используют правила игры, установленные поисковиками, и применяют свои знания, по возможности, с минимальными потерями для клиента. Оптимизаторы тоже создают сайты для раскрутки других сайтов, но делают они это более кропотливо и с «долгоиграющими» перспективами. Так, если дорвей — это, как правило, сайт с бессмысленным набором слов на заданную тематику (для этого обычно используется знаменитый генератор Маркова), то оптимизатор не поленится и создаст вполне читаемый сайт, к содержимому которого нельзя будет применить понятие «чистый поисковый спам».
В общем, основная разница между двумя профессиями в том, что на дорвейщиков идет постоянная охота, и им нужно постоянно плодить новые сайты, быстрее, чем будут убивать (с точки зрения PR) старые. «Принцип таракана»: убегать и плодиться быстрее, чем давят. Оптимизаторы работают на будущее, вкладывают в сайты на порядок больше усилий, но и получают более «долгоиграющие» механизмы. Впрочем, они столь же, по сути, бесполезны: как те, так и другие перекачивают воздух. Дешевые способы раскрутки дадут дешевый эффект, законы сохранения энергии еще никто не отменял. А гении в этой профессии, как и в любой другой, встречаются редко. (Впрочем, история знает примеры самораскрутки сайтов с помощью простейших гениальных идей. Задание для самостоятельного исследования: The very last page of the Internet, HotOrNot.com, MillionDollarHomePage.com. Почитайте истории об этих проектах.)
И еще об оптимизации. Один из дурных приемов поискового спама — «невидимый текст». Суть его в том, что часть страницы отводится под мелкий (а иногда и крупный) текст, написанный тем же цветом, что и фон под ним. Увидеть его можно, только выделив содержимое страницы мышкой или сочетанием Ctrl+A, что делают немногие. Поисковик же, если он не оснащен средствами проверки текста на видимость, может посчитать, что страница эта просто кишит нужным словосочетанием, и вывести ее в топ. Классический пример — страница, иллюстрирующая данное явление — spam-page.narod.ru.