На заре развития вычислительной техники очень широко использовалась кодировка с кириллицей KOI-8. Она появилась в семидесятые годы при адаптации операционной системы UNIX к русскому языку – персональных компьютеров тогда еще не было. KOI-8 – до сих пор основная кодировка в UNIX. Потом началось победное шествие персональных компьютеров IBM, а с ними – операционных систем MS DOS, имевших DOS-кодировку (или кодовую страницу 866). Параллельно развивались компьютеры Macintosh, и, разумеется, была придумана еще одна кодировка – MAC. Наконец, с появлением операционной системы Microsoft Windows появилась и новая windows-кодировка (кодовая страница 1251). Она-то и стала самой распространенной в России.
   Еще один вариант связан с попытками стандартизации кодировок на уровне всей планеты. Разработчики из ISO, международной организации по стандартам, создали еще одну кодировку и назвали ее ISO-8859-5. В настоящее время она практически не применяется (по-видимому, ее используют лишь в базе данных Oracle), однако поддержка данной кодировки предусмотрена во всех браузерах.
   В настоящее время создана универсальная кодировка UNICODE, в которую вошли все языки мира, поэтому на каждый символ в ней отведено по два байта. Таким образом, максимальное число знаков в таблице расширилось до 65 535. Сейчас UNICODE находит свое применение, но пока не слишком широкое.
   Правильное отображение символов национальных алфавитов касается как Web-серверов, так и браузеров. Они должны осуществлять информационный обмен на одном языке и в одной кодировке, и только в этом случае сообщения будут доступны.
   Сервер должен иметь эффективную систему предварительного оповещения о том, в какой кодировке будет прислана страница. Клиентской программе (браузеру) необходимо принять такое сообщение и, соответственно, настроиться на нужное отображение. Если все сделать правильно, то никаких трудностей не возникнет. Однако при некорректной настройке Web-сервера он сообщает об одной кодировке (например, windows-1251), а страницу пересылает в другой (например, в KOI-8). Пользуясь указаниями сервера, браузер, естественно, ошибается и отображает страницу неверно.
   Как показано выше, можно задать кодировку документа не на сервере, а непосредственно в HTML-коде – с помощью метатэга со свойством Content-type. Но не все так просто. В России распространен способ, при котором сервер автоматически определяет, в какой кодировке приходит запрос от клиента, и пересылает страницу Web-браузеру уже перекодированной. Вот тут-то использование указанного метатэга и может сыграть с вами злую шутку. Дело в том, что указания на странице имеют приоритет над командами, присылаемыми Web-сервером, и, правильно перекодировав страницу, сервер не может изменить содержимое метатэга. Происходит несовпадение реальной кодировки, в которой пришел документ, и указаний в тэге META. Такую страницу нельзя будет нормально просмотреть и перекодировать средствами браузера. Выбор кодировки вручную в данном случае не поможет, так как метатэг имеет приоритет и над установками браузера. Единственный способ прочитать документ – это сохранить страницу и удалить злосчастный тэг.
   Учитывая все вышесказанное, данный тэг можно вообще не применять. Тогда просмотр будет вестись в той кодировке, на которую настроен браузер, если сервер не пришлет уведомление о другой кодировке документа. В этом случае клиент сможет легко ее переключить. У подавляющего большинства ваших посетителей из России по умолчанию выставлена кодировка windows-1251, поэтому у них страница сразу же будет показана правильно.

Свойство Content-language

   Язык документа, указанный в метатэге со свойством Content-language (Язык содержимого), может использоваться поисковыми машинами при индексировании страниц.
   Метатэг имеет следующий формат:
   <META HTTP-EQUIV="Content-language" C0NTENT="en-GB">
   Язык задается комбинацией двух значений язык-диалект (при этом значение диалект может отсутствовать), в данном примере – английский-Великобритания. Язык представляет собой двухбуквенный код, зарезервированный для сокращений типа fr – французский, de – немецкий, ru – русский.
   Спецификация HTML 4.0 допускает явное указание автором языка в самом документе:
   <HTML LANG="en">
   Подобная информация может пригодиться:
   • поисковым машинам;
   • синтезаторам речи;
   • агентам пользователей (клиентским программам) при выборе вариантов глифов для типографской печати высокого качества;
   • агенту пользователя при выборе набора кавычек;
   • агенту пользователя при настройке переноса, лигатур и интервалов;
   • программам проверки грамматики и орфографии.
   Все коды языков, которые должны использоваться в документах на языке HTML, определены и описаны в стандарте RFC1766 (ftp://ftp.nsc.ru/pub/rfc/rfc1766.txt).
   Реализовывать рассмотренную возможность следует крайне осторожно, поскольку могут возникнуть проблемы, из-за которых текст на странице станет нечитаемым.

Свойство Refresh

   Свойством Refresh (Период обновления) определяется время задержки, после которой браузер автоматически обновляет документ. Метатэг часто используется для автоматической загрузки другого документа (или, как говорят, переадресации, перенаправления).
   Формат метатэга таков:
   <META HTTP-EQUIV="Refresh" C0NTENT="3, URL=http://www.name.ru/page.html">
   C0NTENT – число, указывающее время задержки в секундах; далее следует адрес, который нужно загрузить по прошествии этого времени. Подобный способ широко используется для создания кратковременных заставок. Но, поскольку некоторые браузеры его не поддерживают, в заставке, чтобы она не «зависала», необходимо предусмотреть возможность перехода на следующую страницу. Кроме того, применение данного способа затрудняет возврат на предыдущие страницы стандартными средствами. При переадресации (то есть при значении 0) пользователь не может вернуться на предыдущую страницу с помощью кнопки Назад (Back), так как его в ту же секунду пересылают на страницу, с которой он пытается уйти.
   Как известно, изменение адреса сайта влечет за собой потерю его посетителей. Поэтому обычно по старому адресу размещают информацию, которая поможет найти сайт. Но можно сделать и так, чтобы в дополнение к этому браузер сам перешел на использование нового адреса – благодаря метатэгу со свойством Refresh.

Свойство Window-target

   Свойство Window-target (Окно текущей страницы) служит для определения окна текущей страницы. Его можно использовать, чтобы исключить появление новых окон во время применения фреймовых структур.
   Вид метатэга может быть, например, таким:
   <META HTTP-EQUIV="Window-target" C0NTENT="_top">

Свойство Content-Script-Type

   Поскольку в документах HTML не предполагается использовать определенный язык сценариев, авторы должны указывать его непосредственно в каждом фрагменте кода. Это можно сделать с помощью объявления скрипта по умолчанию для всего документа или с помощью локального объявления.
   Чтобы объявить скрипт по умолчанию, в текст HTML-документа необходимо включить следующий метатэг:
   <META HTTP-EQUIV="Content-Script-Type" C0NTENT="type">
   Здесь «type» – тип содержимого, указывающий язык скрипта. Примеры значений – "text/tcl", "text/javascript", "text/vbscript".

Свойство Content-Style-Type

   Чтобы установить для документа язык таблицы стилей по умолчанию, надо использовать следующую строку:
   <META HTTP-EQUIV="Content-Style-Type" C0NTENT="text/css">
   Документы, в которых применен тэг STYLE, но не определен язык таблиц стилей по умолчанию, являются некорректными.

Метатэги для поисковых машин

   Метатэги, которые помогают поисковым машинам индексировать сайт, делают документы для них более доступными.
   Представители большинства поисковых систем уже сошлись во мнении, что применение метатэгов способствует повышению релевантности отклика при обработке запросов. Но есть и прямо противоположная точка зрения, которой придерживаются, например, эксперты российской поисковой машины Rambler.
   Если ваша компания широко известна и связана с производством уникальной продукции или оказанием услуг повышенного спроса, то проблем с локализацией ваших узлов в Internet у пользователя, скорее всего, не возникнет.
   Другое дело, если вы пытаетесь предоставить клиентам или читателям сервис или материал, не отличающийся оригинальностью, например, связанный с разработкой Web-страниц. В этом случае даже в первую сотню ссылок из списка отклика в глобальной поисковой системе попасть не просто. Способов повышения доступности узла из поисковых машин – и оправданных, и сомнительных с точки зрения этики – немало. Важно помнить о том, что универсальных рецептов пока не существует: слишком многое зависит от специфики работы отдельного поискового сервиса. Проблема заключается еще и в том, что фактически существует два подхода к решению рассматриваемого вопроса. Один предлагается в рекомендациях по созданию документов экспертами самой поисковой системы, другой используется разработчиками, чтобы достичь высокого рейтинга.
   По-видимому, самый полезный совет заключается в следующем: анализируйте HTML-код тех документов, которые добились в интересующей вас сфере деятельности и поисковой системе наивысших рейтинговых результатов. Это относится и к метатэгам, и к остальному содержимому страниц. Естественно, такой анализ требует специальных навыков и отличается трудоемкостью, что может послужить веским доводом для обращения к профессионалу.
   Оптимальный результат обеспечила бы компания-посредник, имеющая прямой контакт с разработчиками поисковых систем. Если нечто подобное и существует, информация об этом по понятным причинам вряд ли когда-либо будет предана огласке. Есть, однако, косвенные, хотя и медленно действующие приемы, которые позволяют провести анализ работы поисковых систем и доступны каждому: речь идет о тестировании. Известны примеры создания целых тестовых Web-узлов, единственная задача которых – определить, насколько чувствительна работа алгоритма отдельной поисковой машины к тому, как размещена информация на Web-страницах. Широкое распространение в Internet получила и разработка так называемых страниц-мостиков, которые оптимально нацелены на конкретную поисковую систему. Добраться с них до основной страницы узла адресатам информации позволяют гиперссылки.
   В целом ситуация, когда материалы сайта в первую очередь ориентированы на поискового робота, а не на конечного пользователя, не может не вызывать опасений. Так, например, одно время AltaVista особенно высоко оценивала содержимое заголовка страницы, помещаемое в контейнер TITLE. В результате список отклика этого индекса возглавили сотни документов, имеющих вместо связного заголовка набор ключевых слов и фраз. Именно этот набор становился по умолчанию именем закладки на документ при работе с большинством браузеров.
   Как оказалось, даже такая «прецизионная» настройка на систему не дает долговременных гарантий: после того как AltaVista изменила характер ранжирования документов, рейтинг многих фаворитов катастрофически снизился.

Ключевые слова и описания

   Чтобы получить высокий рейтинг в поисковых системах, требуется выбрать для передачи им основные ключевые слова и фразы сайта. В общей сложности их должно быть не меньше десяти (желательно – несколько десятков), и они должны соответствовать содержанию сайта. Кроме того, требуется составить краткое описание сайта – абзац длиной не более 1 000 знаков (для некоторых поисковых машин – не более 700).
   Ваш сайт для поисковых систем – один из многих, поэтому текст описания, который обычно появляется на страницах с результатами поиска, должен быть интересным, привлекающим внимание, чтобы у читателя возникло сразу желание посетить сайт. Ключевые слова в нем необходимо использовать как можно чаще – от этого зависит высота рейтинга.
   Вообще, к подбору ключевых слов следует подойти очень серьезно. Правильный их выбор позволяет сильно повысить позицию сайта при запросах.
   Какие же слова следует выбирать? Разумеется, те, которые наиболее точно отражают специфику именно вашего проекта. При этом следует избегать случайных и общих фраз. Представьте себя на месте человека, который пытается найти ваш сайт. С каких слов вы начнете поиск? Что наберете в поле запроса поисковой системы?
   Каждый вариант следует проверить в какой-либо поисковой системе (лучше – в нескольких). Оцените, насколько список найденных сайтов связан с тематикой вашего. Если такая связь не вызывает сомнений, то выбранные вами слова подходят на роль ключевых; в противном случае стоит поискать другие. Для наглядности не мешает посмотреть, какие ключевые слова используются на первых страницах результата поиска.
   Многие индексирующие машины проводят поиск элементов тэга META, в которых задан разделенный запятыми список ключевых слов и фраз или дается краткое описание. Поисковые машины могут представлять их как итог поиска или использовать для улучшения его результатов.
   Формат указанных метатэгов иллюстрируют следующие примеры:
   <META NAME="keywords" C0NTENT="отпуск, Греция, солнце">
   <META NAME="description" C0NTENT="Идилличеcкий отпуск в Европе">
   В поле C0NTENT не должно быть знаков конца строки, кавычек и других специальных символов; регистр символов значения не имеет.
   Не рекомендуется повторять несколько раз одни и те же ключевые слова, так как это может быть воспринято как спам, в результате чего страница может быть удалена из индекса поисковой машины. Обычно спамом называют несанкционированную рассылку электронной почты. К ней зачастую прибегают недобросовестные рекламодатели, распространители вирусов и т. д. Однако здесь и далее по тексту под спамом будет подразумеваться намеренное злоупотребление ключевыми словами в заголовках, комментариях и тексте самого документа.
   Не стоит использовать одинаковые списки ключевых слов для разных страниц сайта. Конечно, так проще, но содержимое документов различное, да и поиск ведется по-разному. Если вам хочется автоматизировать эту работу (действительно, довольно трудоемкую, ведь общий объем ключевых слов одного документа может достигать 50 % от его объема), напишите программу, которая выбирала бы текст из определенных блоков документа, например, из контейнеров, заключенных в тэгах H, I и B. Задача не кажется сложной, да и можно найти подобную программу в архивах программного обеспечения в Internet.
   Если строка в поле C0NTENT получается слишком длинной, не возбраняется разбить ее на несколько конструкций этого вида.
   Указание ключевых слов – это основной способ использования тэга META. Информация о документе, составленном с использованием различных языков, может быть представлена в нескольких таких тэгах. Тогда поисковые машины могут фильтровать атрибут LANG и отображать результаты поиска с применением выбранного пользователем языка – например, так:
 
   <– Для говорящих на английском в американской версии->
   <META NAME="keywords" LANG="en-us" C0NTENT="vacation, Greece, sunshine">
   <– Для говорящих на британском английском ->
   <META NAME="keywords" LANG="en" C0NTENT="holiday, Greece, sunshine">
   <– для русскоязычных пользователей ->
   <META NAME="keywords" LANG="ru" C0NTENT="oтпycк, Греция, солнце">
 
   Эффективность обращения к поисковым машинам можно повысить также за счет использования тэга LINK для создания ссылок на разноязычные переводы страницы, на версии документа для другого носителя (например, PDF) и, если документ является частью набора, ссылок на соответствующую начальную точку для просмотра набора.
   Метатэг NAME="keywords" позволяет автору документа самостоятельно создать адекватный содержанию набор ключевых слов и фраз. Допустимая для восприятия роботом длина перечня варьируется от 874 до 1 000 символов. При отсутствии указанного метатэга робот формирует набор автоматически на основе своего алгоритма. Если индексируется все содержимое документа, то он будет участвовать в отклике и по тем терминам, которые входят в текст страницы, но отсутствуют в метатэге. Автоматический индекс при создании поискового образа документа может комбинировать содержимое метатэгов и текста, должным образом взвешивая термины из разных полей Web-страницы. При этом далеко не все системы, которые поддерживают метатэги, отдают явное предпочтение входящим в них терминам.
   Отметим также, что метатэг ключевых слов стоит размещать в одну строку, поскольку некоторые роботы не умеют переходить к новой строке.
   Ключевые слова лучше не повторять более двух раз, иначе поисковая система может расценить это как спам. Нежелательно, например, задавать последовательности вида «free, free, free, free, free, free», но вполне допустимы такие, как «free, free web, free stuff, internet for free».
   Большего успеха можно добиться, если использовать не ключевые слова, а ключевые фразы. Если вы подберете их удачно, то, возможно, при запросе ваша ссылка окажется одной из первых. Есть еще один, не вполне серьезный прием, основанный на известной ошибке. Многие забывают переключать языковую раскладку клавиатуры, и тогда, допустим, вместо запроса «free» возникает запрос: «акуу», то есть английское слово, введенное буквами кириллицы, расположенными на соответствующих клавишах. Как ни странно, результат бывает положительным: поисковая система выдает ссылку на ваш сайт!
   Для хорошего индексирования документа поисковыми системами рекомендуется в первом абзаце текста на каждой странице использовать как можно больше отобранных для нее ключевых слов.
   Как известно, основную смысловую нагрузку несут в языке имена существительные. Поэтому именно они составляют большую часть ключевых поисковых слов. Значительно реже используются прилагательные, совсем редко – глаголы, наречия, предлоги, союзы. Имена прилагательные просто незаменимы, если требуется индексировать «голландский сыр» с «баварским пивом» в «ночном клубе».
   Очень эффективно использование редких слов. К таковым можно отнести специальные термины, названия местностей, организаций, имена людей и т. п. Применение подобной лексики позволяет максимально конкретизировать тематику.
   Существует целый ряд слов, которые поисковая система будет игнорировать при запросе; их поиск невозможен. Это так называемые стоп-слова, например: на, что, это, для и др. Они настолько часто встречаются в текстах, что искать по ним что-либо крайне затруднительно. Интересно, что в списки стоп-слов для некоторых поисковых машин уже входят такие, как Internet, компьютер, Сеть. Они стали настолько распространенными, что утратили свое значение (с точки зрения поиска, конечно). Очевидно, что использовать стоп-слова в качестве ключевых нет смысла.
   Метатэг NAME="description" позволяет включить в поле C0NTENT краткое описание документа. В зависимости от робота воспринимаемая длина текста составляет от 150 до 250 символов. После индексирования поисковой машиной описание должно появиться рядом со ссылкой на документ при попадании его в список отклика.
   Если ресурс ориентирован не только на русскоязычную публику, целесообразно сделать отдельные описания на разных языках. Следует создавать лаконичные и привлекающие внимание тексты; суть должна быть ясна с первого взгляда, поскольку на страницах с результатами поиска в поисковой системе информацию о каждом найденном сайте приводят в одном небольшом абзаце.
   При составлении описания не нужно указывать в нем название сайта – оно и так будет проиндексировано. С точки зрения индексирования сайта не имеют смысла общие фразы типа: «Здесь есть все», «Вам будет интересно», «Заходи, не пожалеешь!» и т. п. Обратите внимание посетителя именно общее содержание, а он сам разберется, нужна ли ему ваша страница или нет. Стоит ли заманивать читателей, если они сразу же покинут сайт, убедившись, что он не соответствует описанию?
   Если в документе нет описания, то в качестве такового поисковые машины приводят несколько начальных строк документа. Поэтому случается, что если в самом начале документа есть фрагмент, написанный на языке JavaScript, то вместо нормального описания выдается «абракадабра» в виде фрагмента скрипта.
   Словом, необходимо, чтобы описание имело вид аннотации, состоящей из нескольких ясных предложений, и тогда пользователь поисковой машины сможет легко понять смысл документа.
   При подборе ключевых слов для метатэга документа необходимо учитывать различные нюансы. Многие алгоритмы придают больший вес тому термину или фразе, которые расположены ближе к началу перечня. Число повторений ключевых слов не должно превышать определенного количества (как правило, двух-трех), во избежание применения санкций против спама: иначе страница не будет проиндексирована и включена в базу данных поисковой системы. Неплохую помощь могут оказать системы, которые отслеживают запросы, поступающие от пользователей на поисковые машины. Важно найти не просто адекватные содержанию ключевые слова и фразы, а именно те, которые часто применяются пользователями на практике.
   Итак, поисковые роботы берут ключевые слова и описание сайта непосредственно из кода страницы и содержимого метатэгов NAME = «keywords» и NAME="description". Однако не все системы придерживаются такой методики. Многие проверяют соответствие ключевых слов основному тексту страницы, а полнотекстовые поисковые машины анализируют все ее содержимое, хотя ключевые слова в ней при поиске являются приоритетными.
   Для более широкого охвата потенциальной аудитории ключевые слова и описание сайта, которые вы стремитесь вставить в большинство документов, рекомендуется корректировать в соответствии со смыслом конкретной страницы. Это повысит вероятность попадания на ваш сайт. Общее же его описание пригодится для страниц с «нейтральным» содержанием.
   Большинство поисковых машин придает большое значение титулу страницы и метатэгам с ее описанием и ключевыми словами. Однако стоит подумать не только о поисковых системах, но и о тех, кто увидит эти ссылки, – ведь в конечном итоге ссылки будут выведены на экран, а решать, переходить по ним или нет, будет пользователь.
   Допустим, вы сделали запрос program. Появились результаты, в числе которых, например, такие:
 
   Free program, program, free, program free, free program
   Free program, program, free, program free, free program, free
   program, program, free, program free, free program, free program,
   program, free, program free, free program, free program, program,
   free, program free, free program
 
   Воспользоваться такими ссылками уже не тянет – возникает предубеждение к сайту и его хитрому создателю. Современные поисковые роботы определяют спам и не индексируют страницу, но машина – это всего лишь машина.
   Можно просто вписывать в титул метатэги, ключевые выражения, результат будет тот же: бессмысленные ссылки! Пожалуй, не зря считается, что оформление страниц для поисковых систем – это наука и искусство. Ваша задача – не только правильно подобрать ключевые фразы и слова, но и составить из них логичные предложения для титула и описания, которые и выводятся в результатах поиска. При этом еще надо уложиться в отведенное количество символов.
   Подбор ключевых выражений начинает походить на некое таинство, особенно это касается иностранных поисковых систем: некоторые расхожие слова уже «проданы», и вы, как ни бейтесь, на первое место по ним не попадете.
   Появилась даже платная услуга по подбору ключевых слов и оформлению документов под них, осуществляемая профессионалами. Если вы полагаете, что вам это не нужно, – готовьтесь постоянно следить за своим рейтингом в поисковых машинах и определять положение ваших ссылок по заданным ключевым словам, ведь поисковики действительно могут обеспечить вам существенный приток посетителей.

Язык документа

   В глобальном контексте Internet важно знать, на каком языке создается страница. Определите язык документа, как описано выше, в разделе «Свойство Content-language».

Языковые варианты документа

   Если вы подготовили переводы документа на другие языки, используйте тэг LINK для ссылки на эти тексты. Такой подход повысит эффективность поисковых машин и позволит им предлагать результаты поиска на языке, предпочитаемом пользователем, независимо от построения запроса. Например, следующие ссылки предлагают поисковой машине французскую и немецкую версии:
 
   <LINK rel="alternate"
   type="text/html"
   href="mydoc-fr.html" hreflang="fr"
   lang="fr" title="La vie souterraine">
   <LINK rel="alternate"
   type="text/html"
   href="mydoc-de.html" hreflang="de"
   lang="de" title="Das Leben im Untergrund">
 
   Указанным тэгом определяется связь. Хотя он может быть представлен неограниченное число раз, его присутствие допускается только в разделе HEAD документа. Несмотря на то, что тэг LINK не имеет содержимого, он является носителем информации об отношениях, которая может представляться агентами пользователей (браузерами) различными способами, например, в виде панели с выпадающим списком ссылок.