Таким же способом с помощью тэга LINK задаются ссылки на версии документа для другого носителя (например, PDF) и, если документ является частью набора, ссылки на соответствующую начальную точку для просмотра набора.

   TITLE="Oбщая теория относительности">

Инструкции для роботов – файл robots.txt

   Алгоритмы работы многих поисковых машин предусматривают возможности ограничения действий роботов. Это достигается с помощью файла robots.txt и тэга META в документах HTML.
   Файл robots.txt объясняет роботу поисковой машины, что надо индексировать, а что не стоит. Зачем, например, индексировать служебные файлы, скажем, статистические отчеты?
   Файл содержит набор команд, которые позволяют закрыть от индексирования отдельные каталоги узла. Обычно закрываются каталоги, содержащие скрипты, служебную информацию и т. п. Отчасти это повышает контрастность значимых документов узла в поисковой системе. К тому же поисковые машины нередко вводят ограничение на число ресурсов, регистрируемых для одного сервера. Некоторые – так, например, действовал робот поисковой системы Lycos, – вообще не проводят индексирования, если указанный файл отсутствует.
   Итак, если вы поддерживаете работу сервера с доменным именем
www.mysite.ru, то содержимое файла robots.txt должно быть доступно по адресу: http://www.mysite.ru/robots.txt, то есть данный файл следует загрузить в корневой каталог вашего сайта. Когда робот просматривает Web-сайт, сначала он проверяет наличие документа http://www.mysite.ru/robots.txt. Если таковой обнаружен, анализируется его содержимое и выясняется, позволено ли загрузить документ. Вы можете настроить файл robots.txt для конкретных роботов и запретить доступ к определенным каталогам или файлам.
   На одном сайте может быть только один файл robots.txt. Не следует помещать файлы с данным именем в каталоги, поскольку робот их не найдет. Обратите внимание, что при адресации в Internet учитывается регистр, поэтому название robots.txt должно быть задано в нижнем регистре.
   Файл robots.txt – это обычный текстовый документ, содержащий одну или несколько записей, разделенных пустыми строками, как показано в следующем примере:
 
   # robots.txt for http://www.mysite.ru
   User-agent: *
   Disallow: /cgi-bin/maillist/
   Disallow: /tmp/
   Disallow: /product1.html
   User-agent: aport
   User-agent: scooter
   Disallow:
 
   Вот пример файла robots.txt, полностью запрещающего доступ к сайту всем роботам:
 
   User-agent: * # Применяется ко всем роботам.
   Disallow: / # Запретить индексацию всех страниц.
 
   Каждая запись должна начинаться с указания переменной User-agent отдельной строкой. Таких строк может быть и несколько. Значением переменной User-agent задается оригинальное имя программы-робота соответствующей поисковой системы, для которой предназначена информация.
   Согласно спецификации на файл robots.txt, текст в нем чувствителен к регистру, так что следует записать именно User-agent, а не User-Agent. Трудно сказать, вызывает ли неверное написание проблемы у роботов поисковых систем, но для надежности лучше соблюсти требования спецификации.
   Имя робота может быть похоже на название соответствующей поисковой системы, а может и сильно отличаться от него. Далеко не всегда оно соответствует названию механизма поиска. Поэтому нельзя просто написать AltaVista в Useragent и ожидать, что AltaVista исключит указанные вами страницы. Имя робота указывается без учета регистра и не включает информацию о версии. Можно перечислить несколько имен через пробел. Символ * является маской и означает: «для всех роботов». В этом случае запись описывает режим доступа по умолчанию для любого робота, неупомянутого явно в других записях. В файле robots.txt не может быть нескольких таких записей.
   В табл. 1 приведены имена роботов некоторых поисковых систем.
Таблица 1. Имена роботов поисковых систем
   Начиная со следующей строки после указания переменной User-agent, определяются собственно правила поведения робота в виде задания значений переменным Allow (Разрешить) и Disallow (Запретить).
   В поле Allow задается перечень разрешенных для посещения роботами поисковых машин каталогов и файлов, а в поле Disallow – перечень закрываемых каталогов и файлов. Это может быть полный или частичный путь. Любой URL-адрес, начинающийся с этого значения, нельзя будет загрузить. Например, запись Disallow: /help запрещает доступ к /help.html и /help/index.html, в то время как запись Disallow: /help/ запретит доступ к /help/index.html, но разрешит доступ к /help.html.
   Если файл находится в корневом каталоге, обязательно включите перед его именем символ «слеш» – косую черту вправо.
   Пустое значение параметра Disallow означает, что все URL сайта могут быть проиндексированы. Частая ошибка при написании robots.txt состоит в том, автор ставит *, чтобы указать, что хочет исключить все файлы в каталоге. Однако правильным будет не включать никаких звездочек в поле Disallow.
   В файле robots.txt должно быть, по крайней мере, одно поле Disallow. Символ # предваряет комментарии, необрабатываемые роботами.
   В примере, рассмотренном выше, первая запись запрещает индексирование двух каталогов и файла product1.html. Роботу Scooter поисковой системы AltaVista и роботу Aport поисковой системы Апорт для доступа открываются все каталоги (поле Disallow пусто). При необходимости закрыть все каталоги следовало бы написать: Disallow: /. Пустая строка между записями необходима.
   Очень важно не допускать ошибок в файле robots.txt. В противном случае конструкции могут не работать, а вы даже не будете знать об этом. Возможно, некоторые поисковые системы без затруднений разрешат проблемы, возникающие из-за различий в синтаксисе, однако абсолютной гарантии нет. Поэтому, если вы обнаружите ошибку в синтаксисе, исправьте ее и повторно зарегистрируйте ресурс в поисковых системах. Роботы поисковых машин снова проиндексируют ваш сайт и выполнят все указания, имеющиеся в файле robots.txt.
   Обратите внимание, что недопустимы строки вида:
   Disallow: /tmp/*
   или
   Disallow: *.gif
   Подробное описание стандарта исключений и синтаксиса команд файла robots.txt вместе с другой полезной информацией о роботах (на английском языке) можно найти по адресу http://www.robotstxt.org/wc/robots.html.

Тэг META для роботов

   Файл robots.txt поддерживается практически всеми роботами, однако корневой каталог сервера может быть недоступен вам. В этом случае для аналогичных целей, но лишь в пределах одного документа можно использовать специальные метатэги. Они не только решают проблему запрета, но и предоставляют позитивные возможности для управления индексированием. Это более гибкое средство управления индексацией, чем robots.txt. В частности, в тэге можно дать роботу поисковой машины предписание не уходить по ссылкам на чужие серверы, например, в документах со списками ссылок:
   <META NAME="robots" C0NTENT="index, follow">
   Из данного примера видно, что все управление в метатэге сводится к указанию двух переменных, а именно NAME и C0NTENT. Для переменной C0NTENT в контексте NAME="robots" допустимо использовать следующие значения (они могут быть записаны как строчными, так и прописными буквами):
   • index – разрешено индексировать документ;
   • follow – разрешено следовать по ссылкам;
   • all – эквивалентно употреблению index и follow одновременно (записывается через запятую), то есть разрешено индексировать данную страницу и все ссылки, исходящие из нее. Когда обнаружено слово all, все другие слова, если они указаны, игнорируются;
   • noindex – не индексировать сам документ, но следовать по его ссылкам;
   • nofollow – индексировать, но не идти по ссылкам;
   • none – эквивалентно одновременному употреблению noindex и nofollow через запятую, то есть всем роботам предложено игнорировать данную страницу при индексации.
   Если указанный метатэг пропущен или не задано значение переменной C0NTENT, то по умолчанию поисковый робот действует, как при значении C0NTENT="index,follow" (или C0NTENT="all", что равноценно).
   Если в переменной C0NTENT содержатся противоположные по смыслу ключевые слова (например, follow и nofollow), то робот поступает по своему усмотрению; в данном случае выбрано follow).
   В приведенном выше примере свойство NAME="robots" дает роботам предписание индексировать и саму страницу (C0NTENT="index"), и документы, ссылки на которые она содержит (C0NTENT="follow"). Вместо двух этих значений, приведенных через запятую, можно было бы написать одно – C0NTENT="all" – с тем же результатом.
   Указанный метатэг позволяет авторам HTML-документов сообщать роботам о том, может ли документ быть проиндексирован или его следует использовать, чтобы получить дополнительные ссылки. Для этого не требуется вмешательства администратора сервера.
   В следующем примере роботу не предписано ни индексировать сайт, ни анализировать ссылки:
   <META NAME="robots" content="noindex, nofollow">

Другие метатэги

   Другие метатэги также могут использоваться роботами при сканировании. Например, тэг с параметром NAME="author" позволяет ввести имя автора документа и учитывается некоторыми поисковыми системами, что иногда может существенно помочь при поиске.
   Похожий метатэг с параметром NAME="generator" часто автоматически проставляется различными HTML-редакторами и содержит информацию о программе, в которой был сделан документ. Некоторые авторы в его описании дублируют информацию метатэга "author".
   Метатэг с параметром NAME="copyright" служит для указания принадлежности авторских прав.
   Справедливости ради следует отметить, что поисковые системы все же редко используют указанные метатэги в своей работе.

Проверка ссылок

   До начала рекламной кампании стоит убедиться в том, что в текстах страниц, размещенных на сайте, нет технических ошибок. К таковым относятся неправильно расставленные ссылки, отсутствие каких-либо файлов и собственно погрешности в HTML-коде, а также грамматические и орфографические ошибки в текстах документов. Напомним, кстати, что сайтом называют набор документов, которые в установленном порядке размещены на определенной машине и доступ к которым через сеть обеспечивается HTTP-сервером.
   Реакция пользователя на ошибки такого рода может иметь самые печальные последствия для автора. Замечая их, посетитель испытывает досаду, раздражение и быстро уходит с сайта. Уговорить «обиженных» вернуться будет крайне трудно.
   Формальную проверку сайта можно провести как сетевыми средствами, так и при помощи различных программ. Кроме того, необходимо обратить особое внимание на смысловые элементы, играющие немаловажную роль при «раскрутке» Web-ресурса:
   • заголовки;
   • использование фреймов;
   • метатэги;
   • навигацию по Internet-страничкам.
   В качестве дополнительной проверки понадобится исследование времени загрузки ваших страниц. Кроме того, очень важно иметь доступ к файлам посещений, что позволит вести постоянный анализ жизнедеятельности сайта в самых разнообразных аспектах.
   В каком-то смысле созданный вами гипертекст похож одновременно и на книгу, которую вы должны откорректировать, и на программу, которую необходимо отладить. По крайней мере, следует дать прочитать его кому-нибудь из той группы людей, для которой он написан, и проанализировать замечания. Но одного этого недостаточно, требуется протестировать документ. Просмотрите его в нескольких различных обозревателях (браузерах), чтобы убедиться, что его вид не зависит от средства вывода.
   Проверка занимает время. Сколько времени отводить на тест? Все зависит от того, какое качество документа вас устраивает.
   Есть сведения, что в Internet около 5 % имеющихся ссылок недоступны. Необходимо предотвратить подобные проблемы.

Проверка ошибок кода в HTML-документах

   Если вы используете программное обеспечение для редактирования гипертекста, ваши файлы будут соответствовать действующему стандарту HTML. Многие разработчики редактируют HTML-файлы как обычные текстовые и должны самостоятельно контролировать соответствие написанного правилам HTML. Если вы поступаете именно так, будет уместно проверять файлы при помощи программ и сетевых ресурсов, специально предназначенных для этого.
   Проверка HTML-кода гарантирует, что все посетители, каким бы браузером они ни пользовались, увидят ваши страницы именно такими, какими видите их вы.
   Ошибки, определяемые программами или сетевыми сервисами проверки правильности HTML-кода, обычно относятся к двум категориям: неправильное применение тэгов и использование нестандартных расширений. HTML-стандарты задают некий минимальный уровень требований, соблюдение которых дает сходные результаты при обработке тэгов языка HTML различными программами просмотра HTML-документов. На практике требования браузеров несколько отличаются от этого уровня в ту или иную сторону, однако в любом случае исправить ошибки первого рода легко, и это не займет много времени.
   Со вторыми дело обстоит не так просто. На вашей странице могут оказаться тэги, поддерживаемые только одним из браузеров и неработающие в других. Стоит взвесить, что дает их применение – оправдает ли оно потерю посетителей, использующих несовместимые программы просмотра. При профессиональном проектировании сайта обычно отслеживают, какими браузерами пользуются посетители, чтобы придти к разумному компромиссу при выборе тех или иных решений. Если у 98 % ваших посетителей браузеры могут обрабатывать тэг, который действительно позволяет сделать страницу более красивой и удобной, – можно его сохранить.
   Проверку синтаксиса HTML-документов невозможно выполнить с помощью обычных браузеров, так как они предназначены только для просмотра HTML-страниц. Если в документе имеются синтаксические ошибки, браузер пытается, игнорируя их, каким-либо образом показать страницу на экране. Однако решается такая задача каждый раз по-новому – в зависимости от типа браузера и даже от его версии. Если ошибок на странице слишком много, она может быть не отображена в окне браузера или отображена лишь частично. Программные и сетевые средства проверки HTML-документов позволяют предупредить такое поведение браузеров, выявляя допущенные при разработке страниц ошибки. Отметим, что сделать это довольно просто. Выявив ошибки до размещения HTML-документов в Internet, вы заметите, что страницы будут загружаться быстрее, а проблем станет значительно меньше.

Задание типа документа

   В соответствии со стандартом каждый HTML-документ предполагает наличие объявления типа документа. В семействе языков разметки HTML является всего лишь одним из многих, хотя и самым популярным. Он имеет уже многолетнюю историю и был за это время нормирован различными версиями. Заданием типа документа указывается используемый язык разметки и его версия. Программы, читающие эти указания (например, обозреватели Internet и программы проверки синтаксиса HTML-кода), придерживаются таких указаний. В частности, декларация типа документа дает возможность программам проверки определить, какую версию HTML следует использовать для контроля.
   Каждое указание типа документа связано с так называемыми определениями типа документа (DTD, Document type declaration). И для HTML существуют такие DTD. В них оговорено, какие элементы (тэги) может содержать документ типа HTML, какие элементы могут располагаться внутри других элементов, какие атрибуты принадлежат тому или иному элементу, является ли задание того или иного атрибута обязательным и т. д.
   Рекомендуется начинать любой HTML-документ со строки, содержащей определение типа документа – тэг DOCTYPE. Для этого обычно используются нижеперечисленные конструкции.
 
   <!DOCTYPE HTML PUBLIC «-//W3C//DTD HTML 4.01//EN»
   "http://www.w3.org/TR/html4/strict.dtd">
 
   Такое объявление служит указанием, что используется тип документа HTML 4.01 Strict (Строгий). Строгое следование стандартам повышает ранг документа в рейтингах поисковых машин. Если стандарт полностью соблюден – пользуйтесь этим определением.
   Задавайте тип документа первой строкой HTML-файла перед открывающим тэгом <HTML>. Обратите внимание, что за угловой скобкой следует восклицательный знак. Запись DOCTYPE HTML PUBLIC означает, что вы ссылаетесь на всем доступный HTML-DTD. Заключенные в кавычки данные расшифровываются следующим образом:
   • W3C – издатель DTD: в данном случае, WB-консорциум;
   • DTD HTML 4.01 – указание типа: в файле применен документ типа HTML в версии 4.01 и варианте Strict (по умолчанию);
   • EN – сокращение, указывающее на язык (в данном случае – английский) написания элементов (тэгов) и их атрибутов, но не содержания файла. Применяйте всегда EN, так как имена элементов и атрибутов HTML основаны на английском языке.
   Последним параметром в объявлении является адрес в Internet DTD-файла, который дает возможность программам загрузить его и прочитать определенные в нем правила. Заметим, что, в отличие от программ проверки синтаксиса, большинство браузеров при представлении HTML-документов этого не делают. Такой подход основан на желании разработчиков Internet-обозревателей отображать даже те страницы, которые написаны с большими отклонениями от правил правописания HTML.
 
   <!DOCTYPE HTML PUBLIC «-//W3C//DTD HTML 4.01 Transitional//EN»
   "http://www.w3.org/TR/html4/loose.dtd">
 
   Используется тип документа HTML 4.01 Transitional (Переходный). Имеется в виду HTML «переходного периода», то есть разрешается применять устаревшие элементы из HTML 3.2.
 
   <!DOCTYPE HTML PUBLIC «-//W3C//DTD HTML 4.01 Frameset//EN»
   "http://www.w3.org/TR/html4/frameset.dtd">
 
   Тип документа HTML 4.01 Frameset – это HTML 4.01 Transitional с добавлением фреймовых элементов.
 
   <!DOCTYPE HTML PUBLIC «-//W3C//DTD HTML 3.2 Final//EN»>
 
   Эта форма задания типа документа применима, если вы хотите сослаться на версию HTML 3.2.
 
   <!DOCTYPE html PUBLIC «-//IETF//DTD HTML 2.0//EN»>
 
   То же – на версию HTML 2.0.

Шрифтовое оформление

   Всего лишь десять лет назад в дизайне ощущалась острая нехватка компьютерных шрифтов (как по количеству, так и по качеству). Однако в настоящее время эта ситуация резко изменилась – появилась масса разнообразнейшего шрифтового материала любых стилей. Internet-технологии накладывают специфические ограничения на использование шрифтов в оформлении web-документов. B частности, межплатформенный характер Сети не позволяет однозначно определять шрифт для вывода текста документа на экран монитора клиента. Применение тэга <F0NT FACE=…> не является панацеей от этой проблемы. На клиентской машине, возможно, не окажется нужного шрифта, а замена его другим, выбранным системой по умолчанию, может привести к появлению нечитаемого документа. Поэтому считается правилом хорошего тона не употреблять указанный тэг при проектировании HTML-документов.
   Это заставляет изыскивать другие пути для оформления текста страниц. B частности, выделение необходимых его частей цветом, применением строчных символов, их курсивного и полужирного начертания, а также манипуляции с кеглем шрифта, выводимого на экран. Немаловажным для удобства восприятия информации оказывается цветовое соотношение текста и фона. Если предполагается передача клиенту достаточно большого объема информации, то с точки зрения удобства для чтения желательно, чтобы текст был выполнен темным цветом на светлом фоне и был достаточно контрастным. Применение ярких подложек под текст (задний фон) является сильным выразительным средством, но, необходимо помнить, что читать текст по яркому, а тем более неоднородному, фону трудно, а иногда просто невозможно, так как символы теряются в пестроте подложки.
   Конкретный шрифт, который будет применен для отображения текста, позволяет задавать также каскадные таблицы стилей (CSS). Но и в этом случае шрифты берутся из набора, установленного на компьютере пользователя. Поэтому следует учитывать ряд ограничений. Первое, и основное, заключается в том, чтобы использовать только стандартные шрифты, поставляемые с операционной системой MS Windows и гарантированно находящиеся на машине клиента. А этих шрифтов всего три: Arial, Times New Roman и Courier.
   Второе – корректное описание шрифта в таблице стилей и перечисление также и других заменяющих шрифтов. В конце списка должно быть обязательное указание общего семейства шрифта (с засечками – без засечек, моноширинный – пропорциональный и т. д.). При помощи такого описания мы увеличиваем потенциальную аудиторию нашего сайта. Пример корректного описания шрифтов в таблице стилей приведен ниже:
 
   <style type="text/css">
   <!-
   .serif { font-family: "Times New Roman", «Geneva», «serif»; }
   .sanserif { font-family: «Arial», «Helvetica», «sans-serif»; }
   .mono { font-family: «Courier», «monospace»; }
   –>
   </style>
 
   Почему нежелательно использовать другие шрифты? В этом случае недостающий шрифт будет подменен ближайшим подходящим по умолчанию. Для уменьшения вероятности такой замены и используется в CSS список заменяющих шрифтов. Но еще хуже, если нужный шрифт будет установлен на компьютере, но окажется нерусифицированной версией. Тогда текст будет отображен некими спецсимволами – всевозможными знаками с умляутами, апострофами, тильдами и т. п.
   Одним из показателей удобочитаемости является ширина строки документа. С появлением мониторов, поддерживающих большое разрешение экрана, стало возможным уместить в одной строке до нескольких сотен символов, однако едва ли следует увеличивать это число более 50–70, так как при большем количестве скорость чтения замедляется, а утомляемость значительно возрастает.
   В современном «информационном обществе» очень важна способность шрифта привлекать или останавливать внимание. Поэтому из вышесказанного следует вывод – со шрифтами следует работать осторожно, дабы не потерять своих посетителей.

Время загрузки страниц

   Медленная загрузка страниц сайта зачастую раздражает пользователей и, как следствие, снижает посещаемость сервера. Не желая убивать время, многие предпочитают искать информацию в других источниках. Поэтому крайне важно не жалеть материальных затрат на быстрый сервер и специалиста, который проанализирует архитектуру сайта и исходные коды страниц, поможет максимально уменьшить время их загрузки.
   Посетителям нет дела до причины медленной работы сайта. Все, что они отмечают, – это плохая работа сервера.
   Изначально основной причиной медленной загрузки страниц было чрезмерное увлечение графикой. Многие сайты перегружены ею, тогда как те же самые эффекты можно было бы получить при помощи DHTML или даже простого HTML.
   С увеличением количества разнообразных программных приложений, основанных на современных Internet-технологиях, и развитием электронной коммерции возникла необходимость настраивать каждую страницу узла на запрос отдельного пользователя. Таким образом, длительная загрузка может объясняться не только пропускной способностью канала, но и внутренней архитектурой сайта. Иногда конструкция страницы предусматривает обращения к базе данных, находящейся на удаленном сервере, что опять же увеличивает время загрузки.
   Исследованию времени, в течение которого происходит загрузка страниц сайта, стоит уделить особое внимание при разработке.

Использование фреймов

   В современных браузерах навигация по сайтам с фреймами осуществляется без особых затруднений. Однако некоторые поисковые системы не индексируют фреймы, поэтому при их использовании на запускающей странице обязательно нужно поместить фрагмент кода:
   <NOFRAMES> … </NOFRAMES>
   Текст между указанными тэгами и будет использован поисковыми роботами для создания индексов. Кроме того, это дань уважения тем, кто пользуется браузерами, неработающими с фреймами, или отключает такую возможность, если позволяет программа-обозреватель. Не пренебрегайте частью вашей аудитории.

Проверка правописания

   Пользователи не любят опечаток и грамматических ошибок и из-за них могут отказаться от посещения вашего сайта. Если вас плохо владеете орфографией и пунктуацией, попросите кого-нибудь сведущего проверить правописание текста, либо воспользуйтесь специальными сервисами в Internet. Как именно – будет показано далее.

Ошибки правописания – какая от них польза

   Не все люди, пользующиеся поисковыми системами, хорошо учились в школе. Составляя запросы, они допускают грамматические ошибки. Некоторые из ошибок носят хронический характер. Создается впечатление, будто большинство твердо уверено, что «агенство» (результат поиска в Яndex: слов – 2 732 174, страниц – 1 515 338, сайтов – не менее 4 126, запросов за месяц – 98 355), «пожайлуста» (соответственно, 1 034 863, 211 855, 1 384, 270), «можите» (260 518, 211 660, 1 670, 482), «интеренет» (175 538, 132 533, 1 697, 3 166) и «координальное» (39 321, 33 341, 1 958, 47) – это правильно и так и надо.
   Кое-какие опечатки легко спрогнозировать, глядя на клавиатуру компьютера.
   Если в списки ключевых слов добавить слова с ошибками, можно иногда извлечь из этого пользу: получить не только дополнительный трафик, но и, что более важно, целевых посетителей, которые легко выйдут на искомый сайт. Причем все останутся довольны: пользователь найдет то, что искал, а вы получите, возможно, покупателя своих товаров или услуг.