Работы по формальному описанию естественного языка тесно связаны с идеями автоматического перевода, появление которых относится к 30-м годам XX века. Первые эксперименты в этой области начались в 1954 году в Джорджтаунском университете (США). До сих пор все существующие автоматические переводчики, как отечественные, так и зарубежные, хотя и умеют делать более-менее грубый подстрочник, даже близко не подошли к уровню профессионального художественного перевода.
   Важная часть морфологической обработки – выделение основы слова. Основой называется часть, которая остается после отсечения окончания слова и с которой связано его лексическое значение.
   Одна из сложностей формального анализа русского языка – наличие в нем омонимов. Омонимы (от греч. homуs – одинаковый и уnyma – имя) – разные по значению, но одинаково звучащие и пишущиеся слова, например: «рысь» – способ бега и «рысь» – животное. С точки зрения автоматического разбора особенно сложны не полные омонимы (поскольку они имеют одинаковую словоизменительную схему), а омоформы. Это разные слова, часто являющиеся и разными частями речи, но совпадающие по звучанию в отдельных формах, например: существительное «печь» (печи, печью) и глагол «печь» (пеку, печешь); существительное «раздел» (раздел книги) и глагол «раздел» (раздел донага). Очевидно, что определение семантики в таких случаях можно произвести только по контексту.
   Упомянутый выше словарь А. А. Зализняка включает 90 000 слов. Однако в русском языке их больше, кроме того, постоянно появляются новые. Некоторые системы, работающие с учетом морфологии русского языка (например, Яndex), умеют обрабатывать эти слова, используя описанные в словаре Зализняка словообразовательные типы. Результат обработки будет тем лучше, чем больше новое слово похоже на обычные слова языка.

http://www.yandex.ru/addurl.html
   Апорт http://www.aport.ru/addurl.php
   Rambler http://www.rambler.ru/doc/add_site.shtml
   Поиск@Mail.ru http://poisk.mail.ru/cgi-bin/add_url.cgi
   UAport http://uaport.net/cgi-bin/add_new
   Sesna http://uazone.net/go/addurl.cgi
   META http://meta-ukraine.com/pages/addurl.asp
   Uniarts http://www.armenian.com/links.html
   www.KYRGYZSTAN.kg http://search.kyrgyzstan.kg/cgi-bin/search/add.cgi
   DELFI (Латвия) http://rus.delfi.lv/directory/index.php?add=1
   DELFI (Эстония) http://rus.delfi.ee/directory/index.php?add=1
   AltaVista http://www.altavista.com/addurl/default
   Excite https://secure.ah-ha.com/guaranteed_inclusion/teaser.aspx
   HotBot http://insite.lycos.com/
   Lycos http://insite.lycos.com/
   Google http://www.google.com/addurl.html
   Если после регистрации вы не увидели свой сайт в поисковой системе, не удивляйтесь. Из-за большой перегруженности робота поисковой машины ваш сайт может стоять в очереди от одного дня до двух недель.
   В дальнейшем робот будет самостоятельно (автоматически) находить новые и измененные документы. И чем чаще будет меняться страница, тем чаще робот будет на нее заходить.

http://www.yandex.ru/addurl.html) – остальные страницы Яndex найдет самостоятельно по ссылкам.
   Робот работает со стандартными ссылками языка HTML (HREF, LINK и FRAME), то есть так, как работал бы пользователь с отключенной в браузере поддержкой Java и JavaScript. Если ссылки на страницы вашего сайта сделаны с помощью скриптов, надо добавить адреса этих страниц через форму Яndex: Добавить сайт.
   Запрещения на индексацию отслеживаются системой Яndex обычным образом – через файл robots.txt, находящийся в корневом каталоге сервера.
   Яndex контролирует намеренное злоупотребление ключевыми словами в заголовках, комментариях и тексте самого документа и при обнаружении подобных фактов снижает место документа на странице результатов. В случаях злостного использования таких приемов администрация Яndex может исключить документы и сайты из базы. Страницы со временем перенаправления на другие страницы, равным нулю, не подлежат индексированию.
   Индексация одних и тех же документов, выдаваемых Web-серверами в разных кодировках, лишена особого смысла. При этом русские поисковые системы держат в базах документы только в одной из кодировок, другие рекомендуется исключать из индексирования. Если кодировки распределяются по портам сервером, на разных портах (серверах) следует выдавать разный robots.txt. Это значит, что во всех портах/серверах, кроме основного, должно быть написано:
   disallow: /
   Если кодировки выдаются, например, по директориям, необходимо сделать один файл robots.txt следующего содержания:
   disallow: /alt
   disallow: /mac
   disallow: /koi
   В уникальные заголовки документов, вкратце описывающие сайт и текущий документ, не следует включать более 20–25 слов. Слова в заголовках имеют больший вес, чем остальные.
   Система учитывает описания и ключевые выражения, указанные в соответствующих метатэгах, а также подписи к картинкам в тэге ALT. Яndex работает только с текстами и не умеет распознавать графические изображения. Поэтому, если название выполнено средствами графики, стоит продублировать его в текстовом виде.
   Чем длиннее документ, тем менее заметны в нем слова, заданные в запросе, и, следовательно, тем ниже будет находиться ваша страница в результатах поиска при прочих равных условиях. Поэтому старайтесь разбивать длинные документы на более короткие – это правило важно для любых поисковых систем.
   При оформлении документов надо придерживаться следующих требований:
   • не следует набирать слова в р а з р я д к у – система не воспримет их;
   • без особой необходимости не стоит набирать слова ПРОПИСНЫМИ буквами, если только это не аббревиатура;
   • точки и запятые не отделяются от слова пробелом, иначе Яndex определит их как отдельные слова. После них пробел ставится.
   Проверять, проиндексирован ли ресурс, нужно не сразу, а через несколько дней после его добавления в базу Яndex. Обычно страницы появляются в поисковой базе в течение недели после их создания или изменения. Новые страницы, внесенные в базу самостоятельно с помощью механизма добавления ресурса, появятся быстрее.
   Если Вы не находите свою страницу, проверьте с помощью формы Яndex: Добавить сайт, включена ли она в базу Яndex; другими словами, попробуйте добавить ее еще раз.
   Если вы получите сообщение «Ваш URL … был только что внесен в нашу базу данных», это значит, что адрес вашего ресурса системе ранее не был известен. Теперь он добавлен и в ближайшее время будет проиндексирован.
   Если поступило сообщение «Ваш URL … уже известен роботу Яndex. Данный ресурс будет проиндексирован в ближайшее время», подождите еще пару дней.
   Сообщение «Ваш URL … уже проиндексирован. Вы можете посмотреть, какие страницы Вашего сайта проиндексированы в Яndex.Ru к настоящему времени» означает, что по имеющейся здесь же ссылке вы можете перейти ко всему списку документов вашего ресурса, проиндексированных в поисковой машине Яndex.
   В дальнейшем робот будет самостоятельно (автоматически) находить новые и измененные документы. Причем частота обхода конкретного сервера зависит от зафиксированной роботом частоты изменения его страниц.

http://www.aport.ru/addurl.php) почти с любой страницы Апорта. При указании ресурса вручную проверяется его наличие и корректность. Сразу после нажатия кнопки Добавить Апорт пытается получить корневую страницу ресурса и определяет, является ли страница русскоязычной. При этом простого использования кириллицы недостаточно: Апорт ищет закрепленные в языке русские слова. Если оба условия выполнены, то ресурс добавляется в базу и будет проиндексирован.
   Прибегать к помощи страницы Добавить URL следует, если добавляемый ресурс – это сервер и есть вероятность, что он еще не известен Апорту, или если новый ресурс – это часть сервера и вы предполагаете, что на него нет ссылок с других страниц сервера.

http://www.rambler.ru/doc/add_site.shtml. Ее заполнение гарантирует, что, по крайней мере, эта анкета будет найдена при соответствующем поиске, и по ссылке с нее пользователь сможет попасть на ваш сайт. Рекомендуется также воспользоваться регистрацией в случае, если ваши страницы располагаются на зарубежных сайтах. Роботы сканируют ресурсы, находящиеся в странах ближнего зарубежья, и игнорируют остальные иностранные сайты.
   Если ваш сайт находится за рубежом, но существенная его часть содержит русскоязычные материалы, или если он расположен в пределах ближнего зарубежья, но входит в иные домены первого уровня (.com, .org, .net и пр.), вы можете отослать письмо с просьбой включить сайт в число сканируемых. Сотрудники Rambler рассмотрят ее и примут решение о целесообразности такого включения.

http://yaca.yandex.ru/), что было призвано обеспечить авторитетность расположения ресурсов в рубриках этой поисковой системы.
   При определении величины индекса цитирования Яndex учитывает ссылки только с тех ресурсов, которые Яndex проиндексировал и которые содержатся в его поисковой базе, то есть только «русский» Internet. Это означает, что ссылки на русские ресурсы, например, из каталога Yahoo! не могут быть учтены при установке индекса цитирования Яndex.
   С другой стороны, этот показатель можно определить для всех ресурсов, на которые кто-либо ссылался с сайтов, просканированных поисковой машиной Яndex, даже если это произошло всего один раз. Поэтому для каталога Yahoo! индекс цитирования Яndex определить можно, несмотря на то, что Yahoo! не проиндексирован в Яndex. Кстати, он для каталога Yahoo! довольно высок (на 23 октября 2004 года – 6300), поскольку Yahoo! весьма популярен в русской части Internet.