Но не только электронные вычислительные машины оказывают помощь лингвистике. В свою очередь, помощь современного языкознания оказалась крайне необходимой для вычислительной техники. С рождением кибернетики появляется и проблема «разговора» человека и робота. ЭВМ понимают только строго формализованный, однозначный язык чисел и логических команд. Можно ли перевести на него наш обычный человеческий язык?
   Машинный перевод с одного языка на другой, машинный перевод устной речи в письменную и письменной в устную, наконец, разговор с машиною «по-человечески», то есть ввод и вывод информации в машину посредством устной речи — все эти задачи несколько десятков лет назад относились к области научной фантастики. А ныне они стали реальными и важными проблемами практики. И решать эти проблемы можно лишь в тесном содружестве математиков, техников и языковедов.
   Инженерная лингвистика — так называют это направление в научной литературе. И речь здесь идет не о том, чтобы инженер обучился основам языкознания, а лингвист — математике и электронике. Инженерная лингвистика в наши дни превратилась в отрасль исследований, имеющих свои конкретные задачи, свою методику и свои объекты изучения. Причем, как отмечает руководитель группы «Статистика речи» Р. Г. Пиотровский, решая собственные задачи, инженерная лингвистика стимулирует появление новых идей не только в области языкознания и смежных наук, но и в таких, казалось бы, далеких от нее дисциплинах, как методика преподавания языков, структурное литературоведение, радиолокация, психиатрия. Но особое значение для инженерной лингвистики имеет ее связь с кибернетикой и электронными вычислительными машинами.
   Каждая идея и разработка инженерной лингвистики должна быть реализована на ЭВМ. Без машины, без робота теряется сама суть, смысл этого направления. Первые попытки машинного перевода состояли в том, чтобы передать машине поиск слов в словаре. Задолго до наступления эры кибернетики, в 1933 году, советскому инженеру П. П. Троянскому было выдано авторское свидетельство на изобретение «машины для подбора и печатания слов при переводе с одного языка на другой или несколько других одновременно». Но чем дальше шли работы в области машинного перевода, или, как говорят специалисты, МП, тем яснее становилось, что осуществить этот перевод можно лишь тогда, когда мы сумеем заставить машину переводить по-человечески, не по форме, а по смыслу…
   Так у инженерной лингвистики появилась стержневая проблема: автоматическое распознавание смыслового образа. И проблема эта связана с другими проблемами распознавания образа машиной — зрительного для читающих автоматов, звукового для автоматов, действующих по приказу, который дает человеческий голос.
   Тут от, казалось бы, сугубо технических проблем инженерная лингвистика переходит к проблемам, стоящим на повестке дня авангарда современной науки: моделированию мышления, работы человеческого мозга…

МП, ЯП, ИЯ

   В нашем веке сугубо теоретические и сугубо практические задачи оказываются неразрывно связанными друг с другом. И, пожалуй, наиболее ярко эта связь теории и практики проявилась в области машинного перевода и создания информационных языков.
   Об этом расскажет очерк
   МП, ЯП, ИЯ

От круга Луллия до ЭВМ

   Раймонд Луллий, живший в XIII столетии, был человек, далеко не заурядный. В молодости рыцарь, он оставил светскую жизнь, дабы найти элексир бессмертия. Элексир этот, несмотря на десятилетия алхимических поисков, найти ему не удалось. Зато, по мнению Луллия, он открыл основной компонент элексира — воду жизни, на латыни — аква вита. Впоследствии оказалось, что этой водой жизни был чистейший спирт, который умели возгонять задолго до Луллия арабские алхимики.
   Специалисты по вычислительной технике, структурные лингвисты и ученые, занимающиеся теорией знаков, все чаще начинают упоминать в своих работах другое изобретение экс-рыцаря и алхимика — его называли «кругом Луллия».
 
   Во времена Луллия считалось, что в каждой области знаний есть небольшое число принципов, которые столь же неколебимы, как аксиомы математики: их следует принимать без доказательств. Это так называемые абсолютные начала — доброта, величина, сила, сознание, воля, правда, слава; относительные начала — различие, согласованность, противоположность, середина, конец, равенство; добродетели — справедливость, умеренность, вера, милосердие, надежда и пороки — жадность, обжорство, сладострастие, гордыня, лень, зависть, гневливость, лживость, предательство; субъекты — бог, ангел, небо, человек…
   Всего у Луллия, согласно тогдашней схоластике, получилось шесть категорий. В каждой из них было ровно по девять элементов. Элементы эти Луллий разместил на шести концентрических кругах. Первый, внутренний, круг состоял из девяти основных вопросов: что? почему? из чего? сколько? где? когда? какое? которое из двух? каким образом? Теперь, если привести систему кругов во вращение, можно получить, по мысли Луллия, ответ на любой вопрос, связанный с аксиомами, начертанными на кругах. Иными словами, Луллий считал, что его вертушка охватывала все знания, которые может вместить наш разум!
   Как видим, наш разум Луллию представлялся неким ограниченным вместилищем знания, а сами знания чем-то завершенным, окончательным. Правда, «емкость» этого вместилища (или хранилища) получалась огромной. Число возможных комбинаций действительно было велико: вы в этом легко убедитесь сами, если возведете число элементов — девять — в шестую степень (число категорий). А так как круги изготовлялись из металла и раскрашивались в различные цвета, то вертушка Луллия производила весьма сильное впечатление на современников. Рассказывают, что Луллий с помощью своих кругов хотел обратить в христианство владыку мусульманского города, но тот, не поддавшись магии кругов, продал изобретателя в рабство, и единоверцам Луллия пришлось платить большой выкуп…
   Но так или иначе изобретение Луллия является прообразом нынешних устройств, с помощью которых человек хочет усилить мощь своего разума — логических машин. Идея формализации мышления, сведения его к вычислениям и логическим операциям высказывалась двумя гениальными учеными XVII столетия Декартом и Лейбницем. «Подобно тому, как можно в один день научиться на каком-нибудь неизвестном языке называть и писать числа до бесконечности, таким же образом должна быть найдена возможность сконструировать все слова, необходимые для выражения всего, что приходит и может прийти в человеческий ум», — писал Декарт. А Лейбниц пытался заменить рассуждения вычислениями и превратить язык в своеобразную алгебру мысли. Но все это были теоретические построения. Лишь с появлением электронных вычислительных машин от рассуждений философов появилась реальная возможность перейти к осуществлению их идей на практике.

Мечты, мечты…

   7 января 1954 года в конторе фирмы «Интернейшел бизнес мэшин» в Нью-Йорке была проведена первая публичная демонстрация перевода с языка на язык — перевода, который впервые за всю историю человечества делал не сам человек, а его механический помощник. Электронная счетная машина ИБМ-701 перевела математический текст с русского языка на английский. На следующий год был осуществлен первый машинный перевод в нашей стране. С английского языка на русский переводила отечественная машина БЭСМ.
   Затем в различных странах мира с помощью машин были сделаны переводы с французского, немецкого, китайского, японского языков. Встал вопрос о создании единого языка-посредника, на который и с которого можно было бы переводить любой язык мира. Ведь такой язык гораздо выгодней, чем составление отдельных программ перевода с каждого конкретного языка на другой конкретный язык (для двух языков нужны две различные программы перевода, скажем, с русского на английский и с английского на русский; для четырех языков таких программ нужно будет двенадцать, для двадцати — около трехсот, а так как число языков мира достигает нескольких тысяч, то число переводческих программ с каждого языка на каждый достигнет астрономически больших величин).
   В качестве языка-посредника предлагались самые распространенные языки мира, например английский или русский. Были проекты использовать какой-либо из искусственных международных языков, вроде эсперанто (ныне разработано несколько сотен подобных языков-посредников). Ленинградский лингвист Н. Д. Андреев предложил включать в язык-посредник только самые типичные, самые частые грамматические правила и слова, общие большинству языков мира. Такой язык-посредник будет представлять некое статистическое среднее этих языков. Есть и другая точка зрения: язык-посредник — это лишь система соответствий между различными языками мира, равнозначных друг другу слов и словосочетаний, а в материальной форме такой язык может и не существовать…
   Проблема создания языка-посредника оказалась тесно связанной с не менее важной проблемой специального языка для информационно-логических машин. Потребность в таких машинах с каждым годом ощущается все острее. Ибо с каждым годом неудержимо нарастает лавина информации, которая обрушивается на современного человека. Особенно это относится к науке и технике. В конце концов мы можем и не знать о том, как сыграли футболисты «Спартака» или сколько градусов мороза нынче в Антарктиде, — ущерб от этого невелик. А вот ущерб от незнания научных или технических новинок может исчисляться миллионами рублей и годами потраченного напрасно труда. Читать же всю литературу, выходящую даже по его прямой специальности, инженер или ученый в наши дни просто не в состоянии.
   «Человек так же неспособен выучить наизусть все книги, хранящиеся в библиотеке, как и взвалить их себе на спину», — очень метко сказал академик В. М. Глушков. И не только выучить, но и просто-напросто прочитать. Число научно-технических журналов в наше время уже превысило пятьдесят тысяч и продолжает расти. Добавьте к ним еще семьдесят пять тысяч книг по науке и технике, издаваемых ежегодно. Плюс более трехсот тысяч описаний к авторским свидетельствам и патентам. Плюс сотни тысяч ежегодных научно-технических отчетов. И все это море информации кодируется не на одном, а на многих языках мира, причем и число таких языков науки и техники постоянно увеличивается. Если десяток лет назад было достаточно знания европейских языков, то теперь ценная научно-техническая информация публикуется на арабском, хинди, японском, турецком, персидском языках…
   Обуздать Ниагару книг, потоки информации с помощью машин — машин-переводчиков или информационно-логических машин, хранящих в своей электронной памяти сведения из самых различных областей знания; создать общий язык для машины-переводчика и машины-информатора, некий универсальный код науки; научить электронный мозг не только хранить и выдавать по требованию информацию, но и обрабатывать ее, делать новые выводы, умозаключения, сопоставления; включить ЭВМ как мощнейший усилитель нашего мышления в цивилизацию XX столетия — таковы были грандиозные и благородные идеи, которыми руководствовались кибернетики, лингвисты, социологи, логики после первых опытов машинного перевода.
   Казалось, время осуществления этих идей не так уж далеко. Пройдет каких-нибудь десять—двадцать лет, и начнется одна из самых крупных научно-технических революций в истории человечества…
   Идея перевода с помощью ЭВМ была высказана в 1949 году. Со времени первого публичного перевода машиною с языка на язык прошло почти четверть века. Что же происходит в наши дни, в последней четверти двадцатого столетия?

…где ваша сладость?

   Нет, кибернетическая революция, о которой мечтали четверть века назад и которую связывали прежде всего с машинным переводом и созданием информационно-логических машин, до сих пор не произошла. ЭВМ не переводят с языка на язык ни технические, ни тем более научные тексты. И хранителями знаний по-прежнему служат полки библиотек, а не блоки электронной памяти машин.
   Более того. По свидетельству самих специалистов по машинному переводу, в наши дни свое основное внимание они сосредоточивают не на переводе, не на машине и не на алгоритме, формальной программе перевода!
   В чем же тут дело? В порочности самой идеи, будто машина может переводить с языка на язык? Нет, идея эта подавляющим большинством ученых признается верной.
   Тогда, быть может, все дело в технических трудностях: слишком маленькой оперативной памяти ЭВМ, недостаточной скорости, трудности ввода информации? Опять-таки псе эти проблемы не имеют отношения к реальным проблемам машинного перевода.
   На исследования в этой области отпускались большие средства, над машинным переводом работали целые лаборатории. Случалось, что попадали в них люди, далекие от науки, видевшие в МП лишь легкую поживу. Но ведь в основном и в нашей стране, и за рубежом проблемой автоматического перевода занимались крупные ученые, причем и математики, и языковеды, и логики… И все-таки проблема эта не решена до сих пор.
   Почему? Да потому что обманчивая простота механизации перевода вступила в совсем необманчивую сложность нашего человеческого языка. Чтобы сделать машинный перевод не проблемой, а реальностью, нужно сделать науку о языке достаточно точной, иначе нельзя перевести ее положения на формулировки программ ЭВМ. Вполне понятно, что ни десяти, ни двадцати лет не хватит для такой коренной перестройки. Да и вообще возможна ли она до конца — это тоже еще под вопросом.
   Ну, а как же первые переводы с помощью машины? — спросит читатель. Ведь переводила же ЭВМ с русского на английский, с английского на русский и т. д.?
   Переводила, это бесспорный факт. Но вот что она переводила — это другое дело. Есть такая шутка: «Черное, с крыльями, жужжит, жук — что это такое?» Ответ однозначен — жук, потому что он содержался в самом вопросе. Нечто подобное было и в первом опыте публичного машинного перевода, осуществленного в рекламных целях фирмой ИБМ. Текст был тщательным образом отпрепарирован, предельно упрощен. Правила грамматики также были элементарны. И словарный запас минимален.
   Когда же стали увеличивать объем словаря, усложнять грамматику и пытаться перевести не препарированные, а подлинные тексты, перед исследователями стали задачи, неразрешимые на уровне современных знаний о языке. Проблем было сотни: слова, имеющие несколько значений, и слова-омонимы; грамматические правила и неизбежные в любом языке исключения из правил; многообразие не только слов, но и грамматических форм, В русском языке насчитывается сто пятьдесят семь различных глагольных окончаний, в немецком — триста пятьдесят четыре, а в языке аранта — около тысячи (правда, пока что аранта не имеют письменности и поэтому проблема машинного перевода для этого языка Австралии неактуальна).
   Перечень подобного рода проблем можно было бы продолжить, но вам, пожалуй, ясна наша главная мысль: язык оказался слишком сложен для машины, а лингвистика — слишком «гуманитарна», чтобы изложить накопленные ею сведения о языке в виде формул и алгоритмов. Больше того, даже для информационно-логических машин, которые, казалось бы, должны иметь дело со строгими и однозначными терминами науки, по сей день не удалось найти приемлемого кода, языка-посредника между информацией, накопленной человечеством, и электронной памятью ЭВМ. А причина этого все та же: наш человеческий язык. Ведь именно на этом языке «закодирован» весь океан современной информации — научной, технической и просто житейской.
   Возьмем слово белок.Как закодировать его? Химик понимает под белком одно, биолог — другое, демограф — третье, повар — четвертое, врач-окулист — пятое, генетики— шестое и т. д. Какое из этих значений мы должны вводить в машину? Или ограничиться структурной формулой, генетическим кодом, то есть заменить слово условными знаками той или иной науки?
   Но, во-первых, не для всех наук мы имеем такие знаки. Во-вторых, с помощью знаков можно описать далеко не все положения науки, которые мы выражаем средствами обычного языка. В-третьих, в большинстве областей науки и техники термины — это не просто условные словесные знаки, а все-таки слова, они связаны с другими словами языка ассоциациями, хотим мы этого или не хотим (лингвисты говорят даже об эмоциональности терминов!). Превращая слово-термин в кодовый знак, мы можем отсечь от него нечто существенное, важное.
   Как же быть? Есть ли выход из сложившейся ситуации? Или непреодолимая пропасть разделяет наш язык и алгоритмический язык машин?

Информатика — наука деловая

   Информационным взрывом называют иногда процесс, начавшийся в середине нашего столетия. Научно-технический прогресс — причина этого взрыва, лавинообразно нарастающего потока информации в самых различных областях науки и техники. Укротить эту лавину необходимо. Только в нашей стране трудится около миллиона научных работников; число их на земном шаре гораздо больше. И все эти миллионы людей, несмотря на их старания и желания, не могут работать с полным КПД своего мозга. Ибо не в состоянии прочитать литературу по своей специальности, выходящую в мире.
   «Если бы химик, свободно владеющий 30 языками (условие невероятное), начал с 1 января 1964 г. читать все выходящие в этом году публикации, представляющие для него профессиональный интерес, и читал бы их по 40 часов в неделю со скоростью 4 публикации в час, то к 31 декабря 1964 г. он прочитал бы лишь 1/20 часть этих публикаций», — говорил академик А. Н. Несмеянов. А ведь с 1964 года число публикаций по химии из года в год увеличивалось, и сейчас наш химик-полиглот не прочел бы и одной тридцатой всей литературы по специальности.
   Поток публикаций возрастает, а вместе с тем ежегодно возрастает и необходимость чтения этих публикаций. Все чаще и чаще обращаются к научным публикациям инженеры и техники. Их в мире не миллионы, а десятки миллионов. Больше века прошло со времени открытия электрического тока Гальвани до создания первой электростанции. Полстолетия потребовалось телефону, чтобы из научного открытия воплотиться в техническое изобретение. Но такие темпы характеризовали XVIII и XIX столетия. В нашем веке с момента открытия деления ядер урана до создания атомного реактора прошло лишь три года, а до запуска первой атомной электростанции — пятнадцать лет. Научные открытия используются сейчас почти моментально, если мерять время темпами прошлых лет. Зато, в отличие от прошлого, поиск нужной информации в океане книг, статей, журналов, патентов отнимает уйму времени.
   И не только времени, но и денег. Ежегодно на доку ментальный поиск в США тратится свыше миллиарда долларов. И тем не менее в тех же США — на неоправданное дублирование тратится не менее десяти процентов всех средств, что отпущены на научно-исследовательские и конструкторские работы. Вот два характерных примера. На эксперимент по засеву облаков было израсходовано более четверти миллионов долларов. Результаты этого эксперимента появились в публикации, но затерялись в потоке отчетов и статей. И вскоре эксперимент был повторен, причем дублирование его обошлось уже в три миллиона долларов. Национальное управление по аэронавтике и исследованию космического пространства потратило год и восемнадцать миллионов долларов на разработку ракетной системы «Атлас-Вега». Одновременно столько же времени и средств ушло на разработку аналогичной системы «Атлас-Агена В», которой занималось министерство ВВС Соединенных Штатов.
   Вполне понятно, что на службу информации различные фирмы, исследовательские институты, министерства и управления зарубежных стран не жалеют средств — эти средства окупаются сторицей.
   В нашей стране информационная служба централизована. О создании единой общегосударственной системы сбора и обработки информации для учета, планирования и управления записано в «Основных направлениях развития народного хозяйства СССР на 1976–1980 годы», утвержденных XXV съездом КПСС. Совет Министров СССР принял специальное постановление, возложив на Государственный комитет по науке и технике руководство научно-технической информацией в нашей стране, определение дальнейшего развития системы этой информации, координацию исследовательских и технических работ, методическое руководство всей сетью научно-технической информации, разграничение функций между отдельными органами информации и контроль над их деятельностью.
   Сеть информационных органов СССР включает такие специальные институты, как ВИНИТИ — Всесоюзный институт научной и технической информации, где работают тысячи штатных сотрудников и десятки тысяч переводчиков, ЦНИИПИ — Центральный научно-исследовательский институт патентной информации, ВНИИКИ—Всесоюзный научно-исследовательский институт научно-технической информации, классификации и кодирования. В каждой отдельной отрасли, как правило, существуют свои институты, а отделы или бюро научно-технической информации есть почти во всех солидных научно-исследовательских и проектно-конструкторских институтах, на предприятиях промышленности, сельского хозяйства, транспорта и связи.
   Отпустить необходимые средства, создать единую сеть службы информации — это, так сказать, задача общественная, социальная, государственная. И она в нашей стране решается. Но есть еще задачи сугубо внутренние, связанные с самой спецификой проблемы. Решить их должна особая наука об информации, или, как ее называют ныне, информатика (известный советский логик В. А. Успенский предложил термин «документалистика», однако в нашей литературе первый термин получил гораздо большее распространение).
   «Информатика — это научная дисциплина, изучающая структуру и свойства (а не конкретное содержание) научной информации, а также закономерности научно-информационной деятельности, ее теорию, историю, методику и организацию, — пишут А. И. Михайлов, А. И. Черный и Р. С. Гиляровский в монографии «Основы информатики». — Целью информатики является разработка оптимальных способов и средств представления (записи), сбора, аналитико-синтетической переработки, хранения, поиска и распространения научной информации. Информатика имеет дело со смысловой (семантической) информацией, но не занимается качественной оценкой этой информации. Такая оценка может производиться лишь специалистами в соответствующих областях науки или практической деятельности».
   Информатика находится в начале своего становления. Как и всякая другая наука, она сначала собирает факты и обобщает их, затем анализирует и выявляет общие закономерности. И, как считают все специалисты, основная теоретическая задача информатики в наши дни — это выяснение закономерностей, по которым происходит создание семантической, смысловой информации, передача этой информации и практическое использование в самых различных сферах человеческой деятельности, начиная с доказательства математических теорем и кончая применением достижений науки и техники в повседневном быту.
   Содержание, семантика, смысл кодируется с помощью специальных языков науки и техники и прежде всего с помощью нашего человеческого языка, сложного и неоднозначного. Перевод с этого языка на язык информатики— так можно сформулировать задачу номер один, которая стоит перед современными исследователями.

В поисках языка

   Язык машины — язык чисел. На этот язык в принципе должна быть переведена вся информация, накопленная человечеством в области науки и техники, вообще вся сумма знаний, запечатленных в печатной продукции. Кодирование числами началось задолго до появления ЭВМ и информационного взрыва. Списки книг и произведений составлялись и древними греками, и египтянами, и жителями Двуречья. Уже в VII веке до н. э. на глиняных табличках из библиотеки ассирийского царя Ашшурбанипала давалось заглавие, номер таблички или собрания табличек, образующих «глиняную книгу» и т. д. Более ста лет назад, в 1876 году, американский библиотековед Мелвил Дьюи предложил классифицировать книги, относящиеся к различным областям знания, с помощью десятичных чисел.
   Каждый основной раздел этой классификации обозначался одной цифрой, от нуля до девяти. При дальнейшем его делении к этой цифре присоединяется вторая, а затем и третья цифра. А чтобы индексы были всегда трехзначные, к однозначным и двузначным числам Дьюи добавлял нули. Например, естественные науки получают индекс 500, математика тогда будет под индексом 510, астрономия — 520, физика — 530, химия — 540, геология — 550, палеонтология — 560 и т. д.
   Сведения о той или иной сфере могут быть в периодических изданиях, словарях и других публикациях. Они могут касаться истории вопроса, могут говорить о практическом применении и о многом другом. Дьюи разработал список таких делений, занумеровал его, и теперь тот или иной номер может присоединяться к трехзначному числу, индексу любого раздела классификации. Например, физика имеет индекс 530, а ее раздел механика — индекс 531. Тогда словари по механике кодируются как 53103 (словари обозначены в списке Дьюи числом 03), история механики — 53109 (09 — обозначение «истории вопроса»).