На праздновании "в узком кругу" пятнадцатилетия (всего-то пятнадцатилетия!) запуска «Энергии-Бурана» я с удивлением узнал, что сохранились лишь бумажные рулоны распечаток на АЦПУ-128 с выборками из данных бортовой и наземной телеметрии, позволяющие воссоздать ход исторического полета. Все, что не было распечатано на бумаге, практически потеряно, так как магнитные ленты для БЭСМ-6 сегодня прочесть не на чем. Разумеется, технически задача чтения этой информации решаема – на "физическом уровне" для особо пострадавших лент или же путем воссоздания в аппаратуре соответствующих считывающих устройств, но… Кто же все это оплатит? И кому это нужно?

Короче говоря, главный вопрос: зачем?

Мне кажется, есть смысл процитировать Карла Харбера, работающего в калифорнийском Университете Беркли над компьютерным восстановлением звуковых записей XIX века, сделанных на восковых валиках фонографов: «История – это то, что интересно и понятно всем. И когда ты видишь или слышишь ее, когда она фактически происходит у тебя на глазах, это открывает для людей совершенно новые измерения».

Ладно, валики фонографов… Ведь и я когда-то думал, что с изобретением лазерных дисков вся история нашего времени, научная и техническая информация наконец-то будет надежно сохранена для следующих поколений. Похоже, я ошибался. Пройдет лет тридцать, и какой-нибудь историк (а также программист, инженер, конструктор, просто любитель музыки, видео или игр), отыскав CD-архив наших годов с интересующей его информацией, будет долго соображать, на чем же его прочесть. А прочесть-то и не на чем…


Творенья старых мастеров

Создание компьютерных моделей устаревшего программного обеспечения или, подходя к вопросу совсем широко, виртуальных аналогов ЭВМ, которых нынче уж не сыщешь, – задача, педагогическую ценность которой трудно переоценить.


Мы с коллегами заметили, что такого рода работа чрезвычайно расширяет кругозор учащихся. Действительно, разбираясь в структуре старых систем команд, архаичных методов адресации и организации массивов данных, пытаясь понять логику интерфейсов, студент, образно выражаясь, выходит из колеи привычных сегодня представлений: "вот это делается так и никак иначе".

В ряде случаев он убеждается, что давно придуманы гораздо более красивые решения, нежели широко применяемые сегодня, причем убеждается, "лично расковыряв" старый код или протокол, восстановив алгоритм, который теперь сам может использовать на практике. Полученные таким образом знания крепче "держатся в голове", чем усвоенные на лекциях.

С другой стороны, выяснив, в чем именно современные технологии сильнее старых, студент может глубже прочувствовать, если можно так выразиться, логику прогресса.

И, наконец, сам процесс… Это же археология чистейшей воды! Увлекательнейшее занятие! Работающей аппаратуры почти не осталось даже в музеях. Электронным вычислительным машинам, особенно ламповым и транзисторным, не повезло – мы так быстро проскочили эти ступени технологии и так стремились к БИСам [БИС – Большая Интегральная Схема], что даже не старались сохранить, пусть и в качестве музейных экспонатов, образцы концептуальных ЭВМ и их периферийных устройств. Высокий "металлургический спрос" на старые радиодетали и аппаратуру довершил дело…

Да что говорить, сегодня в архивах многих знаменитых организаций-разработчиков вычислительной техники отсутствуют схемы, описания алгоритмов, исходные тексты программ и документация на аппаратуру, ими же созданную [Своеобразную роль тут сыграл пресловутый "режим секретности". Эти материалы очень часто имели гриф «секретно», что автоматически включало их в стандартную процедуру учета, хранения и… уничтожения «грифованной» документации. В результате абсолютное большинство их было в плановом порядке уничтожено, с записью в акте о том, что они не представляют научной и исторической ценности]. Наши ребята-студенты и старшеклассники столкнулись с проблемой гибели целых архивов данных на магнитных лентах, которые либо не читаются, либо – что чаще – их вообще не на чем читать, так как соответствующего исправного оборудования просто не существует.

Кстати, когда я говорил о методической многоплановости всей этой «археологической» деятельности, то имел в виду, что возрастные границы участников такой работы тоже очень широки. Младшие школьники, например, с удовольствием занимаются имитационным моделированием – по старым фотографиям и книжным описаниям воссоздают на экранах мониторов анимированные «модели» ЭВМ с «работающими» устройствами ввода-вывода, панелями индикации, инженерными пультами и т. п. Однажды группа школьников столкнулась с неожиданной трудностью – машина МИР-1 [В машинах серии МИР разработки Киевского института кибернетики впервые в мире встроенными микропрограммными средствами были реализованы возможности решения уравнений в аналитической (символьной) форме] в качестве устройства ввода-вывода и операторской консоли была укомплектована ГДРовской электрической пишущей машинкой «Зоемтрон», звук работы которой ребята хотели вставить в программу визуализации модели этой во многом замечательной ЭВМ. Ничего не вышло! Ни одного «живого» «Зоемтрона» мы так и не нашли, а те два экземпляра, которые все-таки отыскались в… инструментальной кладовой одного завода, были безнадежно поломаны и лишены плат управляющей электроники. Понятно, что и шум оригинальных воздуходувок, который так хорошо помнят пользователи давешних малых ВЦ, мы записать "в цифре" так и не смогли.


Анатолий Рудой,

старший преподаватель компьютерного колледжа



Археология исходников

Автор: Виктор Шепелев

Из всех областей «цифровой археологии» – дисциплины использования устаревшего, но все еще ценного контента – труднее всего очертить границы копания в исходном коде «старых» программ и библиотек. Главная тому причина – применительно к исходникам сами понятия «старости» и «устаревания» обрастают новыми, невиданными в других областях смыслами.

Предпосылки старения

Что такое вообще "археология исходников" и зачем она нужна? Примем в качестве первого приближения, что это анализ исходного кода некоторой устаревшей системы (а может быть, программы или библиотеки) с целью понять ее логику – и впоследствии эту логику изменить, воспроизвести в другой системе или встроить данную систему в новую и т. п. «Археологией» приходится заниматься и в тех случаях, когда знаковая система анализируемых исходников нам незнакома – то есть, «двигаясь» по тексту, написанному на "незнакомом языке", необходимо этот «язык» изучить.

Я не случайно взял «язык» в кавычки. Дело в том, что обычное представление о «древнем» коде, как о коде на языке программирования вроде Fortran или Cobol, – крайне упрощенное. Как раз по Фортрану вполне можно найти учебник или справочник. Здесь нет необходимости восстанавливать его правила только по исходному тексту программы. Проблема в том, что любой достаточно объемный кусок кода, помимо «основного» языка программирования, содержит и использует множество «подъязыков» и знаковых систем. Это служебные процедуры и классы, это используемые библиотеки и API операционной системы, это различные паттерны и встроенные алгоритмы. Единственная строчка кода может породить множество вопросов и потребовать многих дней сосредоточенного анализа для выяснения смысла и логики.

Таким образом, понятие «древности» кода (что есть, по сути, характеристика его непрозрачности для чтения и изменения в силу «забытости» правил и логики его написания) определяется не только и не столько языком программирования. Код может использовать устаревшие (а некогда общедоступные) библиотеки, даже документацию по которым сегодня найти весьма затруднительно. Код может быть написан для устаревшей ОС и широко использовать ее сервисы (например, для чтения/записи файлов, работы с сетевыми или графическими примитивами); или для устаревшего «железа» под специфику его процессора, памяти и портов. И, наконец, код может быть "устаревшим условно" – например, в нашей организации решили отказаться от библиотеки Х, так как не осталось людей, в ней разбирающихся, а кое-какой код, ее использующий, все еще актуален и активно применяется. При этом Х может быть вполне современной библиотекой, но в контексте нашей конторы исходники, ее использующие, – "древние".

Впрочем, помимо всех «объективных» компонентов знаковой системы кода, есть и «субъективные» – та часть процедур, библиотек и идиом, которая создана непосредственно автором (авторами) программы. И здесь-то может быть зарыта самая крупная собака "археологии исходников". Программист, работающий над нетривиальной задачей (к тому же работающий, как правило, итеративно – написание-отладка-исправление; и добро еще, если исправления сделаны не "абы запустить"), так вот этот программист, помимо использования существующих знаковых систем, создает множество своих. Они могут быть довольно стройны и логичны – а могут и не быть; объем и связность частей проекта превращает "полное погружение" в него в задачу не для слабых духом [Более того, все это справедливо даже для случая, когда автор кода – ты сам, но с момента написания/отладки прошло значительное время. Искусственность и многочисленность "самодельных знаковых систем" приводит к перегрузкам памяти – логика кода, в который не "закапывался с головой" на этой неделе, быстро забывается. Отсюда – даже если автор некоторого кода "как бы под рукой" – это не значит, что код не потребует "археологических изысканий"].

Совместная работа нескольких авторов (или группы разработчиков) еще больше осложняет задачу – за счет «интерференции» понимания происходящего в проекте (то есть все тех же знаковых систем, на которые разные участники могут смотреть немного по-разному).

Никакие спецификации и комментарии, к сожалению, не могут ни поспеть за кодом, ни исчерпывающе описать все нюансы – разве что в идеальном мире.

Совмещение «самодельных» знаковых систем с проблемой "объективно древних" библиотек, окружений, языков завершает картину того, чем же является "археология исходников". Суммируя вышесказанное, можно сформулировать: практически любые исходники начинают устаревать в тот самый момент, когда их перестают изменять. Устаревать не в смысле соответствия задаче (хотя и это тоже), а в смысле понятности тому, кто вздумает в них разобраться.


Технологии производства окаменелостей

Читатель, знакомый с различными методологиями разработки, может заметить, что «недревнеющий» код, код постоянно обновляемый и частично переписываемый, напоминает о гибких agile-методологиях, с их непрерывной интеграцией и постоянным рефакторингом. Кроме того, мы знаем, что "код, не покрытый тестами, не существует".

Противопоставить этому можно многоступенчатые крайне формализованные процессы типа RUP (Rational Unified Process), где все аспекты работы проекта единожды специфицированы, документированы и изменения в «стерильный» код вносятся крайне неохотно. В нашей «археологической» метафоре такие методологии разработки, кажется, самой природой предназначены сразу производить «окаменелости» – монолитно, надежно, монументально, сто лет простоит. Но вот любое исследование или внесение изменений…




Куда копать?

В идеальном мире программистам не приходилось бы возиться с "историческими артефактами" (по крайней мере, не приходилось бы слишком часто). Мы бы работали лишь с небольшими объемами "кода текущей задачи", который легко перерабатывать и столь же легко удерживать в голове целиком; а библиотеки и программы использовали бы лишь единожды скомпилировав, в бинарном виде. Реальность, к сожалению, куда печальнее и круче.

Ситуации, в которых программист тратит бо, льшую часть своего времени на анализ чужого, давно и не здесь написанного кода, встречаются сплошь и рядом. Причин может быть масса; помимо тривиальной – доставшаяся "по наследству" система или модуль, может возникнуть необходимость разобраться в работе (или исправить баги) исходников используемой (открытой или купленной) библиотеки, поскольку лучшим «справочником» по сложному формату или протоколу зачастую является библиотека, этот формат-протокол реализующая, и т. п.

Кстати говоря, чтение чужого хорошо написанного кода является неплохим подспорьем для самообучения (в том числе – обучения собственно искусству чтения).

Продолжим. Для анализа чужого кода, особенно кода крупного проекта, "с высоты птичьего полета" (построение ментальной модели, выяснение основных знаковых систем) исходники принято сводить к набору "основных сущностей" [Мы здесь не останавливаемся на том, что "объективные знаковые системы" – использованные языки программирования, API и библиотеки – все же придется изучить. Впрочем, для некоторых частных случаев, наиболее востребованных, существуют автоматизированные средства перевода с одного языка на другой (например, Cobol->Java)]. Для популярных языков программирования, в «обиходе» которых существует множество инструментов анализа и проектирования, это может выглядеть как автоматизированное построение диаграмм классов (иерархий наследования и включения и т. п.) или функций и процедур (иерархий вызовов). Здесь еще может помочь спецификация или другая документация на проект (на более низких уровнях, как правило, любая документация малорелевантна коду).

Как только мы спускаемся уровнем ниже "общего плана" – до отдельных строк кода, параметров функций и времени жизни переменных [Знаменитый теоретик computer sciense Гради Буч называет это "археологией при помощи зубной щетки"], – никакого другого метода понять и разобраться, кроме чтения строки за строкой, не остается.

Более того, и чтение кода без готовых, заранее поставленных вопросов – то есть просто "просмотр для галочки" – практически бесполезно. Самый же эффективный метод исследования – «деятельное» чтение, то есть участие в работе исследуемых исходников. В зависимости от свойств исследуемых кусков кода и окружающей среды "деятельное чтение" может означать, например, многократное выполнение «древней» программы с постепенным изменением различных частей ее кода; или прогонку в отладчике, с отслеживанием значений разных переменных; или «заимствование» непонятного куска в «чистую» среду (программу-заглушку) для выяснения принципов работы этого куска. Здесь же могут помочь модульные тесты (специальный код, тестирующий различные аспекты функциональности) – если они прилагались к исходникам, это куда полезнее любой спецификации; если же нет – могут быть написаны с нуля как один из видов деятельности в процессе исследования.

Придирчивый читатель мог бы заметить, что автор упускает из виду "объективно древние" исходники, которые по той или иной причине – нет старого компилятора, нет старой ОС, нет старой библиотеки – просто не могут быть собраны и запущены. Автор не упускает. В этом случае "деятельное чтение" просто становится сложнее – приходится изучать "древнюю драгоценность" почти вслепую; в простейшем случае (чтение интереса ради) – «запуская» код в уме; в более сложном (необходимо таки заставить старую библиотеку работать; или переписать старый алгоритм на новом языке) – по кусочку переводя проект "на новые рельсы" и тщательно анализируя результат.

Короче говоря, практически единственный честный и полноценный способ исследования "археологических древностей" – полное переписывание; не обязательно «честное», оно может выглядеть просто как удаление частей исходника и постепенное их возвращение на место – тем не менее других вариантов "качественного ознакомления" с артефактом человечество пока не придумало [Другой вопрос, многие ли «древности» стоят таких трудов?].

Но самое смешное, что когда «старый» код [Или извлеченные из него идеи] станет «новым», твоим, родным, частью проекта, – он неизбежно начнет стареть, чуть только отведешь глаза, перестанешь обновлять и пересматривать эти части исходников. Остается лишь повторять, как и все, вслед за Черной Королевой: "Здесь, знаешь ли, приходится бежать со всех ног, чтобы только остаться на том же месте!"


Примеры и иллюстрации

Пример довольно простого кода, который для понимания может потребовать длительных изысканий, – быстрый алгоритм нахождения обратного квадрата числа (1/яx), приписываемый разработчику Quake Джону Кармаку. Алгоритм использует метод быстрых приближений Ньютона и включает следующую «очевидную» строчку с использованием магического числа (сопутствующий ей комментарий, как правило, встречается во всех популярных описаниях алгоритма):


i = 0x5f3759df – (i >> 1); // what the f..k?


Пример переписывания «мнимо древнего» кода – одно из первых в истории веб-приложений бизнес-класса, Viaweb. Оно было написано знаменитыми хакерами Полом Грэмом и Робертом Моррисом на Lisp и через некоторое время куплено Yahoo и переименовано в Yahoo!Store. Впоследствии Yahoo, озабоченная экзотичностью Lisp’а, заставила своих программистов провести «археологические изыскания» для переписывания приложения с нуля на Perl и C++. По слухам, код современного Yahoo!Store очень похож на интерпретатор Lisp (иллюстрируя тем самым 10-е правило Гринспуна).


Пример проблемы объективной древности – Strongtalk, эффективная реализация языка Smalltalk с возможностью статической типизации была некогда куплена Sun, а через много лет возвращена программистскому сообществу как open source. Естественно, все исходники виртуальной машины (языки – C и ассемблер) требовали древних версий компиляторов. И если C-часть была «переведена» на современный диалект языка довольно быстро, то ассемблерные куски до сих пор требуют Borland TASM 4.0 (еще DOS’овская версия), поэтому приходится распространять как исходный код, так и скомпилированные «энтузиастами-археологами» файлы.


Пример «археологических изысканий ради понимания алгоритма» – мы знаем, что формат файла Microsoft Word как таковой существует. Спецификация на него известна и даже доступна публично (какой-то из антимонопольных процессов потребовал этого от корпорации), но ее стиль и степень подробности не позволяют «просто написать соответствующий код» – многие нюансы требуют экспериментирования. Поэтому гораздо более полезный справочник по форматам Microsoft – опенсорсные библиотеки для чтения этих форматов (например, antiword или Apache POI, а лучше – «перекрестный допрос» обеих библиотек, дабы лучше понять, что является особенностью формата, а что особенностью библиотеки).


Пример ситуации, где старение сильнее автора кода, – программа Sketchpad, созданная в 1963 году. Она была во многом революционной, еще бы – первая интерактивная CAD, первая объектно-ориентированная система… Но несмотря на то, что автор программы по-прежнему жив и в здравом уме, сомнительно, что сегодняшний вице-президент Sun Айвен Сазерленд смог бы подробно объяснить логику исходников, некогда написанных аспирантом Айвеном Сазерлендом на макроассемблере машины TX-2.



Ностальгируя по БЭСМ-6…

Автор: Юрий Романов

В Интернете на странице «Ностальгия по БЭСМ-6» Леонида Брухиса я встретил информацию о том, как однажды Сергей Вакуленко написал первую версию эмулятора БЭСМ-6. И мне очень захотелось включить в тему номера небольшой материал об этой работе. Обуреваемый сложными чувствами [Все очень просто: я сам неравнодушен к этой машине. Не как к «флагману парка советских ЭВМ», как ее когда-то называли. Очень много прекрасных часов любимой работы связаны для меня с аббревиатурой БЭСМ. Оказалось, не только у меня… Так что ностальгия налицо. – Ю.Р.], я списался с Сергеем и объяснил суть моих планов. Вот что он рассказал:


РЕАЛИИ

"Старые видеоархивы, записанные на «Кадр-103» и «Кадр-3ПМ», требуют срочного перевода на современный формат. Дело в том, что полностью прекращено производство запасных частей для этих аппаратов, что делает материалы в этих форматах практически непригодными для использования (не на чем воспроизводить)".


Директор Гостелерадиофонда России А. И. Высторобец


– Да, тема, конечно, интересная. Трудность в том, что я уже смутно помню, как было дело. Тексты первых версий программы, к сожалению, не сохранились. Архивные магнитные ленты тех лет перестали читаться… Основные факты, впрочем, известны.

В 1989 году я защитил диплом, темой которого был перенос Си-компилятора Джонсона (pcc) на БЭСМ-6 и Эльбрус-Б. В дальнейшем компилятор использовался командой Новосибирского ИТМиВТ при разработке Unix для этих машин. При отладке возникла определенная сложность: тестирование порожденного кода оказалось более трудоемким, чем хотелось бы. Чтобы выполнить «сгенеренный» бинарный код на реальной машине, надо было преодолевать не только несовместимость форматов носителей, но и несколько сот метров пространства между разными зданиями ВЦ института Курчатова. Кроме того, в ОС ДИСПАК для БЭСМ-6 не существовало диалогового отладчика с возможностью пошагового выполнения команд. Возникла мысль: а почему бы не сделать эмулятор? Со встроенным отладчиком. Система команд простая и известная, а тонкости команд деления и алгоритма нормализации меня тогда не интересовали [Через несколько лет эти команды доставят много хлопот любителям "археологических раскопок" БЭСМ-6. См., например, www.mailcom.com/besm6/emulnews_ru.shtml].

Для проверки компилятора достаточно было целочисленной арифметики. Эмулятор – программа простая, за неделю он был готов, еще за неделю дополнен всеми необходимыми режимами отладки и трассировки. Месяц-два активного использования – и следующие года три он пролежал в "долгом ящике". Тогда же я похвастался этим «чудом» перед народом из ИТМиВТ, и они этого не забыли.

Году в 1992-м (или в 1991-м?.. точно не помню) Миша Ярославцев, уезжая в Калифорнию, попросил у меня тексты. Перед отъездом он собрал все доступные образы системных дисков БЭСМ-6 и решил на чужбине, теплыми калифорнийскими вечерами, оживить ОС ДИСПАК вкупе с мониторной системой, трансляторами и прочими интересными вещами. В этом его активно поддержал Леня Брухис. С тех пор тексты уже мало похожи на мои: Миша все перелопатил, оптимизировал, а главное – дополнил реализацией экстракодов (системных вызовов). Что весьма нетривиально, так как ни документации по экстракодам, ни текстов ДИСПАК не сохранилось. Также они умудрились аутентичным образом реализовать все команды плавающей точки. Это большое достижение.

Сейчас на сайте Брухиса всякий желающий может оттранслировать программу для БЭСМ-6 на одном из языков – Фортран, Паскаль или Алгол-60. И выполнить с лимитом 20 секунд процессорного времени.

Такой вот поток мыслей… Наверняка я многое забыл, а что-то, возможно, перепутал. И потом, я ведь совсем не писатель…

Есть еще одно ответвление от темы, которое может оказаться интересным. После успеха с БЭСМ-6 Леня Брухис решил взяться за БК-0010 (bk-terak-emu.sourceforge.net). А когда ему удалось отыскать в сарае одного калифорнийского хакера тексты LSX – версии Unix для PDP-11 с очень ограниченным объемом памяти (система считалась безнадежно утерянной), мы совместными усилиями взялись затащить это дело на БКшку. В общем, вполне получилось. Недавно я привел в божеский вид и выложил в Интернет описание Эльбруса-Б и тексты Си-компилятора. Это было последнее неокученное в моем загашнике. Периодически спрашиваю у народа тексты системы Джин от БЭСМ-6, но, к сожалению, пока безуспешно.

Дыры в Паутине

Автор: Виктор Шепелев

Две вещи делают Веб Вебом (Повсеместно Протянутой Паутиной): широко разбросанные независимые тексты-узлы и ниточки-ссылки, что их объединяют. Но по мере взросления и старения Паутины в ней появляются Дыры – рвутся нити, становятся недоступны пути из пункта А в пункт Б… Где вы, Сетевые археологи?..


КОНЦЕПЦИЯ

Эта Паутина была в каком-то смысле даже противоположна самой Сети <…> Паутина обволакивала Сеть, а вовсе не являлась ее синонимом. Сеть искривляла пространство, помогая видеть Паутину.


Мерси Шелли, «Паутина»


К тому времени, как Тим Бернерс-Ли начал работу над концепцией World Wide Web, обе ее составляющие – техническая (Интернет) и идеологическая (гипертекст) – уже много лет существовали [Создание Интернета, как и первых гипертекстовых систем (Xanadu Теда Нельсона и NLS Дугласа Энгельбарта), датируется 1960-ми годами; создание Веба – началом 1990-х]. Гениальная инновация британца состояла, собственно, в объединении этих двух сущностей, что в конечном счете развернуло обе технологии "лицом к простым людям".