Страница:
Таким образом, Глэнзман с сотрудниками открыли обратную передачу сигнала от принимающего нейрона к передающему, происходящую в ответ на прямой нейромедиаторный сигнал. То есть, согласно результатам этого исследования, чтобы запустить вышеописанные процессы формирования долговременной памяти, мало дать "классический" прямой сигнал, нужно еще дождаться ответа в виде потока ионов кальция. Зачем нужна эта дополнительная стадия? По мнению Глэнзмана, такой механизм предотвращает долговременные изменения синапсов по "неуважительной" причине, то есть играет роль своеобразного фильтра, отсеивающего внешние стимулы, "недостойные" быть зафиксированными механизмом долговременной памяти. Обратный кальциевый сигнал — это своего рода подтверждение о запуске синтеза молекулярных структур, необходимых для сохранения информации в долговременной памяти — так мозг выбирает из всего потока важную информацию.
Пока не ясно, все ли метаботропные нейромедиаторы вызывают обратный сигнал или только серотонин. Неизвестен в деталях и механизм включения синтеза белка ионами кальция в пресинаптической клетке: по данным лаборатории UCLA, такое явление наблюдается впервые. Чтобы ответить на эти вопросы, сейчас активно ведутся исследования. Но ответы, скорее всего, приведут к новым вопросам, и так снова и снова… Во всяком случае, за более чем вековую историю изучения химической передачи сигналов в нервной системе до сих пор именно так и было.
Результаты исследований калифорнийских биологов опубликованы на сайте журнала Current Biology. Будем надеяться, что итоги работы группы американских ученых войдут в долговременную память научного сообщества.
Прикладная криптология
Микрофишки
тема номера: Совершенное несовершество
Ахиллесова пята Семантического Веба
Пока не ясно, все ли метаботропные нейромедиаторы вызывают обратный сигнал или только серотонин. Неизвестен в деталях и механизм включения синтеза белка ионами кальция в пресинаптической клетке: по данным лаборатории UCLA, такое явление наблюдается впервые. Чтобы ответить на эти вопросы, сейчас активно ведутся исследования. Но ответы, скорее всего, приведут к новым вопросам, и так снова и снова… Во всяком случае, за более чем вековую историю изучения химической передачи сигналов в нервной системе до сих пор именно так и было.
Результаты исследований калифорнийских биологов опубликованы на сайте журнала Current Biology. Будем надеяться, что итоги работы группы американских ученых войдут в долговременную память научного сообщества.
Прикладная криптология
Прикладная криптологияАвтор:
Киви Берд
Опубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 года
Криптология, как многие наверняка наслышаны, занимается не только шифрами и методами их вскрытия, но и множеством других проблем, так или иначе связанных с защитой и восстановлением информации. Поэтому нередки случаи, когда в реальных задачах прикладной криптологии собственно до анализа и вскрытия шифров дело вообще не доходит, но конкретные результаты все равно достигаются. Два примера из текущих ИТ-новостей наглядно демонстрируют этот на первый взгляд парадоксальный факт.
Первый сюжет связан с чрезвычайно актуальной и широко обсуждаемой ныне темой "сетевого нейтралитета" и роли компаний, обеспечивающих работоспособность сетевой инфраструктуры. Вправе ли они контролировать содержимое проходящего по каналам трафика, и если да, то до какой степени? Не дожидаясь итога этих дискуссий, многие интернет-провайдеры уже сегодня втихаря занимаются инспекцией пакетов и принудительным сужением (или "дросселированием") каналов для некоторых видов трафика, в первую очередь — для распространенных P2P-протоколов обмена файлами. Естественной реакцией на это со стороны пиринговых сетей стало шифрование пакетов.
Понятно, что сеанс зашифрованной связи просто так уже не проинспектируешь. Но вот недавно в Сети было опубликовано любопытное исследование[www.ing.unibs.it/~gringoli/ pub/PID578397b.pdf.], емонстрирующее программный инструмент, с помощью которого провайдеры могли бы целенаправленно блокировать или ограничивать шифрованный трафик своих абонентов, даже не имея возможности проанализировать защищенные данные.
Авторы работы, итальянские исследователи из Университета Брешии, нашли способ "слепой" классификации с точностью до 90% того типа трафика, что сокрыт в шифрованных пакетах сеансов SSH-соединений. Такой выдающийся результат достигнут с помощью алгоритма автоматического анализа, сопоставляющего размеры пакетов и интервалы между их доставкой. А собственно содержимое пакетов программу анализа совершенно не интересует.
Второй сюжет посвящен роли криптологии в аспектах, связанных с интернет-телефонией. Постоянно растущая популярность VoIP-технологий диктует необходимость поиска все более эффективных методов компрессии речи. Перспективное и сравнительно новое здесь направление (впрочем, хорошо известное любителям цифровой музыки) — сжатие с переменным битрейтом, при котором размер пакетов данных существенно варьируется. Происходит это потому, что для длинных и сложных гласных звуков частота отсчетов делается высокой, а для простых согласных частота сэмплирования заметно ниже.
Важнейшее достоинство данного метода сжатия в том, что он сохраняет качество звука, присущее высокому битрейту, но при этом снижает нагрузку на канал связи. Однако с точки зрения защиты информации эта технология не выдерживает никакой критики.
Группа исследователей из американского Университета Джонса Хопкинса (Johns Hopkins University) продемонстрировала, что сжатие с переменным битрейтом очень сильно ослабляет криптозащиту зашифрованных VoIP-потоков. Ученые показали, что достаточно измерять размер пакетов, даже не прибегая к их декодированию, чтобы с высокой точностью выявлять слова и фразы [Spot me if you can:Uncovering spoken phrases in encrypted VoIP conversations, 2008 IEEE Symposium on Security and Privacy, May 18 22, 2008.]. Программа анализа, разработанная авторами, пока не может восстановить весь разговор целиком, однако позволяет отыскивать конкретные словосочетания в зашифрованном потоке.
Алгоритм программы с помощью фонетического словаря разбивает искомую фразу на фонемы.
Затем фраза составляется из звуков, взятых из библиотеки образцов, а результат преобразуется в набор VoIP-пакетов. Полученная структура дает общее представление о том, как фраза может выглядеть в реальном VoIP-потоке. И когда нечто похожее по структуре выявляется в реальном сеансе IP-телефонии, программа тут же оповещает перехватчика о находке.
При тестовых испытаниях с перехватом реальной зашифрованной передачи программа верно выявляла и декодировала искомые фразы примерно в половине случаев. Результат, ясное дело, не очень впечатляющий, однако аккуратность метода подскакивала до 90%, если для поиска задавались длинные и сложные слова. Иначе говоря, эффективность подобной атаки намного выше, если перехватывается разговор профессионалов, насыщенный жаргонизмами. Как показывает анализ, в разговорах на профессиональном "диалекте" обычно много слов, которые сцепляются в длинные и относительно предсказуемые фразы.
Что же касается неформальных звонков, то там набор выражений случаен, а потому значительно хуже поддается аналитическому декодированию.
Впрочем, досужий треп обывателей шпионам неинтересен.
Компаний, предоставляющих услуги VoIP-шифрования при сжатии речи с переменным битрейтом, пока что не так много. Но в целом технология считается весьма перспективной и сулящей значительные выгоды. С точки зрения криптографов, однако, подобная схема компрессии применительно к интернет-телефонии — плохая идея. Самым простым решением проблемы могло бы стать разбиение речевого потока на пакеты равной длины, однако это неизбежно ухудшит степень сжатия. Что в очередной раз, увы, подтверждает давно известную истину: эффективность и безопасность — вещи практически несовместимые.
Опубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 года
Криптология, как многие наверняка наслышаны, занимается не только шифрами и методами их вскрытия, но и множеством других проблем, так или иначе связанных с защитой и восстановлением информации. Поэтому нередки случаи, когда в реальных задачах прикладной криптологии собственно до анализа и вскрытия шифров дело вообще не доходит, но конкретные результаты все равно достигаются. Два примера из текущих ИТ-новостей наглядно демонстрируют этот на первый взгляд парадоксальный факт.
Первый сюжет связан с чрезвычайно актуальной и широко обсуждаемой ныне темой "сетевого нейтралитета" и роли компаний, обеспечивающих работоспособность сетевой инфраструктуры. Вправе ли они контролировать содержимое проходящего по каналам трафика, и если да, то до какой степени? Не дожидаясь итога этих дискуссий, многие интернет-провайдеры уже сегодня втихаря занимаются инспекцией пакетов и принудительным сужением (или "дросселированием") каналов для некоторых видов трафика, в первую очередь — для распространенных P2P-протоколов обмена файлами. Естественной реакцией на это со стороны пиринговых сетей стало шифрование пакетов.
Понятно, что сеанс зашифрованной связи просто так уже не проинспектируешь. Но вот недавно в Сети было опубликовано любопытное исследование[www.ing.unibs.it/~gringoli/ pub/PID578397b.pdf.], емонстрирующее программный инструмент, с помощью которого провайдеры могли бы целенаправленно блокировать или ограничивать шифрованный трафик своих абонентов, даже не имея возможности проанализировать защищенные данные.
Авторы работы, итальянские исследователи из Университета Брешии, нашли способ "слепой" классификации с точностью до 90% того типа трафика, что сокрыт в шифрованных пакетах сеансов SSH-соединений. Такой выдающийся результат достигнут с помощью алгоритма автоматического анализа, сопоставляющего размеры пакетов и интервалы между их доставкой. А собственно содержимое пакетов программу анализа совершенно не интересует.
Второй сюжет посвящен роли криптологии в аспектах, связанных с интернет-телефонией. Постоянно растущая популярность VoIP-технологий диктует необходимость поиска все более эффективных методов компрессии речи. Перспективное и сравнительно новое здесь направление (впрочем, хорошо известное любителям цифровой музыки) — сжатие с переменным битрейтом, при котором размер пакетов данных существенно варьируется. Происходит это потому, что для длинных и сложных гласных звуков частота отсчетов делается высокой, а для простых согласных частота сэмплирования заметно ниже.
Важнейшее достоинство данного метода сжатия в том, что он сохраняет качество звука, присущее высокому битрейту, но при этом снижает нагрузку на канал связи. Однако с точки зрения защиты информации эта технология не выдерживает никакой критики.
Группа исследователей из американского Университета Джонса Хопкинса (Johns Hopkins University) продемонстрировала, что сжатие с переменным битрейтом очень сильно ослабляет криптозащиту зашифрованных VoIP-потоков. Ученые показали, что достаточно измерять размер пакетов, даже не прибегая к их декодированию, чтобы с высокой точностью выявлять слова и фразы [Spot me if you can:Uncovering spoken phrases in encrypted VoIP conversations, 2008 IEEE Symposium on Security and Privacy, May 18 22, 2008.]. Программа анализа, разработанная авторами, пока не может восстановить весь разговор целиком, однако позволяет отыскивать конкретные словосочетания в зашифрованном потоке.
Алгоритм программы с помощью фонетического словаря разбивает искомую фразу на фонемы.
Затем фраза составляется из звуков, взятых из библиотеки образцов, а результат преобразуется в набор VoIP-пакетов. Полученная структура дает общее представление о том, как фраза может выглядеть в реальном VoIP-потоке. И когда нечто похожее по структуре выявляется в реальном сеансе IP-телефонии, программа тут же оповещает перехватчика о находке.
При тестовых испытаниях с перехватом реальной зашифрованной передачи программа верно выявляла и декодировала искомые фразы примерно в половине случаев. Результат, ясное дело, не очень впечатляющий, однако аккуратность метода подскакивала до 90%, если для поиска задавались длинные и сложные слова. Иначе говоря, эффективность подобной атаки намного выше, если перехватывается разговор профессионалов, насыщенный жаргонизмами. Как показывает анализ, в разговорах на профессиональном "диалекте" обычно много слов, которые сцепляются в длинные и относительно предсказуемые фразы.
Что же касается неформальных звонков, то там набор выражений случаен, а потому значительно хуже поддается аналитическому декодированию.
Впрочем, досужий треп обывателей шпионам неинтересен.
Компаний, предоставляющих услуги VoIP-шифрования при сжатии речи с переменным битрейтом, пока что не так много. Но в целом технология считается весьма перспективной и сулящей значительные выгоды. С точки зрения криптографов, однако, подобная схема компрессии применительно к интернет-телефонии — плохая идея. Самым простым решением проблемы могло бы стать разбиение речевого потока на пакеты равной длины, однако это неизбежно ухудшит степень сжатия. Что в очередной раз, увы, подтверждает давно известную истину: эффективность и безопасность — вещи практически несовместимые.
Микрофишки
МикрофишкиОпубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 года
Зонд "Феникс", изучающий в настоящее время нашего соседа по Солнечной системе, передал на Землю первые результаты анализа марсианской почвы. Оказалось, что марсианская землица достаточно плодородна. Не чернозем, конечно, но минимум необходимых минералов в ней есть. Проба для анализа была взята на глубине около дюйма, в грунте обнаружены соли и щелочи, следы магния, натрия, калия, а также ионов хлора. Кислотность хоть и не идеальна для растений, но вполне терпима для некоторых из них. Ученые, впрочем, не стали обещать скорого появления цветущих плантаций на Марсе атмосферные условия на планете далеки от идеальных. АБ
У компьютерщиков появился достойный повод осушить кружку любимого пива — если верить выкладкам агентства Gartner, в июне число ПК на земном шаре перевалило за миллиард. Впрочем, это еще не предел: не далее как в 2014 году прогнозируется удвоение нынешнего "машинного парка". Если ныне 58% всех установленных PC "прописаны" в развитых странах, то в покорение следующего миллиардного рубежа вклад этих государств ожидается куда менее значительный.
Увы, век электронных "мудрецов" недолог: только в нынешнем году апгрейду будут подвергнуты больше 180 млн. персоналок, пятая часть из которых закончит свои дни на свалке. ДК
Blizzard анонсировала продолжения культового Diablо. То, что грядет хит, геймеры поняли за несколько дней до объявления, наблюдая за тизерами на сайте компании. Впору было организовывать тотализатор: новый Diablo или WarCraft? Поклонникам противостояния орков и людей не повезло…
Diablo 3 представили на Blizzard Worldwide Invitational, где был показан двадцатиминутный ролик, демонстрирующий геймплей. Судя по видео, работа над игрой если и не завершена, то уже находится в финальной стадии.
Окунуться во вселенную Diablo 3 (новая часть истории о борьбе с мировым злом перенесена в полностью трехмерное окружение) смогут владельцы Mac и PC, а вот консольщики остались с носом. О дате выхода пока ничего не говорится, можно лишь помечтать. Например, о новогодних подарках… АБ
Сбываются мечты тех, кто грезил о новеньком iPhone 3G, не привязанном к конкретной сотовой сети. Теперь не только некоторые операторы в Европе, но и AT amp;T заявили о готовности продавать трубки по принципу Pay amp;Go за 600 или 700 долларов за модели с 8 или 16 Гбайт памяти на борту. Представители оператора говорят, что решились на этот шаг лишь потому, что люди сами того хотели. И правда, кто же откажется заплатить за телефон тройную цену? АБ
Известия о новых сервисах от Google уже давно никого не удивляют. Не все новинки приживаются, однако некоторые становятся просто незаменимыми. Быть может, подобная судьба постигнет и проект Media Server — новую функцию Google Desktop.
Фича позволяет транслировать медиа-контент прямиком на бытовые устройства, поддерживающие семейство протоколов Universal Plug and Play. Это, например, Sony PlayStation 3 и ряд продвинутых телевизоров. В дальнейшем тому же научат цифровые рамки, смартфоны (несколько моделей уже работают с этой технологией) и прочую электронную братию.
Как не раз случалось,Google взяла известную задумку и приправила ее фирменным соусом. В результате, наряду со стандартной функциональностью подобного ПО, появилась возможность смотреть видеоролики с YouTube и фото из Picasa (находящиеся на локальном компьютере или в онлайн-альбомах) не вставая с кресла в гостиной.
YouTube частенько называют убийцей традиционного ТВ. Google Media Server позволит самому популярному видеосервису еще увереннее теснить телевидение на его же территории. ТВ
Зонд "Феникс", изучающий в настоящее время нашего соседа по Солнечной системе, передал на Землю первые результаты анализа марсианской почвы. Оказалось, что марсианская землица достаточно плодородна. Не чернозем, конечно, но минимум необходимых минералов в ней есть. Проба для анализа была взята на глубине около дюйма, в грунте обнаружены соли и щелочи, следы магния, натрия, калия, а также ионов хлора. Кислотность хоть и не идеальна для растений, но вполне терпима для некоторых из них. Ученые, впрочем, не стали обещать скорого появления цветущих плантаций на Марсе атмосферные условия на планете далеки от идеальных. АБ
***
У компьютерщиков появился достойный повод осушить кружку любимого пива — если верить выкладкам агентства Gartner, в июне число ПК на земном шаре перевалило за миллиард. Впрочем, это еще не предел: не далее как в 2014 году прогнозируется удвоение нынешнего "машинного парка". Если ныне 58% всех установленных PC "прописаны" в развитых странах, то в покорение следующего миллиардного рубежа вклад этих государств ожидается куда менее значительный.
Увы, век электронных "мудрецов" недолог: только в нынешнем году апгрейду будут подвергнуты больше 180 млн. персоналок, пятая часть из которых закончит свои дни на свалке. ДК
***
Blizzard анонсировала продолжения культового Diablо. То, что грядет хит, геймеры поняли за несколько дней до объявления, наблюдая за тизерами на сайте компании. Впору было организовывать тотализатор: новый Diablo или WarCraft? Поклонникам противостояния орков и людей не повезло…
Diablo 3 представили на Blizzard Worldwide Invitational, где был показан двадцатиминутный ролик, демонстрирующий геймплей. Судя по видео, работа над игрой если и не завершена, то уже находится в финальной стадии.
Окунуться во вселенную Diablo 3 (новая часть истории о борьбе с мировым злом перенесена в полностью трехмерное окружение) смогут владельцы Mac и PC, а вот консольщики остались с носом. О дате выхода пока ничего не говорится, можно лишь помечтать. Например, о новогодних подарках… АБ
***
Сбываются мечты тех, кто грезил о новеньком iPhone 3G, не привязанном к конкретной сотовой сети. Теперь не только некоторые операторы в Европе, но и AT amp;T заявили о готовности продавать трубки по принципу Pay amp;Go за 600 или 700 долларов за модели с 8 или 16 Гбайт памяти на борту. Представители оператора говорят, что решились на этот шаг лишь потому, что люди сами того хотели. И правда, кто же откажется заплатить за телефон тройную цену? АБ
***
Известия о новых сервисах от Google уже давно никого не удивляют. Не все новинки приживаются, однако некоторые становятся просто незаменимыми. Быть может, подобная судьба постигнет и проект Media Server — новую функцию Google Desktop.
Фича позволяет транслировать медиа-контент прямиком на бытовые устройства, поддерживающие семейство протоколов Universal Plug and Play. Это, например, Sony PlayStation 3 и ряд продвинутых телевизоров. В дальнейшем тому же научат цифровые рамки, смартфоны (несколько моделей уже работают с этой технологией) и прочую электронную братию.
Как не раз случалось,Google взяла известную задумку и приправила ее фирменным соусом. В результате, наряду со стандартной функциональностью подобного ПО, появилась возможность смотреть видеоролики с YouTube и фото из Picasa (находящиеся на локальном компьютере или в онлайн-альбомах) не вставая с кресла в гостиной.
YouTube частенько называют убийцей традиционного ТВ. Google Media Server позволит самому популярному видеосервису еще увереннее теснить телевидение на его же территории. ТВ
тема номера: Совершенное несовершество
Совершенное несовершествоАвтор:
Илья Щуров
Опубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 года Если верить физикам, фундаментальные свойства Вселенной от времени не зависят. Законы, правящие материей, всегда действовали и будут действовать одинаково — вчера, сегодня или миллион лет назад.
Кому-то это удается — и в результате вместо пещер мы живем в небоскребах, перемещаемся на дальние расстояния не бегом и даже не верхом, а в автомобилях и поездах, а для связи используем не голубиную почту, а электронную.
Казалось бы, совсем другое дело — менять пространство виртуальное, созданное самим людьми и далекое от бренной материи и ее ограничений. Достаточно одной революционной идеи, нескольких десятков строк кода, и — добро пожаловать в новый мир! Однако, как оказывается, вселенная "чистого разума" обладает своей инерцией и тоже сопротивляется изменениям, порой с завидным упрямством.
Сегодняшняя тема номера посвящена тому, как меняется Веб — самая известная, популярная и динамичная из существующих на сегодня "виртуальных" сред. Как те самые "революционные идеи" сталкиваются с существующими технологиями, пытаются их изменить — и сами меняются под их воздействием.
Это противостояние неизбежно. Одним из ключевых факторов, определивших успех и даже сам факт существования современного Веба, был его "прощающий" характер, благодаря которому даже самый криворукий вебмастер мог написать свою страничку, что называется, особо не заморачиваясь соответствием стандартам, семантической разметкой и прочими глупостями. Вследствие этого несовершенства архитектуры, тормозящего сейчас наше движение в светлое будущее, мы как раз и имеем то настоящее, которое имеем. А это, наверное, тоже чего-то стоит…
Опубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 года Если верить физикам, фундаментальные свойства Вселенной от времени не зависят. Законы, правящие материей, всегда действовали и будут действовать одинаково — вчера, сегодня или миллион лет назад.
Так что менять физический мир, с которым мы сталкиваемся в повседневной жизни, — занятие непростое.
Кому-то это удается — и в результате вместо пещер мы живем в небоскребах, перемещаемся на дальние расстояния не бегом и даже не верхом, а в автомобилях и поездах, а для связи используем не голубиную почту, а электронную.
Казалось бы, совсем другое дело — менять пространство виртуальное, созданное самим людьми и далекое от бренной материи и ее ограничений. Достаточно одной революционной идеи, нескольких десятков строк кода, и — добро пожаловать в новый мир! Однако, как оказывается, вселенная "чистого разума" обладает своей инерцией и тоже сопротивляется изменениям, порой с завидным упрямством.
Сегодняшняя тема номера посвящена тому, как меняется Веб — самая известная, популярная и динамичная из существующих на сегодня "виртуальных" сред. Как те самые "революционные идеи" сталкиваются с существующими технологиями, пытаются их изменить — и сами меняются под их воздействием.
Это противостояние неизбежно. Одним из ключевых факторов, определивших успех и даже сам факт существования современного Веба, был его "прощающий" характер, благодаря которому даже самый криворукий вебмастер мог написать свою страничку, что называется, особо не заморачиваясь соответствием стандартам, семантической разметкой и прочими глупостями. Вследствие этого несовершенства архитектуры, тормозящего сейчас наше движение в светлое будущее, мы как раз и имеем то настоящее, которое имеем. А это, наверное, тоже чего-то стоит…
Ахиллесова пята Семантического Веба
Ахиллесова пята Семантического ВебаАвтор:
Виктор Шепелев
Опубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 года Тим Бернерс-Ли, много лет назад создавший Веб, долгое время был привычен нам в амплуа участника комитетов, радетеля и охранителя, авторитетного, но кабинетного ученого. Однако в последние месяцы досточтимому сэру стало тесно в этом амплуа: то опубликует программную статью про Giant Global Graph — будущее Веба [См. "Обалдеть, завтра дайте три!" ("КТ" #717).], то интервью даст, с легкой руки журналистов получившее кодовое название "Создатель Веба рассказывает, где смерть Гуглова"[ См., например]. Нетрудно заметить, что и в этих новых статьях/интервью отец-основатель продвигает все ту же идею, которую продвигал в предшествующие семь лет: идею (фанфары!) Семантического Веба. А, простите, что это? И, кстати, почему все эти долгие годы (за которые в Интернете изменилось чуть ли не все) Прекрасный Новый Веб неизменно остается "делом отдаленного, но близкого будущего"?
Как известно, Веб и составляющие его технологии — HTML (формат описания гипертекста), HTTP (протокол передачи гипертекста), URL (способ адресации гипертекстовых документов) — далеко не первая гипертекстовая система в мире. К тому моменту, как молодой выскочка-ядерщик заинтересовался темой, считалось, что известны инструменты, наработаны теории и технологии, и вообще — гипертекст это наше все и наше будущее (как только глупые люди поймут, сколько в нем преимуществ). И тут появляется Бернерс-Ли, тогда еще ни капельки не сэр, и создает систему, которая с возмутительной простотой и легкомыслием нарушает большинство принципов простоты ради — и завоевывает мир. (Заметим, что прототип Веба, персональная программа-для-управления данными Esquire, была куда более "серьезным" инструментом, нежели все достижения сегодняшних технологий, — она работала не просто со "ссылками куда-то", а со ссылками, включавшими описание отношений между данными, проверявшими наличие и релевантность "конечной точки" и т. п.) Причины, по которым эта простота и "легкомысленность" Веба стали главным залогом его успеха, мы здесь рассматривать не будем (хотя бы потому, что автор уже делал это — см. "Таинственные формулы прогресса" в "КТ" #695). А рассмотрим мы — что с сегодняшним Вебом не так, какие проблемы порождает его простота и снисходительность.
А "не так", собственно, только одно — набор элементов, предоставляемых HTML, слишком мал и однообразен для описания богатой семантики современной веб-страницы — даже с учетом всех благих рекомендаций по отделению представления от содержания и использованию таблиц стилей (CSS).
Ведь все элементы HTML, в общем-то, предназначены для описания только и именно текста, статьи, документа; все это богатство (абзац, заголовок, таблица и пр.) отнюдь не рассчитано на страницы сложной структуры, состоящие из многих сегментов — верхнего меню, бокового меню, подвала, панели ссылок… то есть всего, что составляет практически любой современный сайт. Таблицы стилей скрывают от нас, что с точки зрения языка разметки мы смотрим не на "страницу с меню и блоком навигации", а на сотню одинаковых блоков или (упаси господи) здоровенную таблицу из полутора сотен ячеек. Еще более проблемный элемент — собственно ссылка, основа и связующее звено гипертекста.
Опять же, с точки зрения семантики любая ссылка выглядит одинаково, и отличить ссылки внутренней навигации от несущих смысл информационных связей (а также от ссылок "по дружбе", ссылок на "студию, которая делала этот сайт", и т. п.) может только естественный интеллект (вооруженный к тому же современным браузером, изображающим документ примерно так, как предполагал его автор). И это если не говорить о "ссылках", выглядящих как таковые, но никуда не ссылающихся, а открывающих новые окна, выполняющих AJAX-запросы и делающих много других, крайне полезных, но никак в семантику ссылки не укладывающихся дел [Некоторые из этих проблем пытается исправить будущий стандарт HTML5, вводящий, например, элемент ‹nav› для обозначения навигационной части страницы;другие проблемы решаются и в сегодняшнем HTML’е при помощи менее известных "фич" вроде возможности указать атрибут "rel"(relation) для любой ссылки, обозначив ее отношение к текущему документу. Но все это лишь случайные "поправки" — тогда как необходимо комплексное решение проблемы].
То есть изначальная (и нынешняя) структура HTML, во-первых, не учитывает разделения любой вебстраницы на "приложение" (навигацию, служебные и информационные элементы) и его "контент"; вовторых, эта самая структура неспособна адекватно отобразить отношения между частями сложного контента, действуя лишь в терминах "это идет за этим" и "это стоит рядом с тем". Соответственно, любая маломальски нетривиальная задача по работе с информацией в Вебе не может быть выполнена автоматизированным средством анализа, а только — человеком, отличающим оформление от контента, существенную информацию от факультативной, определяющим значимость ссылок "на глаз".
Тим Бернерс-Ли и его коллеги осознали эти проблемы уже довольно давно и, в общем и целом, сделали вывод, что "с самого начала надо было не так".
Вот это самое "не так", которое одно время казалось будущей заменой нынешнего Веба, и получило название Semantic Web — Семантической Паутины.
В чем же радикальное отличие Прекрасного Нового Веба, каким он видится тем, кто "знает, как надо"?
Разберемся для начала формально, по спецификациям и стандартам W3C.
Итак, предполагается, что Семантический Веб состоит из ресурсов, информация на которых описана на языке RDF (Resource Description Framework).
Грубо говоря, в каждом случае составляется нечто вроде анкеты. В случае порнокартинки [Этан Цукерман (Ethan Zuckerman) утверждает, что любая востребованная среда привлекает порнографию и социальных активистов;если нет порнографии — среда не работает, нет активистов — работает, но плохо.], например, будут описаны характеристики самого изображения, изображенных личностей и их занятий в достаточно строгом, иерархическом формате, который может быть однозначно разобран алгоритмом [Вообще говоря, распространено мнение, что RDF — подмножество языка разметки данных XML. На самом деле это не так: XML лишь один из форматов, в котором может быть сохранено RDFописание; другой, например, формат — Notation 3.Модель данных RDF, в отличие от XML, является не иерархической ("автор" является частью "картинки", являющейся частью "набора картинок"), а предикатной (автор и картинка находятся в отношениях "является автором", картинка и галерея — в отношениях "входит в"); графически данные, описанные в RDF, представляются графом, а не деревом]. Ресурс, информация на котором описана таким образом, гораздо более гибок в использовании, нежели традиционный HTML-сайт: например, в гипотетическом примере с порнокартинкой можно одним движением запросить у ресурса его данные, отсортированные и отобранные по любому из свойств этих картинок, — причем в отборе и сортировке пользователь будет полагаться не на создателей ресурса и его встроенный поисковик, а только на своего интеллектуального (программного) агента, который переберет все доступные данные, проанализирует их описания и выберет/отсортирует в соответствии с запросом пользователя.
Но главная цель и сущность Семантического Веба не в том, чтобы информация с отдельного ресурса была представлена в логичном, машиночитаемом виде, а в синергическом эффекте, происходящем от наличия глобальной сети ресурсов, "говорящих" на общем формальном языке. Переходя от уровня отдельного ресурса на уровень всеобщей Сети, наш гипотетический любитель клубнички может получить от своего интеллектуального агента биографии понравившихся моделей (включая сразу и ссыл ки на покупку соответствующей продукции) или, скажем, описания по применению заинтересовавших подходов к проблеме, — и все это не потому, что авторы единственного сайта сочли нужным проставить соответствующие ссылки, а потому, что мы оперируем в рамках сети данных (формально описанных в терминах общих языков и словарей) вместо нынешней сети страниц.
Чтобы все это работало, понадобятся еще некоторые компоненты, кроме собственно языка описания данных. Нужны общие термины-предикаты допустимые разделы и "поля" для "анкет" разных типов. Например, если в RDF-документе записано, что он использует схему данных[Описанную, к примеру, в формате RDF Schema. Форматов существует несколько, но главное не формат, а декларация намерений: схема может быть вообще никак не описана, а только определяться уникальным идентификатором. Например, схема дополнительных полей для описания блога от Яндекса не имеет публичного описания, но любой документ, в котором есть URL-идентификатор этой схемы — " http://blogs.yandex.ru/schema/foaf/", — декларирует, какое значение он придает предикатам вроде "blogActivity" или "bio".], обозначаемую таким-то уникальным идентификатором (как правило, таким идентификатором служит адрес в Вебе, где выложена сама схема или документация по ней), это сразу говорит интеллектуальному агенту, какие поля он может встретить (и позволяет агенту определить, знает ли он способ обработки таких типов документов).
Следующий компонент, позволяющий интеллектуальному агенту уверенно чувствовать себя в сети данных, — это онтологии (классификации и описания свойств) общих понятий и отношений между ними.
Ссылки на онтологии позволяют интеллектуальным агентам понимать, что если рассматриваемые данные описывают "страну", то у нее может быть ссылка на ровно одно данное типа "столица", несколько ссылок на "граничащие страны" и т. п. Другой пример (возвращаясь к нашей клубнике): если разные ресурсы используют в качестве названий… хм… жанров не просто текстовые строки, а ссылки на термины одной общей онтологии порножанров, лежащей где-то в Сети, то программный интеллектуальный агент сможет на всех этих ресурсах выполнять едино образные запросы с гарантированным результатом, независимо от того, какими словесами обозначены жанры в пользовательском интерфейсе. Самый известный и "официальный" (в смысле наличия W3C-стандарта), хотя и не единственный язык описания онтологий называется OWL (Web Ontology Language)[Один из создателей языка о несоответствии названия аббревиатуре: "Ну, может же язык, созданный ради логичности и последовательности, быть хоть в чем-то непоследовательным?"]. В более ранних описаниях Семантического Веба OWL фигурирует как "единственно верный" язык описания онтологий, но реальность часто корректирует стандарты, делая их более вариативными, — сегодняшний FAQ на сайте W3Cуказывает лишь, что "необходим язык описания онтологий, например OWL". Другие более-менее распространенные языки — SKOS, созданный европейским семантическим сообществом, и DAML+OIL, выращенный в недрах DARPA.
Наконец, очевидно, что нужны и стандартные средства обработки RDF-данных — описания запросоввыборок [Эту роль берет на себя язык SPARQL (во многом подобный языку SQL, используемому для запросов к обычным реляционным базам данных).] и систем логических выводов[Существует предложенный, но пока не принятый стандарт Rule Interchange Format (RIF).].
Итак, сводим воедино прекрасную картину Семантического Веба: все ресурсы Сети выглядят как "анкеты" на языке RDF, излагающие смысл, а не внешний вид; во всех имеются ссылки на схемы-описания полей этих анкет и словари общих терминов. Пользователь же вооружен не пассивным "браузером"просмотрщиком [Кстати, для установки аналогий в головах читателей — на официальном языке стандартов W3C браузер тоже называется "пользовательским агентом"], а активным интеллектуальным агентом, работающим на уровне данных (независимо от их источника), а не страниц. То есть: из онтологии популярных фотосайтов вытащил порносайты, отобрал с них изображения по восьмидесяти критериям вкуса пользователя и вывел аккуратным списочком, доступным для дальнейшей сортировки, фильтрации и вду-у-у-умчивого просмотра.
Вот почему сэр Тимоти считает, что "Гуглу капец": буде все "интересненькое" в мире опишется формальными RDF-описаниями, методы взаимодействия с Вебом станут (могут стать) принципиально другими. Изменятся (могут измениться) даже самые что ни на есть базовые вещи: единица "браузинга" по Семантическому Вебу уже не имеет ничего общего со "страницей" (единственным документом в каком бы то ни было формате, определяемым своим адресом-URL) — она может быть как маленькой частичкой огромного "документа", так и, наоборот, огромным описанием, составленным из фрагментов десятков документов-описаний со всей Сети. По сути (в экстремуме, в идеальной сети данных), загнуться или сильно изменить бизнес-модель придется не только поисковикам, но и блоговым платформам, онлайн-магазинам, фотохостингам… Останутся лишь "голые" производители, потребители и хостеры "голых" же данных и шустрые интеллектуальные агенты между ними.
Опубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 года Тим Бернерс-Ли, много лет назад создавший Веб, долгое время был привычен нам в амплуа участника комитетов, радетеля и охранителя, авторитетного, но кабинетного ученого. Однако в последние месяцы досточтимому сэру стало тесно в этом амплуа: то опубликует программную статью про Giant Global Graph — будущее Веба [См. "Обалдеть, завтра дайте три!" ("КТ" #717).], то интервью даст, с легкой руки журналистов получившее кодовое название "Создатель Веба рассказывает, где смерть Гуглова"[ См., например]. Нетрудно заметить, что и в этих новых статьях/интервью отец-основатель продвигает все ту же идею, которую продвигал в предшествующие семь лет: идею (фанфары!) Семантического Веба. А, простите, что это? И, кстати, почему все эти долгие годы (за которые в Интернете изменилось чуть ли не все) Прекрасный Новый Веб неизменно остается "делом отдаленного, но близкого будущего"?
Замах: Обыкновенный веб
Как известно, Веб и составляющие его технологии — HTML (формат описания гипертекста), HTTP (протокол передачи гипертекста), URL (способ адресации гипертекстовых документов) — далеко не первая гипертекстовая система в мире. К тому моменту, как молодой выскочка-ядерщик заинтересовался темой, считалось, что известны инструменты, наработаны теории и технологии, и вообще — гипертекст это наше все и наше будущее (как только глупые люди поймут, сколько в нем преимуществ). И тут появляется Бернерс-Ли, тогда еще ни капельки не сэр, и создает систему, которая с возмутительной простотой и легкомыслием нарушает большинство принципов простоты ради — и завоевывает мир. (Заметим, что прототип Веба, персональная программа-для-управления данными Esquire, была куда более "серьезным" инструментом, нежели все достижения сегодняшних технологий, — она работала не просто со "ссылками куда-то", а со ссылками, включавшими описание отношений между данными, проверявшими наличие и релевантность "конечной точки" и т. п.) Причины, по которым эта простота и "легкомысленность" Веба стали главным залогом его успеха, мы здесь рассматривать не будем (хотя бы потому, что автор уже делал это — см. "Таинственные формулы прогресса" в "КТ" #695). А рассмотрим мы — что с сегодняшним Вебом не так, какие проблемы порождает его простота и снисходительность.
А "не так", собственно, только одно — набор элементов, предоставляемых HTML, слишком мал и однообразен для описания богатой семантики современной веб-страницы — даже с учетом всех благих рекомендаций по отделению представления от содержания и использованию таблиц стилей (CSS).
Ведь все элементы HTML, в общем-то, предназначены для описания только и именно текста, статьи, документа; все это богатство (абзац, заголовок, таблица и пр.) отнюдь не рассчитано на страницы сложной структуры, состоящие из многих сегментов — верхнего меню, бокового меню, подвала, панели ссылок… то есть всего, что составляет практически любой современный сайт. Таблицы стилей скрывают от нас, что с точки зрения языка разметки мы смотрим не на "страницу с меню и блоком навигации", а на сотню одинаковых блоков или (упаси господи) здоровенную таблицу из полутора сотен ячеек. Еще более проблемный элемент — собственно ссылка, основа и связующее звено гипертекста.
Опять же, с точки зрения семантики любая ссылка выглядит одинаково, и отличить ссылки внутренней навигации от несущих смысл информационных связей (а также от ссылок "по дружбе", ссылок на "студию, которая делала этот сайт", и т. п.) может только естественный интеллект (вооруженный к тому же современным браузером, изображающим документ примерно так, как предполагал его автор). И это если не говорить о "ссылках", выглядящих как таковые, но никуда не ссылающихся, а открывающих новые окна, выполняющих AJAX-запросы и делающих много других, крайне полезных, но никак в семантику ссылки не укладывающихся дел [Некоторые из этих проблем пытается исправить будущий стандарт HTML5, вводящий, например, элемент ‹nav› для обозначения навигационной части страницы;другие проблемы решаются и в сегодняшнем HTML’е при помощи менее известных "фич" вроде возможности указать атрибут "rel"(relation) для любой ссылки, обозначив ее отношение к текущему документу. Но все это лишь случайные "поправки" — тогда как необходимо комплексное решение проблемы].
То есть изначальная (и нынешняя) структура HTML, во-первых, не учитывает разделения любой вебстраницы на "приложение" (навигацию, служебные и информационные элементы) и его "контент"; вовторых, эта самая структура неспособна адекватно отобразить отношения между частями сложного контента, действуя лишь в терминах "это идет за этим" и "это стоит рядом с тем". Соответственно, любая маломальски нетривиальная задача по работе с информацией в Вебе не может быть выполнена автоматизированным средством анализа, а только — человеком, отличающим оформление от контента, существенную информацию от факультативной, определяющим значимость ссылок "на глаз".
Тим Бернерс-Ли и его коллеги осознали эти проблемы уже довольно давно и, в общем и целом, сделали вывод, что "с самого начала надо было не так".
Вот это самое "не так", которое одно время казалось будущей заменой нынешнего Веба, и получило название Semantic Web — Семантической Паутины.
Прыжок: Прекрасный новый веб
В чем же радикальное отличие Прекрасного Нового Веба, каким он видится тем, кто "знает, как надо"?
Разберемся для начала формально, по спецификациям и стандартам W3C.
Итак, предполагается, что Семантический Веб состоит из ресурсов, информация на которых описана на языке RDF (Resource Description Framework).
Грубо говоря, в каждом случае составляется нечто вроде анкеты. В случае порнокартинки [Этан Цукерман (Ethan Zuckerman) утверждает, что любая востребованная среда привлекает порнографию и социальных активистов;если нет порнографии — среда не работает, нет активистов — работает, но плохо.], например, будут описаны характеристики самого изображения, изображенных личностей и их занятий в достаточно строгом, иерархическом формате, который может быть однозначно разобран алгоритмом [Вообще говоря, распространено мнение, что RDF — подмножество языка разметки данных XML. На самом деле это не так: XML лишь один из форматов, в котором может быть сохранено RDFописание; другой, например, формат — Notation 3.Модель данных RDF, в отличие от XML, является не иерархической ("автор" является частью "картинки", являющейся частью "набора картинок"), а предикатной (автор и картинка находятся в отношениях "является автором", картинка и галерея — в отношениях "входит в"); графически данные, описанные в RDF, представляются графом, а не деревом]. Ресурс, информация на котором описана таким образом, гораздо более гибок в использовании, нежели традиционный HTML-сайт: например, в гипотетическом примере с порнокартинкой можно одним движением запросить у ресурса его данные, отсортированные и отобранные по любому из свойств этих картинок, — причем в отборе и сортировке пользователь будет полагаться не на создателей ресурса и его встроенный поисковик, а только на своего интеллектуального (программного) агента, который переберет все доступные данные, проанализирует их описания и выберет/отсортирует в соответствии с запросом пользователя.
Но главная цель и сущность Семантического Веба не в том, чтобы информация с отдельного ресурса была представлена в логичном, машиночитаемом виде, а в синергическом эффекте, происходящем от наличия глобальной сети ресурсов, "говорящих" на общем формальном языке. Переходя от уровня отдельного ресурса на уровень всеобщей Сети, наш гипотетический любитель клубнички может получить от своего интеллектуального агента биографии понравившихся моделей (включая сразу и ссыл ки на покупку соответствующей продукции) или, скажем, описания по применению заинтересовавших подходов к проблеме, — и все это не потому, что авторы единственного сайта сочли нужным проставить соответствующие ссылки, а потому, что мы оперируем в рамках сети данных (формально описанных в терминах общих языков и словарей) вместо нынешней сети страниц.
Чтобы все это работало, понадобятся еще некоторые компоненты, кроме собственно языка описания данных. Нужны общие термины-предикаты допустимые разделы и "поля" для "анкет" разных типов. Например, если в RDF-документе записано, что он использует схему данных[Описанную, к примеру, в формате RDF Schema. Форматов существует несколько, но главное не формат, а декларация намерений: схема может быть вообще никак не описана, а только определяться уникальным идентификатором. Например, схема дополнительных полей для описания блога от Яндекса не имеет публичного описания, но любой документ, в котором есть URL-идентификатор этой схемы — " http://blogs.yandex.ru/schema/foaf/", — декларирует, какое значение он придает предикатам вроде "blogActivity" или "bio".], обозначаемую таким-то уникальным идентификатором (как правило, таким идентификатором служит адрес в Вебе, где выложена сама схема или документация по ней), это сразу говорит интеллектуальному агенту, какие поля он может встретить (и позволяет агенту определить, знает ли он способ обработки таких типов документов).
Следующий компонент, позволяющий интеллектуальному агенту уверенно чувствовать себя в сети данных, — это онтологии (классификации и описания свойств) общих понятий и отношений между ними.
Ссылки на онтологии позволяют интеллектуальным агентам понимать, что если рассматриваемые данные описывают "страну", то у нее может быть ссылка на ровно одно данное типа "столица", несколько ссылок на "граничащие страны" и т. п. Другой пример (возвращаясь к нашей клубнике): если разные ресурсы используют в качестве названий… хм… жанров не просто текстовые строки, а ссылки на термины одной общей онтологии порножанров, лежащей где-то в Сети, то программный интеллектуальный агент сможет на всех этих ресурсах выполнять едино образные запросы с гарантированным результатом, независимо от того, какими словесами обозначены жанры в пользовательском интерфейсе. Самый известный и "официальный" (в смысле наличия W3C-стандарта), хотя и не единственный язык описания онтологий называется OWL (Web Ontology Language)[Один из создателей языка о несоответствии названия аббревиатуре: "Ну, может же язык, созданный ради логичности и последовательности, быть хоть в чем-то непоследовательным?"]. В более ранних описаниях Семантического Веба OWL фигурирует как "единственно верный" язык описания онтологий, но реальность часто корректирует стандарты, делая их более вариативными, — сегодняшний FAQ на сайте W3Cуказывает лишь, что "необходим язык описания онтологий, например OWL". Другие более-менее распространенные языки — SKOS, созданный европейским семантическим сообществом, и DAML+OIL, выращенный в недрах DARPA.
Наконец, очевидно, что нужны и стандартные средства обработки RDF-данных — описания запросоввыборок [Эту роль берет на себя язык SPARQL (во многом подобный языку SQL, используемому для запросов к обычным реляционным базам данных).] и систем логических выводов[Существует предложенный, но пока не принятый стандарт Rule Interchange Format (RIF).].
Итак, сводим воедино прекрасную картину Семантического Веба: все ресурсы Сети выглядят как "анкеты" на языке RDF, излагающие смысл, а не внешний вид; во всех имеются ссылки на схемы-описания полей этих анкет и словари общих терминов. Пользователь же вооружен не пассивным "браузером"просмотрщиком [Кстати, для установки аналогий в головах читателей — на официальном языке стандартов W3C браузер тоже называется "пользовательским агентом"], а активным интеллектуальным агентом, работающим на уровне данных (независимо от их источника), а не страниц. То есть: из онтологии популярных фотосайтов вытащил порносайты, отобрал с них изображения по восьмидесяти критериям вкуса пользователя и вывел аккуратным списочком, доступным для дальнейшей сортировки, фильтрации и вду-у-у-умчивого просмотра.
Вот почему сэр Тимоти считает, что "Гуглу капец": буде все "интересненькое" в мире опишется формальными RDF-описаниями, методы взаимодействия с Вебом станут (могут стать) принципиально другими. Изменятся (могут измениться) даже самые что ни на есть базовые вещи: единица "браузинга" по Семантическому Вебу уже не имеет ничего общего со "страницей" (единственным документом в каком бы то ни было формате, определяемым своим адресом-URL) — она может быть как маленькой частичкой огромного "документа", так и, наоборот, огромным описанием, составленным из фрагментов десятков документов-описаний со всей Сети. По сути (в экстремуме, в идеальной сети данных), загнуться или сильно изменить бизнес-модель придется не только поисковикам, но и блоговым платформам, онлайн-магазинам, фотохостингам… Останутся лишь "голые" производители, потребители и хостеры "голых" же данных и шустрые интеллектуальные агенты между ними.