TheLib.Ru » Компьютеры » Компьютерра » Журнал «Компьютерра» №36 от 04 октября 2005 года » онлайн-чтение (стр. 5)

Прошло почти полвека, а коробку все никак не могут вытащить из ручки.
Окончательно, он нашел его. Я сошла с ума, какая досада.

Это же была бессловесная машина. Я сказал «бессловесная»? У нее были все органы чувств. Она даже могла говорить. Могла и говорила. Она болтала без передышки. И слушала все наши разговоры. Она читала через наши плечи и давала непрошеные советы, когда мы играли в покер. Порой нам хотелось убить ее, да вот убить робота нельзя… такого совершенного.

Клиффорд Саймак, «Прелесть»

Моя твоя не понимай

   Описывая реально доступные сегодня технологии, мы старались не распыляться и уделили внимание лишь тем аспектам, которые, на наш взгляд, важны для построения диалоговых интерфейсов. Поэтому в разделе о машинном переводе обсуждается только полный автоматический машинный перевод (хотя есть разработки, предполагающие участие человека, — и у них качество перевода в целом выше), а в разделе о технологии распознавании речи лишь мельком упомянули о технологии распознавания голоса по телефонной линии, которая не особенно интересна в аспекте построения диалоговых интерфейсов, но коммерчески вполне успешна. Но все равно впечатление получается двойственное.
   С одной стороны, мы уже многое умеем. И построить систему, которая будет поддерживать «светский разговор», давно не составляет труда. В этом году приз Лёбнера (за псевдопрохождение теста Тюринга) получил бот Jabberwocky, с которым можно разговаривать часами. И голос синтезировать у нас тоже получается хорошо (правда, не только за счет технологий, но и за счет человеческой способности к узнаванию образов). С распознаванием речи, конечно, дела обстоят не ахти, но научимся и распознавать.
   То есть построить диалоговый интерфейс с заданными командами на уровне «открой файл», «сохрани изменения» и «закрой файл» мы можем уже сегодня (и такие продукты есть).
   Тем не менее остается еще один, самый главный кирпичик. Если мы хотим, чтобы общение с компьютером было продуктивным, компьютер должен нас понимать. Собственно, natural language understanding — это огромное междисциплинарное направление, на которое и отдельной темы номера не хватит, но не нужно быть семи пядей во лбу, чтобы прийти к очевидному выводу: построение эффективных речевых коммуникаций невозможно без нахождения обоих собеседников в одном и том же контексте.
   В разделе, посвященном машинному переводу, мы приводили пример с коробкой в ручке, но вот другой пример, никак не связанный с переводами. Допустим, у нас есть компьютер, загруженный по самое не хочу словарями, семантикой, лингвистическими правилами, статистическими алгоритмами и прочая, и прочая, и прочая. Что он ответит на элементарный вопрос «есть ли вода в холодильнике?» Нормальный компьютер, конечно же, ответит, что вода в холодильнике есть. Во всяком холодильнике в любой момент времени можно найти множество молекул воды. На любой вкус. При этом компьютер не путает определения (как он делал в случае с «pen»). Формально он прав. Но мы-то спрашивали совсем о другом.
   Человек, услышав тот же вопрос, сразу поймет, что имеется в виду не просто вода, а бутылка с минералкой. Иными словами, компьютер неправильно (с нашей точки зрения) отвечает на вопрос, хотя вся необходимая для ответа информация ему доступна.
   Проблема в том, что речевая коммуникация — это не вещь в себе. Это верхушка айсберга, и если мы пытаемся подтянуть компьютеры до нашего уровня, то не можем усовершенствовать только их коммуникационные способности. Нельзя научить улитку французскому языку. И очень вероятно, что все описанные в статье задачи — распознавание речи, синтез текста, качественный машинный перевод — неразрешимы, пока не решена более глобальная задача: построение искусственного интеллекта.
   Разработчики не любят говорить на эту тему. Задача создания ИИ давно уже табуирована. Но странное совпадение: сразу несколько исследовательских организаций (включая MIT Labs и Марвина Мински) работает сегодня над компьютерными программами (стоит ли называть их программами — тоже вопрос), обладающими зачатками здравого смысла и умеющими учиться. Они обучают нейросети простым, интуитивно понятным каждому человеку вещам. И не исключено, что когда-нибудь эти разработки действительно дадут нам возможность общаться с компьютером, не задумываясь о том, поймет он нас или нет.

   В 1988 году Робин Бердженер (Robin Burgener) построил нейросеть для игры в «двадцать вопросов» (20Q.net). С тех пор сеть сыграла миллионы партий и теперь зачастую справляется с загадкой намного раньше двадцатого вопроса. Сам Бердженер уверен, что за это время сеть не только развила свои способности в угадывании, но и обрела некоторые личностные характеристики («у нее бывают дни, когда из рук все валится, а иногда она в ударе»).

   Звучит фантастично? Пока — да.

HDR-HC1E от Sony.
   «Огород» о ней поневоле превращается, — кроме отчета о самой игрушке (которая так хороша, что впервые за долгое время мне просто не захотелось выпускать ее из рук и я даже начал прикидывать свои ожидаемые сверхплановые гонорары: черный цвет, толстый серебристый цейссовский, с десятикратным зумом, объектив…), — в поле размышлений об этом продвигаемом формате вообще и о проблемах, которые имеют быть место с ним сегодня, ибо я столкнулся с рядом из них непосредственно в процессе тестирования.
   Начну с проблем: у меня (как, полагаю, и у многих других) все еще нет HD-телевизора, на котором можно все это увидеть в полной красе. Такие телевизоры, с надписью «1080 ready» (впрочем, надпись не дает гарантии, что внутри и впрямь стоит развертка на все 1080 линий, но только, что картинка наверняка будет понята и отмасштабирована), уже есть в магазинах, — но ведь это ж надо куда-то девать свой отличный и великолепно работающий Grundig (купленный в свое время за заметные для меня деньги) и искать, на что купить новый. Во-вторых, с чего смотреть отснятое? Можно, конечно, прямо с камеры, с помощью прилагаемого к ней компонентного кабеля или FireWire и используя ее, как воспроизводящее устройство, — но надолго ли хватит лентопротяжки? HDV-плейеры реально, сколько мне известно, еще не существуют. Я даже не в курсе, существует ли — хоть предварительно — формат записи HDV на используемые сегодня диски: однослойный DVD вместит чуть больше десяти минут Высокого Видео… Значит, надо ждать HD DVD и Blu-ray… Или гнать видео прямо с компьютера. Далее: требования к компьютеру — чтобы слить HD-Video и поколдовать над ним — достаточно высоки: мой, недавно проапгрейженный, едва-едва удовлетворяет им: процессор не медленнее, чем трехгигагерцовый Pentium, памяти не меньше гигабайта, видеокарта и монитор, поддерживающие разрешение не менее чем 1440х1080 (лучше всего — 1920х1080) и RAID-массив…
   Далее: камеру я получил в представительстве как сэмпл, но мне сказали, что и в продажном варианте она комплектоваться софтом для слива на компьютер и хотя бы элементарного редактирования — не будет. Потому что, мол, такой софт нынче стоит сравнимо с самой камерой. Однако, — уверили меня, — некоторые ноутбуки Vaio, из тех, что подороже, HD-софтом комплектуются. Разумеется, к российским юзерам все это не относится, они купят нужный софт на «Горбушке» заметно дешевле, — однако надо же еще дождаться времени, когда HDV распространится настолько, что станет выгодно такой софт пиратить. У меня еще не так давно, со времен тестирования Liquid Edition (который на то время чуть ли не единственный понимал HDV; сейчас последние версии популярных видеоредакторов понимают тоже или, во всяком случае, имеют понимающие плагины), стояла эта программа, но в один прекрасный момент я ее срыл, чтоб места не занимала, напрасно понадеявшись, что, когда придет пора тестировать HDV-камеру, необходимый софт к ней будет приложен… И вот камера в руках, а посмотреть снятое ею видео, кроме как на крохотном камерном дисплейчике, вроде бы больше не на чем.
   Полез на сайт Ulead’а: за несколько сотен баксов там предлагают скачать HD-плагин к седьмой MediaStudio Pro, — дороговато для двухдневного тестирования. Позвонил всеведущему Блохнину, и он навел меня на пробную, месячную, бета-версию восьмой MediaStudio. «Тем более, — сказал Сергей, — HD-плагин к „семерке“ работает кое-как, а бета „восьмерки“ — более чем удовлетворительно». Полез туда, — а период тестирования у них закончился и скачать бету уже невозможно. Благо Блохнин в свое время ее скачал, и на следующий день она уже была у меня.
   Ладно! Чтоб не мурыжить читателя, расскажу о самом первом впечатлении, которое получил, просматривая результаты съемки HDR-HC1E прямо там, в представительстве Sony, на нескольких жидкокристаллических HDV-дисплеях, — по сравнению со стандартным DV. (Вообще говоря, HDV я видел и раньше: на презентациях и LG, и Fujitsu Siemens, — но с заранее заготовленных роликов, к которым всегда отношусь с подозрением).
   Меня — впечатлило. Весьма!
   Разница приблизительно такая, как между звуком с CD и звуком с SACD или 192-килогерцовым DVD Audio. Пока не посмотрел, меня глодали теоретические сомнения: да, дескать, площадь картинки увеличивается вчетверо, — но вместо честного, динамически несжатого DV я изначально получаю MPEG-2-картинку, то есть не нейтрализует ли сжатие картинки ее увеличение? Оказалось, что отнюдь: MPEG-2-артефактов я практически не заметил, а увеличение площади привело к появлению приятных мелких деталей, к исчезновению обычных в TV-формате нечеткостей и всему такому прочему. (В Sony мне пояснили, что HDV-камеры используют для сжатия специальную модификацию MPEG-2, так называемую MPEG-2 TS, то есть Transport Stream, — приспособленную к редактированию, — но это надо проверять и не в три дня, так что, полагаю, будет повод еще для одного или даже не одного «Огорода».)

***

После установки понимающего софта выяснилось, что для гладкого захвата и редактирования мощности компьютера едва хватает, с дерганьем и частичным пропуском кадров, — но проигрываются файлы без проблем: что новым, седьмым, WinDVD, что шестым PowerDVD (показывает битрейт 20 Мбит/с), что десятым MediaPlayer’ом. Правда, настоящего разрешения (1920х1080) моя карточка установить не позволила.
Обнаружилась еще одна забавность. Когда я — для статьи — стал «кэпчурить» стоп-кадры с помощью WinDVD, они оказались очень странного вида: размеры правильные, 1920х1080, но изображение, сплюснутое вдвое, занимает только верхнюю половину картинки, низ — чистое зеленое поле. После растяжки в Photoshop’е, картинка стала очень похожа на видеокадр. Думается, причина в том, что HDV 1080i есть формат чересстрочный, и WinDVD еще не научился его — в отличие от чересстрочного же стандартного TV-сигнала — правильно обрабатывать.