TheLib.Ru » Компьютеры » Компьютерра » Журнал «Компьютерра» № 18 от 16 мая 2006 года » онлайн-чтение (стр. 8)

Купить по-русски

   Крупные отечественные игроки на рынке интернет-поиска, как и их зарубежные коллеги, обзавелись собственными шоппинг-сервисами. «Яндекс» запустил информационно-справочную систему «Маркет», работающую с онлайновыми магазинами; Mail.ru приобрел сервис Torg.ru, тоже ориентированный на онлайн; у «Рамблера» появился проект «Покупки» (pokupki.rambler.ru), где можно найти как онлайн-, так и офлайн-предложения.
   В случае с «Яндекс.Маркетом» (больше полутора миллионов предложений от 977 магазинов) шопинг-сервис был интегрирован с некоторыми другими службами. В частности, при поиске в Сети «Яндекс» заодно ищет заданные ключевые слова в базе «Маркета», выводя и те и другие результаты на одной странице. Во многом популярность этого сервиса, заметно превосходящая конкурентные аналоги, основана именно на связке с общим поиском «Яндекса».
   Ассортимент «Маркета» разнообразен: от электроники до медицинских препаратов, однако шире всего представлены технические товары: компьютеры, фотоаппараты, бытовая техника, телефоны, оргтехника и т. п. Поиск можно начать, сделав запрос по ключевым словам, открыв нужную товарную категорию или выбрав брэнд производителя. Кроме того, при выборе подходящего предложения можно обратиться за советом к гуру.

Сервис «Гуру» — гордость разработчиков «Яндекс.Маркета». Система дает советы (вернее, задает наводящие вопросы) при выборе товара в 27 категориях (в основном, правда, речь идет все о той же парочке — бытовой технике и гаджетах), и они действительно могут оказаться полезными для людей, не очень хорошо ориентирующихся в технических тонкостях. Допустим, покупателю нужен КПК. Гуру спрашивает: «Изображение должно быть… монохромным, цветным, без разницы?» Покупатель выбирает нужный вариант ответа. Следующий вопрос: «Важно ли для вас время работы от аккумулятора (батареек)?» Возможные ответы: «Да, я часто буду использовать его вне дома», «Желательно, чтобы время работы было побольше», «Нет, не важно». Затем гуру интересуется, собираетесь ли вы подключать к КПК периферию, надо ли ему выходить в Интернет в ресторанах, гостиницах и аэропортах, нужен ли диктофон и др. Всего задается с десяток вопросов. По мере прохождения «теста» изменяется список предлагаемых моделей.
Если пользователь сам себе гуру, он может сразу указать все необходимые условия. В случае с КПК это компактность, цена, вес, ОС, GSM/GPRS, Wi-Fi, Bluetooth, разрешение, поддержка GPS, наличие встроенной камеры, USB-порта, поддержка Compact Flash I/II и т. д. После того как перечень кандидатов на покупку определен, можно отметить галочками наиболее понравившиеся и перейти в режим сравнения. Таблица в этом режиме выводится достаточно подробная — для КПК, например, предусмотрено 60 параметров.

   В «Яндекс.Маркете» тоже есть настройка под пользователя. На соответствующей странице можно указать основную и дополнительную валюты (рубль, доллар, евро, гривна), регион для доставки (по умолчанию определяется автоматически), количество предложений на странице. Можно также пересчитать цену в основную и дополнительную валюту по курсу ЦБ РФ или в рубли по курсу магазина.
   Проект «Рамблер Покупки» позволяет найти около 2 млн. товаров. Функциональность у «Покупок» минимальная: строка поиска, категория, регион, сортировка и ограничение по цене. Необычным можно назвать лишь наличие SMS-сервиса: жители Москвы и Московской области могут послать на короткий номер сообщение вида «GDE/модель товара» и получить информацию о минимальной цене в магазинах и номера контактных телефонов. Услуга платная: запрос обойдется в 0,4 у. е.
   Torg.ru, строго говоря, вообще нельзя отнести к группе comparison shopping, так как возможности сравнения цен он не предоставляет. В базе ресурса содержатся данные примерно о 200 тысячах товаров, разбитых по категориям, и при открытии категории выводится список, который можно отсортировать по названию или цене. После выбора товара пользователь перенаправляется на соответствующую страницу интернет-магазина. Вот, собственно, и все…
   Как видим, некоторые отечественные проекты в сфере товарного поиска ничуть не уступают зарубежным разработкам, а кое в чем и превосходят их. Но существующие системы еще далеки от совершенства. В частности, ни один из рунетовских сервисов пока не использует отзывы потребителей. Меж тем на Западе эта составляющая чрезвычайно востребована потребителями. «Первой ласточкой» в информационном сопровождении шопинга стал ресурс «Аппликата» [Еще одной уникальной особенностью «Аппликаты» является поиск и извлечение данных из прайс-листов в xml-формате], который со дня на день должен выйти из стадии бета-тестирования. На этом ресурсе поиск ведется не только по товарам, но и по тематическим статьям в интернет-изданиях. Если добавят сюда еще и блоги, будет совсем неплохо.
   Учитывая, что в России (и в реальной, и в виртуальной) потребительский сервис всегда был далек от идеала, отечественный аналог Epinions.com пришелся бы весьма кстати. Ну а раз есть спрос, рано или поздно появится и предложение.

Multilex 5.0 с множеством словарей и кучей дополнительных функций. Также на слуху у переводчиков словари под марками ECTACO и ETS , чьи терминологические базы в последних версиях исчисляются миллионами слов. Поэтому выбор словарей — дело вкуса или случая, то есть рекламы. Для себя, например, я выбрал связку из двух словарей. Первый — многоязычный Lingvo от ABBYY. С каждой версией он становится все объемнее и шустрее. Привлекает, что к основной базе можно подключать словари, созданные пользователями. Помимо известного списка на сайте www.lingvoda.ru, в Интернете можно найти сотни словарей по самым разным языковым парам и огромному числу тематик, а при желании и самому внести вклад в расширение базы бесплатных словарей. Для этого словарь поставляется вместе с компилятором языка DSL, позволяющим создавать в формате Lingvo собственные словари и делиться ими с другими переводчиками. Еще дальше по пути доступности пошел проект Multitran, в котором действует та же концепция открытой информационной системы, что и в Wikipedia. В отличие от отдельных словарей Lingvo, в Multitran работает принцип единого словаря, то есть все тематики, где встречается искомый термин, выдаются одним списком, благодаря чему упрощается пополнение словарной базы. Возможность оперативного добавления одиночных терминов делает процесс обновления словаря непрерывным. Опыт переводческого сообщества перенимается, если можно так выразиться, с колес. Основная сетевая версия словаря доступна по адресу www.multitran.ru, но есть и версия электронного словаря для Windows с возможностью пополнения новой лексикой через Интернет. Такая связка из двух электронных словарей прижилась не только на моем настольном компьютере, но и на КПК HP iPAQ 2410, а обе карманные версии Lingvo и Multitran уместились на флэш-карточке емкостью 256 Мбайт. Дополняя друг друга, эти электронные словари удовлетворяют примерно половину моих терминологических запросов. В остальном приходится руководствоваться глоссариями заказчиков, нормативной документацией и Интернетом. Об использовании онлайновых ресурсов в работе переводчика можно написать не одну статью. Здесь же упомяну о такой форме помощи, как терминологические запросы на переводческих порталах, самый известный из которых — ProZ . Какой же вывод можно сделать? В наши дни переводчик может, не вставая из-за компьютера, эффективно решить практически любую терминологическую задачу.

От MT к TM

   Как же все-таки обстоят дела с автоматизацией процесса? На какой стадии развития находятся системы автоматизированного перевода, по аналогии с Computer-Assisted Design (CAD) называемые Computer-Assisted Translation (CAT)? Не вдаваясь в лингвистические и технологические тонкости, попытаюсь обрисовать положение дел все с той же утилитарной позиции экономии времени. Первыми на ум приходят технологии машинного перевода, по-английски machine translation. В двух словах, они сводятся к грамматическому анализу, то есть переводу частей речи. Можно подключить словари по тематике оригинала и погадать по результату «перевода», о чем же хотели сказать авторы. Но если нужно не ознакомиться с оригиналом, а опубликовать его перевод, сэкономить время не удастся. «Белковый» переводчик затратит меньше времени на перевод оригинального документа, чем на переделку творения машинного «переводчика», даже если речь идет о больших объемах технической документации с высокой степенью рекуррентности.
   Для подобного рода работ в переводческой отрасли прижилась другая технология автоматизации процесса. Правда, прижилась в основном за границей, о чем можно судить даже по разнобою в переводах названия технологии translation memory. Кроме лобовой «переводческой памяти» встречается «накопительный перевод», «автоматизированный перевод» и даже «пул переводов». Подробная статья на эту тему со множеством ссылок есть в Wikipedia
   В общих чертах технология сводится к следующим процедурам. Вы загружаете исходный текст в программу переводческой памяти. Программа сегментирует текст, извлекает из своей базы ранее переведенных текстов совпадающие сегменты и выдает частично переведенный текст. Главное отличие от машинного перевода состоит в том, что базу переводческой памяти составляют сегменты из текстов, переведенных человеком. В качестве же сегмента или элемента переводческой памяти чаще всего берется предложение. Отсюда и концепция translation memory, которая основана на том, что предложения в предыдущих переводах можно использовать повторно. Очевидный выигрыш во времени частично нивелируется увеличением затрат на проверку качества перевода. И не только из-за того, что незамеченная ошибка может бесконечно повторяться, но и потому, что переводчик должен передать идею, мысль (словом, message) текста, а не переводить отдельные элементы в виде предложений.
   Тем не менее по мере ускорения процессов глобализации спрос на программы переводческой памяти растет. Цены на полные версии многих программ translation memory колеблются от 500 до 2500 долларов и обусловлены не столько технологией, сколько многообразием поддерживаемых форматов переводимой документации. В качестве примеров можно упомянуть STAR Transit и Deja Vu .
   Если же перед переводчиком не стоит задача переводить во всех мыслимых форматах, он может выбрать относительно дешевую программу WordFast, которая, в отличие от вышеупомянутых пакетов, не имеет собственной оболочки, а встраивается в Word.
   Мало-помалу отношение к этой технологии меняется и в России. Например, компания Promt включила в свою последнюю версию машинного «переводчика» функцию translation memory. Еще одним свидетельством растущего спроса на такого рода программы стало событие, не оставшееся без внимания переводческого сообщества. В июле прошлого года компания SDL объединилась с разработчиком самой популярной программы переводческой памяти Trados. По мере обострения конкурентной борьбы меняется и идеология переводческой деятельности. Все чаще говорят не столько о переводе документации на язык страны назначения, сколько о локализации продукта на десятки языков. Став крупнейшим игроком на рынке средств локализации, компания SDL заговорила уже о стратегии управления глобальными данными (Global Information Management).
   Впрочем, тема развития систем переводческой памяти и вообще средств автоматизации переводческого труда достойна не одной статьи в компьютерном журнале и привлечения участников разных сторон этого процесса. Меня же со своей колокольни интересует чисто практический вопрос: где место переводчика в процессе локализации? Начнем с того, что наше занятие еще долго будет оставаться очень трудоемким. В то же время перевод занимает в среднем лишь 40% общих расходов на локализацию, а остальное приходится на долю таких операций, как обработка файлов, форматирование, управление базами данных терминов и переводческой памяти, управление проектом, утверждение готового материала в стране целевого языка. Переводчику на этом конвейере обычно достается файл в формате программы переводческой памяти, где уже учтены предыдущие переводы по этому и подобным проектам и встроена терминологическая база. Некоторые особо продвинутые агентства разделяют работу до конца и не заставляют переводчика овладевать несвойственными ему навыками. В этом случае обработка документа в translation memory выполняется в агентстве, а переводчик получает в файлах Word сегментированный текст, не требующий форматирования и размеченный по степени совпадения с предыдущими переводами, а также глоссарий терминов по данному проекту. Результат работы переводчика снова вставляется в ту же программу для обновления баз данных переводческой памяти и терминологии. Таким образом, круг замыкается, и переводчик возвращается к идеальному варианту работы в текстовом редакторе, имея возможность целиком и полностью сосредоточиться на лингвистических задачах.
   Так что я пока не вижу в компьютере серьезного конкурента живому переводчику. Не обойтись им без нас. К сожалению.

ТЕХНОЛОГИИ: Из света в тень

   Автор: Максим Стеклов
   Нечасто случается, что технология, призванная решить определенные проблемы, не только их не решает, но и усугубляет. Но именно это случилось с технологией изображений с расширенным динамическим диапазоном (HDRI). Изначально предназначенная для повышения реалистичности фотографий и 3D-изображений, HDRI неожиданно стала удобным инструментом для творческого самовыражения и интересной игрушкой для многих любителей фотографии. Фотографы с удовольствием экспериментируют с новой технологией, превращая банальные пейзажи в изображения, напоминающие скорее картины, чем фотоснимки.
   А если переведенные в пространство RGB HDR-кадры меньше похожи на реальность, чем обычные карточки с заваленными тенями и пересвеченными лицами... Наверное, это проблемы реальности.

Дело о недостаточной точности

   Прежде чем перейти к рассказу о HDRI, необходимо вкратце рассказать, как записываются, хранятся и отображаются цифровые изображения сегодня. А также о том, как фиксирует изображение человеческий глаз.
   В модели RGB любой цвет кодируется тройкой целых чисел, описывающих соответственно интенсивность зеленого, синего или красного каналов. Например, черный цвет может быть представлен как (0, 0, 0), а белый — находящийся на противоположном конце шкалы — как (255, 255, 255). Таким образом, для отображения любой картинки у нас есть 16,7 млн. оттенков, а сама картинка называется восьмибитной (или 24-битной), потому что на каждый канал нам требуется 8 бит, а каждая точка изображения кодируется с помощью трех 8-битных чисел. Динамический диапазон (здесь: отношение максимальной интенсивности цвета к минимальной) такой цветовой модели составляет 28:1, или 256:1.
   Для 16-битных RGB-изображений (когда на каждый канал отводится уже не один байт, а два) теоретический динамический диапазон заметно больше и составляет 216:1, или 65536:1. Это впечатляет, если не вспоминать, что человеческое зрение способно улавливать освещение от 10-6 кд/кв. м до 108 кд/кв. м (), то есть имеет абсолютный диапазон 1014:1 (правда, человеческий глаз не может регистрировать свет во всем диапазоне одновременно; максимальный охват составляет от 10000 до 30000 к 1).
   Принципиальная недостаточность цветового пространства RGB усугубляется скромными аппаратными возможностями современных сенсоров и отображающих устройств. Реальная чувствительность сенсоров в цифровых фотокамерах, как правило, не превышает 1000:1 (теоретически она может быть и выше, в зависимости от матрицы, но ограничена сверху шумовыми эффектами). На выходе камера может давать хоть 12-битный, хоть 112-битный RAW, однако на динамический диапазон записанного в файл изображения это не повлияет, поскольку в нем просто физически нет необходимой информации.
   Мониторов, способных корректно отобразить 48-битную картинку с заявленным динамическим диапазоном, скажем, 10000:1, сегодня также не существует (за редкими и дорогими исключениями, но о них ниже).
   Дополнительный минус модели RGB (и, например, CMYK) в том, что она виртуальна и не привязана к реальным значениям, то есть является физически некорректной — и не может быть приведена к корректной модели без потерь, раз уж все показатели в ней задаются целыми числами, и их набор ограничен. Исправляет эту ситуацию схема HDRI (High Dynamic Range Imaging), в которой на каждый цветовой канал отводится 16 или 32 бита, а характеристики задаются не целыми, а вещественными числами, что позволяет полностью описывать доступный человеческому зрению диапазон с нужным уровнем детализации. Все остальные модели (включая RGB) называют моделями с низким динамическим диапазоном (Low Dynamic Range).
   (Так получилось, что словосочетание динамический диапазон в контексте HDR зачастую используется для обозначения разных, хотя и близких понятий — и для яркостного диапазона сцены, и для описания диапазона цветовой модели, и как синоним фотографической широты датчика. Это вносит некоторую путаницу.)

Изначально главными пропагандистами и пользователями HDRI были специалисты по трехмерной графике (см., например, статью «Фотореализм» в «КТ» #628), поскольку использование HDR позволяет без потерь и ошибок рассчитать освещенность созданной сцены. И пусть большую часть этой информации отобразить не удастся — даже те крохи, которые дойдут до зрителя, все равно создадут должный эффект и сделают искусственную картинку более реалистичной. И сегодня аббревиатура HDR в применении к компьютерной графике означает прежде всего повышенную фотореалистичность изображения, близость к тому, что можно получить с помощью фотоаппарата или кинокамеры.
Как ни странно, применение схожей технологии в фотографии дает обратный результат. У фотографов, экспериментирующих с HDR, получаются безумно красивые снимки, не страдающие излишней реалистичностью. Собственно, первое, что приходит в голову при знакомстве с HDRI-фотографиями, — как же здорово эти люди научились рисовать в 3D.

Дело о недостаточной освещенности

   Любой, кто хотя бы раз держал в руках фотоаппарат, сталкивался с тем, что при неверно подобранной экспозиции одни снимки получаются слишком темными, а другие — слишком светлыми. Однако даже оптимально выставленные параметры экспозиции не помогут, если у сцены, которую мы хотим снять, слишком широкий яркостный диапазон: или хорошо получатся детали, лежащие в тени, но засветятся светлые участки, или будут достоверно переданы светлые участки, но потеряются те, которые освещены недостаточно.
   До последнего времени фотографу оставалось либо подобрать другую композицию, с меньшей разницей между светом и тенью, либо сложить штатив и пойти домой.
   Наглядный пример подобной «неудобной» композиции — снимок из затемненной арки, сделанный в солнечный день. Человеческий глаз прекрасно различает и детали внутренней отделки, и то, что находится за ее пределами. Однако на снимке хорошо получится либо интерьер (при засвеченном выходе из туннеля), либо пейзаж, обрамленный в черную аркоподобную рамку (не исключены и промежуточные варианты, когда и в арке, и за ее пределами что-то можно разглядеть, но они обычно не более приятны глазу, нежели описанные крайности).
   Казалось бы, технология HDRI создана как раз для таких случаев, однако где взять недостающую информацию об общем яркостном диапазоне сцены? Ответ очевиден: нужно сделать несколько снимков с разными параметрами экспозиции и взять информацию из них, создав единое изображение с расширенным динамическим диапазоном.
   Любую инструкцию о создании HDR-изображений в домашних условиях можно свести к следующим пунктам:
   1. Установите фотоаппарат на штатив.
   2. Сделайте несколько снимков с разной экспозицией так, чтобы максимально охватить диапазон сцены (например: —2EV, оптимальное значение экспозиции, +2EV).
   3. Полученные файлы совместите в одном из программных продуктов для работы с HDR-изображениями (HDRShop, PhotoMatrix, Photoshop CS2 и т. п.).
   4. Преобразуйте ваше HDR-изображение в RGB для просмотра на обычном мониторе.
   Первый пункт достаточно очевиден. Так как нам придется совмещать несколько снимков, мы должны обеспечить их максимальную идентичность. По той же причине эта технология не подходит для создания HDR-изображений движущихся объектов. Хотя программное обеспечение предусматривает возможность автоматического выравнивания исходных снимков для последующего их совмещения, эта функция а) может сильно замедлить подготовку HDR-изображения, б) не рассчитана на случаи, когда объект на одном кадре находится в левой части изображения, а на другом — в правой.