TheLib.Ru » Компьютеры » Владимир Николаевич Яшин » Информатика: аппаратные средства персонального компьютера » онлайн-чтение (стр. 2)

   Исходя из вероятностного подхода к определению количества информации эти два символа двоичной знаковой системы можно рассматривать как два различных возможных события, поэтому за единицу количества информации принято такое количество информации, которое содержит сообщение, уменьшающее неопределенность знания в два раза (до получения событий их вероятность равна 0,5, после получения – 1, неопределенность уменьшается соответственно: 1/0,5 = 2, т. е. в 2 раза). Такая единица измерения информации называется битом (от англ. слова binary digit – двоичная цифра). Таким образом, в качестве меры для оценки количества информации на синтаксическом уровне, при условии двоичного кодирования, принят один бит.
   Следующей по величине единицей измерения количества информации является байт, представляющий собой последовательность, составленную из восьми бит, т. е.
   1 байт = 2³ бит = 8 бит.
   В информатике также широко используются кратные байту единицы измерения количества информации, однако в отличие от метрической системы мер, где в качестве множителей кратных единиц применяют коэффициент 10ⁿ, где п = 3, 6, 9 и т. д., в кратных единицах измерения количества информации используется коэффициент 2ⁿ. Выбор этот объясняется тем, что компьютер в основном оперирует числами не в десятичной, а в двоичной системе счисления.
   Кратные байту единицы измерения количества информации вводятся следующим образом:
   1 Килобайт (Кбайт) = 2¹⁰ байт = 1024 байт,
   1 Мегабайт (Мбайт) = 2¹⁰ Кбайт = 1024 Кбайт,
   1 Гигабайт (Гбайт) = 2¹⁰ Мбайт = 1024 Мбайт,
   1 Терабайт (Тбайт) = 2¹⁰ Гбайт = 1024 Гбайт,
   1 Петабайт (Пбайт) = 2¹⁰ Тбайт = 1024 Тбайт,
   1 Экзабайт (Эбайт) = 2¹⁰ Пбайт = 1024 Пбайт.
   Единицы измерения количества информации, в названии которых есть приставки «кило», «мега» и т. д., с точки зрения теории измерений не являются корректными, поскольку эти приставки используются в метрической системе мер, в которой в качестве множителей кратных единиц используется коэффициент 10ⁿ, где п = 3, 6, 9 и т. д. Для устранения этой некорректности международная организацией International Electrotechnical Commission, занимающаяся созданием стандартов для отрасли электронных технологий, утвердила ряд новых приставок для единиц измерения количества информации: киби (kibi), меби (mebi), гиби (gibi), теби (tebi), пети (peti), эксби (exbi). Однако пока используются старые обозначения единиц измерения количества информации, и требуется время, чтобы новые названия начали широко применяться.
   Вероятностный подход используется и при определении количества информации, представленной с помощью знаковых систем. Если рассматривать символы алфавита как множество возможных сообщений N, то количество информации, которое несет один знак алфавита, можно определить по формуле (1.1). При равновероятном появлении каждого знака алфавита в тексте сообщения для определения количества информации можно воспользоваться формулой (1.2).
   Количество информации, которое несет один знак алфавита, тем больше, чем больше знаков входит в этот алфавит. Количество знаков, входящих в алфавит, называется мощностью алфавита. Количество информации (информационный объем), содержащееся в сообщении, закодированном с помощью знаковой системы и содержащем определенное количество знаков (символов), определяется с помощью формулы:

где V – информационный объем сообщения; / = log₂N, информационный объем одного символа (знака); К – количество символов (знаков) в сообщении; N – мощность алфавита (количество знаков в алфавите).
Поясним вышесказанное в п. 1.2 на примерах.

Пример 1.1

   Определим, какое количество информации можно получить после реализации одного из шести событий. Вероятность первого события составляет 0,15; второго – 0,25; третьего – 0,2; четвертого – 0,12; пятого – 0,12; шестого – 0,1, т. е. Р₁ = 0,15; Р₂ = 0,25; Р₃ = 0,2; Р₄ = 0,18; Р₅ = 0,12; Р₆ = 0,1.
   Решение.
   Для определения количества информации применим формулу (1.1)

   Для вычисления этого выражения, содержащего логарифмы, воспользуемся сначала компьютерным калькулятором, а затем табличным процессором Microsoft (MS) Excel, входящим в интегрированный пакет программ MS Office ХР.
   Для вычисления с помощью компьютерного калькулятора выполним следующие действия.
   С помощью команды: [Кнопка Пуск – Программы – Стандартные – Калькулятор] запустим программу Калькулятор. После запуска программы выполним команду: [Вид – Инженерный] (рис. 1.3).

   Рис. 1.3. Инженерный калькулятор

   Кнопка log калькулятора производит вычисление десятичного (по основанию 10) логарифма отображаемого числа. Поскольку в нашем случае необходимо производить вычисления логарифмов по основанию 2, а данный калькулятор не позволяет этого делать, то необходимо воспользоваться известной формулой:
   log_bN = М · log_aN,
   где

В нашем случае соотношение примет вид: log₂N = M log₁₀N,
где

т. е log₂N = 3,322 · log₁₀N, и выражение для вычисления количества информации примет вид:

   При вычислении на калькуляторе используем кнопки: +/- (изменение знака отображаемого числа),() (открывающие и закрывающие скобки), log (логарифм числа по основанию 10) и т. д. Результат вычисления показан на рис. 1.3. Таким образом, количество информации I = 2,52 бит.
   Воспользуемся теперь табличным процессором MS Excel. Для запуска программы Excel выполним команду: [Кнопка Пуск – Программы – MS Office ХР – Microsoft Excel]. В ячейки А1, В1, С1, D1, E1, F1 открывшегося окна Excel запишем буквенные обозначения вероятностей Р₁, Р₂, P₃, Р₄, P₅, P₆ а в ячейку G1 – количество информации I, которое необходимо определить. Для написания нижних индексов у вероятностей Р₁ ÷ P₆ в ячейках А1, В1, С1, D1, E1, F1 выполним следующую команду: [Формат – Ячейки – Шрифт – Видоизменение (поставим флажок напротив нижнего индекса) ]. В ячейки А2, В2, С2, D2, Е2, F2 запишем соответствующие значения вероятностей.
   После записи значений в ячейки необходимо установить в них формат числа. Для этого необходимо выполнить следующую команду: [Формат – Ячейки – Число – Числовой (устанавливаем число десятичных знаков, равное двум) ]. Устанавливаем в ячейке G2 тот же числовой формат. В ячейку G2 записываем выражение = – (A2*LOG(A2;2) + B2*LOG(B2;2) + C2*LOG(C2;2) + D2*LOG(D2;2) + E2*LOG(E2;2) + F2*LOG(F2;2) ). После нажатия на клавиатуре компьютера клавиши <Enter>, в ячейке G2 получим искомый результат – I = 2,52 бит (рис. 1.4).

Рис. 1.4. Результат вычисления количества информации

Пример 1.2

   Определим, какое количество байт и бит информации содержится в сообщении, если его объем составляет 0,25 Кбайта.
   Решение.
   С помощью калькулятора определим количество байт и бит информации, которое содержится в данном сообщении:
   I = 0,25 Кбайт · 1024 байт/1 Кбайт = 256 байт;
   I = 256 байт · 8 бит/1 байт = 2048 бит.

Пример 1.3

   Определим мощность алфавита, с помощью которого передано сообщение, содержащее 4096 символов, если информационный объем сообщения составляет 2 Кбайта.
   Решение.
   С помощью калькулятора переведем информационный объем сообщения из килобайт в биты:
   V = 2 Кбайт 1024 байт/1 Кбайт = 2048 байт 8 бит/1 байт = 16384 бит.
   Определим количество бит, приходящееся на один символ (информационный объем одного символа) в алфавите:
   I = 16 384 бит/4096 = 4 бит.
   Используя формулу (1.3), определим мощность алфавита (количество символов в алфавите) :
   N = 2^I = 2⁴ = 16.
   Как уже отмечалось, если принять во внимание только свойство информации, связанное с ее смысловым содержанием, то при определении понятия информации можно ограничиться смысловым, или семантическим, уровнем рассмотрения этого понятия.
   На семантическом уровне информация рассматривается по ее содержанию, отражающему состояние отдельного объекта или системы в целом. При этом не учитывается ее полезность для получателя информации. На данном уровне изучаются отношения между знаками, их предметными и смысловыми значениями (см. рис. 1.1), что позволяет осуществить выбор смысловых единиц измерения информации. Поскольку смысловое содержание информации передается с помощью сообщения, т. е. в виде совокупности знаков (символов), передаваемых с помощью сигналов от источника информации к приемнику, то широкое распространение для измерения смыслового содержания информации получил подход, основанный на использовании тезаурусной меры. При этом под тезаурусом понимается совокупность априорной информации (сведений), которой располагает приемник информации.
   Данный подход предполагает, что для понимания (осмысливания) и использования полученной информации приемник (получатель) должен обладать априорной информацией (тезаурусом), т. е. определенным запасом знаков, наполненных смыслом, слов, понятий, названий явлений и объектов, между которыми установлены связи на смысловом уровне. Таким образом, если принять знания о данном объекте или явлении за тезаурус, то количество информации, содержащееся в новом сообщении о данном предмете, можно оценить по изменению индивидуального тезауруса под воздействием данного сообщения. В зависимости от соотношений между смысловым содержанием сообщения и тезаурусом пользователя изменяется количество семантической информации, при этом характер такой зависимости не поддается строгому математическому описанию и сводится к рассмотрению трех основных условий, при которых тезаурус пользователя:
   • стремится к нулю, т. е. пользователь не воспринимает поступившее сообщение;
   • стремится к бесконечности, т. е. пользователь досконально знает все об объекте или явлении и поступившее сообщение его не интересует;
   • согласован со смысловым содержанием сообщения, т. е. поступившее сообщение понятно пользователю и несет новые сведения.
   Два первых предельных случая соответствуют состоянию, при котором количество семантической информации, получаемое пользователем, минимально. Третий случай связан с получением максимального количества семантической информации. Таким образом, количество семантической информации, получаемой пользователем, является величиной относительной, поскольку одно и то же сообщение может иметь смысловое содержание для компетентного и быть бессмысленным для некомпетентного пользователя.
   Поэтому возникает сложность получения объективной оценки количества информации на семантическом уровне ее рассмотрения и для получения такой оценки используют различные единицы измерения количества информации: абсолютные или относительные. В качестве абсолютных единиц измерения могут использоваться символы, реквизиты, записи и т. д., а в качестве относительной – коэффициент содержательности, который определяется как отношение семантической информации к ее объему. Например, для определения на семантическом уровне количества информации, полученной студентами на занятиях, в качестве единицы измерения может быть принят исходный балл (символ), характеризующий степень усвояемости ими нового учебного материала, на основе которого можно косвенно определить количество информации, полученное каждым студентом. Это количество информации будет выражено через соответствующий оценочный балл в принятом диапазоне оценок.
   При семантическом подходе к оценке количества информации и выборе единицы измерения существенным является вид получаемой информации (сообщения). Так, данный подход к оценке количества экономической информации позволяет выявить составную единицу экономической информации, состоящую из совокупности других единиц информации, связанных между собой по смыслу. Элементарной составляющей единицей экономической информации является реквизит, т. е. информационная совокупность, которая не поддается дальнейшему делению на единицы информации на смысловом уровне. Деление реквизитов на символы приводит к потере их смыслового содержания. Каждый реквизит характеризуется именем, значением и типом. При этом под именем реквизита понимается его условное обозначение, под значением – величина, характеризующая свойства объекта или явления в определенных обстоятельствах, под типом – множество значений реквизита, объединенных определенными признаками и совокупностью допустимых преобразований.
   Реквизиты принято делить на реквизиты-основания и реквизиты-признаки [2].
   Реквизиты-основания характеризуют количественную сторону экономического объекта, процесса или явления, которые могут быть получены в результате совершения отдельных операций – вычислений, измерений, подсчета натуральных единиц и т. д. В экономических документах к ним можно отнести, например, цену товара, его количество, сумму и т. п. Реквизиты-основания чаще всего выражаются в цифрах, над которыми могут выполняться математические операции.
   Реквизиты-признаки отражают качественные свойства экономического объекта, процесса или явления. С помощью реквизитов-признаков сообщения приобретают индивидуальный характер. В экономических документах к ним можно отнести, например, номер документа, имя отправителя, дату составления документа, вид операции и т. п. Реквизиты-признаки позволяют осуществлять логическую обработку единиц количества информации на семантическом уровне: поиск, выборку, группировку, сортировку и т. д.
   Отдельный реквизит-основание вместе с относящимися к нему реквизитами-признаками образует следующую в иерархическом отношении составную единицу экономической информации – показатель. Показатель имеет наименование, в состав которого входят термины, обозначающие измеряемый объект: себестоимость, затраты, мощность, прибыль и т. д. Кроме того, показатель содержит формальную характеристику и дополнительные признаки. К формальной характеристике относится способ его получения (объем, сумма, прирост, процент, среднее значение и т. д.), а к дополнительным – пространственно-временные (где находится измеряемый объект, время, к которому относится данный показатель) и метрологические (единицы измерения).
   Таким образом, с помощью совокупности реквизитов и соответствующих им показателей можно оценить количество экономической информации, получаемой от исследуемого объекта (источника информации).
   Кроме подхода, основанного на использовании тезаурусной меры, при определении количества информации на семантическом уровне находят применение и другие подходы [1]. Например, один из подходов, связанных с семантической оценкой количества информации, заключается в том, что в качестве основного критерия семантической ценности информации, содержащейся в сообщении, принимается количество ссылок на него в других сообщениях. Количество получаемой информации определяется на основе статистической обработки ссылок в различных выборках.
   Подводя итог сказанному, можно утверждать, что существовала и существует проблема формирования единого системного подхода к определению информации на семантическом уровне. Это подтверждается и тем, что в свое время для создания строгой научной теории информации К. Шеннон вынужден был отбросить важное свойство информации, связанное со смысловым ее содержанием.
   Кроме перечисленных уровней рассмотрения понятия информации достаточно широко используется прагматический уровень. На данном уровне информация рассматривается с точки зрения ее полезности (ценности) для достижения потребителем информации (человеком) поставленной практической цели. Данный подход при определении полезности информации основан на расчете приращения вероятности достижения цели до и после получения получения информации [1]. Количество информации, определяющее ее ценность (полезность), находится по формуле:

   где Р₀, P₁ – вероятность достижения цели соответственно до и после получения информации.

   В качестве единицы измерения (меры) количества информации, определяющей ее ценность, может быть принят 1 бит (при основании логарифма, равном 2), т. е. это такое количество полученной информации, при котором отношение вероятностей достижения цели равно 2.
   Рассмотрим три случая, когда количество информации, определяющее ее ценность, равно нулю и когда она принимает положительное и отрицательное значение.
   Количество информации равно нулю при Р₀ = Р₁, т.е. полученная информация не увеличивает и не уменьшает вероятность достижения цели.
   Значение информации является положительной величиной при P₁ > P₀, т. е. полученная информация уменьшает исходную неопределенность и увеличивает вероятность достижения цели.
   Значение информации является отрицательной величиной при P₁ < P₀, т. е. полученная информация увеличивает исходную неопределенность и уменьшает вероятность достижения цели. Такую информацию называют дезинформацией.
   Дальнейшее развитие данного подхода базируется на статистической теории информации и теории решений. При этом кроме вероятностныхарактеристик достижения цели после получения информации вводятся функции потерь и оценка полезности информации производится в результате минимизации функции потерь. Максимальной ценностью обладает то количество информации, которое уменьшает потери до нуля при достижении поставленной цели [1].

Упражнения для самостоятельного выполнения

   1. Преобразовать формулу (1.1) к виду (1.2) для частного случая, когда события равновероятны (p_i = 1/N).
   2. Доказать, что количество информации, которое мы получаем, достигает максимального значения, если события равновероятны.
   3. По каналу связи передается пять сообщений, вероятность получения первого сообщения составляет 0,3; второго – 0,2; третьего – 0,14, а вероятности получения четвертого и пятого сообщений равны между собой. Какое количество информации мы получим после приема одного из сообщений?

   4. Совершаются два события. При каких вероятностях этих событий мы получим минимальное и максимальное количество информации?
   5. Какое количество информации несет в себе сообщение о том, что нужная вам компьютерная программа находится на одной из семи дискет?
   6. С помощью компьютерного калькулятора заполнить пропуски числами:
   а) 2 Кбайт = ___ байт = ___ бит;
   б) ___ Гбайт = 2357 Мбайт = ___ Кбайт;
   в) ___ Кбайт = ___ байт = 14567 бит;
   г) 3 Гбайт = __ Мбайт = ___ Кбайт;
   д) ___ Тбайт = 8 Гбайт = ___ Мбайт.
   7. Используя программу Excel реализовать таблицы для автоматического расчета пропущенных значений, указанных в упражнении 6.
   8. Определить информационную емкость буквы в русском и латинском алфавитах.
   9. Сколько символов содержит сообщение, если его информационный объем составляет 1,25 Кбайта и мощность алфавита, с помощью которого записано сообщение, равна 32?
   10. Опытный пользователь компьютера может вводить в минуту 110 знаков. Мощность алфавита, используемого в компьютере, равна 256. Какое количество информации в байтах может ввести пользователь в компьютер за 1 и 1,5 минуты?
   11. Установить качественную зависимость между мощностью алфавита, сообщением, составленным из символов алфавита, и его информационным объемом.
   12. Определить количество информации, определяющее ее ценность, если вероятность достижения цели до получения информации равна 0,5, а после получения информации – 0,3.

Глава 2
Кодирование информации с помощью систем счисления

2.1. Системы счисления

Для записи информации о количестве объектов материального мира используются числа, которые разделяются по определенным признакам. На рис. 2.1 представлена классификация чисел по групповому признаку, когда в каждую группу входят числа, обладающие определенными свойствами.

   Рис. 2.1. Классификация чисел

   Числа записываются с использованием особых знаковых систем, которые называются системами счисления, в них числа записываются по определенным правилам с помощью символов некоторого алфавита, называемых цифрами.
   Все системы счисления делятся на два вида: позиционные и непозиционные. В позиционных системах счисления значение цифры зависит от ее положения в числе, в непозиционных – не зависит. Самой распространенной из непозиционных систем является римская. В качестве цифр в римской системе используются следующие символы: I (1), V (5), X (10), L (50), С (100), D (500), М (1000). Значение цифры в этой системе не зависит от ее положения в числе. Величина числа в римской системе определяется как сумма и разность цифр в числе. Если меньшая цифра стоит слева от большей, то она вычитается, если справа – прибавляется.

   Рис. 2.2. Диалоговое окно «Мастер функций – шаг 1 из 2»

   Например, число 1997 (десятичная позиционная система счисления) в римской системе счисления будет выглядеть следующим образом: MCMXCVII = 1000 + (1000 – 100) + (100 – 10) + 5 + 1 + 1. Для автоматизации процесса перевода данного числа из десятичной в римскую систему счисления воспользуемся табличным процессором MS Excel.
   Для запуска программы MS Excel выполним команду: [Кнопка Пуск – Программы – MS Office ХР – Microsoft Excel]. В любую из ячеек открывшегося окна Excel введем функцию «Римское», которая и осуществит необходимый перевод. Выполним следующие действия. Выделим, например, ячейку А1 с помощью курсора и выполним следующую команду: [Вставка – Функция]. В открывшемся диалоговом окне «Мастер функций – шаг 1 из 2» (рис. 2.2), установим «Категория: Математические» и выберем функцию «Римское». После нажатия кнопки OK появится диалоговое окно «Аргументы функции», показанное на рис. 2.3. Введем число 1997 в соответствующее поле окна и нажмем кнопку OK.

Рис. 2.3. Диалоговое окно «Аргументы функции»

В результате этих действий получаем в ячейке А1 искомое значение числа 1997 в римской системе счисления (рис. 2.4).

Рис. 2.4. Лист MS Excel «Результат преобразований»

Наибольшее применение при вводе, обработке и выводе информации в компьютере и компьютерных системах нашли позиционные системы счисления, при этом самыми распространенными являются десятичная, двоичная, восьмеричная и шестнадцатеричная системы. В позиционных системах счисления количественное значение цифры зависит от ее позиции в числе. Основание системы равно количеству цифр (знаков ее алфавита) и определяет, во сколько раз различаются значения цифр соседних разрядов числа. В общем случае в позиционной системе счисления любое число, содержащее целую и дробные части, в развернутой форме может быть представлено в виде:

или в рекуррентной форме:

где K – представляемое число; h – основание системы счисления; а – разрядный коэффициент, а = 0, 1, 2, 3…, h-1, т. е. цифры, принадлежащие алфавиту данной системы счисления; i – номер разряда, позиция; п – число целых разрядов числа; т – число дробных разрядов числа.
В десятичной системе счисления формула (2.2) может быть записана следующим образом:

   где а = 0, 1, 2, 3…, 9.
   Например, число 827 десятичной системы счисления в соответствии с выражением (2.3) можно представить в виде: 827 = 8 · 10² + 2 · 10¹ + 7 · 10⁰.
   Десятичная система исчисления используется в компьютерах для ввода числовых данных и отображения полученного результата. Все внутренние, промежуточные операции компьютер производит в двоичной системе счисления и соотношение (2.2) примет вид:

   где а = 0, 1.
   Например, число 1100111011₂ двоичной системы счисления в соответствии с формулой (2.4) можно представить в виде: 1 · 2⁹ + 1 · 2⁸ + 0 · 2⁷ + 0 · 2⁶ + 1 · 2⁵ + 1 · 2⁴ + 1 · 2³ + 0 · 2² + 1 · 2¹ + 1 · 2⁰.
   Достаточно широко при компьютерной обработке информации применяются восьмеричная и шестнадцатеричная системы счисления, которые используются, например, для обозначения адресов расположения данных в памяти компьютера и т. д.
   Соотношение (2.2) для восьмеричной и шестнадцатеричной системы счисления соответственно примет вид (2.5) и (2.6) :

где а = 0, 1, 2, 3…, 7.
Например, число 1473₈ восьмеричной системы счисления в соответствии с (2.5) примет вид: 1 · 8³ + 4 · 8² + 7 · 8¹ + 3 · 8⁰.

где а = 0, 1, 2, 3…, 9, A, B, C, D, E, F.
В шестнадцатеричной системе счисления используется шестнадцать цифр, из которых десять цифр арабские (0, 1, 2, 3, 4, 5, 6, 7, 8, 9), а остальные цифры (10, 11, 12, 13, 14, 15) обозначаются буквами латинского алфавита (А = 10, В = 11, С = 12, D = 13, E = 14, F = 15).