Страница:
Игорь Квинт
Sound Forge 9
AlexanderZhadaev@sigmaplus.mcdir.ru или на нашей домашней страничке www.sigmaplus.mcdir.ru (здесь вы также найдете дополнительные материалы по книге, сможете принять участие в форуме или пообщаться в чате).
Александр Жадаев
От издательства
Ваши замечания, предложения, вопросы отправляйте по адресу электронной почты dgurski@minsk.piter.com (издательство «Питер», компьютерная редакция).
На веб-сайте издательства http://www.piter.com вы найдете подробную информацию о наших книгах.
Глава 1
Введение в Sound Forge 9.0
Назначение программы
Основы цифрового звука
Воспроизведение звука на компьютере
Требования к системе
Установка программы
Работа со справочной системой
Рассмотрим некоторые основные понятия, которые будут постоянно встречаться на протяжении всей книги. Не претендуя на полноту и строгость изложения, обрисуем то, с чем нам предстоит работать, – звук, записанный в цифровой форме, и то, благодаря чему возможна такая запись.
Основы цифрового звука
Воспроизведение звука на компьютере
Требования к системе
Установка программы
Работа со справочной системой
Рассмотрим некоторые основные понятия, которые будут постоянно встречаться на протяжении всей книги. Не претендуя на полноту и строгость изложения, обрисуем то, с чем нам предстоит работать, – звук, записанный в цифровой форме, и то, благодаря чему возможна такая запись.
Назначение программы
Основное назначение Sound Forge 9.0 – редактирование цифрового звука. С помощью этой программы можно обрабатывать фонограммы или звуковые дорожки фильмов практически всеми существующими способами.
• Первоначальная запись и оцифровка звука с различных источников – микрофона, магнитофона, проигрывателя виниловых дисков и т. п. с заданным качеством. В результате появляется исходная, необработанная фонограмма.
• Монтаж фонограмм: удаление, вырезание и вставка, «склеивание» фрагментов.
• Наложение одних фонограмм на другие, целиком или частями, микширование.
• Исправление дефектов фонограммы: удаление или существенное снижение шума, щелчков, посторонних или нежелательных звуков в полуавтоматическом режиме.
• Точная «ручная» подчистка отдельных участков фонограммы.
• Частотная коррекция: изменение тембра, маскировка или подчеркивание отдельных частотных составляющих.
• Нормализация уровня (громкости), изменение динамического диапазона записей.
• Восстановление «срезанных» пиков – искажений, возникающих при записи фонограмм с чрезмерно большим уровнем сигнала.
• Изменение продолжительности фонограмм или отдельных их фрагментов.
• Применение специальных эффектов: вибрато, реверберации, эха. Всего доступно более тридцати различных эффектов.
Результаты всех производимых действий программа позволяет сразу же оценить на слух. Если результат редактирования вас чем-то не устроил, то каждое из действий можно отменить и вернуться назад.
• Первоначальная запись и оцифровка звука с различных источников – микрофона, магнитофона, проигрывателя виниловых дисков и т. п. с заданным качеством. В результате появляется исходная, необработанная фонограмма.
• Монтаж фонограмм: удаление, вырезание и вставка, «склеивание» фрагментов.
• Наложение одних фонограмм на другие, целиком или частями, микширование.
• Исправление дефектов фонограммы: удаление или существенное снижение шума, щелчков, посторонних или нежелательных звуков в полуавтоматическом режиме.
• Точная «ручная» подчистка отдельных участков фонограммы.
• Частотная коррекция: изменение тембра, маскировка или подчеркивание отдельных частотных составляющих.
• Нормализация уровня (громкости), изменение динамического диапазона записей.
• Восстановление «срезанных» пиков – искажений, возникающих при записи фонограмм с чрезмерно большим уровнем сигнала.
• Изменение продолжительности фонограмм или отдельных их фрагментов.
• Применение специальных эффектов: вибрато, реверберации, эха. Всего доступно более тридцати различных эффектов.
Результаты всех производимых действий программа позволяет сразу же оценить на слух. Если результат редактирования вас чем-то не устроил, то каждое из действий можно отменить и вернуться назад.
Основы цифрового звука
Напомним основные принципы и понятия, связанные со звукозаписью и обработкой звука. Звук – это колебания плотной среды, в частности воздуха, которые распространяются в виде волн – области сжатия чередуются с областями разрежения. Частота колебаний измеряется в герцах – частота 1 герц (Гц, Hz) соответствует одному колебанию в секунду. Человеческий слух воспринимает звуковые колебания частотой от десятков герц до десятков килогерц. Лучше всего человек слышит звуки в диапазоне частот примерно от 400 Гц до 5 кГц.
Понять природу звука и принцип звукозаписи поможет несколько умозрительных опытов. Когда-то, в эпоху великих физических открытий, подобные опыты и заложили базу для всей нынешней звукозаписи и связи.
Звуковое давление можно измерить. Образно говоря, нужно поставить на пути звуковой волны мембрану, связанную с очень чувствительными пружинными весами или динамометром (рис. 1.1).
Рис. 1.1. Звуковые волны и звуковое давление
Показания этого прибора будут циклически меняться много раз в секунду. Если вы сможете уследить за колебаниями стрелки, то по величине максимальных ее отклонений в ту и другую сторону, зная чувствительность весов и площадь мембраны, удастся рассчитать абсолютное звуковое давление, например в килограммах на квадратный метр.
На практике чаще говорят об относительном звуковом давлении или уровне звука. Было измерено звуковое давление или мощность самого тихого звука, который еще способен расслышать среднестатистический человек. Это значение приняли за ноль и назвали порогом слышимости. О любом другом звуке можно сказать, что его мощность или звуковое давление во столько-то раз выше порога слышимости. Максимальное звуковое давление, при котором звук вызывает уже болевые ощущения (болевой порог), примерно в 100 000 000 раз превышает порог слышимости. Для удобства отношение силы звука к порогу слышимости измеряют не в разах, а в логарифмических единицах – децибелах (дБ, dB). 1дБ = 20lg(p2/p1), где p2 – звуковое давление измеряемого звука, а p1 – звуковое давление, соответствующее порогу слышимости. Болевой порог в таком случае составляет примерно 140 дБ. С небольшими оговорками уровень звука можно называть и просто громкостью.
Слух человека устроен так, что субъективно мы оцениваем громкость именно в логарифмическом масштабе: увеличение мощности сигнала в десять раз ощущается как увеличение громкости всего в два раза. Минимальное различие уровня двух сигналов, которое способен заметить человек, составляет 1 дБ.
Отсюда вытекает понятие динамического диапазона, то есть разницы между самыми тихими и самыми громкими звуками. Человеческий слух обладает динамическим диапазоном около 120 дБ. Точно так же можно говорить о динамическом диапазоне какого-либо музыкального фрагмента. Если самые тихие звуки в нем имеют громкость 10 дБ, а самые громкие – 60 дБ, то динамический диапазон составит 60 – 10 = 50 дБ.
Если в воображаемом приборе, с помощью которого мы измеряли звуковое давление, вместо стрелки использовать острую иглу, а под этой иглой с постоянной скоростью протаскивать ленту, покрытую каким-нибудь мягким составом типа воска, то игла будет выцарапывать на нем извилистую бороздку – график изменения давления, или своеобразное графическое изображение звуковых колебаний, их временную развертку (рис. 1.2). Более того, если затем вновь провести иглой по бороздке, то мембрана начнет колебаться в соответствии с ее изгибами, и вы услышите звук. Именно так был устроен первый в истории звукозаписывающий аппарат – фонограф Эдисона. Только в нем звуковая дорожка процарапывалась на вращающемся валике, покрытом воском.
Рис. 1.2. Запись звуковых волн
Звуковые волны можно преобразовать в электрические колебания. Чувствительный элемент – мембрана микрофона – движется в соответствии с колебаниями воздуха и передает это движение на преобразователь – катушку, пластину конденсатора или пъезоэлемент. В любом случае на выходе микрофона возникают колебания электрического тока или напряжения, изменяющиеся во времени аналогично давлению на поверхности мембраны. В дальнейшем эти электрические колебания можно усиливать и записывать на какой-нибудь носитель, движущийся относительно записывающего элемента, например на магнитную ленту. Опять же, колебания намагниченности магнитной ленты почти точно повторяют форму звуковых колебаний – это аналоговая запись.
В процессе воспроизведения носитель движется относительно воспроизводящей головки, записанный на нем сигнал наводит в головке электрические колебания, которые затем усиливаются электроникой и заставляют колебаться диффузор динамика.
В качестве примера был приведен «чистый тон», то есть звук, представляющий собой колебания одной, строго определенной частоты. Развертка такого звука имеет форму правильной синусоиды (рис. 1.3), кривой, описываемой формулой y = sin(x).
Рис. 1.3. Синусоида – график звуковых колебаний
На практике подобные звуки встречаются редко – это, например, звук, издаваемый камертоном или вырабатываемый простейшим генератором, его еще называют гармоническим колебанием. Чистый тон характеризуется всего двумя параметрами – частотой и амплитудой. Субъективно частота воспринимается как высота тона, а амплитуда – как его громкость.
Реальные звуки, вроде звучания музыкальных инструментов, голоса или шума, образуются сочетанием множества колебаний разных частот. Графическая развертка таких колебаний выглядит как кривая сложной формы (рис. 1.4).
Рис. 1.4. Разложение колебания на гармонические составляющие
Именно так – графиком моментального значения сигнала – показывается звуковая дорожка в окне рабочей области программы Sound Forge (см. гл. 2, раздел «Окна рабочей области»). О средней за какой-то период времени амплитуде или уровне реального звука говорить уместно, но понятие частоты или тона здесь неприменимо.
Математическое описание сложения колебаний с разными частотами лежит далеко за пределами школьной программы, но практический вывод знать просто необходимо: любой, даже самый сложный, колебательный процесс можно представить как результат сложения нескольких гармонических колебаний или синусоид! Так называемое преобразование Фурье позволяет выделить из реального звука отдельные синусоидальные составляющие, то есть полностью разложить этот звук на множество отдельных синусоидальных колебаний, каждое со своей частотой и амплитудой. Если частоты составляющих кратны друг другу, то такие составляющие обычно называют гармониками.
Разложив звук на гармонические составляющие, можно (теоретически) измерить амплитуду каждой из них, а затем перечислить в порядке частот эти составляющие, указав амплитуду каждой из них. На практике поступают несколько иначе: разбивают весь диапазон слышимых частот на несколько участков (от… и до…) и указывают средние уровни всех составляющих, попадающих в каждый диапазон. Для музыканта совершенно естественно брать в качестве диапазонов октавы, а «техникам» свойственно указывать границы диапазонов частотами (в герцах). Уровень звука в пределах диапазона принято выражать в тех же децибелах. Такое описание звука называется спектром. Обычно спектр изображают в виде столбчатой диаграммы. Наглядное представление о спектре дают полосковые индикаторы звукозаписывающей аппаратуры. Субъективно спектр воспринимается как тембр или окраска звука: чем больше доля высших гармоник, тем более звонким, «металлическим» является звучание. В зависимости от наличия и соотношения разных гармонических составляющих звук может казаться «прозрачным» или, наоборот, хриплым.
Усиление или ослабление звукового сигнала в целом или изменение уровня отдельных его гармонических составляющих называют линейным преобразованием звука. В результате может меняться соотношение уровней отдельных гармоник, но новые гармоники при этом не возникают. В противоположность этому говорят о нелинейных преобразованиях, при которых в измененном звуковом сигнале появляются такие частоты или гармоники, которые в исходном звуке отсутствовали. Нелинейные преобразования специально используются для создания определенных эффектов, в противном случае их считают искажениями. Нелинейными искажениями сопровождается как оцифровка звука, так и восстановление сигнала из цифрового вида в аналоговый.
Понять природу звука и принцип звукозаписи поможет несколько умозрительных опытов. Когда-то, в эпоху великих физических открытий, подобные опыты и заложили базу для всей нынешней звукозаписи и связи.
Звуковое давление можно измерить. Образно говоря, нужно поставить на пути звуковой волны мембрану, связанную с очень чувствительными пружинными весами или динамометром (рис. 1.1).
Рис. 1.1. Звуковые волны и звуковое давление
Показания этого прибора будут циклически меняться много раз в секунду. Если вы сможете уследить за колебаниями стрелки, то по величине максимальных ее отклонений в ту и другую сторону, зная чувствительность весов и площадь мембраны, удастся рассчитать абсолютное звуковое давление, например в килограммах на квадратный метр.
На практике чаще говорят об относительном звуковом давлении или уровне звука. Было измерено звуковое давление или мощность самого тихого звука, который еще способен расслышать среднестатистический человек. Это значение приняли за ноль и назвали порогом слышимости. О любом другом звуке можно сказать, что его мощность или звуковое давление во столько-то раз выше порога слышимости. Максимальное звуковое давление, при котором звук вызывает уже болевые ощущения (болевой порог), примерно в 100 000 000 раз превышает порог слышимости. Для удобства отношение силы звука к порогу слышимости измеряют не в разах, а в логарифмических единицах – децибелах (дБ, dB). 1дБ = 20lg(p2/p1), где p2 – звуковое давление измеряемого звука, а p1 – звуковое давление, соответствующее порогу слышимости. Болевой порог в таком случае составляет примерно 140 дБ. С небольшими оговорками уровень звука можно называть и просто громкостью.
Слух человека устроен так, что субъективно мы оцениваем громкость именно в логарифмическом масштабе: увеличение мощности сигнала в десять раз ощущается как увеличение громкости всего в два раза. Минимальное различие уровня двух сигналов, которое способен заметить человек, составляет 1 дБ.
Отсюда вытекает понятие динамического диапазона, то есть разницы между самыми тихими и самыми громкими звуками. Человеческий слух обладает динамическим диапазоном около 120 дБ. Точно так же можно говорить о динамическом диапазоне какого-либо музыкального фрагмента. Если самые тихие звуки в нем имеют громкость 10 дБ, а самые громкие – 60 дБ, то динамический диапазон составит 60 – 10 = 50 дБ.
Если в воображаемом приборе, с помощью которого мы измеряли звуковое давление, вместо стрелки использовать острую иглу, а под этой иглой с постоянной скоростью протаскивать ленту, покрытую каким-нибудь мягким составом типа воска, то игла будет выцарапывать на нем извилистую бороздку – график изменения давления, или своеобразное графическое изображение звуковых колебаний, их временную развертку (рис. 1.2). Более того, если затем вновь провести иглой по бороздке, то мембрана начнет колебаться в соответствии с ее изгибами, и вы услышите звук. Именно так был устроен первый в истории звукозаписывающий аппарат – фонограф Эдисона. Только в нем звуковая дорожка процарапывалась на вращающемся валике, покрытом воском.
Рис. 1.2. Запись звуковых волн
Звуковые волны можно преобразовать в электрические колебания. Чувствительный элемент – мембрана микрофона – движется в соответствии с колебаниями воздуха и передает это движение на преобразователь – катушку, пластину конденсатора или пъезоэлемент. В любом случае на выходе микрофона возникают колебания электрического тока или напряжения, изменяющиеся во времени аналогично давлению на поверхности мембраны. В дальнейшем эти электрические колебания можно усиливать и записывать на какой-нибудь носитель, движущийся относительно записывающего элемента, например на магнитную ленту. Опять же, колебания намагниченности магнитной ленты почти точно повторяют форму звуковых колебаний – это аналоговая запись.
В процессе воспроизведения носитель движется относительно воспроизводящей головки, записанный на нем сигнал наводит в головке электрические колебания, которые затем усиливаются электроникой и заставляют колебаться диффузор динамика.
В качестве примера был приведен «чистый тон», то есть звук, представляющий собой колебания одной, строго определенной частоты. Развертка такого звука имеет форму правильной синусоиды (рис. 1.3), кривой, описываемой формулой y = sin(x).
Рис. 1.3. Синусоида – график звуковых колебаний
На практике подобные звуки встречаются редко – это, например, звук, издаваемый камертоном или вырабатываемый простейшим генератором, его еще называют гармоническим колебанием. Чистый тон характеризуется всего двумя параметрами – частотой и амплитудой. Субъективно частота воспринимается как высота тона, а амплитуда – как его громкость.
Реальные звуки, вроде звучания музыкальных инструментов, голоса или шума, образуются сочетанием множества колебаний разных частот. Графическая развертка таких колебаний выглядит как кривая сложной формы (рис. 1.4).
Рис. 1.4. Разложение колебания на гармонические составляющие
Именно так – графиком моментального значения сигнала – показывается звуковая дорожка в окне рабочей области программы Sound Forge (см. гл. 2, раздел «Окна рабочей области»). О средней за какой-то период времени амплитуде или уровне реального звука говорить уместно, но понятие частоты или тона здесь неприменимо.
Математическое описание сложения колебаний с разными частотами лежит далеко за пределами школьной программы, но практический вывод знать просто необходимо: любой, даже самый сложный, колебательный процесс можно представить как результат сложения нескольких гармонических колебаний или синусоид! Так называемое преобразование Фурье позволяет выделить из реального звука отдельные синусоидальные составляющие, то есть полностью разложить этот звук на множество отдельных синусоидальных колебаний, каждое со своей частотой и амплитудой. Если частоты составляющих кратны друг другу, то такие составляющие обычно называют гармониками.
Разложив звук на гармонические составляющие, можно (теоретически) измерить амплитуду каждой из них, а затем перечислить в порядке частот эти составляющие, указав амплитуду каждой из них. На практике поступают несколько иначе: разбивают весь диапазон слышимых частот на несколько участков (от… и до…) и указывают средние уровни всех составляющих, попадающих в каждый диапазон. Для музыканта совершенно естественно брать в качестве диапазонов октавы, а «техникам» свойственно указывать границы диапазонов частотами (в герцах). Уровень звука в пределах диапазона принято выражать в тех же децибелах. Такое описание звука называется спектром. Обычно спектр изображают в виде столбчатой диаграммы. Наглядное представление о спектре дают полосковые индикаторы звукозаписывающей аппаратуры. Субъективно спектр воспринимается как тембр или окраска звука: чем больше доля высших гармоник, тем более звонким, «металлическим» является звучание. В зависимости от наличия и соотношения разных гармонических составляющих звук может казаться «прозрачным» или, наоборот, хриплым.
Усиление или ослабление звукового сигнала в целом или изменение уровня отдельных его гармонических составляющих называют линейным преобразованием звука. В результате может меняться соотношение уровней отдельных гармоник, но новые гармоники при этом не возникают. В противоположность этому говорят о нелинейных преобразованиях, при которых в измененном звуковом сигнале появляются такие частоты или гармоники, которые в исходном звуке отсутствовали. Нелинейные преобразования специально используются для создания определенных эффектов, в противном случае их считают искажениями. Нелинейными искажениями сопровождается как оцифровка звука, так и восстановление сигнала из цифрового вида в аналоговый.
Оцифровка звука
Сегодня аналоговая запись и обработка звука окончательно сдала позиции цифровым технологиям. Сейчас аналоговыми устройствами являются только микрофоны, звукосниматели электромузыкальных инструментов и предварительные усилители, иногда микшеры. В них звук представляется непрерывным, меняющимся во времени электрическим сигналом. Далее звуковой сигнал оцифровывается, и вся последующая работа ведется уже с цифровыми данными.
Оцифровка сигнала заключается в том, что аналоговый сигнал разбивается на отдельные, очень короткие участки (дискретизация или выборка), и уровень сигнала на каждом участке измеряется и записывается в виде целого числа (квантование). Каждый «столбик» (рис. 1.5) изображает одно измерение.
Рис. 1.5. Принцип оцифровки аналогового сигнала
Частота дискретизации показывает, сколько раз за секунду измеряется моментальное значение сигнала. Например, если сигнал оцифровывается при частоте дискретизации 44 кГц, то измерения производятся 44 000 раз в секунду. Очевидно, что чем чаще делаются замеры (чем выше частота дискретизации), тем более точным окажется представление сигнала в цифровой форме. Больше всего частота дискретизации влияет на передачу высокочастотных составляющих звука. В любом случае, она должна по меньшей мере в два раза превышать частоту самых высокочастотных составляющих оцифровываемого сигнала. Для оцифровки речи, например в телефонии, еще приемлема частота дискретизации около 8 или 12 кГц, для обычной «домашней» оцифровки музыки уже нужна частота дискретизации не менее 22,5 кГц, а «студийное качество» оцифровки начинается с 48 кГц. Наиболее качественной оцифровке соответствуют частоты дискретизации 88, 96 и даже 192 кГц, хотя оцифровывать сигнал с такой частотой способны лишь дорогие «профессиональные» звуковые карты.
Каждое полученное значение моментального уровня должно быть записано в виде целого двоичного числа фиксированной длины или разрядности. Разрядность двоичного числа выражается в битах и показывает, сколькими двоичными знаками (нулями и единицами) записано это число. Например, 16 бит – это последовательность из 16 двоичных знаков.
Аналоговый сигнал является непрерывным, любое моментальное значение может оказаться и дробным, поэтому оно округляется до ближайшего целого. Точность измерения или грубость округления зависит от того, какая задана разрядность (bit depth, буквально – глубина битов). Если оцифровка производится с разрядностью 8 бит, то доступно всего 28 = 256 различных значений уровня, а при разрядности 16 бит число может принимать уже одно из 28 = 65 536 значений. Чем выше разрядность, тем ближе оказываются округленные значения к реальным, физическим значениям. В конечной частоте дискретизации и округлении полученных значений уровня сигнала кроется причина неизбежной потери информации и возникновения искажений при оцифровке.
Оба взаимосвязанных действия – дискретизацию и квантование – выполняет микропроцессор звуковой карты, точнее, его часть, являющаяся аналого-цифровым преобразователем (АЦП). Возможности звуковой карты выражаются максимальными значениями частоты дискретизации и разрядности и зависят от ее класса. Встроенные в материнскую плату или распространенные недорогие звуковые карты способны оцифровывать сигнал с частотой дискретизации до 48 кГц и разрядностью 8 или 16 бит. Дорогие полупрофессиональные или профессиональные карты поддерживают частоту дискретизации до 192 кГц и разрядность 24, 32, вплоть до 64 бит.
Перед записью или оцифровкой сигнала звуковая карта настраивается через свой драйвер, а пользовательский интерфейс для настройки предоставляет операционная система (так задаются настройки по умолчанию) или та программа, с помощью которой управляют записью. В частности, при создании нового файла Sound Forge каждый раз запрашивает частоту дискретизации и разрядность. Следует учитывать, что при оцифровке звукового сигнала нельзя «перепрыгнуть» действительные аппаратные возможности звуковой карты пользовательского компьютера.
Таким образом, аналоговый сигнал превращается в последовательность чисел, которая является почти готовым файлом. Файл формата WAVE (несжатый звуковой поток), помимо такой последовательности, содержит также сведения о том, с какой частотой и разрядностью оцифровывался сигнал, и некоторую другую служебную информацию. Легко рассчитать, какой объем информации занимают данные о звуке. Если, например, в секунду производилось 44 000 замеров уровня сигнала, а каждый замер занимает 16 бит, то для хранения одной секунды фонограммы нужно 44000 × 16 = 704 000 бит, то есть примерно 690 Кбит, или 86 Кбайт.
Оцифровка сигнала заключается в том, что аналоговый сигнал разбивается на отдельные, очень короткие участки (дискретизация или выборка), и уровень сигнала на каждом участке измеряется и записывается в виде целого числа (квантование). Каждый «столбик» (рис. 1.5) изображает одно измерение.
Рис. 1.5. Принцип оцифровки аналогового сигнала
Частота дискретизации показывает, сколько раз за секунду измеряется моментальное значение сигнала. Например, если сигнал оцифровывается при частоте дискретизации 44 кГц, то измерения производятся 44 000 раз в секунду. Очевидно, что чем чаще делаются замеры (чем выше частота дискретизации), тем более точным окажется представление сигнала в цифровой форме. Больше всего частота дискретизации влияет на передачу высокочастотных составляющих звука. В любом случае, она должна по меньшей мере в два раза превышать частоту самых высокочастотных составляющих оцифровываемого сигнала. Для оцифровки речи, например в телефонии, еще приемлема частота дискретизации около 8 или 12 кГц, для обычной «домашней» оцифровки музыки уже нужна частота дискретизации не менее 22,5 кГц, а «студийное качество» оцифровки начинается с 48 кГц. Наиболее качественной оцифровке соответствуют частоты дискретизации 88, 96 и даже 192 кГц, хотя оцифровывать сигнал с такой частотой способны лишь дорогие «профессиональные» звуковые карты.
Каждое полученное значение моментального уровня должно быть записано в виде целого двоичного числа фиксированной длины или разрядности. Разрядность двоичного числа выражается в битах и показывает, сколькими двоичными знаками (нулями и единицами) записано это число. Например, 16 бит – это последовательность из 16 двоичных знаков.
Аналоговый сигнал является непрерывным, любое моментальное значение может оказаться и дробным, поэтому оно округляется до ближайшего целого. Точность измерения или грубость округления зависит от того, какая задана разрядность (bit depth, буквально – глубина битов). Если оцифровка производится с разрядностью 8 бит, то доступно всего 28 = 256 различных значений уровня, а при разрядности 16 бит число может принимать уже одно из 28 = 65 536 значений. Чем выше разрядность, тем ближе оказываются округленные значения к реальным, физическим значениям. В конечной частоте дискретизации и округлении полученных значений уровня сигнала кроется причина неизбежной потери информации и возникновения искажений при оцифровке.
Оба взаимосвязанных действия – дискретизацию и квантование – выполняет микропроцессор звуковой карты, точнее, его часть, являющаяся аналого-цифровым преобразователем (АЦП). Возможности звуковой карты выражаются максимальными значениями частоты дискретизации и разрядности и зависят от ее класса. Встроенные в материнскую плату или распространенные недорогие звуковые карты способны оцифровывать сигнал с частотой дискретизации до 48 кГц и разрядностью 8 или 16 бит. Дорогие полупрофессиональные или профессиональные карты поддерживают частоту дискретизации до 192 кГц и разрядность 24, 32, вплоть до 64 бит.
Перед записью или оцифровкой сигнала звуковая карта настраивается через свой драйвер, а пользовательский интерфейс для настройки предоставляет операционная система (так задаются настройки по умолчанию) или та программа, с помощью которой управляют записью. В частности, при создании нового файла Sound Forge каждый раз запрашивает частоту дискретизации и разрядность. Следует учитывать, что при оцифровке звукового сигнала нельзя «перепрыгнуть» действительные аппаратные возможности звуковой карты пользовательского компьютера.
Таким образом, аналоговый сигнал превращается в последовательность чисел, которая является почти готовым файлом. Файл формата WAVE (несжатый звуковой поток), помимо такой последовательности, содержит также сведения о том, с какой частотой и разрядностью оцифровывался сигнал, и некоторую другую служебную информацию. Легко рассчитать, какой объем информации занимают данные о звуке. Если, например, в секунду производилось 44 000 замеров уровня сигнала, а каждый замер занимает 16 бит, то для хранения одной секунды фонограммы нужно 44000 × 16 = 704 000 бит, то есть примерно 690 Кбит, или 86 Кбайт.
ПримечаниеВся обработка и преобразования оцифрованного звука сводятся к математическим действиям над этими потоковыми данными. Иногда формулы преобразования бывают очень сложны, но программы, подобные рассматриваемой в этой книге, позволяют задавать параметры обработки простым и наглядным образом.
1 байт = 8 бит, 1 Кбит = 1024 бит, а 1 Кбайт = 1024 байт. Эти соотношения позволят сориентироваться в приводимых числах: объем данных принято измерять в байтах, а скорость передачи данных выражают и в битах в секунду, и в байтах в секунду.
Сжатие звука
Формат WAVE достаточно точно сохраняет данные исходного аналогового сигнала, но является очень расточительным в отношении объема, занимаемого информацией. Тем не менее этот формат предпочтителен для первоначальной записи звуковых данных, которые впоследствии нужно будет обрабатывать. На практике обычно прибегают к сжатию звукового потока, которое почти всегда сопряжено с потерей части информации, а иногда и с появлением дополнительных искажений.
Не вдаваясь в подробности алгоритмов сжатия, скажем, что в основе их лежит обман слуха, связанный с особенностями субъективного восприятия звука человеком. Психоакустическая модель позволяет упростить оригинальный сигнал так, чтобы объем данных уменьшился существенно, а качество звучания оставалось на приемлемом для большинства слушателей уровне. В частности, применяется удаление из сигнала наименее заметных частотных составляющих, искусственное сужение динамического диапазона и другие хитрые приемы.
Среди алгоритмов сжатия широко известны MPEG-1 Layer I, II, III (последний также называют MP3), MPEG-2 AAC (Advanced Audio Coding), Ogg Vorbis, Windows Media Audio (WMA). Сжатие оцифрованного звука по этим методам позволяет уменьшить объем данных в десять и более раз. Применительно к сжатому звуку, помимо частоты дискретизации и разрядности, используют третье понятие – битрейт – объем данных, соответствующий одной секунде звучания и измеряющийся в килобитах в секунду (Кбит/с, kilobits per second). При прочих равных параметрах, чем ниже битрейт, тем больше степень сжатия и, соответственно, ниже качество.
На практике нужно стараться по возможности обрабатывать звуковые данные в несжатом виде, а сжимать их уже на завершающем этапе. Каждая последующая перекодировка неизбежно только ухудшает качество: сжатие – процесс односторонний и необратимый. Точно так же ресэмплинг (от англ. resampling – изменение частоты дискретизации оцифрованных аудиоданных) не способен восстановить в сигнале изначально отсутствующие в нем данные!
Не вдаваясь в подробности алгоритмов сжатия, скажем, что в основе их лежит обман слуха, связанный с особенностями субъективного восприятия звука человеком. Психоакустическая модель позволяет упростить оригинальный сигнал так, чтобы объем данных уменьшился существенно, а качество звучания оставалось на приемлемом для большинства слушателей уровне. В частности, применяется удаление из сигнала наименее заметных частотных составляющих, искусственное сужение динамического диапазона и другие хитрые приемы.
Среди алгоритмов сжатия широко известны MPEG-1 Layer I, II, III (последний также называют MP3), MPEG-2 AAC (Advanced Audio Coding), Ogg Vorbis, Windows Media Audio (WMA). Сжатие оцифрованного звука по этим методам позволяет уменьшить объем данных в десять и более раз. Применительно к сжатому звуку, помимо частоты дискретизации и разрядности, используют третье понятие – битрейт – объем данных, соответствующий одной секунде звучания и измеряющийся в килобитах в секунду (Кбит/с, kilobits per second). При прочих равных параметрах, чем ниже битрейт, тем больше степень сжатия и, соответственно, ниже качество.
На практике нужно стараться по возможности обрабатывать звуковые данные в несжатом виде, а сжимать их уже на завершающем этапе. Каждая последующая перекодировка неизбежно только ухудшает качество: сжатие – процесс односторонний и необратимый. Точно так же ресэмплинг (от англ. resampling – изменение частоты дискретизации оцифрованных аудиоданных) не способен восстановить в сигнале изначально отсутствующие в нем данные!
Синтез звука и формат MIDI
До настоящего момента речь шла об оцифровке и обработке реального звука, получаемого и записываемого с различных источников. Существует и совершенно иная задача – создание (синтез) звука на компьютере. Синтезатор – это набор управляемых генераторов, способный выдавать звуки с заданными характеристиками по командам исполнителя-музыканта.
Известно всего два метода синтеза звука: FM (Frequency modulation – частотная модуляция) и WT (Wave Table – таблично-волновой). В основе FM-синтеза лежит идея, что любое колебание является суммой простейших синусоид. Таким образом, можно наложить друг на друга сигналы от конечного числа генераторов синусоид и путем манипуляций с их частотами и амплитудами извлечь звуки, похожие на настоящие, полученные физическими методами.
Таблично-волновой WT-синтез основан на преобразовании заранее записанных (оцифрованных) образцов звуков реальных музыкальных инструментов. Эти образцы (сэмплы) хранятся в постоянной памяти синтезатора и составляют таблицу (sample table), из которой выбираются нужные звуки.
Синоним слова «синтезатор» – секвенсор (от англ. sequence – последовательность). Музыкальный синтезатор – это устройство, работающее с последовательностью команд или описаний. Нередко синтезаторы выполняются в виде самостоятельных электронных устройств, снабженных собственной клавиатурой и интерфейсами вывода звука, и являются полноценными музыкальными инструментами. Роль синтезатора может играть и обычный персональный компьютер, в котором синтезатор представлен двумя способами.
• Аппаратный синтезатор является частью звуковой карты. Действия выполняет собственный микропроцессор звуковой карты, с его же помощью звук выводится в виде цифровой последовательности или WAVE-файла.
• Программный синтезатор – программа, способная эмулировать работу аппаратного синтезатора. Она выполняется центральным процессором компьютера. Первоначально звук выводится в цифровую последовательность (WAVE-файл). Примеры программных синтезаторов – виртуальные устройства, входящие в состав операционной системы Microsoft Windows: Microsoft MIDI Mapper и Microsoft Wavetable Synth.
В обоих случаях синтезатор получает от управляющего устройства или программы последовательность команд, а выдает оцифрованный звук – последовательность мгновенных значений сигнала, сгенерированного им самим. Команды или данные, передаваемые любому синтезатору, описываются спецификацией MIDI (Musical Instrument Digital Interface – цифровой интерфейс музыкальных инструментов). Эта спецификация, или стандарт, включает в себя и требования к аппаратным средствам, например кабелям и разъемам, и договоренности о способах кодирования данных. Для нас существенно последнее. Устройство управления, например подключенная к компьютеру внешняя MIDI-клавиатура, или программа, например Sound Forge, отправляет синтезатору команды MIDI.
Известно всего два метода синтеза звука: FM (Frequency modulation – частотная модуляция) и WT (Wave Table – таблично-волновой). В основе FM-синтеза лежит идея, что любое колебание является суммой простейших синусоид. Таким образом, можно наложить друг на друга сигналы от конечного числа генераторов синусоид и путем манипуляций с их частотами и амплитудами извлечь звуки, похожие на настоящие, полученные физическими методами.
Таблично-волновой WT-синтез основан на преобразовании заранее записанных (оцифрованных) образцов звуков реальных музыкальных инструментов. Эти образцы (сэмплы) хранятся в постоянной памяти синтезатора и составляют таблицу (sample table), из которой выбираются нужные звуки.
Синоним слова «синтезатор» – секвенсор (от англ. sequence – последовательность). Музыкальный синтезатор – это устройство, работающее с последовательностью команд или описаний. Нередко синтезаторы выполняются в виде самостоятельных электронных устройств, снабженных собственной клавиатурой и интерфейсами вывода звука, и являются полноценными музыкальными инструментами. Роль синтезатора может играть и обычный персональный компьютер, в котором синтезатор представлен двумя способами.
• Аппаратный синтезатор является частью звуковой карты. Действия выполняет собственный микропроцессор звуковой карты, с его же помощью звук выводится в виде цифровой последовательности или WAVE-файла.
• Программный синтезатор – программа, способная эмулировать работу аппаратного синтезатора. Она выполняется центральным процессором компьютера. Первоначально звук выводится в цифровую последовательность (WAVE-файл). Примеры программных синтезаторов – виртуальные устройства, входящие в состав операционной системы Microsoft Windows: Microsoft MIDI Mapper и Microsoft Wavetable Synth.
В обоих случаях синтезатор получает от управляющего устройства или программы последовательность команд, а выдает оцифрованный звук – последовательность мгновенных значений сигнала, сгенерированного им самим. Команды или данные, передаваемые любому синтезатору, описываются спецификацией MIDI (Musical Instrument Digital Interface – цифровой интерфейс музыкальных инструментов). Эта спецификация, или стандарт, включает в себя и требования к аппаратным средствам, например кабелям и разъемам, и договоренности о способах кодирования данных. Для нас существенно последнее. Устройство управления, например подключенная к компьютеру внешняя MIDI-клавиатура, или программа, например Sound Forge, отправляет синтезатору команды MIDI.