Меню Закрыть

Что такое временная дискретизация звука определение

Содержание

Урок " Кодирование звуковой информации "

Аналоговый и дискретный способы представления звука

Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме.

При аналоговом представлении физическая величина принимает бесконечное множество значений, причем ее значения изменяются непрерывно.

При дискретном представлении физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.

Аналоговое и дискретное кодирование

Примером аналогового хранения звуковой информации является виниловая пластин­ка (звуковая дорожка изменяет свою форму непрерывно), а дискретного — аудиокомпакт-диск (звуковая дорожка которого содержит участки с различной отражающей способностью).

Восприятие звука человеком

Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.

Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.

В аналоговой форме звук представляет собой волну, которая характеризуется:

    Высота звука определяется частотой колебаний вибрирующего тела.

Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с

Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).

— аналоговый — непрерывный — звук

Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой.

Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон.

Кодирование звуковой информации

Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).

В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.

Т.о. при двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала.

Рис. Временная дискретизация звука

Таким образом, непрерывная зависимость амплитуды сигнала от времени А(t) заменяется на дискретную последовательность уровней громкости.

На графике это выглядит как замена гладкой кривой на последовательность «ступенек»:

Каждой «ступеньке» присваивается значение уровня громкости звука, его код (1, 2, 3 и так далее).

Уровни громкости звука можно рассматривать как набор возможных состояний, соответственно, чем большее количество уровней громкости будет выделено в процессе кодирования, тем большее количество информации будет нести значение каждого уровня и тем более качественным будет звучание.

Преобразование аналоговой формы представления звука в дискретную происходит в процессе аналогово-цифрового преобразования (АЦП).

Преобразование дискретной формы представления звука в аналоговую происходит в процессе цифро-аналогового преобразования (ЦАП)

Качество кодирования звуковой информации зависит от :

1) частотой дискретизации, т.е. количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.

2) глубиной кодирования, т.е. количества уровней сигнала.

Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 i = 2 16 = 65536, где i — глубина звука.

Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.

Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-С D . Следует также учитывать, что возможны как моно-, так и стерео-режимы.

Можно оценить информационный объем стереоаудиофайла длительностью звучания 1 секунда при высоком качестве звука (16 битов, 48 кГц). Для этого количество битов, приходящихся на одну выборку, необходимо умножить на количество выборок в 1 секунду и умножить на 2 (стерео):

Решение: 16 бит • 48 000 • 2 = 1 536 000 бит = 192 000 байт = 187,5 Кбайт.

Оценить информационный объем цифрового стерео звукового файла длительностью звучания 1 минута при среднем качестве звука (16 битов, 24 кГц ).

Решение: 16 бит × 24 000 × 2 × 60 = 46 080 000 бит = 5 760 000 байт = 5 625 Кбайт ≈ 5,5 Мбайт

Стандартное приложение Звукозапись играет роль цифрового магнитофона и позволяет записывать звук, то есть дискретизировать звуковые сигналы, и сохранять их в звуковых файлах в формате W АV. Эта программа позволяет редактировать звуковые файлы, микшировать их (накладывать друг на друга), а также воспроизводить.

В основе кодирования звука с использованием ПК лежит процесс преобразования колебаний воздуха в колебания электрического тока и последующая дискретизация аналогового электрического сигнала. Кодирование и воспроизведение звуковой информации осуществляется с помощью специальных программ (редактор звукозаписи). Качество воспроизведения закодированного звука зависит от частоты дискретизации и её разрешения (глубины кодирования звука — количество уровней) [1] .

Читайте также:  30 Ватт в час сколько в месяц

Содержание

Принципы оцифровки звука [ править | править код ]

Цифровой звук — это аналоговый звуковой сигнал, представленный посредством дискретных численных значений его амплитуды [2] .

Оцифровка звука — технология поделенным временным шагом и последующей записи полученных значений в численном виде [2] .
Другое название оцифровки звука — аналогово-цифровое преобразование звука.

Оцифровка звука включает в себя два процесса:

  • процесс дискретизации (осуществление выборки) сигнала по времени
  • процесс квантования по амплитуде.

Дискретизация по времени [ править | править код ]

Процесс дискретизации по времени — процесс получения значений сигнала, который преобразуется с определенным временным шагом — шагом дискретизации . Количество замеров величины сигнала, осуществляемых в единицу времени, называют частотой дискретизации или частотой выборки, или частотой семплирования (от англ. « sampling» — «выборка»). Чем меньше шаг дискретизации, тем выше частота дискретизации и тем более точное представление о сигнале нами будет получено.
Это подтверждается теоремой Котельникова (в зарубежной литературе встречается как теорема Шеннона, Shannon). Согласно ей, аналоговый сигнал с ограниченным спектром точно описуем дискретной последовательностью значений его амплитуды, если эти значения берутся с частотой, как минимум вдвое превышающей наивысшую частоту спектра сигнала. То есть, аналоговый сигнал, в котором находится частота спектра равная Fm, может быть точно представлен последовательностью дискретных значений амплитуды, если для частоты дискретизации Fd выполняется: Fd>2Fm.
На практике это означает, что для того, чтобы оцифрованный сигнал содержал информацию о всем диапазоне слышимых частот исходного аналогового сигнала (20 Гц — 20 кГц) необходимо, чтобы выбранное значение частоты дискретизации составляло не менее 40 кГц. Количество замеров амплитуды в секунду называют частотой дискретизации (в случае, если шаг дискретизации постоянен).
Основная трудность оцифровки заключается в невозможности записать измеренные значения сигнала с идеальной точностью (хотя исходя из теоремы Шенона и Котельникова это возможно)

Линейное (однородное) квантование амплитуды [ править | править код ]

Отведём для записи одного значения амплитуды сигнала в памяти компьютера N бит. Значит, с помощью одного N -битного слова можно описать 2 N разных положений. Пусть амплитуда оцифровываемого сигнала колеблется в пределах от −1 до 1 некоторых условных единиц. Представим этот диапазон изменения амплитуды — динамический диапазон сигнала — в виде 2 N −1 равных промежутков, разделив его на 2 N уровней — квантов. Теперь, для записи каждого отдельного значения амплитуды, его необходимо округлить до ближайшего уровня квантования. Этот процесс носит название квантования по амплитуде. Квантование по амплитуде — процесс замены реальных значений амплитуды сигнала значениями, приближенными с некоторой точностью. Каждый из 2 N возможных уровней называется уровнем квантования, а расстояние между двумя ближайшими уровнями квантования называется шагом квантования. Если амплитудная шкала разбита на уровни линейно, квантование называют линейным (однородным).
Точность округления зависит от выбранного количества (2 N ) уровней квантования, которое, в свою очередь, зависит от количества бит (N), отведенных для записи значения амплитуды. Число N называют разрядностью квантования (подразумевая количество разрядов, то есть бит, в каждом слове), а полученные в результате округления значений амплитуды числа — отсчетами или семплами (от англ. « sample» — «замер»). Принимается, что погрешности квантования, являющиеся результатом квантования с разрядностью 16 бит, остаются для слушателя почти незаметными. Этот способ оцифровки сигнала — дискретизация сигнала во времени в совокупности с методом однородного квантования — называется импульсно-кодовой модуляцией, ИКМ (англ. Pulse Code Modulation — PCM).
Оцифрованный сигнал в виде набора последовательных значений амплитуды уже можно сохранить в памяти компьютера. В случае, когда записываются абсолютные значения амплитуды, такой формат записи называется PCM (Pulse Code Modulation). Стандартный аудио компакт-диск (CD-DA), применяющийся с начала 80-х годов 20-го столетия, хранит информацию в формате PCM с частотой дискретизации 44.1 кГц и разрядностью квантования 16 бит.

Другие способы оцифровки [ править | править код ]

  • Способ неоднородного квантования предусматривает разбиение амплитудной шкалы на уровни по логарифмическому закону. Такой способ квантования называют логарифмическим квантованием. При использовании логарифмической амплитудной шкалы, в области слабой амплитуды оказывается большее число уровней квантования, чем в области сильной амплитуды (при этом, общее число уровней квантования остается таким же, как и в случае однородного квантования). Аналогово-цифровое преобразование, основанное на применении метода неоднородного квантования, называется неоднородной импульсно-кодовой модуляцией — неоднородной ИКМ (Nonuniform PCM).
  • Альтернативным способом аналогово-цифрового преобразования является разностная импульсно-кодовая модуляция — разностная ИКМ (англ. « Differential PCM») — в случае разностной ИКМ квантованию подвергают не саму амплитуду, а относительные значения величины амплитуды. В полной аналогии с ИКМ, разностная ИКМ может сочетаться с использованием как однородного, так и неоднородного методов квантования. Разностное кодирование имеет много разных вариантов [3] .

Аналогово-цифровые преобразователи (АЦП) [ править | править код ]

Вышеописанный процесс оцифровки звука выполняется аналогово-цифровыми преобразователями (АЦП).
Это преобразование включает в себя следующие операции:

  1. Ограничение полосы частот производится при помощи фильтра нижних частот для подавления спектральных компонент, частота которых превышает половину частоты дискретизации.
  2. Дискретизацию во времени, то есть замену непрерывного аналогового сигнала последовательностью его значений в дискретные моменты времени — отсчетов. Эта задача решается путём использования специальной схемы на входе АЦП — устройства выборки-хранения.
  3. Квантование по уровню представляет собой замену величины отсчета сигнала ближайшим значением из набора фиксированных величин — уровней квантования.
  4. Кодирование или оцифровку, в результате которого значение каждого квантованного отсчета представляется в виде числа, соответствующего порядковому номеру уровня квантования.
Читайте также:  Тратится ли трафик при раздаче wifi

Делается это следующим образом: непрерывный аналоговый сигнал «режется» на участки, с частотой дискретизации, получается цифровой дискретный сигнал, который проходит процесс квантования с определенной разрядностью, а затем кодируется, то есть заменяется последовательностью кодовых символов. Для записи звука в полосе частот 20-20 000 Гц, требуется частота дискретизации от 44,1 и выше (в настоящее время появились АЦП и ЦАП c частотой дискретизации 192 и даже 384 кГц). Для получения качественной записи достаточно разрядности 16 бит, однако для расширения динамического диапазона и повышения качества звукозаписи используется разрядность 24 (реже 32) бита.

Кодирование оцифрованного звука перед его записью на носитель [ править | править код ]

Для хранения цифрового звука существует много различных способов. Оцифрованный звук являет собой набор значений амплитуды сигнала, взятых через определенные промежутки времени.

  • Блок оцифрованной аудио информации можно записать в файл без изменений, то есть последовательностью чисел — значений амплитуды. В этом случае существуют два способа хранения информации.
  • Первый — PCM (Pulse Code Modulation — импульсно-кодовая модуляция) — способ цифрового кодирования сигнала при помощи записи абсолютных значений амплитуд. (В таком виде записаны данные на всех аудио CD.)
  • Второй — ADPCM (Adaptive Delta PCM — адаптивная относительная импульсно-кодовая модуляция) – запись значений сигнала не в абсолютных, а в относительных изменениях амплитуд (приращениях).
  • Можно сжать данные так, чтобы они занимали меньший объем памяти, нежели в исходном состоянии. Тут тоже есть два способа.
    • Кодирование данных без потерь (lossless coding) — способ кодирования аудио, который позволяет осуществлять стопроцентное восстановление данных из сжатого потока. К нему прибегают в тех случаях, когда сохранение оригинального качества данных особо значимо. Существующие сегодня алгоритмы кодирования без потерь (например, Monkeys Audio) позволяют сократить занимаемый данными объем на 20-50%, но при этом обеспечить стопроцентное восстановление оригинальных данных из полученных после сжатия.
    • Кодирование данных с потерями (lossy coding). Здесь цель — добиться схожести звучания восстановленного сигнала с оригиналом при как можно меньшем размере сжатого файла. Это достигается путём использования алгоритмов, «упрощающих» оригинальный сигнал (удаляющих из него «несущественные», неразличимые на слух детали). Это приводит к тому, что декодированный сигнал перестает быть идентичным оригиналу, а является лишь «похоже звучащим». Методов сжатия, а также программ, реализующих эти методы, существует много. Наиболее известными являются MPEG-1 Layer I,II,III (последним является всем известный MP3), MPEG-2 AAC (advanced audio coding), Ogg Vorbis, Windows Media Audio (WMA), TwinVQ (VQF), MPEGPlus, TAC, и прочие. В среднем, коэффициент сжатия, обеспечиваемый такими кодерами, находится в пределах 10-14 (раз). В основе всех lossy-кодеров лежит использование так называемой психоакустической модели. Она занимается этим самым «упрощением» оригинального сигнала. Степень сжатия оригинального сигнала зависит от степени его «упрощения» — сильное сжатие достигается путём «воинственного упрощения» (когда кодером игнорируются множественные нюансы). Такое сжатие приводит к сильной потере качества, поскольку удалению могут подлежать не только незаметные, но и значимые детали звучания [4] .
    • Терминология [ править | править код ]

      • кодер – программа (или устройство), реализующая определенный алгоритм кодирования данных (например, архиватор, или кодер MP 3), которая в качестве ввода принимает исходную информацию, а в качестве вывода возвращает закодированную информацию в определенном формате.
      • декодер – программа (или устройство), реализующая обратное преобразование закодированного сигнала в декодированный.
      • кодек (от англ. « codec » — « Coder / Decoder ») — программный или аппаратный блок, предназначенный для кодирования/декодирования данных.

      Наиболее распространённые кодеки [ править | править код ]

      • MP3 – MPEG-1 Layer 3
      • ОGG – Ogg Vorbis
      • WMA – Windows Media Audio
      • MPC — MusePack
      • AAC – MPEG-2/4 AAC (Advanced Audio Coding)
      • Стандарт MPEG-2 AAC
      • Стандарт MPEG-4 AAC

      Некоторые форматы оцифровки звука в сравнении [ править | править код ]

      12:1 с потерями

      3:1 с потерями

      11:1 с потерями

      Название формата Квантование, бит Частота дискретизации, кГц Число каналов Величина потока данных с диска, кбит/с Степень сжатия/упаковки
      CD 16 44,1 2 1411,2 1:1 без потерь
      Dolby Digital (AC3) 16-24 48 6 до 640
      DTS 20-24 48; 96 до 8 до 1536
      DVD-Audio 16; 20; 24 44,1; 48; 88,2; 96 6 6912 2:1 без потерь
      DVD-Audio 16; 20; 24 176,4; 192 2 4608 2:1 без потерь
      MP3 плавающий до 48 2 до 320
      AAC плавающий до 96 до 48 до 529 с потерями
      AAC+ (SBR) плавающий до 48 2 до 320 с потерями
      Ogg Vorbis до 32 до 192 до 255 до 1000 с потерями
      WMA до 24 до 96 до 8 до 768 2:1, есть версия без потерь
      Читайте также:  Dyson cyclone v10 motorhead обзор

      Полный цикл преобразования звука: от оцифровки до воспроизведения у потребителя [ править | править код ]

      Помехоустойчивое и канальное кодирование [ править | править код ]

      Помехоустойчивое кодирование позволяет при воспроизведении сигнала выявить и устранить (или снизить частоту их появления) ошибки чтения с носителя. Для этого при записи к сигналу, полученному на выходе АЦП, добавляется искусственная избыточность (контрольный бит), которая впоследствии помогает восстановить поврежденный отсчет. В устройствах записи звука обычно используется комбинация из двух или трех помехоустойчивых кодов. Для лучшей защиты от пакетных ошибок также применяется перемежение. Канальное кодирование служит для согласования цифровых сигналов с параметрами канала передачи (записи/воспроизведения). К полезному сигналу добавляются вспомогательные данные, которые облегчают последующее декодирование. Это могут быть сигналы временного кода, служебные сигналы, сигналы синхронизации. В устройствах воспроизведения цифровых сигналов канальный декодер выделяет из общего потока данных тактовые сигналы и преобразует поступивший канальный сигнал в цифровой поток данных. После коррекции ошибок сигнал поступает в ЦАП.

      Принцип действия ЦАП [ править | править код ]

      Цифровой сигнал, полученный с декодера, преобразовывается в аналоговый. Это преобразование происходит следующим образом:

      1. Декодер ЦАП преобразует последовательность чисел в дискретный квантованный сигнал
      2. Путём сглаживания во временной области из дискретных отсчетов вырабатывается непрерывный во времени сигнал
      3. Окончательное восстановление сигнала производится путём подавления побочных спектров в аналоговом фильтре нижних частот

      Параметры, влияющие на качество звука при его прохождении по полному циклу [ править | править код ]

      Основными параметрами, влияющими на качество звука при этом являются:

      Также немаловажными остаются параметры аналогового тракта цифровых устройств кодирования и декодирования:

      A(t)

      t

      Рисунок 1. Временная дискретизация звука.

      Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем он громче, чем больше частота, тем выше тон. Для того, чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).

      В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. При этом звуковая волна разбивается на мелкие временные участки, для каждого из которых устанавливается значение амплитуды. На графике это выглядит как замена гладкой кривой на последовательность ”ступенек”, каждой из которых присваивается значение уровня громкости. Чем большее количество уровней громкости будет выделено в процессе кодирования, тем более качественным будет звучание.

      Современные звуковые карты обеспечивают 16-битную глубину кодировки звука. Количество различных уровней сигнала можно рассчитать по формуле: N=2 16 =65536. Т.о., современные звуковые карты обеспечивают кодирование 65536 уровней сигнала. Каждому значению амплитуды присваивается 16-ти битный код.

      При двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала. Качество кодирования зависит от количества измерений уровня сигнала в единицу времени, т.е. частотой дискретизации. Чем большее количество измерений проводится в 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.

      Качество двоичного кодирования звука определяется глубиной кодирования и частотой дискретизации.

      Частота дискретизации — это количество измерений громкости звука за одну секунду (1/Период (герц)). Период измерений — промежуток времени между двумя измерениями.

      Разрядность регистра звуковой карты определяется формулой:

      2 i =N

      где i – разрядность регистра (разрядность дискретизации),

      N – количество уровней измерения звука.

      Частота дискретизации аналогового звукового сигнала может принимать значения от 8 кГц до 48 кГц. При частоте 8 кГц качество дискретизованного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц – качеству звучания аудио-CD. Следует также учитывать, что возможны как моно-, так и стереорежимы.

      Задача. Попробуем оценить информационный объем стереоаудиофайла длительностью звучания 1 секунда при высоком качестве звука (разрядность дискретизации -16 бит, частота дискретизации — 48 кГц). Для этого количество битов нужно умножить на количество выборок в 1 секунду и умножить на 2 (стерео):

      16 бит*48 000 *2 = 1 536 000 бит = 192 000 байт = 187,5 Кбайт

      Уровень громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука.

      Глубина кодирования звука – это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

      2 i =N

      где: N – уровни громкости звука;

      i – глубина кодирования звука.

      Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости равно: N = 2 i = 2 16 = 65536

      Информационный объем (количество информации)= глубина звука (разрядность дискретизации)*частота дискретизации

      | следующая лекция ==>
      Формирование некоторых цветов при глубине цвета 24 бита | На методичну розробку лекції №1 з теми

      Дата добавления: 2014-01-13 ; Просмотров: 2213 ; Нарушение авторских прав? ;

      Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

      Рекомендуем к прочтению

      Добавить комментарий

      Ваш адрес email не будет опубликован.