Уровни сигналов звуковой карты

Вы используете устаревший браузер. Этот и другие сайты могут отображаться в нём некорректно.
Вам необходимо обновить браузер или попробовать использовать другой.

Member

Требуется подключить ЗК (Infrasonic Quartet) к усилителю, номинальный входной уровень которого - 0,75 В. Хотелось бы его не перегружать по входу и получить максимально возможный динамический диапазон.
В инструкции к звуковой карте написано:
Analog Line Output
Level : -10dBu Nominal (@-18dBFS) , +10.2dBu max, deviation +/- 0.1dB
Dynamic Range : 113 dB A-weighted (1kHz @ -60dBFS)
Правильно ли я понимаю, что при номинальном выходном уровне ЗК (тоесть -10dBu) динамический диапазон не будет "подрезан" (конечно же, если все 113 dB используются в воспроизводимой записи)?
Из педивикии:
dBu — опорное напряжение 0,775 В (то есть 0dBu соответствует 0,775 В (RMS? Я правильно понимаю?)), стандартизованный уровень сигнала для профессионального аудио оборудования составляет +4dBu, то есть 1,23 В.
Какой уровень сигнала (в вольтах) соответствует -10dBu?
Диапазон регулировок выходного уровня в драйвере ЗК: -64dB тире 0dB. Фиксированных значений, таких как -10dBu/+4dBu/Consumer нет. Только какие-то свои децибелы. Измеренный с помощью не True RMS мультиметра (вроде True RMS не обязательно, если сигнал является чистой синусоидой) выходной уровень ЗК (без нагрузки), соответствующий 0dB в драйвере ЗК - 2,4 В RMS (от частоты 20 Гц до 1 кГц практически не меняется, начиная приблизительно c 1 кГц и выше постепенно спадает, но это видимо такой мультиметр aint3. Для справки: -10dB в драйвере соответствует 0,75 В RMS на выходе, -15dB в драйвере соответствует 0,425 В RMS на выходе.
Правильно ли я замеряю и можно ли сопоставить измеренные уровни по синусоиде с реальным звуковым сигналом?

DmitryYa

Real Member

У Вас в голове полная каша!
Прежде всего не путайте дБ и dBu - в первом случае мы говорим (касательно вашего случая) об уровне "громкости" на выходе драйвера ЗК. во втором - о физическом напряжении на физическом же выходе оной.
-10dBu соответствует 0дБ при небалансном подключении, +4dBu - те же 0дБ при балансном подключении.
Если ваша карта имеет небалансный выход то при уровне 0дБ на физическом выходе она выдаёт -10dBu - т.е 0,07В. Если в ней есть баланс, то при 0дБ на выходе будет +4dBu - т.е 1,23В.
2,4В Вы могли намерить только между горячим и холодным проводниками измерив тем самым размах.
Систематизируйте знания и не морочьте сами себе голову.

Methafuzz

Loading. Please, wait.

чтобы не перегрузить усилок, надо знать его максимальный входной уровень, а не номинальный. В реальном музыкальном сигнале даже номинального RMS уровня могут встречаться пики какой угодно амплитуды. Так что перегрузить вход можно всегда, было бы желание. ))

касательно усилителя мощности рискну предположить, что его максимальный входной уровень тот, при котором он развивает на нагрузку свою максимально допустимую мощность. Как-то так, но в его паспорте все эти данные должны быть.

-10 dBu = прибл. 0.24 Вольт RMS
+10 dBu = прибл. 2.45 Вольт RMS (как раз мультиметр показал величину близкую к максимальному вых. сигналу карты)

баланс/небаланс - абсолютно все равно, способ подключения к уровню никакого отношения не имеет.

DmitryYa

Real Member

Ну да, с 0,07В это я погорячился, посчитал как для мощности. ;-)
Но не понятно, откуда тогда 2,4В при 0дБ?
И 0,75В при -10дБ. Что-то здесь странные измерения!

DmitryYa

Real Member

Я всегда считал следующее: 0дБ в цифровой части ЗК (назовём это так), должен соответствовать -10dBu на небалансном и +4dBu на балансном выходе аналоговой части ЗК. Т.е. речь идёт о напряжениях на выходе порядка 0,24В и 1,23В.
В чём же я не прав?

Methafuzz

Loading. Please, wait.

да вроде всё просто,

максимальный сигнал на выходе карты равен +10 dBu - это и есть те самые 2.4 Вольта, и они же соответствуют 0 dBFS в звуковой карте.
соответственно, если драйвером снизить уровень на 10 dB, на выходе будет 0 dBu - 0.775 Вольт

0 дБ "в цифровой части ЗК" точнее называется 0 dBFS (dB Full Scale). Это максимальный вообще уровень сигнала на входе ЦАП, выше быть не может физически. А уровни -10 и +4 dBu это номинальные референсные уровни, к ним еще сверху прибавляется запас по перегрузке (он же хедрум, обычно 14-18 dB). На аналоговых консолях эти номинальные уровни назывались 0 VU, иногда этот термин используют и сегодня.

DmitryYa

Real Member

Для справки: -10dB в драйвере соответствует 0,75 В RMS на выходе, -15dB в драйвере соответствует 0,425 В RMS на выходе.

Methafuzz

Loading. Please, wait.

-10 дБ в драйвере это 0 dBu=0.775 Вольт

-15 дБ в драйвере это -5 dBu=0.43 Вольт

примерно так и есть, с погрешностью мультиметра

Member

В инструкции к звуковой карте написано:
Analog Line Output
Level : -10dBu Nominal (@-18dBFS) , +10.2dBu max, deviation +/- 0.1dB
Dynamic Range : 113 dB A-weighted (1kHz @ -60dBFS)
Правильно ли я понимаю, что при номинальном выходном уровне ЗК (тоесть -10dBu) динамический диапазон не будет "подрезан" (конечно же, если все 113 dB используются в воспроизводимой записи)?

Ну или лучше так: какой минимальный выходной уровень (в вольтах) можно выставить, чтобы использовался весь динамический диапазон ЦАП в этой ЗК?

DmitryYa

Real Member

Да, отстал я от жизни. Всё по привычке, по-аналоговому мыслю. Спасибо всем за пищу для размышлений. Стал мерять свою карту и понял, что вопросов стало ещё больше. Будем изучать!

Methafuzz

Loading. Please, wait.

Methafuzz Спасибо за помощь. Остался самый главный вопрос:
Ну или лучше так: какой минимальный выходной уровень (в вольтах) можно выставить, чтобы использовался весь динамический диапазон ЦАП в этой ЗК?

Производитель карты указывает этот номинальный уровень: -18 dbFS по мастер-индикатору хоста, при этом на выходе карты должно быть -10 dBu или 0.24 V RMS, тогда запас по пикам составляет 18 dB. Вполне можно референс установить на -12 dBFS и выходной сигнал разогнать еще децибел на 6, в современной музыке большой headroom редко бывает нужен. Правда есть опасность, что выходной аналоговый каскад карты на повышенном уровне будет сильнее искажать, но тут уже что-то сказать трудно.

Logic

Well-Known Member

GKP, я тут исправил то что было, потому что получилось оно слишком длинно и не очень полезно в практическом смысле.

Перегрузить усилитель вы сможете не номинальным уровнем, а максимальным. А он у вас +10,2dbu. Кстати, это и есть ваши измеренные 2,4VRMS. А какой он (максимальный входной уровень) у усилителя. Если предположить, что усилитель имеет перегрузочную способность 10дб от номинального уровня - тогда "теоретически" он способен без искажений усилить ваши +10,2dbu. Но это совершенно нереально для усилителя мощности, прикиньте сами, во сколько раз должна увеличиться выходная мощность (относительно номинальной) при увеличении входного напряжения на 10дб. Причем это должна быть не кратковременная пиковая мощность, а просто постоянная рабочая мощность, - без искажений и перегрева. Это нереально.

Достаточно правильный способ не перегрузить ваш усилитель ни при каких обстоятельствах - поставить между ним и картой аттенюатор на 10дб. или ослабить выходной сигнал другим способом, например ручкой громкости самого усилителя, если она есть. Но при условии, что громкость регулируется на сАмом входе, то есть НЕ после каскадов предварительного усиления. Можно попробовать ослабить сигнал на микшере карты, но это не всегда хорошо, - зависит от того, как именно реализован регулятор в драйвере. Если математически - вы автоматически теряете часть динамического диапазона, если как реальный управляемый атенюатор (он аналоговый) - тогда все нормально, и это будет самый лучший способ ослабить сигнал. А весь смысл в том, что при ослаблении на 10дб - ваш максимальный уровень с карты будет примерно равен номинальному для усилителя. Я бы даже ослабил не на 10, а на 12дб, - чтоб наверняка.

Некоторые общие пояснения технических терминов можно найти в нашем FAQ по звуку. Для более глубокого понимания нижеизложенного можно воспользоваться следующими документами: FAQ по цифровому представлению звуковых сигналов, Personal Computer Audio Quality Measurements.

Для измерений характеристик, получаемых при прохождении сигнала по внешнему пути аудиотракта карты — из линейного выхода в линейный вход (external loopback), был применён шнурок длиной 10 см из раздельно экранированных микрофонных проводов d=6 мм. На его концах были распаяны позолоченные разъемы миниджек производства Тайвань, немного расточенные с торца.

Немного теории

Действие программы SpectraLab основано на FFT (Fast Fourier Transform — быстром преобразовании Фурье). Вспомним формулу прямого преобразования Фурье:

где — непрерывная функция на входе, например .

A — амплитуда сигнала, например 1 Vrms, — частота, например 1000 Гц.

На её основе вводится формула дискретного преобразования Фурье:

где — дискретные значения непрерывной функции f (i) в точке i, N — количество точек, — частота.

При этом мы можем выбирать как узкий диапазон частот для более точного исследования, так и всю доступную полосу, которая, согласно теореме Котельникова, не может превышать половину частоты дискретизации. Для максимальной производительности выбирают N, являющееся степенью числа 2 (в программах обычно предлагается ряд от 2 8 до 2 16 ).

Какие методические погрешности мы получаем? Самая большая неприятность — это рассеяние. То есть при подаче синусоиды вместо такой картинки в идеале:

возникает немного другая:

Это "просачивание" сигнала на соседние частоты спектра в английской терминологии носит название leakage. Такова плата за realtime в измерениях, который мы имеем используя FFT. То есть искажению подвергается даже представление идеального файла с чистой синусоидой, что делает невозможным определение по графику истинного значения спектрального распределения шумов на реальном сигнале.

Методы представления результатов FFT (smoothing windows)

Но не всё так плохо. В зависимости от преследуемых целей результаты могут быть представлены в соответствии с одним из методов, указанных в таблице:

Метод представления	Точность передачи по частоте спектра	Точность передачи амплитуды	Уменьшение размытия	Где применяется
Bartlett	Плохо	Плохо	Средне
Blackman	Плохо	Хорошо	Превосходно	Измерение искажений (distortion)
Flattop	Очень плохо	Превосходно	Средне	Точные измерения значений амплитуды
Hamming	Плохо	Плохо	Плохо
Hanning	Плохо	Превосходно	Превосходно	Измерение искажений и шумов
Kaiser	Плохо	Плохо	Очень плохо
Parzen	Плохо	Плохо	Очень плохо
Triangular	Плохо	Плохо	Очень плохо
Uniform (неизменённое представление)	Превосходно	Очень плохо	Очень плохо	Точные измерения значений частоты пиков, анализ импульсов

Из приведённой таблицы видно, что в реальной жизни хватит всего 2-х методов: по Ханингу (Hanning) и обычного представления (Uniform). Принцип действия всех этих методов заключается в подборе такой сложной функции, которая бы дала нам оптимальный вид зависимости амплитуды от частоты.

Режимы работы с программой

Для переключения режимов работы служит меню Mode:

Real Time — измерения в реальном времени, Recorder — запись и обработка файлов, Post Process — постообработка, в которой имеется возможность использования перекрытий (FFT overlap) для более точного измерения.

Перейдём в режим Recorder и откроем тестовый файл — синусоиду с частотой 1 кГц. Нажав клавишу F4 или выбрав пункт меню Option/Settings, попадаем в настройки и устанавливаем необходимые параметры. Следует обратить внимание на частоту обработки. Если она отличается от частоты семплирования, неизбежны значительные нелинейные искажения от передискретизации.

ВНИМАНИЕ! Не рекомендуется использовать входящий в комплект SpectraLAB тестовый файл синусоиды 1 кГц 44100 Гц при измерении характеристик карт в режиме семплинга 48000 Гц.

Averaging Settings - округления по сериям измерений. FFT size — число N из формулы (2). Peak Hold — фиксировать пики — необходимо только для показа "потолка", так как измерения искажений и шумов в этом режиме получаются некорректными. Decimal Ratio — позволяет уменьшить выборку по частоте. Для исключения "пульсаций" АЧХ при максимальном FFT size следует уменьшить значение этого параметра до 32768 (можно предположить следующее: поскольку численное интегрирование очень чувствительно к шагу, деление на 2 16 в формуле (2) значительно ухудшает точность и устойчивость численного метода).

Особенности выбора тестового сигнала

Создадим стандартный синусоидальный сигнал 1 кГц амплитудой 0 dB (амплитуда считается относительно максимального сигнала без перегрузки для 16-битной разрядной сетки). Сигнал для тестов точно под "0" — не очень хороший выбор (исключая рекламные проспекты). Реально на студиях никто не нормализует музыкальный материал таким образом — всегда оставляют некоторый запас "сверху" (headover). Это происходит по разным причинам. И одна из них такова: старший бит несёт информацию о половине амплитуды сигнала, ошибки при считывании CD-DA интерполируются через двойной каскадный код Рида-Соломона, и при нормализованном под "ноль" сигнале щелчки со временем "эксплуатации" будут слышны все чаще и чаще. Для получения более реальных характеристик разумно использовать для измерений файл с уровнем -3dB.

Ровный спектр шумов при почти полном отсутствии гармоник идеально подходит в качестве эталонного сигнала.

Измеряемые параметры

Коэффициент нелинейных искажений (Total Harmonic Distortion, THD). Равен квадратному корню отношения суммы мощностей всех гармоник, кроме основной, к мощности основного колебания. Согласно установившейся практике подаётся сигнал частотой 1 кГц максимальной амплитуды. Характеризует нелинейность и обычно сильно зависит от частоты. Измеряется в процентах. Для цифровой техники при выходе цифрового сигнала за разрядность цифровой сетки (например, при высоких положениях регуляторов громкости в микшере или некорректных алгоритмах) характерно скачкообразное увеличение значения THD.

Отношение сигнал/шум (Signal to Noise Ratio, SNR). Показывает превышение амплитуды выходного сигнала над среднеквадратичным значением мощности шумов. Вычисляется вычитанием упомянутых величин в децибелах, поэтому является размерной величиной. Очень актуален для аналоговых устройств и АЦП/ЦАП. Так как уровень воздействия шумов на человека зависит от спектра самого шума, то для учёта субъективного восприятия (а иногда и в маркетинговых целях) применяют стандартную сетку А-взвешивания. При этом рядом с параметром должно быть указано А-weighting. Цифровые шумы не подчиняются закону геометрического сложения, как аналоговые.

Для совместной оценки шумов и искажений также измеряют полный коэффициент гармоник с учётом шумов (THD+N). Он объединяет в себе значения двух вышеописанных параметров.

Реальный сигнал включает в себя частоты, на порядок отличающиеся друг от друга по значению. Вследствие нелинейности звукового тракта могут образовываться паразитные модуляционные гармоники, делающие звук неестественным и неприятным. Для учёта такого влияния вводят коэффициент взаимной модуляции (InterModulation Distortion, IMD).

АЧХ, или амплитудно-частотная характеристика (AFC, amplitude-frequency characteristic). Представляет собой график в координатах амплитуды от частоты, построенный измерением амплитуды на выходе системы при подаче гармонического сигнала обычно представляющего собой "плавающий" синус (swept sine) с постоянной амплитудой. В идеале этот график должен быть прямой линией, при этом имеет значение не абсолютное соответствие референсному сигналу, а отклонение от наиболее ровного участка. Позволяет судить о том, насколько верно передаётся амлитуда сигнала на различных частотах спектра. При необходимости корректируется многополосным эквалайзером. К сожалению, аналоговые эквалайзеры привносят гораздо более неприятные на слух по сравнению с частотными фазовые искажения. Необходимо отметить, что цифровые эквалайзеры, работающие не в реальном времени, не вносят фазовых искажений в сигнал.

Мощность шумов квантования при оцифровке может быть уменьшена на несколько дБ за счёт оверсемплинга и последующей фильтрации неслышимых частот, что широко применяется в кодеках и ЦАП-ах. Упомянуто это для объяснения технологической необходимости установки фильтра высокого порядка (означающего спад АЧХ на высоких частотах). Однако создать идеальный фильтр (и дешевый, и эффективный) трудно, поэтому разработчики часто "залезают" даже в слышимую область спектра. Влияния подобного рода инженерных решений на качество звука нужно оценивать в каждом конкретном случае предельно аккуратно.

О применимости данной методики и корректности результатов измерений

В статье SB Live! и домашняя звуковая студия приводятся сравнение параметров аудиотракта звуковой карты SBLive!, полученных на измерительном комплексе Audio Precision, с таковыми у профессиональных и полупрофессиональных карточек. Данные, полученные нами с помощью программы SpectraLab 4.32.14, отличались от указанных в статье не более чем на 1,5%.

В любом случае наша цель состоит не в получении абсолютных значений, а в сравнении параметров звуковых карт между собой по одной и той же методике, в одних и тех же условиях. И что самое важное — результаты измерений хорошо согласуются с независимыми слуховыми экспертными оценками на качественном аудио-оборудовании.

В наших планах стоит улучшение и развитие данной методики измерений. Комментарии и поправки от квалифицированных специалистов в данной области приветствуются.

На данный момент наиболее целесообразно делать замер следующим образом.

Подготовка исходных wave с тестами
Воспроизведение и запись во время теста
Анализ полученных wave треков

По умолчанию, RMAA может сохранять запись теста в wave формате, но бесплатная версия не позволяет вносить корректировки в тестовый сигнал, выбирать другие частоты и уровни сигнала.

При анализе бесплатной RMAA спектры получаться такими же, как и в Pro версии, но с неверными численными значениями в таблице, где где были выбраны не дефолтные параметры. Т. к. нам важен именно вид спектра — то такое ограничение в ряде случаев несущественно.

Сгенерированные сигналы можно скачать ниже в таблице. На выбор дается две группы сигналов, в одной группе сигналы преимущественно с уровнем -1 дБ, во второй группе -3 дБ.

Суть такого разделения следующая:

Первая группа тестовых сигналов

До замера необходимо откалибровать сигнал по определенному уровню на входе, в RMAA в режиме калибровки подается синус с уровнем -1 дБ. Визуально можно убедится, нет ли перегрузки. Но, если мы запустим стандартный тест с дефолтными настройками для THD в -3дБ, то во время теста усилитель на синусе выдаст меньшую мощность. По этому целесообразно тест провести с уровнем тестового сигнала в -1 дБ. Дополнительный плюс — в таком тесте мы получим большее соотношение сигнал/шум. Это может быть важным, если уровень выходного сигнала дополнительно понижается в цифровом микшере карты на выходе.

Вторая группа тестовых сигналов

Преимущество дефолтного теста с уровнем в -3дБ — это зачастую более легкий режим для звукового интерфейса, обеспечивающий меньшие искажения. Однако в таком случае становится затруднительным откалибровать сигнал через RMAA в loop тесте.

Дополнительно во второй группе тестов используется меньшая амплитуда сигналов в тесте «Интермодуляционные искажения — 19+20 кГц», их общая амплитуда составляет примерно - 3дБ, против -1дБ для первой группы. Аналогично различаются по амплитуде мультитон и TIMD.

В каждую группу входит калибровочный сигнал, его можно запустить через внешний плеер (foobar2000, winamp и т. п.), а в RMAA проводить только визуальный контроль спектра для второй группы. Для второй группы теста калибровка делается по уровню -3 дБ.

-1 и -3 дБ для первой и второй группы

При калибровке нужно подбирать уровень сигнала без перегрузки

Уровень сигнала без перегрузки выходя усилителя и входа звуковой карты

Уровень сигнала с перегрузкой — перегрузка на выходе усилителя

Перегрузка на входе звуковой карты как правило отличается более ровной полкой гармоник без плавного завала в высокочастотной области. Замер с перегрузкой на выходе усилителя может быть полезен только в тех случаях, когда надо показать, что на определенной мощности усилитель не дотягивает до заявленных производителем данных.

Прошло конечно много времени, но думаю что тема не перестала быть актуальной.
Не знаю как для других, а для меня остался ряд вопросов:
1) В Советских ГОСТах, сказано что номинальное напряжение на линейном выходе источника должно быть 0,5 Вольт.
Внимание вопрос: Это амплитудное, или эффективное значение?

2) В европейских стандартах, за номинальный уровень принято 0,775 Вольт, это амплитудное, или эффективное значение?

Для линейных выходов цифровых источников, дано максимальное напряжение 2 Вольта, тот-же вопрос, это амплитудное, или эффективное значение?
Судя по всему это амплитудное. Напряжение ограничения, или иными словами переполнения ЦАП. А какое будет номинальное? Максимальное напряжение ограничения, не как не может быть номинальным, так как в этом случае отсутствует запас на перегрузку! Какое напряжение будет на выходе ЦАП, CD плеера, звукового адаптера компьютера, при воспроизведении некоего тест сигнала (Диска\файла)?
На какую чувствительность рассчитывать вход "ПК" селектора входов предварительного усилителя?

_________________
Программируемой электроникой (МК, ПЛИС) не интересуюсь! Только классика. Настоятельно прошу, не предлагать мне делать что-то на МК.

На звуковых картах компьютеров сигнал на выходы идет напрямую с "звуковых микросхем" без всяких делителей. Так что амплитуда сигнала там может запросто быть близка к 2.5 вольт.

Делайте предусилитель с Кус = 10 по напряжению и не парьтесь. Чувствительнее незачем - только фон питания слушать.
То есть на 250мВ амплитудных на входе.
Занимался тем (вполне успешно), чтобы выдавать и мерить регулируемую постоянку 0-5в на выходе/входе звуковой карты.
Параллельно срисовывал на будущее.

Вложения:

SoundCard inputs.JPG [116.85 KiB]
Скачиваний: 1794

Часовой пояс: UTC + 3 часа

Кто сейчас на форуме

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB
Extended by Karma MOD © 2007—2012 m157y
Extended by Topic Tags MOD © 2012 m157y

Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.

Чем отличается цифровой аудиосигнал от аналогового?

Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).

Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).

Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.

Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).

Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).

Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).

Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).

Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)

Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).

Данная формула позволяет вычислить количество уровней квантования:

Если N — количество уровней квантования,
n — разрядность, то

Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.

При n = 1 аудиосигнал превратится в азбуку Морзе: либо есть «стук», либо нету. Существует также разрядность 32 бит с плавающей запятой. Обычный компактный Аудио-CD имеет разрядность 16 бит. Чем ниже разрядность, тем больше округляются значения и тем больше ошибка квантования.

Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением и квантованным значением ()

Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).

Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).

Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).

Ошибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.

Аудиопример 1: 8bit/44.1kHz, ~50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.

Аудиопример 2: 4bit/48kHz, ~25dB SNR

Аудиопример 3: 1bit/48kHz, ~8dB SNR

Теперь о дискретизации.

Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то

Чтобы аналоговый сигнал можно было преобразовать обратно из цифрового сигнала (точно реконструировать непрерывную и плавную функцию из дискретных, «точечных» значении), нужно следовать теореме Котельникова (теорема Найквиста — Шеннона).

Теорема Котельникова гласит:

Если аналоговый сигнал имеет финитный (ограниченной по ширине) спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчетам, взятым с частотой, строго большей удвоенной верхней частоты.

Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.

Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?

Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.

Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.

Аудиопример 4: Линейно возрастающая частота от ~100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.

Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг

Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.

Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.

Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):

Битрейт = Частота дискретизации * Разрядность * Количество каналов

Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s

При постоянном битрейте (constant bitrate, CBR) передача объема потока данных в единицу времени не изменяется на протяжении всей передачи. Главное преимущество — возможность довольно точно предсказать размер конечного файла. Из минусов — не оптимальное соотношение размер/качество, так как «плотность» аудиоматериала в течении музыкального произведения динамично изменяется.

При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.

Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину.

При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.

ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.

Существуют 3 метода хранения цифрового аудиоматериала:

Несжатые («сырые») данные
Данные, сжатые без потерь
Данные, сжатые с потерями

Несжатый (RAW) формат данных

содержит просто последовательность бинарных значений.
Именно в таком формате хранится аудиоматериал в Аудио-CD. Несжатый аудиофайл можно открыть, например, в программе Audacity. Они имеют расширение .raw, .pcm, .sam, или же вообще не имеют расширения. RAW не содержит заголовка файла (метаданных).

Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.

Аудиоформаты с сжатием без потерь

Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.

Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.

Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).

Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…

При сжатии с потерями

акцент делается не на избежание потерь информации, а на спекуляцию с субъективными восприятиями (Психоакустика). Например, ухо взрослого человек обычно не воспринимает частоты выше 16kHz. Используя этот факт, кодек сжатия с потерями может просто жестко срезать все частоты выше 16kHz, так как «все равно никто не услышит разницу».

Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.

Этим и пользуется кодек: 2kHz-звук можно убрать.

Кодеки сжатия с потерям: mp3, aac, ogg, wma, Musepack…

Спасибо за внимание.

Читайте также: