С какой скоростью для кодирования речи используется речевой кодек acelp
Скорость передачи, которую предусматривают имеющиеся сегодня узкополосные кодеки, лежит в пределах 1.2-64 кбит/с. Естественно, что от этого параметра прямо зависит качество воспроизводимой речи. Существует множество подходов к проблеме определения качества. Так, например, для прослушивания экспертам предъявляются разные звуковые фрагменты - речь, музыка, речь на фоне различного шума и т. д. Искажения оценивают путем опроса разных групп людей по пятибалльной шкале единицами субъективной оценки MOS (Mean Opinion Score ). Оценки интерпретируют следующим образом:
- 4-5 - высокое качество; аналогично качеству передачи речи в ISDN , или еще выше;
- 3,5-4 - качество ТфОП (toll quality); аналогично качеству речи, передаваемой с помощью кодека АДИКМ при скорости 32 кбит/с. Такое качество обычно обеспечивается в большинстве телефонных разговоров. Мобильные сети обеспечивают качество чуть ниже toll quality;
- 3-3,5 - качество речи по-прежнему удовлетворительно, однако его ухудшение явно заметно на слух;
- 2,5-3 - речь разборчива, однако требует концентрации внимания для понимания. Такое качество обычно обеспечивается в системах связи специального применения (например, в вооруженных силах).
В рамках существующих технологий качество ТфОП (toll quality) невозможно обеспечить при скоростях менее 5 кбит/с.
При диалоге один его участник говорит в среднем только 35 процентов времени. Таким образом, если применить алгоритмы, которые позволяют уменьшить объем информации, передаваемой в периоды молчания, то можно значительно сузить необходимую полосу пропускания. В двустороннем разговоре такие меры позволяют достичь сокращения объема передаваемой информации до 50 %, а в децентрализованных многоадресных конференциях (за счет большего количества говорящих) - и более. Нет никакого смысла организовывать многоадресные конференции с числом участников больше 5-6, не подавляя периоды молчания.
Генератор CNG позволяет избежать таких неприятных эффектов.
Большинство узкополосных кодеков обрабатывает речевую информацию блоками, называемыми кадрами ( frames ), и им необходимо производить предварительный анализ отсчетов, следующих непосредственно за отсчетами в блоке, который они в данный момент кодируют.
Размер кадра важен, так как минимальная теоретически достижимая задержка передачи информации (алгоритмическая задержка) определяется суммой этого параметра и длины буфера предварительного анализа.
С другой стороны, кодеки с большей длиной кадра более эффективны, так как здесь действует общий принцип: чем дольше наблюдается явление (речевой сигнал), тем лучше оно отображается на объеме дополнительной служебной информации, которая добавляется к кадру.
Потери пакетов являются неотъемлемым атрибутом IP-сетей. Но потери пакетов и потери кадров не обязательно напрямую связаны между собой, так как существуют подходы, например, применение кодов с исправлением ошибок ("forward error correction "), позволяющие уменьшить число потерянных кадров при заданном числе потерянных пакетов. Необходимая для этого дополнительная служебная информация распределяется между несколькими пакетами, так что при потере некоторого числа пакетов кадры могут быть восстановлены.
Кодеры типа G.723.1 разработаны так, что они функционируют без существенного ухудшения качества в условиях некоррелированных потерь до 3 % кадров, однако при превышении этого порога качество ухудшается катастрофически.
3.8. Кодеки IP-телефонии
Наибольшее распространение получили кодеки следующих типов.
Кодек G.711 - один из первых цифровых кодеков речевых сигналов, который является минимально необходимым. Это означает, что любое устройство VoIP должно поддерживать этот тип кодирования.
Рекомендация G.723.1 утверждена ITU -T в ноябре 1995 г. Кодек G.723.1 является базовым для приложений IP-телефонии .
Кодек G.723.1 предусматривает две скорости передачи: 6.3 кбит/с и 5.3 кбит/с. Режим работы может меняться динамически от кадра к кадру.
Для этих кодеков оценка MOS ( Mean Opinion Score ) составляет 3,9 в режиме 6.3 кбит/с и 3,7 в режиме 5.3 кбит/с.
Кодек G.726 обеспечивает кодирование цифрового потока со скоростью 40, 32, 24 или 16 кбит/с, гарантируя оценки MOS на уровне 4,3 (32 кбит/с), что принимается за эталон уровня качества телефонной связи (toll quality ). Однако в приложениях IP-телефонии этот кодек практически не используется, так как он не обеспечивает достаточной устойчивости к потерям информации (см. выше).
Кодек G.728 специально разрабатывался для оборудования уплотнения телефонных каналов, при этом было необходимо обеспечить возможно малую величину задержки (менее 5 мс), чтобы исключить необходимость применения эхокомпенсаторов.
Кодек G.729 очень популярен в приложениях передачи речи по сетям Frame Relay . Кодек использует кадр длительностью 10 мс и обеспечивает скорость передачи 8 кбит/с. Однако для кодера необходим предварительный анализ сигнала продолжительностью 5 мс.
Существуют две разновидности кодека:
Количественными характеристиками ухудшения качества речи являются единицы QDU ( Quantization Distortion Units): 1 QDU соответствует ухудшению качества при оцифровке с использованием стандартной процедуры ИКМ; значения QDU для основных методов компрессии приведены в таблице 3.2.
Дополнительная обработка речи всегда ведет к дальнейшей потере качества. Согласно рекомендациям МСЭ-Т, для международных вызовов величина QDU не должна превышать 14 , причем передача разговора по международным магистральным каналам ухудшает качество речи, как правило, на 4 QDU . При передаче разговора по национальным сетям должно теряться не более 5 QDU . Поэтому для качественной передачи речи процедуру компрессии/декомпрессии желательно применять в сети только один раз. В некоторых странах это является обязательным требованием регулирующих органов по отношению к корпоративным сетям, подключенным к сетям общего пользования.
Современная аппаратура IP-телефонии применяет разные кодеки, как стандартные, так и нестандартные. Конкурентами являются кодеки GSM (13,5 кбит/с) и кодеки МСЭ-Т серии G, использование которых предусматривается стандартом H.323 для связи по IP -сети.
3.9. Оценка качества воспринимаемой информации
Значения MOS для различных стандартов кодеров приведены в таблице 3.3.
В каналах Интернета важными для IP-телефонии параметрами являются следующие:
Общение абонентов часто проходит в условиях высокого уровня окружающего шума. В отличие от пользователей сотовой связи, которые обычно могут выбирать подходящее место для ведения переговоров, абоненты транкинговых систем из различных служб безопасности не располагают такой возможностью: им нередко приходится работать на фоне завывания сирен, выстрелов, переговоров по громкой связи и т.п. При создании оборудования TETRA эта особенность была учтена. Оно обеспечивает необходимые в подобной обстановке большую мощность выходного аудиосигнала, его малое искажение и четкость речи. Хорошее качество передаваемой речи обусловлено использованием кодека TETRA (рисунок 1).
Применяемый в стандарте TETRA алгоритм кодирования/декодирования базируется на методе линейного предсказания с многоимпульсным кодовым возбуждением (Code-Excited Linear Predictive, CELP), который дополнен специальными кодовыми книгами алгебраической структуры. Этот механизм кодирования получил название Algebraic CELP (ACELP).
Рис.1. Схема работы речевого кодека в системах TETRA: а) кодирование, б) декодирование
Кодек, работающий по алгоритму ACELP, сжимает сегмент речевого сигнала длительностью 30 мс (16 выборок х 8 кГц = 128 кбит/с) в соответствии с набором правил кодовой книги и формирует набор закодированных речевых сигналов, передаваемых со скоростью речевого кодека — 4,567 кбит/с . Для достижения необходимой чистоты речи при передаче сигнала по радиоканалу со скоростью 7,2 кбит/с используются также методы прямой коррекции ошибок (Forward Error Correction, FEC) и циклического избыточного кодирования (Cyclic Redundancy Code, CRC). На стороне приема декодер производит аналогичные действия, но в обратном порядке (рисунок 2 ).
Рис.2. Речевой кодек TETRA
- оценки важности элементов речи (Speech Importance Factor, SIF);
- установления комфортного уровня шума (Comfort Noise Function, CNF);
- заимствования кадров (Frame Stealing Function, FSF).
Сценарий их «работы» достаточно прост. SIF анализирует каждый речевой кадр, чтобы определить, насколько ухудшится качество передаваемой речи в результате его потери. В соответствии с результатами анализа этому кадру присваивается необходимый уровень защиты (нулевой, т.е. низкий, средний или высокий). Функция CNF генерирует специальный кадр, используемый для замены некачественных кадров речи либо кадров, служащих для передачи управляющих сигналов.
Несмотря на кажущуюся простоту механизма кодека, реализовать его было непросто, поскольку для обеспечения требуемой скорости канала TETRA (7,2 кбит/с) и предусмотренных стандартом TETRA показателей качества речи производительность кодека должна составлять не менее 15 MIPS. Соответственно, и аппаратные решения TETRA достаточно сложны.
Вопрос оценки качества кодирования голоса с использованием различных кодеков возник сразу же с момента их появления. При этом речь не ведётся об измерении коэффициента нелинейных и интермодуляционных искажений и отношения сигнал/шум, как это принято для оценки тракта звуковоспроизводящей аппаратуры. Специфика использования речевого кодека позволяет оперировать такой характеристикой как Усреднённое Совокупное Мнение (MOS – Mean Opinion Score). Компания CISCO Systems приводит результаты тестирования кодеков по критерию наилучшей разборчивости речи. Оценка кодеков произведена по традиционной 5-ти бальной шкале, где наилучшему качеству звучания соответствует наибольший бал. Результаты представлены в таблице 2. Таблица 2
* - Компания AudioCodes совместно с независимой испытательной лабораторией COMSAT провела сравнительное тестирование кодека Net Coder и кодеков G.711, G.723.1, G.729a для различных уровней речевого сигнала. Результаты тестирования представлены на рисунке 11. рис.9. Результаты тестирования кодеков.
Скорость передачи, которую предусматривают имеющиеся сегодня узкополосные кодеки, лежит в пределах 1.2-64 кбит/с. Естественно, что от этого параметра прямо зависит качество воспроизводимой речи. Существует множество подходов к проблеме определения качества. Так, например, для прослушивания экспертам предъявляются разные звуковые фрагменты - речь, музыка, речь на фоне различного шума и т. д. Искажения оценивают путем опроса разных групп людей по пятибалльной шкале единицами субъективной оценки MOS (Mean Opinion Score ). Оценки интерпретируют следующим образом:
- 4-5 - высокое качество; аналогично качеству передачи речи в ISDN , или еще выше;
- 3,5-4 - качество ТфОП (toll quality); аналогично качеству речи, передаваемой с помощью кодека АДИКМ при скорости 32 кбит/с. Такое качество обычно обеспечивается в большинстве телефонных разговоров. Мобильные сети обеспечивают качество чуть ниже toll quality;
- 3-3,5 - качество речи по-прежнему удовлетворительно, однако его ухудшение явно заметно на слух;
- 2,5-3 - речь разборчива, однако требует концентрации внимания для понимания. Такое качество обычно обеспечивается в системах связи специального применения (например, в вооруженных силах).
В рамках существующих технологий качество ТфОП (toll quality) невозможно обеспечить при скоростях менее 5 кбит/с.
При диалоге один его участник говорит в среднем только 35 процентов времени. Таким образом, если применить алгоритмы, которые позволяют уменьшить объем информации, передаваемой в периоды молчания, то можно значительно сузить необходимую полосу пропускания. В двустороннем разговоре такие меры позволяют достичь сокращения объема передаваемой информации до 50 %, а в децентрализованных многоадресных конференциях (за счет большего количества говорящих) - и более. Нет никакого смысла организовывать многоадресные конференции с числом участников больше 5-6, не подавляя периоды молчания.
Генератор CNG позволяет избежать таких неприятных эффектов.
Большинство узкополосных кодеков обрабатывает речевую информацию блоками, называемыми кадрами ( frames ), и им необходимо производить предварительный анализ отсчетов, следующих непосредственно за отсчетами в блоке, который они в данный момент кодируют.
Размер кадра важен, так как минимальная теоретически достижимая задержка передачи информации (алгоритмическая задержка) определяется суммой этого параметра и длины буфера предварительного анализа.
С другой стороны, кодеки с большей длиной кадра более эффективны, так как здесь действует общий принцип: чем дольше наблюдается явление (речевой сигнал), тем лучше оно отображается на объеме дополнительной служебной информации, которая добавляется к кадру.
Потери пакетов являются неотъемлемым атрибутом IP-сетей. Но потери пакетов и потери кадров не обязательно напрямую связаны между собой, так как существуют подходы, например, применение кодов с исправлением ошибок ("forward error correction "), позволяющие уменьшить число потерянных кадров при заданном числе потерянных пакетов. Необходимая для этого дополнительная служебная информация распределяется между несколькими пакетами, так что при потере некоторого числа пакетов кадры могут быть восстановлены.
Кодеры типа G.723.1 разработаны так, что они функционируют без существенного ухудшения качества в условиях некоррелированных потерь до 3 % кадров, однако при превышении этого порога качество ухудшается катастрофически.
3.8. Кодеки IP-телефонии
Наибольшее распространение получили кодеки следующих типов.
Кодек G.711 - один из первых цифровых кодеков речевых сигналов, который является минимально необходимым. Это означает, что любое устройство VoIP должно поддерживать этот тип кодирования.
Рекомендация G.723.1 утверждена ITU -T в ноябре 1995 г. Кодек G.723.1 является базовым для приложений IP-телефонии .
Кодек G.723.1 предусматривает две скорости передачи: 6.3 кбит/с и 5.3 кбит/с. Режим работы может меняться динамически от кадра к кадру.
Для этих кодеков оценка MOS ( Mean Opinion Score ) составляет 3,9 в режиме 6.3 кбит/с и 3,7 в режиме 5.3 кбит/с.
Кодек G.726 обеспечивает кодирование цифрового потока со скоростью 40, 32, 24 или 16 кбит/с, гарантируя оценки MOS на уровне 4,3 (32 кбит/с), что принимается за эталон уровня качества телефонной связи (toll quality ). Однако в приложениях IP-телефонии этот кодек практически не используется, так как он не обеспечивает достаточной устойчивости к потерям информации (см. выше).
Кодек G.728 специально разрабатывался для оборудования уплотнения телефонных каналов, при этом было необходимо обеспечить возможно малую величину задержки (менее 5 мс), чтобы исключить необходимость применения эхокомпенсаторов.
Кодек G.729 очень популярен в приложениях передачи речи по сетям Frame Relay . Кодек использует кадр длительностью 10 мс и обеспечивает скорость передачи 8 кбит/с. Однако для кодера необходим предварительный анализ сигнала продолжительностью 5 мс.
Существуют две разновидности кодека:
Количественными характеристиками ухудшения качества речи являются единицы QDU ( Quantization Distortion Units): 1 QDU соответствует ухудшению качества при оцифровке с использованием стандартной процедуры ИКМ; значения QDU для основных методов компрессии приведены в таблице 3.2.
Дополнительная обработка речи всегда ведет к дальнейшей потере качества. Согласно рекомендациям МСЭ-Т, для международных вызовов величина QDU не должна превышать 14 , причем передача разговора по международным магистральным каналам ухудшает качество речи, как правило, на 4 QDU . При передаче разговора по национальным сетям должно теряться не более 5 QDU . Поэтому для качественной передачи речи процедуру компрессии/декомпрессии желательно применять в сети только один раз. В некоторых странах это является обязательным требованием регулирующих органов по отношению к корпоративным сетям, подключенным к сетям общего пользования.
Современная аппаратура IP-телефонии применяет разные кодеки, как стандартные, так и нестандартные. Конкурентами являются кодеки GSM (13,5 кбит/с) и кодеки МСЭ-Т серии G, использование которых предусматривается стандартом H.323 для связи по IP -сети.
3.9. Оценка качества воспринимаемой информации
Значения MOS для различных стандартов кодеров приведены в таблице 3.3.
В каналах Интернета важными для IP-телефонии параметрами являются следующие:
Скорость передачи, которую предусматривают имеющиеся сегодня узкополосные кодеки, лежит в пределах 1.2-64 кбит/с. Естественно, что от этого параметра прямо зависит качество воспроизводимой речи. Существует множество подходов к проблеме определения качества. Так, например, для прослушивания экспертам предъявляются разные звуковые фрагменты - речь, музыка, речь на фоне различного шума и т. д. Искажения оценивают путем опроса разных групп людей по пятибалльной шкале единицами субъективной оценки MOS (Mean Opinion Score ). Оценки интерпретируют следующим образом:
- 4-5 - высокое качество; аналогично качеству передачи речи в ISDN , или еще выше;
- 3,5-4 - качество ТфОП (toll quality); аналогично качеству речи, передаваемой с помощью кодека АДИКМ при скорости 32 кбит/с. Такое качество обычно обеспечивается в большинстве телефонных разговоров. Мобильные сети обеспечивают качество чуть ниже toll quality;
- 3-3,5 - качество речи по-прежнему удовлетворительно, однако его ухудшение явно заметно на слух;
- 2,5-3 - речь разборчива, однако требует концентрации внимания для понимания. Такое качество обычно обеспечивается в системах связи специального применения (например, в вооруженных силах).
В рамках существующих технологий качество ТфОП (toll quality) невозможно обеспечить при скоростях менее 5 кбит/с.
При диалоге один его участник говорит в среднем только 35 процентов времени. Таким образом, если применить алгоритмы, которые позволяют уменьшить объем информации, передаваемой в периоды молчания, то можно значительно сузить необходимую полосу пропускания. В двустороннем разговоре такие меры позволяют достичь сокращения объема передаваемой информации до 50 %, а в децентрализованных многоадресных конференциях (за счет большего количества говорящих) - и более. Нет никакого смысла организовывать многоадресные конференции с числом участников больше 5-6, не подавляя периоды молчания.
Генератор CNG позволяет избежать таких неприятных эффектов.
Большинство узкополосных кодеков обрабатывает речевую информацию блоками, называемыми кадрами ( frames ), и им необходимо производить предварительный анализ отсчетов, следующих непосредственно за отсчетами в блоке, который они в данный момент кодируют.
Размер кадра важен, так как минимальная теоретически достижимая задержка передачи информации (алгоритмическая задержка) определяется суммой этого параметра и длины буфера предварительного анализа.
С другой стороны, кодеки с большей длиной кадра более эффективны, так как здесь действует общий принцип: чем дольше наблюдается явление (речевой сигнал), тем лучше оно отображается на объеме дополнительной служебной информации, которая добавляется к кадру.
Потери пакетов являются неотъемлемым атрибутом IP-сетей. Но потери пакетов и потери кадров не обязательно напрямую связаны между собой, так как существуют подходы, например, применение кодов с исправлением ошибок ("forward error correction "), позволяющие уменьшить число потерянных кадров при заданном числе потерянных пакетов. Необходимая для этого дополнительная служебная информация распределяется между несколькими пакетами, так что при потере некоторого числа пакетов кадры могут быть восстановлены.
Кодеры типа G.723.1 разработаны так, что они функционируют без существенного ухудшения качества в условиях некоррелированных потерь до 3 % кадров, однако при превышении этого порога качество ухудшается катастрофически.
3.8. Кодеки IP-телефонии
Наибольшее распространение получили кодеки следующих типов.
Кодек G.711 - один из первых цифровых кодеков речевых сигналов, который является минимально необходимым. Это означает, что любое устройство VoIP должно поддерживать этот тип кодирования.
Рекомендация G.723.1 утверждена ITU -T в ноябре 1995 г. Кодек G.723.1 является базовым для приложений IP-телефонии .
Кодек G.723.1 предусматривает две скорости передачи: 6.3 кбит/с и 5.3 кбит/с. Режим работы может меняться динамически от кадра к кадру.
Для этих кодеков оценка MOS ( Mean Opinion Score ) составляет 3,9 в режиме 6.3 кбит/с и 3,7 в режиме 5.3 кбит/с.
Кодек G.726 обеспечивает кодирование цифрового потока со скоростью 40, 32, 24 или 16 кбит/с, гарантируя оценки MOS на уровне 4,3 (32 кбит/с), что принимается за эталон уровня качества телефонной связи (toll quality ). Однако в приложениях IP-телефонии этот кодек практически не используется, так как он не обеспечивает достаточной устойчивости к потерям информации (см. выше).
Кодек G.728 специально разрабатывался для оборудования уплотнения телефонных каналов, при этом было необходимо обеспечить возможно малую величину задержки (менее 5 мс), чтобы исключить необходимость применения эхокомпенсаторов.
Кодек G.729 очень популярен в приложениях передачи речи по сетям Frame Relay . Кодек использует кадр длительностью 10 мс и обеспечивает скорость передачи 8 кбит/с. Однако для кодера необходим предварительный анализ сигнала продолжительностью 5 мс.
Существуют две разновидности кодека:
Количественными характеристиками ухудшения качества речи являются единицы QDU ( Quantization Distortion Units): 1 QDU соответствует ухудшению качества при оцифровке с использованием стандартной процедуры ИКМ; значения QDU для основных методов компрессии приведены в таблице 3.2.
Дополнительная обработка речи всегда ведет к дальнейшей потере качества. Согласно рекомендациям МСЭ-Т, для международных вызовов величина QDU не должна превышать 14 , причем передача разговора по международным магистральным каналам ухудшает качество речи, как правило, на 4 QDU . При передаче разговора по национальным сетям должно теряться не более 5 QDU . Поэтому для качественной передачи речи процедуру компрессии/декомпрессии желательно применять в сети только один раз. В некоторых странах это является обязательным требованием регулирующих органов по отношению к корпоративным сетям, подключенным к сетям общего пользования.
Современная аппаратура IP-телефонии применяет разные кодеки, как стандартные, так и нестандартные. Конкурентами являются кодеки GSM (13,5 кбит/с) и кодеки МСЭ-Т серии G, использование которых предусматривается стандартом H.323 для связи по IP -сети.
3.9. Оценка качества воспринимаемой информации
Значения MOS для различных стандартов кодеров приведены в таблице 3.3.
В каналах Интернета важными для IP-телефонии параметрами являются следующие:
Читайте также: