Виды кодеков речевых сигналов
Сотовые системы связи в отличие от проводных систем связи имеют очень разветвленную сеть доступа. При этом удаленность объектов может достигать нескольких десятков или даже сотен километров. В таких условиях необходимо максимально эффективно использовать имеющиеся транспортные ресурсы. Одним из возможных вариантов сокращения числа требуемых каналов связи является сжатие передаваемых данных. Сделать это возможно за счет снижения качества передаваемых данных. Однако данный вариант не приемлем для сотовых кампаний, борющихся за каждого абонента. Другой вариант – сжатие данных за счет устранения в них избыточности. Человеческая речь, как и многие другие источники информации, обладают избыточностью. Это означает, что собеседник может получить тот же объем информации, но из меньшего объема переданных данных. Наибольшей проблемой в данном вопросе становиться поиск способа устранения этой избыточности. В результате многочисленных и продолжительных исследований к настоящему моменту накопилось множество способов устранение избыточности из речевого сигнала, которые применяются в системах передачи речи в виде, так называемых, кодеков или вокодеров. v
Кодек – это набор правил, реализуемых обычно цифровыми сигнальными процессорами DSP (digital signaling processor), который предназначен для сжатия речевого сигнала, за счет удаления избыточности, обычно, без существенной потери качества исходного сигнала, либо с возможностью регулировки качества. В системах сотовой связи наибольшую актуальность сжатие речи имеет в системе базовых станций (BSS). Для реализации функции кодирования в системе базовых станций используется специальный элемент – транскодер (TC). Он представляет собой набор DSP с кодеками, которые перекодируют речь из скорости 64 кбит/сек в используемую в данный момент для данного соединения. С другой стороны, мобильный телефон (MS) также выполняет функцию транскодирования и использует такой же кодек, как и TC.
В сотовой связи, в зависимости от поколения или стандарта, применяется множество различных кодеков. Ниже перечислены наиболее часто применяемые из них:
EFR (Enhanced Full Rate)
AMR (Adaptive Multi Rate)
AMR-WB (Adaptive Multi-Rate Wideband)
Для кодеков наиболее важным требованием является минимальное время задержки на обработку, а также минимальное снижение качества сигнала и максимальный процент сжатия. Причем последние два показателя являются взаимоисключающими. Поэтому в современных стандартах сотовой связи внимание уделяется системам с подстройкой качества.
Речевой кодек используемый в стандарте UMTS
AMR (Adaptive Multi-Rate)
При построении практически любой системы связи наиболее дорогую часть из ее стоимости занимает не каналообразующее оборудования, коммутаторы, оборудование обеспечения бесперебойности работы, а транспортные каналы, которые связывают распределенные элементы сети. Причем чем больше расстояние между элементами, тем выше стоимость реализации транспортной сети. Дополнительные затраты может создать сложный рельеф местности или высокие требования к надежности сети. В системах сотовой связи в силу необходимости обеспечения радио покрытия на большой территории элементы системы базовых станций (BSS) могут располагаться друг от друга на расстоянии до нескольких сотен километров. В связи с этим возникает потребность в рациональном использовании транспортных каналов. Наиболее очевидным способом экономии транспортных ресурсов является сжатие передаваемых по сети данных. Системы сотовой связи создавались в первую очередь для организации двусторонних голосовых соединений. Таким образом, основным видом передаваемых по ним данных является речь. Голосовые данные могут быть сжаты за счет снижения качества, но это может снизить конкурентоспособность компании, поэтому данный вариант может быть применен лишь в случае крайней необходимости. Другим вариантом уменьшения объемов голосовых данных является устранение избыточности. Речь, как и любой другой естественный источник информации, обладает некоторой избыточностью. Это означает, что тот же объем информации может быть передан в меньшем объеме данных. Главной задачей является поиск эффективного способа сжатия, который при минимальной потере качества сигнала и минимальных задержках в передаче сигнала будет обеспечивать максимальный коэффициент сжатия. Набор правил, и порядок их реализации для сжатия речевого сигнала получил название речевого кодека или вокодера.
В настоящее время существует целый набор различных кодеков применяемых во многих видах телефонной связи. Преимущественно в сотовой связи нашли широкое применение кодеки, основанные на алгоритме линейного предсказания речи – CELP (Code Excited Linear Prediction), суть которого будет рассмотрена ниже. Первым из таких кодеков в системах сотовой связи начали применять FR (Full Rate), который обеспечивает сжатие речи в 4 раз с 64 кбит/сек (основной цифровой канал) до 16 кбит/сек. Также широко применяются 2 других кодека: EFR (Enhanced Full Rate), который предлагает при той же скорости более высокое качество, а также HR (Half Rate), сжимающий сигнал до скорости 8 кбит/сек. Главным недостатком этих кодеков является невозможность настройки их параметров в соответствии со сложившейся в действительности обстановкой. В различные моменты времени система может испытывать перегрузки по числу абонентов, либо для некоторых абонентов может ухудшаться качество соединения. Для эффективной работы системы, а именно использования транспортных каналов, указанные выше факторы должны приниматься в расчет. Первым кодеком, который учитывает эти факторы стал AMR (Adaptive Multi-Rate), который был разработан ETSI (European Telecommunications Standards Institute) в 1999 году. В зависимости от факторов загрузки и качества соединения AMR работет на скоростях: 4.75, 5.15, 5.90, 6.70, 7.40, 7.95, 10.2 или 12.2 кбит/сек. Причем первые 6 скоростей позволяют задействовать на радио интерфейсе между базовой станцией (BTS) и мобильным телефоном (MS) лишь половину стандартного таймслота, так же как и для кодека Half Rate.
Кодек AMR основан на MR-ACELP (Multi-Rate Algebraic Code Excited Linear Prediction) – это кодек алгебраического линейного предсказания с несколькими скоростями. Принцип работы ACELP кодека основан на том, что речь сигнал имеет ненулевую функцию автокорреляции, т.е. данные передаваемые в данный момент имеют зависимость с данными, которые передавались до этого. С ростом удаленности по времени сегментов речи данные становятся менее зависимыми. На основании этого, можно вычислить с определенной погрешностью: какие данные будут передаваться в следующий момент времени по уже имеющимся данным. Для снижения погрешности, на передающей стороне вычисляют разницу между реальным и синтезированным сигналом и передают ее к приемной стороне. Общий принцип работы AMR кодека выглядит следующим образом: в начале, голосовой поток нарезается на сегменты равной длинны - 20 мс. После этого для каждого сегмента выделяются параметры речи в соответствии с CELP моделью. Именно они, а не речевой сегмент передаются к приемнику, который с помощью синтезирующего фильтра генерирует копию речевого потока. Благодаря множеству настроек сегмент оказывается очень похожим на исходный отрезок, поэтому речь остается узнаваемой, той же громкости и не теряет смысла. В зависимости от выбранной скорости AMR кодека могут применяется какие либо дополнительные процедуры, которые делают снижение качества речи практически незаметным и позволяют снизить опасность негативного воздействия на передаваемый сигнал из-за низкого качества соединения.
Благодаря большому количеству скоростей, применяемых в кодеке AMR, каждое соединение может быть индивидуально подстроено под сложившуюся в системе ситуацию. Причем скорость может изменяться от сегмента к сегменту, т.е. каждые 20 мс. В случае если в системе не будет проблем с перегрузками, то будет использоваться скорость кодирования 12.2 кбит/сек, которая соответствует скорости кодека EFR и не уступает ему по качеству. В случае возникновения перегрузок на транспортных каналах скорость будет постепенно уменьшаться и чем выше будет загрузка, тем ниже скорость будет использоваться вплоть до 4.75 кбит/сек. Одновременно с этим контроллер базовых станций анализирует отчеты о качестве соединения. Наибольшая скорость кодирования обеспечивает наивысшую защиту в сложной шумовой обстановке. Таким образом, контроллер базовых станций постоянно анализирует целый набор параметров и подстраивает текущую скорость кодирования.
Кодек AMR требует для своего внедрения лишь upgrade программного обеспечения на всех элементах системы базовых станций и не требует аппаратных изменений. Практически все современные телефоны поддерживают этот кодек. AMR – это один из самых широко применяемых в настоящее время вокодеров. В системах сотовой связи третьего поколения, таких как UMTS, используется только этот кодек, а точнее его разновидность AMR-WB (Adaptive Multi-Rate Wideband). Благодаря возможности гибкой подстройки параметров он завоевал данный рынок по всему миру и успешно используется в американских, японских и западноевропейских телекоммуникационных, как стационарных, так и мобильных.
AMR-WB (Adaptive Multi-Rate Wideband)
В сетях сотовой связи система базовых станций является распределенной в силу необходимости обеспечения качественным радио покрытием как можно более широкой территории. При этом до каждой базовой станции (BTS) необходима организация транспортного канала и часто их протяженность может достигать нескольких десятков километров. В силу того, что строительство и эксплуатация линий связи – это достаточно большая статья расходов необходимо как можно более рационально использовать имеющиеся каналы связи. Одним из возможных вариантов увеличения эффективности использования транспортных каналов является уменьшение общего объема передаваемых по ним данных. Добиться этого можно за счет сжатия данных. Главным видом передаваемых по системам сотовой связи данных является голосовая информация. Речь является природным источником информации и поэтому обладает избыточностью. Причем в зависимости от используемого языка избыточность может достигать несколько десятков раз. Проблема остается лишь в том, чтобы найти способ устранить избыточность из голосового потока и, тем самым, уменьшить нагрузку на транспортную сеть.
Для целей сжатия речи используются голосовые кодеки или вокодеры. На сегодняшний день используется достаточно много различных кодеков, например: FR (Full Rate), HR (Half Rate), EFR (Enhanced Full Rate). Обычно, степень сжатия кодека оценивается по уменьшению скорости речевого потока относительно 64 кбит/сек – стандартной скорости передачи сигнала в цифровой форме (ОЦК). Для FR скорость сжатого сигнала составляет 13,2 кбит/сек, HR – 5,6 кбит/сек, EFR – 13,2 кбит/сек (с более высоким качеством, чем FR). Главным недостатком перечисленных кодеков является невозможность динамически изменять их характеристики в зависимости от условий передачи. Один из возможных вариантов динамического распределения транспортных ресурсов является использование режима Dual Rate (DR). Принцип его работы заключается в том, что пока абонентская нагрузка в сети не высока для новых соединений используется Full Rate, а при превышении определенного порога новые соединения используют Half Rate. Однако DR не дает возможности динамического распределения ресурсов в широком диапазоне. Усовершенствованием режима Dual Rate можно считать кодек AMR (Adaptive Multi Rate). Он предусматривает 8 различных скоростей от 4.75 до 12.2 кбит/сек. При этом одновременно оцениваются нагрузка в сети и качество соединений. При этом скорость кодирования может изменяться каждые 20 мс. Этот кодек нашел очень широкое применение во всех системах телефонии: фиксированной и мобильной, в том числе и в системах сотовой связи, например в стандарте GSM.
Однако для стандартов 3G (например, UMTS), скорость передачи данных в которых гораздо выше, уже нет необходимости сильно сжимать сигнал. Появляется другая необходимость - обеспечивать высокое качество сервиса. В связи с этой потребностью организацией по стандартизации 3GPP был разработан новый кодек - Adaptive Multi-Rate Wideband (AMR-WB). В его основу положен тот же алгоритм, что и во многих других кодеках, применяемых в системах сотовой связи, т.е. CELP (Code Excited Linear Prediction) - кодек линейного предсказания речи. Конкретно в AMR-WB используется MR-ACELP (Multi-Rate Algebraic Code Excited Linear Prediction), аналогичный AMR. Единственное отличие заключается в используемых для кодирования скоростях. В AMR-WB применяются скорости кодирования: 6.60, 8.85, 12.65, 14.25, 15.85, 18.25, 19.85, 23.05, 23.85 кбит/сек. Причем в качестве исходного потока берется речевой сигнал, ограниченный верхней частотой – 7кГц, а не 3,4 кГц, как это делалось в обычном AMR. Эти два фактора: высокая скорость и широкая полоса исходного сигнала обеспечивают высокое качество сигнала, не уступающего по качеству услугам стационарной телефонии.
В 2004 году вышел в свет первый релиз стандарта нового кодека: AMR-WB+. В этом кодеке развита идея увеличения скорости цифрового потока. Так для моно аудио потока скорость варьируется в пределах: от 6 до 36 кбит/сек, а для стерео: от 7 до 48 кбит/сек. Этот кодек был создан специально для широкополосных систем сотовой связи третьего поколения, таких как UMTS. AMR-WB+ предполагается использовать не только для предоставления высококачественной телефонии, но и для других мультимедийных сервисов: потоковое аудио, мобильное TV, аудио книги и т.п.
К настоящему времени кодек AMR остается одним из самых перспективных и самых распространенных кодеков, которые применяются в стандартах сотовой связи от 2G до 4G, в том числе и в системах стандарта LTE.
Скорость передачи, которую предусматривают имеющиеся сегодня узкополосные кодеки, лежит в пределах 1.2-64 кбит/с. Естественно, что от этого параметра прямо зависит качество воспроизводимой речи. Существует множество подходов к проблеме определения качества. Так, например, для прослушивания экспертам предъявляются разные звуковые фрагменты - речь, музыка, речь на фоне различного шума и т. д. Искажения оценивают путем опроса разных групп людей по пятибалльной шкале единицами субъективной оценки MOS (Mean Opinion Score ). Оценки интерпретируют следующим образом:
- 4-5 - высокое качество; аналогично качеству передачи речи в ISDN , или еще выше;
- 3,5-4 - качество ТфОП (toll quality); аналогично качеству речи, передаваемой с помощью кодека АДИКМ при скорости 32 кбит/с. Такое качество обычно обеспечивается в большинстве телефонных разговоров. Мобильные сети обеспечивают качество чуть ниже toll quality;
- 3-3,5 - качество речи по-прежнему удовлетворительно, однако его ухудшение явно заметно на слух;
- 2,5-3 - речь разборчива, однако требует концентрации внимания для понимания. Такое качество обычно обеспечивается в системах связи специального применения (например, в вооруженных силах).
В рамках существующих технологий качество ТфОП (toll quality) невозможно обеспечить при скоростях менее 5 кбит/с.
При диалоге один его участник говорит в среднем только 35 процентов времени. Таким образом, если применить алгоритмы, которые позволяют уменьшить объем информации, передаваемой в периоды молчания, то можно значительно сузить необходимую полосу пропускания. В двустороннем разговоре такие меры позволяют достичь сокращения объема передаваемой информации до 50 %, а в децентрализованных многоадресных конференциях (за счет большего количества говорящих) - и более. Нет никакого смысла организовывать многоадресные конференции с числом участников больше 5-6, не подавляя периоды молчания.
Генератор CNG позволяет избежать таких неприятных эффектов.
Большинство узкополосных кодеков обрабатывает речевую информацию блоками, называемыми кадрами ( frames ), и им необходимо производить предварительный анализ отсчетов, следующих непосредственно за отсчетами в блоке, который они в данный момент кодируют.
Размер кадра важен, так как минимальная теоретически достижимая задержка передачи информации (алгоритмическая задержка) определяется суммой этого параметра и длины буфера предварительного анализа.
С другой стороны, кодеки с большей длиной кадра более эффективны, так как здесь действует общий принцип: чем дольше наблюдается явление (речевой сигнал), тем лучше оно отображается на объеме дополнительной служебной информации, которая добавляется к кадру.
Потери пакетов являются неотъемлемым атрибутом IP-сетей. Но потери пакетов и потери кадров не обязательно напрямую связаны между собой, так как существуют подходы, например, применение кодов с исправлением ошибок ("forward error correction "), позволяющие уменьшить число потерянных кадров при заданном числе потерянных пакетов. Необходимая для этого дополнительная служебная информация распределяется между несколькими пакетами, так что при потере некоторого числа пакетов кадры могут быть восстановлены.
Кодеры типа G.723.1 разработаны так, что они функционируют без существенного ухудшения качества в условиях некоррелированных потерь до 3 % кадров, однако при превышении этого порога качество ухудшается катастрофически.
5.2. КОДЕРЫ ФОРМЫ РЕЧЕВОГО СИГНАЛА
Кодеры формы позволяют сохранить основную форму непрерывного сигнала. Они не являются специфичными для речи и могут применяться для сжатия любого непрерывного сигнала. Непрерывный сигнал источника кодируется в два этапа. Сначала с помощью аналого-цифрового преобразования (АЦП) формируются последовательности, дискретные по уровню и времени, т.е. производится так называемое натуральное кодирование. Затем используются собственно методы сжатия дискретных последовательностей.
Преобразование непрерывного сигнала в цифровую форму в литературе часто именуется импульсно-кодовой модуляцией (ИКМ), хотя в реальности ни
о какой модуляции несущей речь не идет.
В соответствии с теоремой Котельникова аналоговый сигнал x(t) заменяется своими непрерывными отсчетами x Н = ( n t ) , взятыми через
где F Д - частота
превышающая верхнюю частоту F B спектра x(t) . Поскольку
приемной стороне, в обозначениях его можно опустить.
Далее диапазон изменения х н (п) разбивается на 2 k дискретных уровней
x , называемые шагом квантования.
удовлетворяющий условию s(n) x ≤ х н (п)<[s(n)
принадлежащее отрезку [ − 2 k − 1 , + 2 k − 1 ], заменяется значением s(n)
возникает погрешность, максимальное значение которой
Последовательность таких погрешностей называется шумом квантования.
последовательность чисел s(1), s(2). s(n-1), s(n), s(n + 1). . Каждое s(i)
представляется в двоичной системе счисления, для чего требуется k бит. Первый бит определяет знак отсчета, остальные - его значение (младшие разряды справа).
По каналу за время t передаются k бит. На приемной стороне аналоговый сигнал восстанавливается с помощью цифро-аналогового преобразователя (ЦАП) и интерполятора (фильтра нижних частот), например, по формуле
sin 2 π F ( t − i t )
Из-за шумов квантования и погрешностей интерполяции x ( t ) ≠ x ( t ) . Для речевых сигналов числа s(i) являются зависимыми случайными величинами. Для сжатия таких последовательностей широко используется кодирование с предсказанием.
Если известен (даже не очень точно) вид зависимости отсчетов друг от друга, то оценку текущего отсчета s(n) можно вычислить (предсказать) по т предыдущим отсчетам s ( n − m ), s ( n − m + 1). s ( n − 1) . При этом в канал разумно
посыпать только ошибку предсказания e ( n ) = s ( n ) − s ( n ) . На приемной стороне с помощью такого же предсказателя вычисляется прогноз s ′ ( n ) и восстанавливается сначала текущий цифровой отсчет s ′ ( n ) = s ′ ( n ) + e ( n ) , а затем (с помощью ЦАП) и аналоговый x ( t ) .Сжатие данных здесь достигается за счет того, что диапазон изменения e(п) существенно меньше, чем диапазон изменения s(n). Поэтому при той же точности представления требуется меньшее, чем при ИКМ, число двоичных разрядов. Основной проблемой является разработка достаточно просто реализуемых предсказателей, обеспечивающих минимальную среднеквадратическую ошибку е(п).
На практике используется линейное предсказание, при котором
s ( n ) = ∑ a i s ( n − i ) ,
где a i - коэффициенты предсказания; т - порядок предсказания, обычно
Такое экономное кодирование называется дифференциальной ИКМ (ДИКМ). Так как зависимости между отсчетами s(i) на отдельных временных интервалах могут меняться, для уменьшения е(n) необходимо подстраивать коэффициенты предсказания аi . Эти изменения должны передаваться на приемную сторону. В этом случае дифференциальную ИКМ называют
Другой, полярный по отношению к ИКМ, метод кодирования называется дельта-модуляцией (ДМ). Частота дискретизации Р д выбирается в десятки раз больше верхней частоты F B спектра x(f). Ошибка предсказания е(п) представляется 1 битом, указывающим только знак ошибки - s ( n ) x больше или меньше х н (п) . Предсказанное значение получается из предыдущего добавлением или вычитанием фиксированного значения Д (отсюда и название метода кодирования). В зависимости от скорости изменения x(t) величину можно оперативно изменять, что соответствует адаптивной ДМ (АДМ). Говорят, что если при ИКМ сигнал x(t) квантуется грубо по времени и точно по уровню, то при ДМ - точно по времени и грубо по уровню.
Экспериментально установлено, что качество речи, восстановленной после ИКМ, остается высоким, если частота дискретизации Fд=8 кГц, а каждый отсчет s(n) представлен k=8 битами. ИКМ с такими параметрами лежит в основе так называемой первичной ИКМ и формирует согласно (9.1) поток бит со скоростью R t = 64 кбит/с. Однако корреляция соседних отсчетов при этом превышает 0,85, что говорит о высокой избыточности полученной последовательности. Использование ДИКМ, АДИКМ позволяет снизить скорость преобразования примерно в 2 раза с сохранением высокого качества восстановленной речи.
3.8. Кодеки IP-телефонии
Наибольшее распространение получили кодеки следующих типов.
Кодек G.711 - один из первых цифровых кодеков речевых сигналов, который является минимально необходимым. Это означает, что любое устройство VoIP должно поддерживать этот тип кодирования.
Рекомендация G.723.1 утверждена ITU -T в ноябре 1995 г. Кодек G.723.1 является базовым для приложений IP-телефонии .
Кодек G.723.1 предусматривает две скорости передачи: 6.3 кбит/с и 5.3 кбит/с. Режим работы может меняться динамически от кадра к кадру.
Для этих кодеков оценка MOS ( Mean Opinion Score ) составляет 3,9 в режиме 6.3 кбит/с и 3,7 в режиме 5.3 кбит/с.
Кодек G.726 обеспечивает кодирование цифрового потока со скоростью 40, 32, 24 или 16 кбит/с, гарантируя оценки MOS на уровне 4,3 (32 кбит/с), что принимается за эталон уровня качества телефонной связи (toll quality ). Однако в приложениях IP-телефонии этот кодек практически не используется, так как он не обеспечивает достаточной устойчивости к потерям информации (см. выше).
Кодек G.728 специально разрабатывался для оборудования уплотнения телефонных каналов, при этом было необходимо обеспечить возможно малую величину задержки (менее 5 мс), чтобы исключить необходимость применения эхокомпенсаторов.
Кодек G.729 очень популярен в приложениях передачи речи по сетям Frame Relay . Кодек использует кадр длительностью 10 мс и обеспечивает скорость передачи 8 кбит/с. Однако для кодера необходим предварительный анализ сигнала продолжительностью 5 мс.
Существуют две разновидности кодека:
Количественными характеристиками ухудшения качества речи являются единицы QDU ( Quantization Distortion Units): 1 QDU соответствует ухудшению качества при оцифровке с использованием стандартной процедуры ИКМ; значения QDU для основных методов компрессии приведены в таблице 3.2.
Дополнительная обработка речи всегда ведет к дальнейшей потере качества. Согласно рекомендациям МСЭ-Т, для международных вызовов величина QDU не должна превышать 14 , причем передача разговора по международным магистральным каналам ухудшает качество речи, как правило, на 4 QDU . При передаче разговора по национальным сетям должно теряться не более 5 QDU . Поэтому для качественной передачи речи процедуру компрессии/декомпрессии желательно применять в сети только один раз. В некоторых странах это является обязательным требованием регулирующих органов по отношению к корпоративным сетям, подключенным к сетям общего пользования.
Современная аппаратура IP-телефонии применяет разные кодеки, как стандартные, так и нестандартные. Конкурентами являются кодеки GSM (13,5 кбит/с) и кодеки МСЭ-Т серии G, использование которых предусматривается стандартом H.323 для связи по IP -сети.
3.6. Принципы кодирования речи
При переходе от аналоговых к цифровым сетям связи возникла необходимость преобразовать аналоговый электрический сигнал в цифровой формат на передающей стороне, то есть закодировать, и затем после приема перевести обратно в аналоговую форму, то есть декодировать.
Цель любой схемы кодирования - получить такую цифровую последовательность, которая требует минимальной скорости передачи и из которой декодер может восстановить исходный речевой сигнал с минимальными искажениями.
При преобразовании речевого сигнала в цифровую форму так или иначе имеют место два процесса - дискретизация (sampling), то есть формирование дискретных во времени отсчетов амплитуды сигнала, и квантование , то есть дискретизация полученных отсчетов по амплитуде ( кодирование непрерывной величины - амплитуды - числом с конечной точностью). Эти две функции выполняются аналого-цифровыми преобразователями ( АЦП ), которые размещаются в современных АТС на плате абонентских комплектов, а в случае передачи речи по IP -сетям - в терминале пользователя (компьютере или IP -телефоне).
Так называемая теорема отсчетов гласит, что аналоговый сигнал может быть успешно восстановлен из последовательности выборок с частотой, которая превышает как минимум вдвое максимальную частоту, присутствующую в спектре передаваемого сигнала. В телефонных сетях полоса частот речевого сигнала намеренно, посредством специальных фильтров, ограничена диапазоном 0,3-3,4 кГц, что не влияет на разборчивость речи и позволяет узнавать собеседника по голосу. По этой причине частота дискретизации при аналого-цифровом преобразовании выбрана равной 8 кГц, причем такая частота используется во всех телефонных сетях на нашей планете.
При квантовании непрерывная величина отображается на множество дискретных значений, что, естественно, приводит к потерям информации. Для того чтобы обеспечить в такой схеме достаточный динамический диапазон (способность передавать без искажений как сильные, так и слабые сигналы), дискретная амплитуда сигнала кодируется 12/13-разрядным двоичным числом по линейному закону.
Процесс аналого-цифрового преобразования получил применительно к системам связи название импульсно-кодовой модуляции (ИКМ).
Чтобы снизить необходимую скорость передачи битов, применяют нелинейный (логарифмический) закон квантования , т. е. квантованию подвергается не амплитуда сигнала, а ее логарифм. В данном случае происходит процесс "сжатия" динамического диапазона сигнала, а при восстановлении сигнала - обратный процесс.
На сегодня применяются две основные разновидности ИКМ:
- с кодированием по m-закону;
- с кодированием по А-закону.
В результате сжатия сигнал с амплитудой, кодируемой 12-13 битами, описывается всего восемью битами. Различаются эти разновидности ИКМ деталями процесса сжатия (m-закон кодирования предпочтительнее использовать при малой амплитуде сигнала и при малом отношении сигнал/шум). Исторически сложилось так, что в Северной Америке используется кодирование по m-закону, а в Европе - по А-закону. Поэтому при международной связи во многих случаях требуется преобразование m-кодирования в A- кодирование , ответственность за которое несет страна, где используется m-закон кодирования. В обоих случаях каждый отсчет кодируется 8 битами, или одним байтом, который можно считать звуковым фрагментом. Для передачи последовательности таких фрагментов необходима пропускная способность канала, равная 64 кбит/с. Это определяется простыми арифметическими действиями: 4 000 Гц * 2 = 8 000 отсчетов/с; 8 000 отсчетов/с * 8 битов = 64 кбит/с , что является базовой частотой для цифровой телефонии. Поскольку ИКМ была первой стандартной технологией, получившей широкое применение в цифровых системах передачи, пропускная способность канала, равная 64 кбит/с, стала всемирным стандартом для цифровых сетей всех видов, причем стандартом, который обеспечивает передачу речи с очень хорошим качеством. Соответствующие процедуры кодирования и декодирования стандартизованы ITU -T в рекомендации G.711.
Подчеркнем, что такое высокое качество передачи речевого сигнала (принимается за эталон при оценке качества других схем кодирования) достигнуто в системах ИКМ за счет явно избыточной, при современном уровне технологии, скорости передачи информации.
Чтобы уменьшить присущую ИКМ избыточность и снизить требования к полосе пропускания, последовательность чисел, полученная в результате преобразования речевого аналогового сигнала в цифровую форму, подвергается математическим преобразованиям, позволяющим уменьшить необходимую скорость передачи . Эти преобразования "сырого" цифрового потока в поток меньшей скорости называют "сжатием" (рассматривая ИКМ как некую промежуточную форму представления для дальнейшей обработки информации).
Существует множество подходов к "сжатию" речевой информации, все их можно разделить на три категории: кодирование формы сигнала ( waveform coding ), кодирование исходной информации ( source coding ) и гибридное кодирование , представляющее собой сочетание двух предыдущих подходов.
Наибольший интерес представляют сложные алгоритмы, позволяющие снизить требования к полосе пропускания.
В них осуществляется кодирование формы сигнала, используется то обстоятельство, что между случайными значениями нескольких следующих подряд отсчетов существует некоторая зависимость. Проще говоря, значения соседних отсчетов обычно мало отличаются одно от другого. Это позволяет с довольно высокой точностью предсказать значение любого отсчета на основе значений нескольких предшествовавших ему отсчетов.
При построении алгоритмов кодирования названная закономерность используется двумя способами.
Во-первых, есть возможность изменять параметры квантования в зависимости от характера сигнала.
Во-вторых, существует подход, называемый дифференциальным кодированием, или линейным предсказанием. Вместо того чтобы кодировать входной сигнал непосредственно, кодируют разность между входным сигналом и "предсказанной" величиной, вычисленной на основе нескольких предыдущих значений сигнала .
Простейшей реализацией последнего подхода является так называемая дельта- модуляция (ДМ), алгоритм которой предусматривает кодирование разности между соседними отсчетами сигнала только одним информационным битом, обеспечивая передачу, по сути, только знака разности.
Наиболее совершенным алгоритмом является алгоритм адаптивной дифференциальной импульсно-кодовой модуляции (АДИКМ). Он предусматривает формирование сигнала ошибки предсказания и его последующее адаптивное квантование .
Подобные методы кодирования часто используются в современных устройствах кодирования речи.
Передача речи является основным, обязательным режимом работы систем мобильной связи. Звук с помощью акусто-электронного преобразователя (микрофона) превращается в аналоговый электрический сигнал. Поскольку в цифровых системах связи канальному кодированию подвергается последовательность бит, аналоговый речевой сигнал должен быть представлен в цифровой форме. При этом для эффективного использования канала требуется устранить его избыточность до величины, позволяющей на приемной стороне восстановить по нему звук с сохранением индивидуальных особенностей голоса (натуральность).
За длительный период развития телефонной связи были достаточно подробно изучены характеристики речи и устройство речевого аппарата человека. Так, установлено, что для обеспечения приемлемого качества восстановленной речи достаточно анализировать (передавать) речевой сигнал в полосе частот 300. 3400 Гц. Выяснены и причины большой избыточности речевого сигнала. К ним относятся:
• неравномерное распределение значений (отсчетов) сигнала (редки большие отсчеты);
• высокая корреляция соседних отсчетов;
• корреляция удаленных отсчетов, обусловленная периодичностью
• корреляция между периодами основного тона (см. далее);
• избыточность из-за пауз между слогами, словами, фразами при монологе, которые составляют (в среднем) до 25% времени разговора, и пауз, когда надо слушать собеседника (до 50% времени).
Задача устранения этой избыточности возлагается на речевые кодеки - устройства, осуществляющие кодирование речевого сигнала и его декодирование (восстановление). Основная проблема при разработке кодеков состоит в получении высокой степени сжатия без чрезмерного снижения качества восстановленной речи. Таким образом, основными характеристиками кодеков являются скорость преобразования
где k - число бит на выходе кодера на интервале времени t, и качество восстановленной речи.
Скорость преобразования R t является важной характеристикой речевых кодеков, так как определяет требуемую пропускную способность канала для передачи речи. Сжатие сигнала тем больше и, следовательно, кодек тем эффективнее, чем меньше R t (при обеспечении требуемого качества восстановленной речи).
3.9. Оценка качества воспринимаемой информации
Значения MOS для различных стандартов кодеров приведены в таблице 3.3.
В каналах Интернета важными для IP-телефонии параметрами являются следующие:
Скорость передачи, которую предусматривают имеющиеся сегодня узкополосные кодеки, лежит в пределах 1.2-64 кбит/с. Естественно, что от этого параметра прямо зависит качество воспроизводимой речи. Существует множество подходов к проблеме определения качества. Так, например, для прослушивания экспертам предъявляются разные звуковые фрагменты - речь, музыка, речь на фоне различного шума и т. д. Искажения оценивают путем опроса разных групп людей по пятибалльной шкале единицами субъективной оценки MOS (Mean Opinion Score ). Оценки интерпретируют следующим образом:
- 4-5 - высокое качество; аналогично качеству передачи речи в ISDN , или еще выше;
- 3,5-4 - качество ТфОП (toll quality); аналогично качеству речи, передаваемой с помощью кодека АДИКМ при скорости 32 кбит/с. Такое качество обычно обеспечивается в большинстве телефонных разговоров. Мобильные сети обеспечивают качество чуть ниже toll quality;
- 3-3,5 - качество речи по-прежнему удовлетворительно, однако его ухудшение явно заметно на слух;
- 2,5-3 - речь разборчива, однако требует концентрации внимания для понимания. Такое качество обычно обеспечивается в системах связи специального применения (например, в вооруженных силах).
В рамках существующих технологий качество ТфОП (toll quality) невозможно обеспечить при скоростях менее 5 кбит/с.
При диалоге один его участник говорит в среднем только 35 процентов времени. Таким образом, если применить алгоритмы, которые позволяют уменьшить объем информации, передаваемой в периоды молчания, то можно значительно сузить необходимую полосу пропускания. В двустороннем разговоре такие меры позволяют достичь сокращения объема передаваемой информации до 50 %, а в децентрализованных многоадресных конференциях (за счет большего количества говорящих) - и более. Нет никакого смысла организовывать многоадресные конференции с числом участников больше 5-6, не подавляя периоды молчания.
Генератор CNG позволяет избежать таких неприятных эффектов.
Большинство узкополосных кодеков обрабатывает речевую информацию блоками, называемыми кадрами ( frames ), и им необходимо производить предварительный анализ отсчетов, следующих непосредственно за отсчетами в блоке, который они в данный момент кодируют.
Размер кадра важен, так как минимальная теоретически достижимая задержка передачи информации (алгоритмическая задержка) определяется суммой этого параметра и длины буфера предварительного анализа.
С другой стороны, кодеки с большей длиной кадра более эффективны, так как здесь действует общий принцип: чем дольше наблюдается явление (речевой сигнал), тем лучше оно отображается на объеме дополнительной служебной информации, которая добавляется к кадру.
Потери пакетов являются неотъемлемым атрибутом IP-сетей. Но потери пакетов и потери кадров не обязательно напрямую связаны между собой, так как существуют подходы, например, применение кодов с исправлением ошибок ("forward error correction "), позволяющие уменьшить число потерянных кадров при заданном числе потерянных пакетов. Необходимая для этого дополнительная служебная информация распределяется между несколькими пакетами, так что при потере некоторого числа пакетов кадры могут быть восстановлены.
Кодеры типа G.723.1 разработаны так, что они функционируют без существенного ухудшения качества в условиях некоррелированных потерь до 3 % кадров, однако при превышении этого порога качество ухудшается катастрофически.
3.9. Оценка качества воспринимаемой информации
Значения MOS для различных стандартов кодеров приведены в таблице 3.3.
В каналах Интернета важными для IP-телефонии параметрами являются следующие:
Феномен эха вызывает затруднения при разговоре и у говорящего, и у слушающего. Говорящий слышит с определенной задержкой свой собственный голос. Если сигнал отражается дважды, то слушающий дважды слышит речь говорящего (второй раз - с ослаблением и задержкой).
В телефонных сетях существуют два вида эха:
- Эхо говорящего. Когда абонент говорит по телефону и слышит собственный голос, такое явление называется эхом говорящего.
- Эхо слушающего. Когда абонент слышит голос собеседника дважды, то такая ситуация называется эхом слушателя.
В той или иной степени эхо присутствует всегда. Однако серьезной проблемой оно становится только при большой громкости. Эхо также представляет собой проблему в том случае, когда интервал между моментом, когда абонент говорит, и моментом появления отраженного сигнала становится достаточно большим. Если абонент слушает речь собеседника, то эхо мешает пониманию разговора - речь собеседника звучит в трубке дважды.
Эхо может иметь электрическую и акустическую природу.
Отражения часто проявляются при взаимодействии ТфОП и IP -сетей.
С целью экономии кабеля в ТфОП для подключения абонентских терминалов с давних пор используются двухпроводные линии, по которым речевые сигналы передаются в обоих направлениях. Более того, во многих телефонных сетях передача сигналов обоих направлений по двум проводам применяется и в соединительных линиях между электромеханическими АТС (хотя теперь для организации связи между АТС все чаще используется раздельная передача сигналов разных направлений, то есть четырехпроводная схема их передачи). Для разделения сигналов разных направлений в терминалах абонентов (телефонных аппаратах) и на АТС применяются простые мостовые схемы , называемые дифсистемами. Работа этих мостовых схем основывается на согласовании импедансов в плечах моста, одним из плеч которого является двухпроводная абонентская линия . Так как абонентские линии могут очень сильно различаться по своим параметрам (длине, диаметру жил кабеля и т. п.), то достичь точного согласования (тем более во всей полосе передаваемых частот) невозможно. Вместо этого администрация связи вынуждена ориентироваться на некоторую среднюю величину импеданса для всех абонентских линий своей национальной сети. Это приводит к тому, что сигналы прямого и обратного направления в большинстве случаев не разделяются полностью, и в дифсистеме сохраняется частичное отражение сигналов.
Если задержка распространения сигнала в сети невелика (что обычно и бывает в местных сетях), такой отраженный сигнал попросту незаметен и не вызывает неприятных ощущений. Если задержка достигает величины 15-20 мс, возникает эффект "огромного пустого помещения". При дальнейшем увеличении задержки субъективная оценка качества разговора резко ухудшается, вплоть до полной невозможности продолжать беседу.
В рамках ТфОП проблема такого эха известна с тех самых пор, когда телефонная сеть стала настолько протяженной, что задержки распространения сигналов перестали быть неощутимыми. Были разработаны и методы борьбы с этим феноменом - от минимизации задержек путем соответствующего планирования сети до применения эхозаградителей и эхокомпенсаторов. Как мы уже видели выше, задержки, свойственные процессам передачи речи по IP -сетям, таковы, что не оставляют выбора и делают механизмы , ограничивающие эффект эха, обязательными в любом оборудовании IP-телефонии .
Акустическое эхо возникает при пользовании терминалами громкоговорящей связи независимо от того, какая технология используется в них для передачи информации. Акустическое эхо может обладать значительной длительностью, а особенно неприятным бывает изменение его характеристик при смене, например, взаимного расположения терминала и говорящего или даже появления других людей в помещении. Эти обстоятельства делают построение устройств эффективного подавления акустического эха очень непростой задачей.
Существуют два типа устройств, предназначенных для ограничения вредных эффектов эха: эхозаградители и эхокомпенсаторы.
Эхозаградители появились в начале 70-х годов. Принцип их работы прост и состоит в отключении канала передачи, когда в канале приема присутствует речевой сигнал. Такая техника широко используется в дешевых телефонных аппаратах с громкоговорящей связью ( speakerphones ), однако простота не обеспечивает нормального качества связи - перебить говорящего становится невозможно, т. е. связь , по сути, становится полудуплексной.
Эхокомпенсатор - это более сложное устройство, которое моделирует эхо-сигнал для последующего его вычитания из принимаемого сигнала. Эхо моделируется как взвешенная сумма задержанных копий входного сигнала или, иными словами, как свертка входного сигнала с оцененной импульсной характеристикой канала. Оценка импульсной характеристики происходит в тот момент, когда говорит только удаленный корреспондент, для чего используется детектор одновременной речевой активности. После вычитания синтезированной копии эхо-сигнала из сигнала обратного направления полученный сигнал подвергается нелинейной обработке для увеличения степени подавления эха (подавление очень слабых сигналов).
Поскольку эхо моделируется только как линейный феномен, любые нелинейные процессы на пути его возникновения приводят к ухудшению работы эхокомпенсатора. Использование более сложных алгоритмов позволяет подавлять эхо, представляющее собой не только задержанный, но и сдвинутый по частоте сигнал, что часто происходит из-за наличия в ТфОП устаревших частотных систем передачи. Реализация таких алгоритмов необходима для успешного функционирования эхокомпенсаторов в телефонных сетях на территории России и бывшего СССР, и поэтому алгоритмы эхокомпенсации в российском оборудовании IP-телефонии на базе, например, интеллектуальной платформы Протей- IP разработаны именно с учетом сдвига эха по частоте.
Эхокомпенсатор должен хранить амплитуды эхо-сигналов, задержанных на время от нуля до продолжительности самого длительного подавляемого эхо-сигнала. Это значит, что эхокомпенсаторы, рассчитанные на подавление более длительных эхо-сигналов, требуют для своей реализации большего объема памяти и большей производительности процессора. Таким образом, выгодно помещать эхокомпенсаторы "максимально близко", в смысле задержки, к источнику эха.
По изложенным причинам эхокомпенсаторы являются неотъемлемой частью шлюзов IP-телефонии . Алгоритмы эхо-компенсации реализуются обычно на базе тех же цифровых сигнальных процессоров, что и речевые кодеки, и обеспечивают подавление эхо-сигналов длительностью до 32-64 мс. К эхокомпенсаторам терминалов громкоговорящей связи предъявляются гораздо более строгие требования, которые здесь рассматриваться не будут, так как проблема акустического эха не входит в число проблем, специфических для IP-телефонии .
3.8. Кодеки IP-телефонии
Наибольшее распространение получили кодеки следующих типов.
Кодек G.711 - один из первых цифровых кодеков речевых сигналов, который является минимально необходимым. Это означает, что любое устройство VoIP должно поддерживать этот тип кодирования.
Рекомендация G.723.1 утверждена ITU -T в ноябре 1995 г. Кодек G.723.1 является базовым для приложений IP-телефонии .
Кодек G.723.1 предусматривает две скорости передачи: 6.3 кбит/с и 5.3 кбит/с. Режим работы может меняться динамически от кадра к кадру.
Для этих кодеков оценка MOS ( Mean Opinion Score ) составляет 3,9 в режиме 6.3 кбит/с и 3,7 в режиме 5.3 кбит/с.
Кодек G.726 обеспечивает кодирование цифрового потока со скоростью 40, 32, 24 или 16 кбит/с, гарантируя оценки MOS на уровне 4,3 (32 кбит/с), что принимается за эталон уровня качества телефонной связи (toll quality ). Однако в приложениях IP-телефонии этот кодек практически не используется, так как он не обеспечивает достаточной устойчивости к потерям информации (см. выше).
Кодек G.728 специально разрабатывался для оборудования уплотнения телефонных каналов, при этом было необходимо обеспечить возможно малую величину задержки (менее 5 мс), чтобы исключить необходимость применения эхокомпенсаторов.
Кодек G.729 очень популярен в приложениях передачи речи по сетям Frame Relay . Кодек использует кадр длительностью 10 мс и обеспечивает скорость передачи 8 кбит/с. Однако для кодера необходим предварительный анализ сигнала продолжительностью 5 мс.
Существуют две разновидности кодека:
Количественными характеристиками ухудшения качества речи являются единицы QDU ( Quantization Distortion Units): 1 QDU соответствует ухудшению качества при оцифровке с использованием стандартной процедуры ИКМ; значения QDU для основных методов компрессии приведены в таблице 3.2.
Дополнительная обработка речи всегда ведет к дальнейшей потере качества. Согласно рекомендациям МСЭ-Т, для международных вызовов величина QDU не должна превышать 14 , причем передача разговора по международным магистральным каналам ухудшает качество речи, как правило, на 4 QDU . При передаче разговора по национальным сетям должно теряться не более 5 QDU . Поэтому для качественной передачи речи процедуру компрессии/декомпрессии желательно применять в сети только один раз. В некоторых странах это является обязательным требованием регулирующих органов по отношению к корпоративным сетям, подключенным к сетям общего пользования.
Современная аппаратура IP-телефонии применяет разные кодеки, как стандартные, так и нестандартные. Конкурентами являются кодеки GSM (13,5 кбит/с) и кодеки МСЭ-Т серии G, использование которых предусматривается стандартом H.323 для связи по IP -сети.
3.8. Кодеки IP-телефонии
Наибольшее распространение получили кодеки следующих типов.
Кодек G.711 - один из первых цифровых кодеков речевых сигналов, который является минимально необходимым. Это означает, что любое устройство VoIP должно поддерживать этот тип кодирования.
Рекомендация G.723.1 утверждена ITU -T в ноябре 1995 г. Кодек G.723.1 является базовым для приложений IP-телефонии .
Кодек G.723.1 предусматривает две скорости передачи: 6.3 кбит/с и 5.3 кбит/с. Режим работы может меняться динамически от кадра к кадру.
Для этих кодеков оценка MOS ( Mean Opinion Score ) составляет 3,9 в режиме 6.3 кбит/с и 3,7 в режиме 5.3 кбит/с.
Кодек G.726 обеспечивает кодирование цифрового потока со скоростью 40, 32, 24 или 16 кбит/с, гарантируя оценки MOS на уровне 4,3 (32 кбит/с), что принимается за эталон уровня качества телефонной связи (toll quality ). Однако в приложениях IP-телефонии этот кодек практически не используется, так как он не обеспечивает достаточной устойчивости к потерям информации (см. выше).
Кодек G.728 специально разрабатывался для оборудования уплотнения телефонных каналов, при этом было необходимо обеспечить возможно малую величину задержки (менее 5 мс), чтобы исключить необходимость применения эхокомпенсаторов.
Кодек G.729 очень популярен в приложениях передачи речи по сетям Frame Relay . Кодек использует кадр длительностью 10 мс и обеспечивает скорость передачи 8 кбит/с. Однако для кодера необходим предварительный анализ сигнала продолжительностью 5 мс.
Существуют две разновидности кодека:
Количественными характеристиками ухудшения качества речи являются единицы QDU ( Quantization Distortion Units): 1 QDU соответствует ухудшению качества при оцифровке с использованием стандартной процедуры ИКМ; значения QDU для основных методов компрессии приведены в таблице 3.2.
Дополнительная обработка речи всегда ведет к дальнейшей потере качества. Согласно рекомендациям МСЭ-Т, для международных вызовов величина QDU не должна превышать 14 , причем передача разговора по международным магистральным каналам ухудшает качество речи, как правило, на 4 QDU . При передаче разговора по национальным сетям должно теряться не более 5 QDU . Поэтому для качественной передачи речи процедуру компрессии/декомпрессии желательно применять в сети только один раз. В некоторых странах это является обязательным требованием регулирующих органов по отношению к корпоративным сетям, подключенным к сетям общего пользования.
Современная аппаратура IP-телефонии применяет разные кодеки, как стандартные, так и нестандартные. Конкурентами являются кодеки GSM (13,5 кбит/с) и кодеки МСЭ-Т серии G, использование которых предусматривается стандартом H.323 для связи по IP -сети.
5.3. ВОКОДЕРЫ
В вокодерах (от английского voice coder) измеряются параметры речевого аппарата человека, по которым на приемной стороне создается аналог такого же аппарата и синтезируется звук. При этом постулируется, что
в течение 20. 30 мс эти параметры остаются постоянными. Поэтому перед сжатием поток бит ИКМ нарезается на сегменты, содержащие по 160-240 отсчетов для оценки постоянных параметров.
Разработка вокодеров основана на использовании различных моделей голосового тракта. На рис. 5.1 показана однотрубная модель речеобразующего аппарата человека.
Модель представляет собой М последовательно соединенных секций одинаковой длины, имеющих постоянную (в пределах секции) площадь сечения. Если вдувать воздух в такой свисток (подавать сигнал возбуждения), то в зависимости от конфигурации соединения и сигнала возбуждения на выходе формируется тот или иной звук. Таким образом, звук, получаемый с помощью данной модели, можно задать параметрами сигнала возбуждения и
М значениями площадей секций свистка.
Рис. 5.1. Модель голосового тракта
Важной характеристикой сигнала возбуждения является частота основного тона F 0 . Поток воздуха из легких человека прерывается голосовыми связками, и возникает последовательность импульсов с частотой следования от 80 до 1200 Гц. Значения периода основного тона T 0 = 1/F 0 коррелированы в
соседних сегментах речи. От точности описания основного тона зависит и степень сжатия, и качество синтезированной речи.
С помощью вокодеров получены большие коэффициенты сжатия, но синтезированная речь при этом характеризуется низким качеством из-за механической монотонности, отсутствия индивидуальной окраски.
Значительные успехи в сжатии речевых сигналов при приемлемом качестве достигнуты в результате совместного использования методов линейного предсказания и техники вокодеров. Выяснено, что площади секций модели на рис. 5.1 связаны нелинейными функциональными соотношениями с коэффициентами а линейного предсказания (5.2). Схема речевого кодека в общем виде показана на рис. 5.2, где анализирующий и синтезирующий фильтры строятся на основе (5.2).
Алгоритмы сжатия, описываемые данной схемой, могут отличаться способом формирования сигнала возбуждения. Известны следующие разновидности сигнала возбуждения: возбуждение от основного тона, от ошибки предсказания е(п), многоимпульсное возбуждение и возбуждение от кода.
Самым простым является возбуждение от основного тона. В каждом периоде основного тона формируется один импульс для вокализованного сегмента (содержащего сигнал звука) и шумоподобный сигнал для невокализованного сегмента. На приемную сторону, следовательно, должен передаваться признак вокализованности анализируемого сегмента.
Рис. 5.2. Схема метода линейного предсказания
Возбуждение от ошибки предсказания приводит к металлическому оттенку синтезированной речи.
Для формирования сигнала возбуждения, обеспечивающего минимальную среднеквадратическую ошибку е(п), используется метод анализа через синтез, схема которого показана на рис. 5.3.
В кодер введен синтезатор речевого сигнала (декодер) точно такой же, как и на приемной стороне. С его помощью подбираются и передаются параметры оптимального сигнала возбуждения. В приемнике по этим
параметрам восстанавливается речевой сигнал этим же синтезатором, что и обеспечивает минимальную ошибку, равную ошибке, допущенной при кодировании.
Рис. 5.3. Схема метода анализа через синтез
Так, в кодеке стандарта GSM в каждой четверти сегмента, содержащей по 40 отсчетов, формируются 3 регулярные последовательности из 13 импульсов разной амплитуды, отличающиеся сдвигом относительно начала подсегмента. В качестве сигнала возбуждения выбирается последовательность с наибольшей энергией. Параметры этой последовательности: амплитуды импульсов, номер выбранной последовательности кодируются и передаются на приемную сторону, где по ним синтезируется сигнал возбуждения для фильтра (5.2). Эти операции отображены в названии кодера - кодер с регулярным возбуждением, долговременным предсказанием и линейным предсказанием (RPE/LTP-LPC - regular pulse excitation/long term prediction - linear predictive code). Долговременное предсказание предназначено для устранения избыточности за счет корреляции периодов основного тона (фильтр с большой постоянной времени), а линейное предсказание - для учета корреляции соседних отсчетов (фильтр с малой постоянной времени). Скорость преобразования - 13 кбит/с, коэффициент сжатия относительно первичной ИКМ - примерно 5.
Структурная схема кодера речевого сигнала стандарта GSM реализующая алгоритмы краткосрочного и долговременного предсказаний и преобразований, показана на рис. 5.4. Она содержит четыре секции – предварительной обработки, краткосрочного предсказания (STP), долговременного предсказания (LTP), и импульсного возбуждения (RPE). Информационные биты, полученные в результате преобразований и передаваемые далее в тракт, следующие: коэффициенты LAR (36 битов на каждые 20 мс), RPE параметры (47 битов на каждые 5 мс), и параметры LTP – 9 битов на каждые 5 мс.
Рис. 5.4. Структурная схема кодера речевого сигнала стандарта GSM
Наиболее эффективным методом сжатия речевого сигнала до скоростей
4-16 кбит/с считается алгоритм CELP (code excited linear prediction) -
линейное предсказание и многоимпульсное возбуждение от кода (стандарты TETRA и IS-95). Сигнал возбуждения берется из заранее созданной кодовой книги, которая содержит от 2 10 до 2 16 векторов. Содержимое кодовой книги определяется в результате анализа достаточно длинных реальных речевых сигналов (детерминированная книга). В стохастическую (алгебраическую) книгу записываются коды отсчетов нормального белого шума с нулевым средним и единичной дисперсией.
Поиск оптимального вектора возбуждения требует проведения достаточно объемных вычислений. За 5-8 мс для каждого вектора надо определить ошибки предсказания, вычислить взвешенную среднеквадратическую ошибку и в качестве оптимального выбрать вектор, обеспечивающий минимальную ошибку. Номер (индекс) такого вектора передается по каналу. Для уменьшения числа операций вводятся дополнительные упрощенные книги. В приемнике имеется точная копия кодовой книги, из которой по принятому индексу извлекается оптимальный вектор возбуждения и посылается в синтезатор, идентичный используемому в кодере. На рис. 5.4 приведена структурная схема декодера CELP стандарта TETRA, а в табл. 5.1 показано поразрядное распределение передаваемой информации при обработке 4 блоков сегмента в 30 мс.
Синтезирующий фильтр Ф1 реализует долговременное предсказание, а фильтр Ф2 - линейное (5.2). Из табл. 5.1 видно, что параметры оптимального
сигнала возбуждения вычисляются в каждой четверти сегмента. Скорость преобразования 4,6 кбит/с, коэффициент сжатия - примерно 14.
Наличие пауз в процессе телефонного разговора позволяет организовать
прерывистую передачу речи (DTX - discontinuous transmission), при которой передатчик МС включается только в периоды существования звука (в так называемые периоды активности абонента). Как уже отмечалось, такие периоды составляют в среднем около 25% времени сеанса связи. В паузах выделенный для трафика физический канал может быть передан другим абонентам или использован для передачи неречевых данных. В системах CDMA выключение МС не только экономит емкость ее аккумуляторов, но и снижает уровень внутрисистемных помех в обратном канале, что эквивалентно увеличению абонентской емкости системы.
Рис. 5.4. Декодер по методу возбуждения от кода
Чтобы на приемной стороне во время выключения передатчика не возникали интервалы абсолютной тишины, и принимающий абонент не беспокоился об исправности телефонного тракта, генерируется так называемый комфортный шум. Создаваемый шум должен быть похож на натуральный фон передающей стороны (шум автомобиля, улицы). Для этого МС во время пауз периодически транслирует параметры естественного шума, которые учитываются при генерации комфортного шума.
Таблица 5.1. Распределение передаваемой информации
Коэффициенты а i
Для организации прерывистой передачи речи требуется определять интервалы времени, в которых звук отсутствует. Эту задачу решают детекторы активности речи. В системе GSM работа детектора активности основана на различии спектральных характеристик речи и шума (предполагается, что спектр шума равномернее, чем спектр речи), а также на периодичности звука и непериодичности шума. Сигнал с выхода линейного предсказателя кодера фильтруется и сравнивается с адаптивным порогом, величина которого устанавливается в интервалы действия только шума. При превышении порога принимается решение о наличии речи, в противном случае фиксируется ее отсутствие и передатчик МС выключается. Для уменьшения вероятности ложного выключения, что приведет к разрывам речи, решение об отсутствии звука выносится после накопления данных в течение 60. 100 мс.
6. МОДУЛЯЦИЯСИГНАЛОВВЦИФРОВЫХСИСТЕМАХМОБИЛЬНОЙ СВЯЗИ
6.1. КРИТЕРИИ ВЫБОРА МОДУЛЯЦИОННЫХ ФОРМАТОВ ПРИ ЦИФРОВОЙ ПЕРЕДАЧЕ ДАННЫХ
s(t)= ∑ S 0 ( t − i )cos(2 π f 0 + ϕ i )
где S 0 (t) - огибающая посылки; ϕ i начальная фаза i- й посылки.
В простейшем случае бинарной фазовой манипуляции - БФМ (в англоязычной литературе BPSK - binary phase shift keying) - посылки полагаются прямоугольными и примыкающими друг к другу, т.е. имеющими длительность , а фазы ϕ i , принимают лишь 2 возможных значения: 0 или π. Таким образом,
каждая посылка передает один двоичный символ и при фиксированной
и мощности сигнала БФМ реализует наиболее
помехоустойчивый способ двоичной телеграфии, так как импульсы с фазами 0 и π являются противоположными, т.е. максимально удаленными. В отношении же расходования частотного ресурса описанная версия БФМ оказывается чрезвычайно неэффективной. Дело в том, что спектр мощности сигнала (4.1) совпадает по форме с энергетическим спектром посылки S 0 ( t ), и когда последняя прямоугольна, убывает с частотой f весьма медленно - пропорционально 1/f 2 . Если, как это часто делается в технике связи при регламентации использования радиоспектра, измерять полосу сигнала шириной окна f 99 , в котором удерживается не менее 99% излучаемой мощности, для БФМ
многократно превосходящая традиционный ориентир 1/
этой причине БФМ с прямоугольными посылками
применяется в цифровой мобильной телефонии.
Для повышения спектральной эффективности можно наметить несколько путей. Простейший из них состоит в увеличении длительности прямоугольной
с сохранением прежней
единицу времени. При БФМ один бит
передается за время
1/Т Ь . Для удержания этой скорости при "удлинении" посылки следует увеличить число возможных значений фазы ϕ i . Так, при удвоении длительности посылки
перепутывания, составит 2 Е b (рис. 6.1, а).
заметного ухудшения помехоустойчивости приема при переходе от БФМ к КФМ.
Не составляет труда убедиться, что при дальнейшем увеличении длительности посылки требование поддержания постоянства скорости приведет к сближению соседних векторов.
по сравнению с БФМ будет нивелироваться уменьшением угла между соседними сигналами до 45° (рис. 6.1, в), т.е. уменьшением минимального
евклидова расстояния до 3 E b (2 − 2 2) . Таким образом, в данном случае
трехкратный выигрыш в полосе приобретается ценой энергетических потерь порядка 3,5 дБ (именно таким должно быть увеличение энергии, компенсирующее сближение векторов и снижающее вероятность ошибки до прежнего уровня). Дальнейшее повышение спектральной эффективности подобным способом окажется тем более невыгодным в плане энергозатрат: M- кратный выигрыш в полосе при 2 M -ричной ФМ будет сопровождаться
Читайте также: