Кодеки VoIP

С момента первого телефонного соединения между Беллом и Ватсоном речевую информацию стали преобразовывать в формат аналогового электрического сигнала. При переходе к цифровым телефонным сетям эти речевые сигналы перед отправкой в сеть начали подвергать дискретизации (формированию дискретных во времени отсчетов амплитуды сигнала), квантованию (определению амплитуды полученного отсчета числом с конечной точностью - дискретизации по амплитуде) и кодированию. Стандартной для традиционной телефонии стала примитивная с сегодняшней точки зрения схема ИКМ-кодирования речевого сигнала, хотя никогда не прекращались поиски более сложных и эффективных алгоритмов, позволяющих снизить требования к полосе пропускания.

Революционным толчком, позволившим прийти к передаче речи средствами IP-телефонии, стало появление процессоров цифровой обработки сигналов DSP (Digital Signal Processor), архитектура которых оптимизирована для выполнения операций, характерных для типичных алгоритмов обработки сигналов, например, умножение с накоплением или выборку операндов с бит-инверсной адресацией для выполнения быстрого преобразования Фурье. Физически DSP выполняются в виде интегральных микросхем, содержащих в одном кристалле ядро процессора, память и периферийные устройства для обмена информацией. Наличие встроенной памяти обеспечивает быстрый доступ ядра к ее содержимому для получения максимальной производительности. Функционально на DSP реализуются кодеки для использования в приложениях VoIP.

Различаются эти кодеки, в частности, по требуемой полосе пропускания канала. Для узкополосных кодеков скорость передачи информации лежит в пределах 1.2-64 Кбит/с, что определяет качество передачи речи. Существует несколько подходов к проблеме определения качества, наиболее популярным из которых является оценка MOS (Mean Opinion Score), которая определяется как среднее значение оценок качества по пятибалльной шкале, данных большой группой слушателей. Экспертам предъявляются для прослушивания разные звуковые фрагменты - речь, музыка, речь на фоне того или иного шума и т.д. Оценки интерпретируют следующим образом: 4-5 - высокое качество, которое аналогично или выше качества передачи речи при разговоре по сети ISDN; 3.5-4 - качество ТфОП (toll quality), обеспечиваемое при большинстве телефонных связей через ТфОП, а мобильные сети обеспечивают качество чуть ниже toll quality; 3-3.5 - качество речи по-прежнему удовлетворительное, однако его ухудшение хорошо заметно на слух; 2.5-3 - речь разборчива, однако для ее понимания требуется концентрация внимания.

Кроме того, еще одной функцией кодеков в шлюзах VoIP является подавление периодов молчания (VAD, CNG, DTX), позволяющее уменьшить объем информации, передаваемой в течение таких периодов, и освободить на это время занимаемую полосу пропускания. В двустороннем разговоре такие меры позволяют сократить объем передаваемой информации до 50%, а в децентрализованных многоадресных конференциях за счет большего числа говорящих - и более. Технология подавления молчания имеет три важных составляющих: детектор речевой активности VAD (Voice Activity Detector) определяет моменты времени, когда пользователь говорит, оценивает энергию входного сигнала и активизирует передачу, если она выше некоторого порога; прерывистая передача DTX (Discontinuous Transmission) вынуждает кодек прекратить передачу пакетов в то время, когда VAD обнаружил период молчания (а возобновляет ее снова VAD), генератор комфортного шума CNG (Comfort Noise Generator), создающий у говорящего ощущение присутствия собеседника на другом конце при отключенной передаче. Совершенные кодеки, например, G.723.1 Annex А или G.729 AnnexВ имеют возможность предоставлять удаленному декодеру информацию для восстановления шума с близкими к исходному параметрами.

Большинство кодеков обрабатывает речевую информацию блоками, называемыми кадрами. Выбор размера кадра (frame) важен, так как минимальная теоретически достижимая задержка передачи информации (т.н. алгоритмическая задержка) определяется суммой этого параметра и длины буфера предварительного анализа.

Как было показано в предыдущем параграфе, к кадру, сгенерированному кодеком, добавляется необходимая дополнительная информация: заголовки IP (20 байтов), UDP (8 байтов) и RTP (12 байтов), поэтому большинство реализаций VoIP использует пересылку нескольких кадров в пакете. Число таких кадров ограничено максимально допустимой задержкой. В большинстве случаев в одном пакете передается до 120 мс речевой информации.

Перейти на страницу: 1 2 3 4

Еще статьи по теме

Преобразование релейно-контактной схемы управления асинхронным двигателем с фазным ротором в схему на бесконтактных логических элементах
В современных электроприводах металлургического производства уделяется большое внимание надежности и бесперебойной работе электрооборудования. Это в особенности относится к таким агрегатам, как доменная и сталеплавильная печи, ...

Повышение эффективности функционирования линий декаметровой связи военного назначения
Радиосвязь - один из родов связи, используемых для организации связи в процессе управления войсками. Несмотря на недостаточную пропускную способность, подверженность различным помехам, зависимость от условий распространения р ...

Главное меню

© 2020 / www.techsolid.ru