На чем основывается сжатие звуковых файлов информатика 10 класс

Обращаем Ваше внимание, что в соответствии с Федеральным законом N 273-ФЗ «Об образовании в Российской Федерации» в организациях, осуществляющих образовательную деятельность, организовывается обучение и воспитание обучающихся с ОВЗ как совместно с другими обучающимися, так и в отдельных классах или группах.

Рабочие листы и материалы для учителей и воспитателей

Более 2 500 дидактических материалов для школьного и домашнего обучения

Столичный центр образовательных технологий г. Москва

Получите квалификацию учитель математики за 2 месяца

от 3 170 руб. 1900 руб.

Количество часов 300 ч. / 600 ч.

Успеть записаться со скидкой

Форма обучения дистанционная

Онлайн
формат
Диплом
гособразца
Помощь в трудоустройстве

311 лекций для учителей,
воспитателей и психологов

Получите свидетельство
о просмотре прямо сейчас!

Выберите документ из архива для просмотра:

Выбранный для просмотра документ Конспект урока по теме.doc

Конспект урока по теме "Кодирование звуковой информации"

Учитель: Ухренкова Татьяна Александровна

Цель урока: сформировать у учащихся знания о кодировании звуковой информации и решения задач по кодированию информации.

Задачи урока:

Образовательные: ознакомление учащихся с волновой формой представления звука, основными характеристиками звука, способами кодирования звуковой информации в компьютере, стандартным программным обеспечением звукозаписи, стандартными форматами звуковых файлов;

Развивающие: развитие логического мышления, умений анализировать представленный материал и обобщать;

Воспитательные: воспитание самостоятельности, усидчивости, внимательности

Учебник : Угринович Н.Д., Информатика и ИКТ: учебник для 10 класса / Н.Д.Угринович. – 4-е изд. – М.: БИНОМ. Лаборатория знаний,2009.

Тип урока : комбинированный

1.Организационный момент

Приветствие, проверка отсутствующих, проверка готовности учащихся к уроку. Озвучить цели и план урока.

2. Повторение предыдущего материала

Что в векторных графических редакторах позволяет изменять видимость объектов, образующих рисунок?

В каких случаях полезно воспользоваться операцией группировки объектов?

Почему при уменьшении и увеличении растрового изображения ухудшается его качество?

В чем состоят основные различия форматов растровых графических файлов?

3. Изучение нового материала

Временная дискретизация звука. Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота сигнала, тем выше тон. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).

В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волне разбивается на отдельные маленькие временные участки (см. рис. 1.2), причем для каждого тако

Глубина кодирования. Каждой «ступеньке» присваивается определенное значение уровня громкости звука. У ров ни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирование звука.

Глубина кодирования звука — это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле (1.1). Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно:

N = 2J= 2 16 = 65 536.

Частота дискретизации. Качество цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее «лесенка» цифрового звукового сигнала повторяет кривую аналогового сигнала.

Частота дискретизации звука — это количество измерений громкости звука за одну секунду.

Качество оцифрованного звука. Чем больше глубина и частота дискретизации звука, тем более качественных будет звучание оцифрованного звука Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, будет при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим моно). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, будет при частоте дискретизации 48 ООО раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим стерео).

Необходимо помнить, что чем выше качество цифрового звук, тем больше информационный объем высококачественного звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 48 ООО измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду и умножить на 2 (стереозвук):

16 бит х 48 ООО х 2 = 1 536 ООО бит = = 192 ООО байт = 187,5 Кбайт.

Звуковые редакторы. Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).

Звуковые редакторы позволяют изменять качество цифрового звука и объем звукового файла путем изменения частоты дискретизации и глубины кодирования. Оцифрованный звук можно сохранять без сжатия в звуковых файлах в универсальном формате WAV , в формате со сжатием МРЗ .

Глубина кодирования звука

Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука

N =2 I

N – Количество уровней громкости

I – Глубина кодирования

4. Закрепление материала. Решение задач

Оценить информационный объем цифрового стереозвукового файла длительность звучания 1 секунда при глубине 16 бит и частоте дискретизации 24 кГц.

Определите объем памяти для хранения цифрового аудиофайла, время звучания которого составляет 2 минуты при частоте дискретизации 44,1 кГц и разрядности (глубине звука) 16 бит.

Определите объем памяти для хранения цифрового аудиофайла, время звучания которого составляет 2 минуты при частоте дискретизации 44,1 кГц и разрешении 16 бит.

Одна минута записи цифрового аудиофайла занимает на диске 1,3 Мбайт, разрядность звуковой платы – 8 бит. С какой частотой дискретизации записан звук?

N =16 бит*24000Гц*2(стереозвук!)*1сек=768000 бит = 93,75 Кбайт.

N =16 бит*44,1*1000Гц 2*60сек= 84672000бит = 10Мбайт.

N = 16 бит*44,1*1000Гц 2*60сек*= 84672000бит = 10Мбайт.

частота дискретизации (в Гц)=N/(глубина звука (в бит) * время звучания (в сек) )

5. Практическая работа

Открываем страницу 74 и выполняем практическую работу 1.10 "Создание и редактирование оцифрованного звука"

Аудиофайлы без сжатия занимают большой объём памяти (1мин занимает примерно10 Мб). Поэтому применяют сжатие. Все звуковые форматы можно разбить на три группы:

· аудиоформатыбез сжатия(WAV, AIFF) Звук в файлах хранится без какого-либо сжатия и изменений. Применяется лишь в профессиональных аудио и видео приложениях. Хранение обычных музыкальных композиций в таком виде является неоправданной расточительностью

· Сосжатием без потерь (APE, FLAC) работают по принципу обычных архиваторов, уровень сжатия (от 40 до 60%), не влияют на качество звука. Используются МДКП и алгоритм Хафмана

· С применением сжатия с потерями (mp3, ogg) самая популярная группа алгоритмов обеспечивают степень сжатия звука до 10 раз и даже более. Для определения качества оцифрованного звука наиболее часто применяется такой показатель, как битрейт – скорость звукового потока, получившаяся после сжатия и измеряемая в килобитах в секунду (kbps). Несжатый аудиофайл имеет битрейт примерно 1400 кбит/c. Файл практически не отличимый по звучанию 320 кбит/c.

Сжатие аудиоданных с потерями основывается на несовершенстве человеческого слуха при восприятии звуковой информации. Неспособность человека в определенных случаях различать тихие звуки в присутствии более громких, называемая эффектом маскировки, была использована в алгоритмах сокращения психоакустической избыточности. Эффекты слухового маскирования зависят от спектральных и временных характеристик маскируемого и маскирующего сигналов и могут быть разделены на две основные группы:

· частотное (одноврЕменное) маскирование

· временнОе (неодноврЕменное) маскирование

Эффект маскирования в частотной области связан с тем, что в присутствии больших звуковых амплитуд человеческое ухо нечувствительно к малым амплитудам близких частот.

Маскирование во временной области характеризует динамические свойства слуха, показывая изменение во времени относительного порога слышимости (порог слышимости одного сигнала в присутствии другого), когда маскирующий и маскируемый сигналы звучат не одновременно.

Лучшим методом кодирования звука, учитывающим эффект маскирования, оказывается полосное кодирование. Сущность его заключается в следующем. Группа отсчетов входного звукового сигнала, называемая кадром, поступает на блок фильтров который разделяет сигнал на частотные поддиапазоны. На выходе каждого фильтра оказывается та часть входного сигнала, которая попадает в полосу пропускания данного фильтра. Далее, в каждой полосе с помощью психоакустической модели, анализируется спектральный состав сигнала и оценивается, какую часть сигнала следует передавать без сокращений, а какая лежит ниже порога маскирования и может быть переквантована на меньшее число бит. Для сокращения максимального динамического диапазона определяется максимальный отсчет в кадре и вычисляется масштабирующий множитель, который приводит этот отсчет к верхнему уровню квантования (нормировка спектра). На этот же множитель умножаются и все остальные отсчеты. Масштабирующий множитель передается к декодеру вместе с кодированными данными для коррекции коэффициента передачи последнего. После масштабирования производится оценка порога маскирования и осуществляется перераспределение общего числа битов между всеми полосами.

Очевидно, что после устранения психоакустической избыточности звуковых сигналов их точное восстановления при декодировании оказывается уже невозможным. Методами устранения психофизической избыточности можно обеспечить сжатие цифровых аудиоданных в 10 − 12 раз без существенных потерь в качестве.

Цифровой звук, если это не музыка, которую можно закодировать в виде MIDI, столь же неудобен для сжатия, как и картинка. Звуковой сигнал редко обладает избыточностью, т.е. имеет повторяющиеся участки (в основном из-за шумов). А значит, плохо сжимается с использованием алгоритмов компрессии без потерь, аналогичных LZW или методу Хаффмана.

В 1940 г. Харви Флетчер, выдающийся американский физик, отец стереозвука, привлёк для исследований человеческого слуха большое число испытуемых. Он проанализировал зависимость абсолютного порога слышимости от частоты сигнала, т.е. при какой амплитуде звук определённой частоты не слышен для человека. В построенной на основе опытов кривой максимальные значения находятся, как и ожидалось, на границах диапазона слышимости (около 20 Гц и ближе к 20 кГц), а минимум - приблизительно 5 кГц. Но главное , на что он обратил внимание, - это способность слуха адаптироваться к появлению новых звуков, что выражается в повышении порога слышимости. Иначе говоря, одни звуки способны делать неслышимыми другие, что называют маскированием одного звука другим.

Последнее свойство слуха при компрессии позволяет после громкого звукового сигнала некоторое непродолжительное время вообще не воспроизводить, а значит и не сохранять никакого звука. Например, громкий щелчок продолжительностью в 0,1 с может замаскировать последующие за ним звуки на 0,5 с, которые не надо сохранять. Говорят, что коэффициент компрессии в этом примере достигает , а описанную процедуру сжатия обычно называют маскированием во временной области.

При маскировании в частотной области синусоидальный сигнал маскирует более тихие, близкие по частоте сигналы, в том числе и синусоидальные сигналы много меньшей амплитуды. Удобно использовать разбиение спектра на полосы различной ширины, основываясь на особенностях слуха человека. Обычно выделяют 27 так называемых критических полос (critical band): 0-я от 50 до 95 Гц, 1-я от 95 до 140 Гц, …, 26-я от 20250 Гц и выше.

Для выполнения алгоритма сжатия исходный сигнал разбивается на кадры, которые подвергаются частотному анализу. Алгоритм сжатия выглядит примерно так:

1. При помощи специальных алгоритмов (ими могут быть быстрое преобразование Фурье или аналогичные), сигналы разделяются на 32 равные полосы спектра, при этом в одну получившуюся полосу могут попасть сразу несколько критических полос.

2. Используя так называемую психоакустическую модель (в которую, как правило, и входит частотное маскирование), определяют уровень маскирования полосы соседними.

3. Уровень в полосе, не превышающий вычисленный порог, считается равным нулю и не сохраняется. Наоборот, немаскированный уровень записывается в выходные данные.

В дальнейшем на каждый ненулевой уровень выделяется некоторое число битов, достаточное для его примерного представления. Так, в той части спектра, где человеческое ухо имеет наименьший порог слышимости, информация кодируется шестнадцатью битами, а на краях, там, где ухо менее чувствительно к искажениям, шестью и менее битами. К полученному потоку битов можно, например, применить алгоритм сжатия Хаффмана.

Различаются три версии алгоритма описанного MPEG-сжатием звука. В каждой версии данные разделяются на кадры, т.е. отдельный кадр состоит из 32 полос по 12 значений в каждой.

В MPEG layer1 (дословно "слой 1") в частотном фильтре используются один кадр и алгоритмы, основанные на дискретном косинусе - преобразовании (DCT). Психоакустическая модель задействует только частотное маскирование. Алгоритм позволяет упаковывать при соотношении 1:4 с потоком 384 Кбит/с.

MPEG layer2 использует три кадра в частотном фильтре(предыдущий, текущий и последующий) общий объём 32 полосы по 12 значений в 3 кадрах. Модель использует и временное маскирование. Упаковывает с соотношением от 1:6 до 1:8.

MPEG layer3, он же MP 3, использует частотный фильтр с разной величиной полос, психоакустическая модель включает временное маскирование сигнала. Имеет малые потери качества при высоком уровне компрессии: от 1:10 до 1:12.

Представление звука в памяти компьютера основано на принципе дискретизации, т.е. в разбиении звуковых колебаний на конечные малые элементы с определенным диапазоном частот, что аналогично разбиению графического изображения на пиксели.

Звуковая плата или аудиоадаптер (аналого-цифровой преобразователь) – это специальное устройство, преобразующее при записи звука электрические колебания звуковой частоты в числовой двоичный код. Она используется и для обратного преобразования при воспроизведении звука. На вход звуковой платы подается непрерывный аналоговый сигнал от микрофона, амплитуда которого измеряется через определённые промежутки времени, а на выходе получают численные значения амплитуды этого сигнала. Эти промежутки времени называются шагом дискретизации, а количество измерений амплитуды звука в секунду называют частотой дискретизации.

Численные значения амплитуды сигнала измеряют и представляют в двоичном коде.

Формат файла определяет структуру и особенности представления звуковых данных при хранении на запоминающем устройстве ПК. Для устранения избыточности аудио данных используются аудиокодеки, при помощи которых производится сжатие аудиоданных. Выделяют три группы звуковых форматов файлов:

· аудиоформаты без сжатия, такие как WAV, AIFF

· аудиоформаты со сжатием без потерь (APE, FLAC)

· аудиоформаты, с применением сжатия с потерями (mp3, ogg)

Для определения качества оцифрованного звука наиболее часто применяется такой показатель, как битрейт – скорость звукового потока, получившаяся после сжатия и измеряемая в килобитах в секунду (kbps).

Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Различают неискажающую (копирование, наложение, монтаж) и искажающую обработку. Искажающая обработка подразделяется на:

1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.

2. Частотные преобразования. Выполняются над частотными составляющими звука: производится обработка необходимых частотных составляющих.

3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или "объёмности" звука.

Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:

1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.

2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное «сворачивание» сигнала из спектра в волну.

3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.

4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.

Практическую обработку сигналов можно разделить на два типа: обработка «на лету» и пост-обработка. Обработка «на лету» подразумевает мгновенное преобразование сигнала (то есть с возможностью осуществлять вывод обработанного сигнала почти одновременно с его вводом). Простой пример – гитарные «примочки» или реверберация во время живого исполнения на сцене. Такая обработка происходит мгновенно, то есть, скажем, исполнитель поет в микрофон, а эффект-процессор преобразует его голос и слушатель слышит уже обработанный вариант голоса. Пост-обработка – это обработка уже записанного сигнала. Скорость такой обработки может быть сильно ниже скорости воспроизведения. Такая обработка преследует те же цели, то есть придание звуку определенного характера, либо изменение характеристик, однако применяется на стадии мастеринга или подготовки звука к тиражированию, когда не требуется спешка, а важнее качество и скрупулезная проработка всех нюансов звучания. Существует множество различных операций над звуком, которые вследствие недостаточной производительности сегодняшних процессоров нельзя реализовать «на лету», поэтому такие преобразования проводят лишь в пост-режиме .

Аналоговый и дискретный способы представления звука

Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме.

При аналоговом представлении физическая величина принимает бесконечное множество значений, причем ее значения изменяются непрерывно.

При дискретном представлении физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.

Примером аналогового хранения звуковой информации является виниловая пластинка (звуковая дорожка изменяет свою форму непрерывно), а дискретного — аудиокомпакт-диск (звуковая дорожка которого содержит участки с различной отражающей способностью).

Восприятие звука человеком

Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.

Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.

В аналоговой форме звук представляет собой волну, которая характеризуется:

Высота звука определяется частотой колебаний вибрирующего тела.
Г ромкость звука определяется энергией колебательных движений, то есть амплитудой колебаний.
Длительность звука - продолжительность колебаний.
Тембром звука называется окраска звука.

Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с

Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).

Кодирование звуковой информации

Для того чтобы комп ьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).

В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.

Таким образом, при двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала.

Качество кодирования звуковой информации зависит от :

1)частотой дискретизации, т.е. количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.

2)глубиной кодирования, т.е. количества уровней сигнала.

Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 i = 2 16 = 65536, где i — глубина звука.

Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.

Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-С D . Следует также учитывать, что возможны как моно-, так и стерео-режимы.

РСМ. РСМ расшифровывается как pulse code modulation, что и является в переводе как импульсно-кодовая. Файлы именно с таким расширением встречаются довольно редко. Но РСМ является основополагающей для всех звуковых файлов.

WAV. Самое простое хранилище дискретных данных. Один из типов файлов семейства RIFF. Помимо обычных дискретных значений, битности, количества каналов и значений уровней громкости, в wav может быть указано еще множество параметров, о которых Вы, скорее всего, и не подозревали - это: метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также есть место для того, чтобы Вы смогли разместить там текстовую информацию.

RIFF. Resource Interchange File Format. Уникальная система хранения любых структурированных данных.

IFF. Эта технология хранения данных проистекает от Amiga-систем. Interchange File Format. Почти то же, что и RIFF, только имеются некоторые нюансы. Начнем с того, что система Amiga - одна из первых, в которой стали задумываться о программно-сэмплернойэмуляции музыкальных инструментов. В результате, в данном файле звук делится на две части: то, что должно звучать вначале и элемент того, что идет за началом. В результате, звучит начало один раз, за тем повторяется второй кусок столько раз, сколько Вам нужно и нота может звучать бесконечно долго.

MOD. Файл хранит в себе короткий образец звука, который потом можно использовать в качестве шаблона для инструмента.

AIF или AIFF. Audio Interchange File Format. Данный формат распространен в системах Apple Macintosh и Silicon Graphics. Заключает в себе сочетание MOD и WAV.

МР3. Самый скандальный формат за последнее время. Многие для объяснения параметров сжатия, которые в нем применяют, сравнивают его с jpeg для изображений. Там очень много наворотов в вычислениях, чего и не перечислишь, но коэффициент сжатия в 10-12 раз сказали о себе сами. Специалисты говорят о контурности звука как о самом большом недостатке данного формата. Действительно, если сравнивать музыку с изображением, то смысл остался, а мелкие нюансы ушли. Качество МР3 до сих пор вызывает много споров, но для "обычных немузыкальных" людей потери не ощутимы явно.

VQF. Хорошая альтернатива МР3, разве что менее распространенная. Есть и свои недостатки. Закодировать файл в VQF - процесс гораздо более долгий. К тому же, очень мало бесплатных программ, позволяющих работать с данным форматом файлов, что, собственно, и сказалось на его распространении.

RA. Real Audio или потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Скорость передачи порядка 1 Кб в секунду. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.

Читайте также: