Принципы представления мультимедиа в компьютере аналоговая и цифровая информация
Мультимедиа — взаимодействие визуальных и аудиоэффектов под управлением интерактивного программного обеспечения с использованием современных технических и программных средств, они объединяют текст, звук, графику, фото, видео в одном цифровом представлении.Аналоговая информация - это все то, что мы слышим, видим и воспринимаем непосредственно через органы чувств.
Цифровая информация хранится в зашифрованном виде. Для сбора аналоговой информации и преобразования в цифровую используются специальные программы. Эти программы создают основной файл, в котором и содержится вся видео – и аудиоинформация. Этот файл мы будем называть контейнером. Такая информация обычно занимает достаточно большой объем памяти, поэтому ее преобразуют и сжимают, используя другие программы – кодеки. При сжимании мультимедийных файлов с помощью кодеков расширение файла-контейнера не изменяется, шифруются сами видео - и аудиофайлы. Для воспроизведения этих файлов необходимо, чтоб кодек был установлен на компьютере пользователя.
Контейнер сам по себе ничего не сжимает и не шифрует, это просто оболочка для хранения файлов. Контейнер можно представить следующим образом:
На сегодняшний день самые распространенные контейнеры, с которыми мы зачастую сталкиваемся – это AVI, mkv, mov, MPG и др.
2. Системы виртуальной реальности.
Виртуа́льная реа́льность, ВР, искусственная реальность, электронная реальность, компьютерная модель реальности (англ. virtual reality, VR) — созданный техническими средствами мир (объекты и субъекты), передаваемый человеку через его ощущения: зрение, слух, обоняние, осязание и другие. Виртуальная реальность имитирует как воздействие, так и реакции на воздействие. Для создания убедительного комплекса ощущений реальности компьютерный синтез свойств и реакций виртуальной реальности производится в реальном времени.
Объекты виртуальной реальности обычно ведут себя близко к поведению аналогичных объектов материальной реальности. Пользователь может воздействовать на эти объекты в согласии с реальными законами физики (гравитация, свойства воды, столкновение с предметами, отражение и т. п.). Однако часто в развлекательных целях пользователям виртуальных миров позволяется больше, чем возможно в реальной жизни (например: летать, создавать любые предметы и т. п.)[1]
Не следует путать виртуальную реальность с дополненной. Их коренное различие в том, что виртуальная конструирует новый искусственный мир, а дополненная реальность лишь вносит отдельные искусственные элементы в восприятие мира реального.
3. Функции мультимедийной системы
К числу основных функций мультимедийных систем можно отнести следующие:
Мультитрум. Система, благодаря которой вы можете смотреть видео и слушать музыку в любом помещении дома, независимо от того, где установлено оборудование. Вся техника концентрируется в одном месте. А потому нет необходимости оснащать каждое помещение аудио- и видеоисточниками. Сигнал, без потери качества будет поступать в любое нужное помещение, где есть динамики и телевизор, благодаря простому нажатию на сенсорную панель.
Персональный кинотеатр. Это уникальная возможность просматривать любимые фильмы, сидя удобном домашнем кресле, и при этом ощущать эффект присутствия в кинотеатре. Подобная атмосфера создается за счет грамотного сочетания и установки самого современного оборудования: плазменных панелей, проекторов, акустических систем. В результате, вы получаете персональный кинотеатр с потрясающим качеством трансляции видео и передачи звука.
Видеосервер. Вместительное хранилище для вашей видеотеки. Система не только поможет вам собрать и упорядочить домашнюю коллекцию видеофильмов и дисков, но и обеспечит удобное управление. Быстрый и понятный поиск, молниеносный доступ к файлам, возможность запуска на любом экране в доме — вот лишь малая часть функциональных возможностей видеосервера.
Звук представляет собой непрерывный сигнал — звуковую волну с меняющейся амплитудой и частотой.
Чем больше амплитуда сигнала, тем он громче для человека.
Чем больше частота сигнала, тем выше тон.
Частота звуковой волны выражается числом колебаний в секунду и измеряется в герцах (Гц, Hz).
Человеческое ухо способно воспринимать звуки в диапазоне от 20 Гц до 20 кГц, который называютзвуковым.
Количество бит, отводимое на один звуковой сигнал, называют глубиной кодирования звука.
Современные звуковые карты обеспечивают 16-, 32- или 64-битную глубину кодирования звука.
При кодировании звуковой информации непрерывный сигнал заменяется дискретным, то есть превращается в последовательность электрических импульсов (двоичных нулей и единиц).
Процесс перевода звуковых сигналов от непрерывной формы представления к дискретной, цифровой форме называют оцифровкой.
Важной характеристикой при кодировании звука является частота дискретизации — количество измерений уровней сигнала за 1секунду:
— 1 (одно) измерение в секунду соответствует частоте 1 Гц;
— 1000 измерений в секунду соответствует частоте 1 кГц.
Частота дискретизации звука — это количество измерений громкости звука за одну секунду.
Количество измерений может лежать в диапазоне от 8 кГц до 48 кГц (от частоты радиотрансляции до частоты, соответствующей качеству звучания музыкальных носителей).
Чем больше частота и глубина дискретизации звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8битов и записи одной звуковой дорожки (режим «моно»). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48000раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим «стерео»).
Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла.
Оценить информационный объём моноаудиофайла (V) можно следующим образом: V = N⋅f⋅k, где N — общая длительность звучания (секунд), f — частота дискретизации (Гц), k — глубина кодирования (бит).
Например, при длительности звучания 1 минуту и среднем качестве звука (16 бит, 24 кГц):
V = 60⋅24000⋅16 бит = 23040000 бит = 2880000 байт = 2812,5 Кбайт = 2,75 Мбайт.
При кодировании стереозвука процесс дискретизации производится отдельно и независимо для левого и правого каналов, что, соответственно, увеличивает объём звукового файла в два раза по сравнению с монозвуком.
Например, оценим информационный объём цифрового стереозвукового файла длительностью звучания 1секунда при среднем качестве звука (16 битов, 24000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1секунду и умножить на 2 (стереозвук):
V=16 бит ⋅24000⋅2 = 768000 бит = 96000 байт = 93,75 Кбайт.
Приёмы и методы работы со звуковой информацией пришли в вычислительную технику наиболее поздно. К тому же, в отличие от числовых, текстовых и графических данных, у звукозаписей не было столь же длительной и проверенной истории кодирования. В итоге методы кодирования звуковой информации двоичным кодом далеки от стандартизации. Множество отдельных компаний разработали свои корпоративные стандарты, но среди них можно выделить два основных направления.
Существуют различные методы кодирования звуковой информации двоичным кодом, среди которых можно выделить два основных направления: метод FM и метод Wave-Table.
Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых представляет собой правильную синусоиду, и, следовательно, может быть описан кодом. Разложение звуковых сигналов в гармонические ряды и представление в виде дискретных цифровых сигналов выполняют специальные устройства — аналогово-цифровые преобразователи (АЦП).
Преобразование звукового сигнала в дискретный сигнал: a — звуковой сигнал на входе АЦП; б — дискретный сигнал на выходе АЦП.
Обратное преобразование для воспроизведения звука, закодированного числовым кодом, выполняютцифро-аналоговые преобразователи (ЦАП). Процесс преобразования звука представлен на рис. ниже. Данный метод кодирования не даёт хорошего качества звучания, но обеспечивает компактный код.
Преобразование дискретного сигнала в звуковой сигнал: а — дискретный сигнал на входе ЦАП; б — звуковой сигнал на выходе ЦАП.
Таблично-волновой метод (Wave-Table) основан на том, что в заранее подготовленных таблицах хранятся образцы звуков окружающего мира, музыкальных инструментов и т. д. Числовые коды выражают высоту тона, продолжительность и интенсивность звука и прочие параметры, характеризующие особенности звука. Поскольку в качестве образцов используются «реальные» звуки, качество звука, полученного в результате синтеза, получается очень высоким и приближается к качеству звучания реальных музыкальных инструментов.
Звуковые файлы имеют несколько форматов. Наиболее популярные из них MIDI, WAV, МРЗ.
Формат MIDI (Musical Instrument Digital Interface) изначально был предназначен для управления музыкальными инструментами. В настоящее время используется в области электронных музыкальных инструментов и компьютерных модулей синтеза.
Формат аудиофайла WAV (waveform) представляет произвольный звук в виде цифрового представления исходного звукового колебания или звуковой волны. Все стандартные звуки Windows имеют расширениеWAV.
Формат МРЗ (MPEG-1 Audio Layer 3) — один из цифровых форматов хранения звуковой информации. Он обеспечивает более высокое качество кодирования.
Развитие аппаратной базы современных компьютеров параллельно с развитием программного обеспечения позволяет сегодня записывать и воспроизводить на компьютерах музыку и человеческую речь. Существуют два способа звукозаписи:
- цифровая запись,когда реальные звуковые волны преобразуются в цифровую информацию путем измерения звука тысячи раз в секунду;
- MIDI-запись,которая, вообще говоря, является не реальным звуком, а записью определенных команд-указаний (какие клавиши надо нажимать, например, на синтезаторе). MIDI-запись является электронным эквивалентом записи игры на фортепиано.
Для того чтобы воспользоваться первым указанным способом в компьютере должна быть звуковая карта (плата).
Реальные звуковые волны имеют весьма сложную форму и для получения их высококачественного цифрового представления требуется высокая частота квантования.
Звуковая плата преобразует звук в цифровую информацию путем измерения характеристики звука (уровень сигнала) несколько тысяч раз в секунду. То есть аналоговый (непрерывный) сигнал измеряется в тысячах точек, и получившиеся значения записываются в виде 0 и 1 в память компьютера. При воспроизведении звука специальное устройство на звуковой карте преобразует цифры в аналог звуковой волны. Хранение звука в виде цифровой записи занимает достаточно много места в памяти компьютера.
Число разрядов, используемое для создания цифрового звука, определяет качество звучания.
MIDI-запись была разработана в начале 80-х годов (MIDI — Musical Instrument Digital Interfase — интерфейс цифровых музыкальных инструментов). MIDI-информация представляет собой команды, а не звуковую волну. Эти команды — инструкции синтезатору. МIDI-команды гораздо удобнее для хранения музыкальной информации, чем цифровая запись. Однако для записи MIDI-команд вам потребуется устройство, имитирующее клавишный синтезатор, которое воспринимает МIDI-команды и при их получении может генерировать соответствующие звуки.
Принципы цифрового представления видео и мультимедийной информации.
Когда говорят о видеозаписи, прежде всего имеют в виду движущееся изображение на экране телевизора или монитора.
Преобразование оптического изображения в последовательность электрических сигналов осуществляется видеокамерой. Эти сигналы несут информацию о яркости и цвете отдельных участков изображения. Они сохраняются на носителе в виде изменения намагниченности видеоленты (аналоговая форма) или в виде последовательности кодовых комбинаций электрических импульсов (цифровая форма).
Процесс превращения непрерывного сигнала в набор кодовых слов называется аналого-цифровым преобразованием.
Это сложный процесс, состоящий из:
— дискретизации, когда непрерывный сигнал заменяется последовательностью мгновенных значений через равные промежутки времени;
— квантования, когда величина каждого отсчёта заменяется округлённым значением ближайшего уровня;
— кодирования, когда каждому значению уровней квантования, полученных на предыдущем этапе, сопоставляются их порядковые номера в двоичном виде.
По своей сути видеофайл — это набор статичных изображений, меняющих друг друга с определенной частотой. Каждое статичное изображение является отдельным кадром видео. Это действительно так, если мы говорим о несжатом видео. Однако в таком формате никто не хранит фильмы.
Дело в том, что несжатое видео занимает на диске очень много места. Кадр видео формата PAL состоит из 720 точек по горизонтали и 576 по вертикали. То есть один кадр состоит из 414720 точек.
Для хранения цвета каждой точки в памяти отводится 24 бита (по 8 бит для каждой из составляющих RGB).
Следовательно, для хранения одного кадра понадобится 9953280 бит (или примерно 1,2 Мбайт).
То есть секунда несжатого видео в формате PAL будет занимать почти 30 Мбайт. А один час такого видео — более 100Гбайт.
Каким же образом полнометражный фильм (а то и несколько) умещается на одном компакт-диске или флеш-накопителе?
Дело в том, что, в основном, видео хранят в видеофайлах, в которых применены различные алгоритмы сжатия информации. Благодаря этим технологиям видеофайл можно сжимать в десятки и сотни раз практически без потери качества картинки и звука.
При работе с цифровым видеосигналом возникает необходимость обработки, передачи и хранения очень больших объемов информации. На современных носителях, таких, как компакт-диск (CD-ROM, 650 Мбайт) или жесткий диск (порядка тысячи мегабайт), сохранить полноценный по времени видеоролик, записанный в поэлементном формате, не удается. С другой стороны, видеоинформация должна передаваться со cкоростью ее воспроизведения на экране компьютера. Так, полноцветное (24 бит/пиксел) изображение размером 720 × 576 пикселов из расчета 25 кадр/с требует скорости передачи видеоданных 240 Мбит/с. Однако пропускная способность каналов ЛВС FDDI — порядка 100-200 Мбит/с, а Ethernet — всего 10 Мбит/с. Поэтому использование видеоданных в составе электронных изданий оказывается невозможным.
Развитие технологий перевода видеоинформации в цифровой формат и их дальнейшее применение в цифровом ТВ поставили проблему сжатия видеоданных в ряд наиболее важных. Ее положительное решение оказалось возможным лишь на базе разработки эффективных методов и алгоритмов сжатия видеоданных.
Следует отметить, что традиционные алгоритмы сжатия данных без потерь здесь практически неприменимы, поскольку дают для реальной видеоинформации слишком незначительный выигрыш. Например, алгоритмы, основанные на компрессии за счет кодирования длинами серий и адресно-позиционного кодирования (RLE, LZ, LZW и т. п.), не дают должного эффекта.
Для покадрового сжатия видеоданных можно использовать алгоритмы компрессии статической графики — сжатие с потерями (JPEG). При этом восстановленное изображение кадра, как правило, не совпадает с оригиналом. Однако реализация таких алгоритмов достаточно сложна и процессы декодирования требуют значительных затрат времени. Видеоинформация накладывает специфические ограничения на скорость декодирования данных: декодер (аппаратно-программное средство, осуществляющее декомпрессию данных) должен успевать разархивировать изображение за 1/25 с, пока на экране отображается предыдущий кадр. Данное ограничение не дает возможности реализовать алгоритмы с большей степенью сжатия.
Еще одно ограничение — сложность аппаратной реализации декодирующих устройств. В реальных приложениях (цифровые видеокамеры, видеотелефоны, видеофоны и т.д.) оптимальным решением проблемы оказывается реализация алгоритма на заказном наборе микросхем с ограниченным числом транзисторов в чипе. Поэтому реализация подобных быстродействующих декодирующих аппаратно-программных устройств не всегда возможна.
Реальным решением проблемы стало сжатие всего видеоряда, включающего последовательность видеокадров.
Стандартным методом цифрового кодирования на компьютере является PCM (Pulse Code Modulation). Наиболее популярным форматом, используемым для хранения несжатых аудиоданных, является Microsoft PCM (WAV). Для видеороликов стандартным для компьютера считается Microsoft Audio/Video Interleaved (AVI). Сжатие аудио- или видеоданных как процесс подразумевает конвертацию соответственно несжатого WAV- или AVI- файла в другой формат с использованием алгоритма сжатия (поэтому программы для компрессии/декомпрессии данных называют конверторами). При этом может быть использован любой формат (даже WAV и AVI), если он поддерживает этот алгоритм.
Важную роль в решении проблемы сжатия видеоданных сыграли результаты, полученные группой комитета по стандартизации MPEG (Motion Pictures Experts Group). Эта группа предложила технологию компактного представления цифровых видео- и аудиосигналов. Основная идея заключалась в преобразовании потока дискретных цифровых данных в поток некоторых записей, которые требовали меньшего объема памяти. Это преобразование основано на использовании статистической избыточности и особенностях человеческого восприятия. Закодированные независимо аудио- и видеопотоки в дальнейшем связываются системным потоком, который осуществляет синхронизацию и объединение множества потоков различных данных в одну кодовую последовательность.
Разработанный этой группой метод сжатия и соответствующие форматы семейства MPEG унаследовали многое в своей структуре от JPEG. Однако противоположность графическим форматам MPEG использовал кодирование отличий последующих кадров от некоторых опорных изображений кадров. В 1990 г. был создан формат MPEG-1, который ориентировался на сжатие видео- и аудиоинформации.
После разработки первого стандарта на сжатие видео- и аудиоинформации эта же группа создала формат и соответствующую технологию, ориентированную на применение к видеоданным с более высоким разрешением и потокам, в том числе для эффективного представления видеоинформации вещательного качества (SDTV — Standard Definition Television). Эффективное представление чересстрочной развертки (вещательного) видеосигнала оказалось более сложной задачей, чем прямые (не чересстрочные) сигналы, определенные MPEG-1. MPEG-2 ввел схему декорреляции многоканального дискретного аудиосигнала объемного звука, используя более высокий фактор избыточности.
В дальнейшем были созданы форматы MPEG-3, MPEG-4, MPEG-7, MPEG-J.
Сегодня MPEG — единый формат представления данных спецификации United States Grand Alliance HDTV, группы European Digital Video Broadcasting и Digital Versital Disc (DVD).
В литературе MPEG может подразделяться на фазы (MPEG-1, MPEG -2, MPEG-4 и т.д.), а в области аудиоинформации — еще и на уровни (layers). Фазы обозначаются арабскими цифрами, уровни — римскими. Некоторые фазы MPEG так и не были закончены. Например, разработка MPEG-3, предназначенного для телевидения высокой четкости (HDTV) с размерами кадров 1920 × 1080 при частоте смены 30 кадр/с и силой сжатия 20-40 Мбит/с, не была завершена, поскольку оказалось, что эта область поддерживается форматом MPEG -2. Нет информации о разработке MPEG -6, который предназначался для беспроводной передачи данных; MPEG -8, цель которого — четырехмерное описание объектов.
Экспертная группа по мультимедиа и гипермедиа MHEG (Multimedia Hypermedia Expert Group) определила стандарт для обмена мультимедийными объектами (видео, звук, текст и другие произвольные данные) между приложениями и передачи их разными способами (локальная сеть, сети телекоммуникаций и вещания) с использованием MHEG object classes. Этот стандарт позволил программным объектам включать в себя любую систему кодирования (например, MPEG), которая определена в базовом приложении. MHEG был принят советом по цифровому видео и звуку (DAVIC — Digital Audio-Visual Council). MHEG-объекты создаются мультимедийными приложениями.
Считается, что MHEG — будущий международный стандарт для интерактивного TV, так как он работает на любых платформах и его документация свободно распространяема.
Наряду с указанными стандартными форматами имеется конечное множество форматов кодирования видео- и аудиоинформации, предложенных фирмами, производящими различные программные приложения. К ним можно отнести: формат RealAudio, разработанный фирмой RealNetworks, для хранения сжатых голосовых аудиоданных (речи); формат аудиоданных SoundVQ, разработанный компанией Yamaha; формат Windows Media Technology 4.0, представленный фирмой Microsoft, поддерживает потоковую передачу данных в Internet и имеет продвинутую систему сжатия аудио- и видеоданных; формат QuickTime фирмы Apple был разработан для использования в мультимедийных приложениях на компьютерах Macintosh и т.п.
В данной главе представлен материал по наиболее популярным форматам и методам сжатия видео- и аудиоинформации.
Как и любые другие виды данных, графические данные хранятся, обрабатываются и передаются в закодированном двоичном коде, т.е. в виде большого числа бит – нулей и единиц.
Существуют два принципиально разных подхода к представлению (оцифровке) графических данных:
Для оцифровки графических изображений при растровом представлении вся область данных разбивается на множество точечных элементов – пикселей, каждый из которых имеет свой цвет. Совокупность пикселей называется растром, а изображения, которые формируются на основе растра, называются растровыми.
Число пикселей по горизонтали и вертикали изображения определяет разрешение изображения. Стандартными являются значения 640×480, 800×600, 1024×768, 1280×1024 и др. Каждый пиксель нумеруется, начиная с нуля, слева направо и сверху вниз. Пример представления треугольной области растровым способом показан на рис. 1.5.1.
Рисунок 1.5.1.
Очевидно, что чем больше разрешение, тем точнее будут формироваться графические контуры, при этом естественно возрастает количество пикселей. Увеличение разрешения по горизонтали и вертикали в два раза приводит к увеличению числа пикселей в четыре раза.
При растровом способе представления графических данных под каждый пиксель отводится определенное число бит, называемое битовой глубиной и используемой для кодировки цвета пикселя. Каждому цвету соответствует определенный двоичный код (т.е. код из нулей и единиц).
Например, если битовая глубина равна 1, то под каждый пиксель отводится 1 бит. В этом случае 0 соответствует черному цвету, 1 – белому, а изображение может быть только черно-белым. Если битовая глубина равна 4, то каждый пиксель может быть закодирован цветовой гаммой из 16 цветов (2 4 ). При битовой глубине 8 каждый пиксель кодируется одним байтом, при этом количество цветов – 256. Вполне естественно, что с увеличением глубины цвета увеличивается объем памяти, необходимой для хранения графических данных.
Основным недостатком растровой графики является большой объем памяти, требуемый для хранения изображения. Это объясняется тем, что запоминается цвет каждого пикселя, общее число которых определяется заданным разрешением, определяющим качество представления графических данных.
При векторном представлении графических данных задается и впоследствии сохраняется математическое описание каждого графического примитива – геометрического объекта (отрезка, окружности, прямоугольника и т.п.), из которых формируется изображение. Например, для воспроизведения окружности достаточно запомнить положение ее центра, радиус, толщину и цвет линии. Благодаря этому, для хранения векторных графических данных требуется значительно меньше памяти.
Основным недостатком векторной графики является невозможность работы с высококачественными художественными изображениями, фотографиями и фильмами, поэтому основной сферой применения векторной графики является представление в электронном виде чертежей, схем, диаграмм и т.п.
Представление звуковых данных
Слуховой аппарат человека способен различать частотные составляющие звука в среднем в пределах от 20 Гц до ~20 КГц, причем верхняя граница может колебаться в зависимости от возраста и других факторов Звуковая волна, воспринимаемая человеком, представляет собой сложную функцию зависимости амплитуды волны от времени. Сложность этой функции не позволяет задать ее точно математическим выражением или каким-то другим способом для запоминания и обработки в ТСИ. Поэтому звуковая волна представляется путем запоминания значений ее амплитуды в дискретные моменты времени.
Аналоговый (непрерывный) звук представляется в аналоговой аппаратуре непрерывным электрическим сигналом. ТСИ и, в частности, компьютер, оперирует с данными в цифровом виде, т.е. звук в компьютере представляется в цифровом виде.
Цифровой звук – это способ представления электрического сигнала посредством дискретных численных значений его амплитуды.
Оцифровка сигнала включает в себя два процесса – процесс дискретизации (осуществление выборки) и процесс квантования.
Процесс дискретизации (рис. 1.5.2) – это процесс получения значений величин преобразуемого сигнала в определенные промежутки времени.
Квантование (рис. 1.5.3) – процесс замены реальных значений сигнала приближенными с определенной точностью.
Рисунок 1.5.2.
Рисунок 1.5.3.
Таким образом, оцифровка звука – это фиксация амплитуды сигнала через определенные промежутки времени и регистрация полученных значений амплитуды в виде округленных цифровых значений (так как значения амплитуды являются величиной непрерывной, нет возможности конечным числом записать точное значение амплитуды сигнала, именно поэтому прибегают к округлению).
Записанные значения амплитуды сигнала называются отсчетами. Очевидно, что чем чаще брать отсчеты амплитуды (т.е. чем выше частота дискретизации) и чем меньше округлять полученные значения амплитуды (т.е. чем больше уровней квантования), тем более точным будет представление звукового сигнала. При этом существенно возрастет объем хранимой информации. В связи с этим существует проблема выбора между качеством представления сигнала и занимаемым им объемом в оцифрованном виде.
При решении этой проблемы следует руководствоваться известной теоремой Котельникова, согласно которой частота дискретизации устанавливает верхнюю границу частот оцифрованного сигнала, а именно, максимальная частота спектральных составляющих равна половине частоты дискретизации сигнала. Например, чтобы получить полную информацию о звуке в частотной полосе до 22050 Гц, частота дискретизации должна быть не менее 44.1 КГц.
Именно поэтому с учетом возможностей слухового аппарата человека стандартные параметры записи аудио компакт-дисков следующие: частота дискретизации – 44.1 КГц, уровень квантования – 16 бит. Это соответствует 65536 (2 16 ) уровням квантования амплитуды при взятии ее значений 44100 раз в секунду.
Для преобразования дискретного (цифрового) сигнала в аналоговый вид, пригодный для обработки аналоговыми устройствами (усилителями и фильтрами) и последующего воспроизведения через акустические системы, служит цифроаналоговый преобразователь (ЦАП). Процесс преобразования представляет собой обратный процесс дискретизации: зная информацию о величине отсчетов (амплитуды сигнала) и используя определенное количество отсчетов в единицу времени, путем интерполирования происходит восстановление исходного сигнала (рис. 1.5.4).
Рисунок 1.5.4.
Представление видеоданных
В наиболее общем и простом случае видеоданные могут быть представлены в цифровом виде как последовательность сменяющих друг друга с определенной скоростью графических образов, соответствующих содержанию видеоряда. Например, стандарт SIF представляет видеосигнал 30 кадрами в секунду с разрешением каждого кадра 352×240 пикселей, а урезанный формат PAL/SECAM – 25 кадров в секунду с разрешением 352×288 пикселей (полноценный стандарт PAL/SECAM имеет параметры в 4 раза больше).
Типичный размер кадра для DVD-фильма в видеостандарте PAL/SECAM составляет 720×576 пикселей при 25 кадрах в секунду и 640×480 пикселей при 30 кадрах в секунду в стандарте NTSC.
Очевидно, что представление видеоданных связано с проблемой аналогичной той, которая возникает при представлении звуковых данных – большим объемом хранимой информации.
Для разрешения этой проблемы при оцифровке видео используются алгоритмы сжатия (кодирования) видеоданных. При кодировании исходного видеоизображения кодек (программа сжатия) выявляет и сохраняет ключевые кадры, на которых происходит смена сюжета. А вместо сохранения промежуточных кадров прогнозирует и сохраняет лишь информацию об изменениях в текущем кадре по отношению к предыдущему.
Наиболее известными алгоритмами сжатия является семейство алгоритмов MPEG (MPEG 1, MPEG 2, MPEG 4).
Как и любые другие виды данных, графические данные хранятся, обрабатываются и передаются в закодированном двоичном коде, т.е. в виде большого числа бит – нулей и единиц.
Существуют два принципиально разных подхода к представлению (оцифровке) графических данных:
Для оцифровки графических изображений при растровом представлении вся область данных разбивается на множество точечных элементов – пикселей, каждый из которых имеет свой цвет. Совокупность пикселей называется растром, а изображения, которые формируются на основе растра, называются растровыми.
Число пикселей по горизонтали и вертикали изображения определяет разрешение изображения. Стандартными являются значения 640×480, 800×600, 1024×768, 1280×1024 и др. Каждый пиксель нумеруется, начиная с нуля, слева направо и сверху вниз. Пример представления треугольной области растровым способом показан на рис. 1.5.1.
Рисунок 1.5.1.
Очевидно, что чем больше разрешение, тем точнее будут формироваться графические контуры, при этом естественно возрастает количество пикселей. Увеличение разрешения по горизонтали и вертикали в два раза приводит к увеличению числа пикселей в четыре раза.
При растровом способе представления графических данных под каждый пиксель отводится определенное число бит, называемое битовой глубиной и используемой для кодировки цвета пикселя. Каждому цвету соответствует определенный двоичный код (т.е. код из нулей и единиц).
Например, если битовая глубина равна 1, то под каждый пиксель отводится 1 бит. В этом случае 0 соответствует черному цвету, 1 – белому, а изображение может быть только черно-белым. Если битовая глубина равна 4, то каждый пиксель может быть закодирован цветовой гаммой из 16 цветов (2 4 ). При битовой глубине 8 каждый пиксель кодируется одним байтом, при этом количество цветов – 256. Вполне естественно, что с увеличением глубины цвета увеличивается объем памяти, необходимой для хранения графических данных.
Основным недостатком растровой графики является большой объем памяти, требуемый для хранения изображения. Это объясняется тем, что запоминается цвет каждого пикселя, общее число которых определяется заданным разрешением, определяющим качество представления графических данных.
При векторном представлении графических данных задается и впоследствии сохраняется математическое описание каждого графического примитива – геометрического объекта (отрезка, окружности, прямоугольника и т.п.), из которых формируется изображение. Например, для воспроизведения окружности достаточно запомнить положение ее центра, радиус, толщину и цвет линии. Благодаря этому, для хранения векторных графических данных требуется значительно меньше памяти.
Основным недостатком векторной графики является невозможность работы с высококачественными художественными изображениями, фотографиями и фильмами, поэтому основной сферой применения векторной графики является представление в электронном виде чертежей, схем, диаграмм и т.п.
Представление звуковых данных
Слуховой аппарат человека способен различать частотные составляющие звука в среднем в пределах от 20 Гц до ~20 КГц, причем верхняя граница может колебаться в зависимости от возраста и других факторов Звуковая волна, воспринимаемая человеком, представляет собой сложную функцию зависимости амплитуды волны от времени. Сложность этой функции не позволяет задать ее точно математическим выражением или каким-то другим способом для запоминания и обработки в ТСИ. Поэтому звуковая волна представляется путем запоминания значений ее амплитуды в дискретные моменты времени.
Аналоговый (непрерывный) звук представляется в аналоговой аппаратуре непрерывным электрическим сигналом. ТСИ и, в частности, компьютер, оперирует с данными в цифровом виде, т.е. звук в компьютере представляется в цифровом виде.
Цифровой звук – это способ представления электрического сигнала посредством дискретных численных значений его амплитуды.
Оцифровка сигнала включает в себя два процесса – процесс дискретизации (осуществление выборки) и процесс квантования.
Процесс дискретизации (рис. 1.5.2) – это процесс получения значений величин преобразуемого сигнала в определенные промежутки времени.
Квантование (рис. 1.5.3) – процесс замены реальных значений сигнала приближенными с определенной точностью.
Рисунок 1.5.2.
Рисунок 1.5.3.
Таким образом, оцифровка звука – это фиксация амплитуды сигнала через определенные промежутки времени и регистрация полученных значений амплитуды в виде округленных цифровых значений (так как значения амплитуды являются величиной непрерывной, нет возможности конечным числом записать точное значение амплитуды сигнала, именно поэтому прибегают к округлению).
Записанные значения амплитуды сигнала называются отсчетами. Очевидно, что чем чаще брать отсчеты амплитуды (т.е. чем выше частота дискретизации) и чем меньше округлять полученные значения амплитуды (т.е. чем больше уровней квантования), тем более точным будет представление звукового сигнала. При этом существенно возрастет объем хранимой информации. В связи с этим существует проблема выбора между качеством представления сигнала и занимаемым им объемом в оцифрованном виде.
При решении этой проблемы следует руководствоваться известной теоремой Котельникова, согласно которой частота дискретизации устанавливает верхнюю границу частот оцифрованного сигнала, а именно, максимальная частота спектральных составляющих равна половине частоты дискретизации сигнала. Например, чтобы получить полную информацию о звуке в частотной полосе до 22050 Гц, частота дискретизации должна быть не менее 44.1 КГц.
Именно поэтому с учетом возможностей слухового аппарата человека стандартные параметры записи аудио компакт-дисков следующие: частота дискретизации – 44.1 КГц, уровень квантования – 16 бит. Это соответствует 65536 (2 16 ) уровням квантования амплитуды при взятии ее значений 44100 раз в секунду.
Для преобразования дискретного (цифрового) сигнала в аналоговый вид, пригодный для обработки аналоговыми устройствами (усилителями и фильтрами) и последующего воспроизведения через акустические системы, служит цифроаналоговый преобразователь (ЦАП). Процесс преобразования представляет собой обратный процесс дискретизации: зная информацию о величине отсчетов (амплитуды сигнала) и используя определенное количество отсчетов в единицу времени, путем интерполирования происходит восстановление исходного сигнала (рис. 1.5.4).
Рисунок 1.5.4.
Представление видеоданных
В наиболее общем и простом случае видеоданные могут быть представлены в цифровом виде как последовательность сменяющих друг друга с определенной скоростью графических образов, соответствующих содержанию видеоряда. Например, стандарт SIF представляет видеосигнал 30 кадрами в секунду с разрешением каждого кадра 352×240 пикселей, а урезанный формат PAL/SECAM – 25 кадров в секунду с разрешением 352×288 пикселей (полноценный стандарт PAL/SECAM имеет параметры в 4 раза больше).
Типичный размер кадра для DVD-фильма в видеостандарте PAL/SECAM составляет 720×576 пикселей при 25 кадрах в секунду и 640×480 пикселей при 30 кадрах в секунду в стандарте NTSC.
Очевидно, что представление видеоданных связано с проблемой аналогичной той, которая возникает при представлении звуковых данных – большим объемом хранимой информации.
Для разрешения этой проблемы при оцифровке видео используются алгоритмы сжатия (кодирования) видеоданных. При кодировании исходного видеоизображения кодек (программа сжатия) выявляет и сохраняет ключевые кадры, на которых происходит смена сюжета. А вместо сохранения промежуточных кадров прогнозирует и сохраняет лишь информацию об изменениях в текущем кадре по отношению к предыдущему.
Наиболее известными алгоритмами сжатия является семейство алгоритмов MPEG (MPEG 1, MPEG 2, MPEG 4).
Читайте также: