8 формат файлов который больше не используют
Компьютер был создан, чтобы хранить и воспроизводить большое количество информации. Операционная система распознает информацию в двоичном коде, который обычный человек прочесть не сможет. Поэтому в качестве посредника между человеком и компьютером был создан файл — «контейнер» для разного рода информации.
Тип файла зависит от его содержания. Чаще всего обычному пользователю достаточно файлов в формате текст, звук, видео, изображение, таблица. Но существуют и другие форматы, понятные специалистам программирования. Например, HTML файлы, системные или файлы образа диска. После того, как происходит кодирование, система распознает файлы, чтобы определить, какая программа сможет их прочитать. Формат — это более общее понятие, чем расширение или тип файла. Например, в графическом формате существует несколько типов файлов: GIF, JPEG, TIFF и много других.
Расширения файлов
Расширение файла всегда указывается в его названии после точки и состоит из трех букв. Например, работая с файлом Word, мы можем увидеть расширение doc или docx. Благодаря расширению операционная система понимает, какой программой можно воздействовать на файл — открыть, редактировать и т.п.
Осторожно! Если преподаватель обнаружит плагиат в работе, не избежать крупных проблем (вплоть до отчисления). Если нет возможности написать самому, закажите тут.
Если расширение не указано в названии файла, значит это заложено в настройках операционной системы, которые можно поменять.
Как правило, расширение пользователю показывается графически — картинкой, которой обозначен файл. Если на месте иконки отображается чистый белый лист, значит файл не распознается. В этом случае система предложит выбрать программу для работы с файлом вручную из списка установленных.
Особенности пользовательских файлов
Текстовые документы
Файлы этого типа входят в группу наиболее используемых. Для работы с текстовыми документами в операционной системе Windows установлено приложение Word. Расширения для работы с текстом в этой программе — doc, docx, txt, rtf. Выбор зависит от назначения файла. Например, в файлах типа doc, docx, rtf можно работать с исходным текстом, добавлять таблицы, рисунки, схемы и т.д. Отформатированные тексты можно распечатывать на принтере. Для упрощенной записи без форматирования используется расширение txt в приложении «Блокнот».
Приложение Word не единственная программа для чтения и работы с текстами. Документы можно читать и редактировать в программах OpenOffice, LibreOffice. Они близки к Word, но отличаются интерфейсом и некоторыми возможностями.
Сканированные документы можно читать с помощью программ WinDjView (расширение djvu), Acrobat Reader, Foxit Reader (расширение pdf). Файлы в формате pdf можно редактировать в соответствующем приложении и включать в него векторные или растровые изображения.
Тексты для интернет-страниц создаются в формате HTML.
Рисунки
Расширений для файлов с графическими изображениями больше, чем для текстовых документов. Их можно разделить на две группы: растровые и векторные.
Растровые изображения
Растровые изображения более востребованы обычными пользователями из-за простоты в использовании. К ним относятся такие расширения, как BMP, GIF, JPEG, PNG, PSD (файлы для работы в программе Photo Shop), TIFF и другие. Отличаются они не только программным обеспечением, которое может с ними работать, но и некоторыми свойствами:
- BMP — не подвержены сжатию;
- GIF — позволяют создать анимацию небольшого объема;
- JPEG — наиболее подходящий формат для передачи и хранения цифровых фотографий, так как файлы этого расширения можно подвергать сжатию;
- TIFF — расширение свойственно изображениям высокого качества.
Векторные изображения
Векторная графика используется для профессиональной работы с изображениями. Векторные рисунки сохраняют свои пропорции при любом изменении. Файлы этого формата используют дизайнеры и иллюстраторы разных направлений. Расширения векторных изображений: AI ( Adobe Illustrator ), CDR ( Corel Draw ), EPS ( Encapsulated PostScript format ), SWF ( Adobe Flash) и другие. Все они созданы для обработки в специальных программах — графических редакторах.
Аудиофайлы
Аудиофайлы содержат цифровую запись звука. Форматы звуковых файлов отличаются по свойствам сжатия, цели использования, объему.
Современному пользователю знакомы аудиофайлы с расширениями aac, wma, ac3, ogg, m4a, ape, flac, mp3:
- AAC — аналогичен mp3, но в отличие от него при преобразовании меньше теряет в качестве. Наиболее популярное приложение для работы с файлами ААС — Winamp.
- WMA — чаще можно встретить в сети Интернет, создан для проигрывателя Windows Media Audio компанией Microsoft.
- WAV — аудиоформат, более предназначенный для записи качественного несжатого звука. Непригоден для передачи и хранения, так как занимает большой объем памяти.
- FLAC — аудиофайлы в этом расширении обладают высоким качеством, могут подвергаться сильному сжатию. Прослушивание файлов требует специальных плееров на компьютере, не подходят для передачи.
- MP3 — один из наиболее распространенных форматов. Совместим со многими аудиоустройствами, но по сравнению с flac качество звучания у таких файлов низкое. Еще один минус — mp3-файлы не годятся для редактирования.
Видеофайлы
Видеофайлы могут отличаться по нескольким параметрам: разрешение, ширина потока, частота кадров, качество изображения и глубина цвета. Разные расширения видеофайлов отличаются уровнем качества по каждому из этих параметров. Среди популярных форматов на сегодняшний день файлы типа mp4, avi, mkv, wmv, flv, mpeg, swf:
- AVI — распространенное расширение для просмотра видео. Не подходит для воспроизведения объемного звука.
- MKV — имеет широкий функционал. Например, в файлах этого типа есть возможность воспроизведению меню. Требует установки специальных программ для воспроизведения на компьютере.
- MPEG — несколько форматов видеофайлов, среди которых самым востребованным и универсальным является MPEG4. Расширение имеет высокий стандарт сжатия и подходит для использования как на ПК, так и в сети.
- FLV — предназначено для воспроизведения и хранения видеороликов в интернете.
Другие распространенные форматы файлов
Для сжатия и передачи файлов используются специальные приложения-архиваторы, которые упаковывают файлы в один контейнер. После этого файл становится меньшим по объему и получает расширение архиватора. Самые распространенные расширения rar, zip.
Если пользователь устанавливает новую программу, то она будет иметь формат exe. Считывая такое расширение, система получает команду установить приложение.
Для работы с таблицами нужны файлы в формате xls, xlsx. Они входят в офисный пакет Windows.
Еще одно популярное расширение файлов — ppt, pptx. Оно позволяет создавать и редактировать презентации.
Зачем нужны разные форматы файлов
Серьезное узкое место в производительности приложений с поддержкой HDFS, таких как MapReduce и Spark — время поиска, чтения, а также записи данных. Эти проблемы усугубляются трудностями в управлении большими наборами данных, если у нас не фиксированная, а эволюционирующая схема, или присутствуют некие ограничения на хранение.
Обработка больших данных увеличивает нагрузку на подсистему хранения — Hadoop хранит данные избыточно для достижения отказоустойчивости. Кроме дисков, нагружаются процессор, сеть, система ввода-вывода и так далее. По мере роста объема данных увеличивается и стоимость их обработки и хранения.
Различные форматы файлов в Hadoop придуманы для решения именно этих проблем. Выбор подходящего формата файла может дать некоторые существенные преимущества:
- Более быстрое время чтения.
- Более быстрое время записи.
- Разделяемые файлы.
- Поддержка эволюции схем.
- Расширенная поддержка сжатия.
Формат файлов Avro
Для сериализации данных широко используют Avro — это основанный на строках, то есть строковый, формат хранения данных в Hadoop. Он хранит схему в формате JSON, облегчая ее чтение и интерпретацию любой программой. Сами данные лежат в двоичном формате, компактно и эффективно.
Ключевой особенностью Avro является надежная поддержка схем данных, которые изменяются с течением времени, то есть эволюционируют. Avro понимает изменения схемы — удаление, добавление или изменение полей.
Avro поддерживает разнообразные структуры данных. Например, можно создать запись, которая содержит массив, перечислимый тип и подзапись.
Этот формат идеально подходит для записи в посадочную (переходную) зону озера данных (озеро данных, или data lake — коллекция инстансов для хранения различных типов данных в дополнение непосредственно к источникам данных).
Так вот, для записи в посадочную зону озера данных такой формат лучше всего подходит по следующим причинам:
- Данные из этой зоны обычно считываются целиком для дальнейшей обработки нижестоящими системами — и формат на основе строк в этом случае более эффективен.
- Нижестоящие системы могут легко извлекать таблицы схем из файлов — не нужно хранить схемы отдельно во внешнем мета-хранилище.
- Любое изменение исходной схемы легко обрабатывается (эволюция схемы).
Формат файлов Parquet
Parquet — опенсорсный формат файлов для Hadoop, который хранит вложенные структуры данных в плоском столбчатом формате.
По сравнению с традиционным строчным подходом, Parquet более эффективен с точки зрения хранения и производительности.
Это особенно полезно для запросов, которые считывают определенные столбцы из широкой (со многими столбцами) таблицы. Благодаря формату файлов читаются только необходимые столбцы, так что ввод-вывод сводится к минимуму.
Небольшое отступление-пояснение: чтобы лучше понять формат файла Parquet в Hadoop, давайте посмотрим, что такое основанный на столбцах — то есть столбчатый — формат. В таком формате вместе хранятся однотипные значения каждого столбца.
Например, запись включает поля ID, Name и Department. В этом случае все значения столбца ID будут храниться вместе, как и значения столбца Name и так далее. Таблица получит примерно такой вид:
ID | Name | Department |
1 | emp1 | d1 |
2 | emp2 | d2 |
3 | emp3 | d3 |
Столбчатый формат более эффективен, когда вам нужно запросить из таблицы несколько столбцов. Он прочитает только необходимые столбцы, потому что они находятся по соседству. Таким образом, операции ввода-вывода сводятся к минимуму.
Например, вам нужен только столбец NAME. В строковом формате каждую запись в наборе данных нужно загрузить, разобрать по полям, а затем извлечь данные NAME. Столбчатый формат позволяет перейти непосредственно к столбцу Name, так как все значения для этого столбца хранятся вместе. Не придется сканировать всю запись.
Таким образом, столбчатый формат повышает производительность запросов, поскольку для перехода к требуемым столбцам требуется меньше времени поиска и сокращается количество операций ввода-вывода, ведь происходит чтение только нужных столбцов.
Одна из уникальных особенностей Parquet заключается в том, что в таком формате он может хранить данные с вложенными структурами. Это означает, что в файле Parquet даже вложенные поля можно читать по отдельности без необходимости читать все поля во вложенной структуре. Для хранения вложенных структур Parquet использует алгоритм измельчения и сборки (shredding and assembly).
Чтобы понять формат файла Parquet в Hadoop, необходимо знать следующие термины:
Здесь заголовок просто содержит волшебное число PAR1 (4 байта), которое идентифицирует файл как файл формата Parquet.
В футере записано следующее:
- Метаданные файла, которые содержат стартовые координаты метаданных каждого столбца. При чтении нужно сначала прочитать метаданные файла, чтобы найти все интересующие фрагменты столбцов. Затем фрагменты столбцов следует читать последовательно. Еще метаданные включают версию формата, схему и любые дополнительные пары ключ-значение.
- Длина метаданных (4 байта).
- Волшебное число PAR1 (4 байта).
Формат файлов ORC
Оптимизированный строково-столбчатый формат файлов (Optimized Row Columnar, ORC) предлагает очень эффективный способ хранения данных и был разработан, чтобы преодолеть ограничения других форматов. Хранит данные в идеально компактном виде, позволяя пропускать ненужные детали — при этом не требует построения больших, сложных или обслуживаемых вручную индексов.
Преимущества формата ORC:
- Один файл на выходе каждой задачи, что уменьшает нагрузку на NameNode (узел имен).
- Поддержка типов данных Hive, включая DateTime, десятичные и сложные типы данных (struct, list, map и union).
- Одновременное считывание одного и того же файла разными процессами RecordReader.
- Возможность разделения файлов без сканирования на наличие маркеров.
- Оценка максимально возможного выделения памяти кучи на процессы чтения/записи по информации в футере файла.
- Метаданные сохраняются в бинарном формате сериализации Protocol Buffers, который позволяет добавлять и удалять поля.
ORC хранит коллекции строк в одном файле, а внутри коллекции строчные данные хранятся в столбчатом формате.
Файл ORC хранит группы строк, которые называются полосами (stripes) и вспомогательную информацию в футере файла. Postscript в конце файла содержит параметры сжатия и размер сжатого футера.
По умолчанию размер полосы составляет 250 МБ. За счет полос такого большого размера чтение из HDFS выполняется более эффективно: большими непрерывными блоками.
В футере файла записан список полос в файле, количество строк на полосу и тип данных каждого столбца. Там же записано результирующее значение count, min, max и sum по каждому столбцу.
Футер полосы содержит каталог местоположений потока.
Строчные данные используются при сканировании таблиц.
Индексные данные включают минимальные и максимальные значения для каждого столбца и позиции строк в каждом столбце. Индексы ORC используются только для выбора полос и групп строк, а не для ответа на запросы.
Примерно 30 лет назад две разные рабочие группы заканчивали работу над техническими стандартами, которым суждено было повлиять на то, как люди зрительно воспринимают мир.
Один технический стандарт в итоге поменял то, как люди использовали один из важных типов офисной техники – факс. Другой поменял, можно сказать, всё остальное, став де-факто способом пересылки высококачественных изображений и низкокачественных мемов по интернету и в рабочих условиях.
Их пути разошлись, но пришли они к одному и тому же – миру стандартов сжатия. Средний человек не представляет, что такое JBIG – стандарт сжатия, использующийся в большинстве факсов. Однако этот же человек наверняка слышал про JPEG – стандарт, впервые опубликованный в 1992 году.
Формат JPEG – крутой и определяющий культуру, однако мне больше интересны те варианты, которые ему проиграли. Менее известные и популярные, более узкие элементы этого мира. Поэтому я расскажу вам о 10 форматах, не попавших в мейнстрим. Если вашего любимого формата здесь нет – не обижайтесь.
Образец графики формата NAPLPS на малоизвестном кабельном канале Genesis Storytime
1. The North American Presentation Level Protocol Syntax (NAPLPS)
Тип файла: векторная графика
Наиболее часто используемое расширение: .nap
Это один из самых ранних форматов изображений, использовавшихся в широковещании, и одна из первых попыток создать портативный формат, способный выводить на экран полноцветную графику. Его разработали в 1970-х годах в Канадском центре исследования коммуникаций в качестве ответвления системы Telidon. Формат стал широко использоваться на канадском телевидении (включая и кабельный канал Genesis StoryTime), а потом перекочевал на ПК.
Позднее он стал ключевым элементом системы Prodigy, представленной в конце 1980-х компаниями Sears и IBM. Платформа дожила до 90-х годов.
2. BSAVE
Тип файла: растровый
Наиболее часто используемое расширение: .BSV, .PIC
У этого формата более близкие родственные связи с IBM PC. Это не то, чтобы отдельный формат – больше просто способ сохранить необработанное изображение экрана при помощи команды BSAVE, имевшейся в различных версиях языка Microsoft QuickBasic. Для загрузки изображения, естественно, нужно использовать команду BLOAD.
Команда работает во многих версиях Microsoft BASIC. Эта система – самая близкая к кросс-платформенным приложениям из всего, что существовало в ранние годы индустрии персональных компьютеров. Благодаря широкому распространению BSAVE ранние дигитайзеры вроде VersaWriter использовали эту команду для сохранения созданного рисунка с целью его дальнейшего воспроизведения на экране.
Формат оставил след в истории программ для рисования, несмотря на его банальную природу, поскольку использовался в PCPaint – самой первой программе для рисования на IBM PC, использовавшей мышь и графический интерфейс. Microsoft так беспокоилась по поводу компании Mouse Systems, создавшей PCPaint, что создатель MS-DOS купила лицензию на программу у своего крупнейшего конкурента, чтобы создать собственное приложение. В связи с чем мы и переходим к формату
Пример работы PC Paintbrush. Один из вариантов этой программы превратился в Microsoft Paint.
3. .PCX
Тип файла: растровый
Наиболее часто используемое расширение: .PCX
Если вы использовали программу Microsoft Paint (тогда называвшийся Paintbrush) с Windows 3.0 около 1990 года, то вы можете знать, что она умела сохранять файлы в двух форматах. Одним из них был PCX, и на момент выхода Paint он был гораздо более распространённым, чем второй.
Причина была проста. Формат .PCX ассоциировался с PC Paintbrush, чрезвычайно популярной программой, существовавшей до появления Windows – настолько, что стал де-факто стандартом для программ редактирования изображений до появления GIF и JPEG. Как я упоминал ранее, Microsoft практически просто поменяла название PC Paintbrush и выпустила эту программу как Microsoft Paint. С распространением форматов более высокого разрешения PCX постепенно ушёл в тень, но в конце 1980-х он всё же доминировал на IBM PC.
Существовал и ещё один формат, быстро забытый всеми — .MSP, использовавшийся в ранних версиях Microsoft Paint. Он был настолько малоизвестным, что Microsoft отказалась от него задолго до того, как большинство людей смогло его попробовать. Версия Paint в Windows 3.0 (первая версия Windows, которую большинство людей реально использовало) умела только открывать MSP, но не сохранять его. В этих файлах хранились однобитные изображения, и к началу 90-х формат уже устарел.
PCX же доминировал потому, что был напрямую привязан к графическим возможностям IBM PC – то есть, был заточен под CGA, EGA и VGA, если верить Энциклопедии форматов графических файлов (да, реально есть такая книга!). В формате есть сжатие данных, не особенно эффективное. Серьёзно сжатием заниматься начали только с появлением GIF и JPEG.
Несколько аргументов в пользу формата TIFF
4. Tag Image File Format (TIFF)
Тип файла: растровый
Наиболее часто используемое расширение: .TIFF, .TIF
Этот формат расцвёл в середине 80-х, когда издательства начали массово переходить на компьютерную вёрстку. Его создала компания Aldus, разработавшая с помощью Microsoft и Hewlett-Packard прорывной пакет PageMaker. Этот формат, основанный на тэгах, распространился так широко в основном потому, что в период становления электронной вёрстки PageMaker стал самым популярным инструментом. Aldus быстро провела стандартизацию формата, и когда в 1994 году её купила Adobe, последняя продолжила его поддержку.
Он появился в нужное время, и помог создать стандарт для сканеров как раз в исторический для этой области момент. «Работники настольных издательских систем и производители сканеров предпочитают TIFF, поскольку он позволяет обмениваться данными между Mac и ПК, что уменьшает время вывода продуктов на рынок для обеих систем», — писал журналист PC Magazine Том Стэнтон в 1987 году.
Из всех перечисленных тут форматов TIFF с наибольшей вероятностью широко используется до сих пор, однако он постепенно превратился в более специализированный формат для профессионалов, если сравнить его с каким-нибудь JPG. Он уже вышел из мейнстрима, несмотря на то, что всё ещё используется в некоторых специфичных случаях.
Часовое обучающее видео по сложным функциям в DeluxePaint.
5. ILBM IFF Interleaved Bitmap
Тип файла: растровый
Наиболее часто используемое расширение: .IFF
Использовавшийся в основном на компьютерах Amiga формат был создан компанией Electronic Arts в 1980-е годы для своей популярной программы DeluxePaint. Он развивался так активно, что на его фоне PC Paintbrush быстро стала казаться отстающей. И хотя этот формат в основном использовали для хранения звука и изображения на ПК, по данным Энциклопедии форматов графических файлов, более фундаментальную роль в качестве файлового формата общего назначения он сыграл на передовых для своего времени компьютерах Amiga.
Как отмечает команда сайта Archive, индивидуальные особенности Amiga были таковы, что различные варианты формата IFF использовались различными приложениями, а также часто приспосабливались конкретно для работы на специфическом железе этого компьютера.
Как пишут в книге 1996 года, формат оставался практически без изменений после публикации его спецификации в 1985 году, однако многие разработчики выпускали и описывали различные его расширения. На момент выхода книги формат IFF был одним из самых используемых.
Реклама системы Truevision Targa на тот период, когда ею владела AT&T.
6. Truevision TGA (TARGA)
Тип файла: растровый
Наиболее часто используемое расширение: .TGA
Если IFF оказался тесно связанным со спецификой работы железа компьютера Amiga, то формат TGA буквально оказался побочным продуктом одной из самых ранних плат, предназначенных для работы с видео на IBM PC. Изначально TGA появился в недрах AT&T, а потом, в конце 1980-х, отпочковался в собственную компанию. Это был один из первых форматов, способных воспроизводить “true color” при помощи специального железа. Как отмечается в Библиотеке Конгресса, он даже поддерживал прозрачность, что в то время было очень круто.
«Truevision стала пионером в индустрии цифрового редактирования видео, представив в 1987 году видеокарту Targa для ПК, — пишут в IEEE Computer Society. – В том же году NewTek анонсировала карту видеозахвата для Amiga под названием Video Toaster, но выпустила её только в 1990-м, поэтому Targa реально стала первой».
Сегодня этот формат по популярности уступает другим, однако применяется до сих пор. К примеру, Valve использует его вариант, .VTF, для хранения изображений в Steam.
7. RIP Graphics (aka RIPscrip)
Тип файла: векторный
Наиболее часто используемое расширение: .RIP
Этот формат, по сути, был чем-то вроде Flash в эпоху BBS, и позволял насладиться неплохой графикой при низкой скорости связи – в то время, когда низкая скорость связи была делом обычным. В результате формат породил очень много креативных решений, а также различные попытки создания графического интерфейса пользователей на BBS. Как и Flash, поддерживал сжатие; в отличие от него, был приспособлен для особенностей MS-DOS, а разрабатывался компанией, не имевшей отношения к гигантам из Кремниевой долины.
Несмотря на популярность формата, в веб его перенести оказалось не так-то просто. Пространство веба оказалось гораздо большим, чем диалап-сообщества. TeleGrafix пыталась доказать миру, что telnet, а вовсе не веб, является достойной внимания новинкой – и проиграла.
8. .BMP file format
Тип файла: растровый
Наиболее часто используемое расширение: .BMP, .DIB
Самый главный подарок от Microsoft миру графических стандартов. Впервые был разработан для Microsoft Windows и OS/2 в конце 80-х. Способен работать с дисплеями с большим количеством цветов. Наряду с PCX использовался в Microsoft Paint в эпоху его расцвета в начале 90-х.
Однако формат BMP удачным не назовёшь. Версию, предшествовавшую той, что использовалась в Windows 3.0, PC Magazine охарактеризовал, как «вероятно, худший битовый формат из всех разработанных», в частности из-за непоследовательности. Автор статьи Чарльз Пецольд отмечал, что формат часто менялся от версии к версии Windows и OS/2, и не был «устройство-независимым» вплоть до появления Windows 3.0. Хуже всего было то, что этот формат появился до интернета, и не сильно упирал на сжатие. А значит, он плохо подходил для того направления, в котором двигалась компьютерная индустрия.
«BMP-файлы обычно не сжимаются, и поэтому не очень хорошо подходят для передачи через интернет», — предупреждает компания в документации на сайте.
Примеры VRML-графики из 90-х.
9. Virtual Reality Modeling Language (VRML)
Тип файла: векторная графика, анимация, интерактивный формат
Наиболее часто используемое расширение: .WRL, .WRZ
Если вас выводят из себя новомодные разговоры о метавселенной, вам стоит знать, что мы более-менее движемся по этому пути уже почти четверть века. Ранний формат трёхмерной графики VRML стал одним из первых форматов, разработанных специально для веба (а также одним из первых форматов, разработанных с учётом стандартов, а не каким-то корпоративным продуктом, переделанным под задачу). Шумиха по поводу этого формата напоминает то обсуждение, которое вызвала метавселенная Цукерберга и компании в последнее время. В конце 90-х Microsoft Internet Explorer и Netscape Communicator [два основных браузера в то время / прим. перев.] поддерживали этот формат из коробки.
Шумиха по поводу этого формата была знатной, его превозносили даже в мейнстримной прессе (вместо специальной – хотя и в ней тоже обсуждали), несмотря на то, что мало кому удавалось им воспользоваться. Возможно, стоит обсудить отдельно, почему открытый стандарт цифровой графики проиграл проприетарному Flash, но вспомнить VRML всё равно приятно – учитывая, что компания, которую мы должны называть Facebook, пытается привлечь внимание к идее, похожей по сути.
10. Wireless Application Protocol Bitmap
Тип файла: растровый
Наиболее часто используемое расширение: .WBMP
Не так давно наши телефоны умели показывать только одноцветные графические изображения. Да, да, пользователи Nokia, играющие в Змейку – я вас имею в виду.
Так и родился формат WBMP. Его в конце 90-х разработал Wireless Application Protocol Forum (сейчас преобразившийся в Open Mobile Alliance), исходя из предположения, что на экраны можно выводить только одноцветные изображения (однако в случае крайней необходимости он поддерживал и более распространённые форматы типа JPG или PNG).
«WAE [Wireless Application Environment / прим. перев.] обеспечивает визуальное окружение, разработанное специально под несколько конкурирующих требований, включая поддержку глубины в несколько пикселей, поддержку таблиц цветовых пространств, сжатия, малых требований к процессору и памяти при распаковке, и презентационные запросы, а также с тем, чтобы успешно работать с распространёнными инструментами», написано в стандарте.
По сути, WBMP описал стандарт графики того уровня, который можно было получить на Game Boy за десять лет до появления миллионов первых сотовых телефонов.
— Легко принимать хорошее качество современных форматов изображений как само собой разумеющееся. Благодаря им сегодня у нас есть такие яркие визуальные коммуникации, которых несколько десятилетий назад у нас просто не было.
В самом начале развития индустрии персональных компьютеров нам приходилось пользоваться де-факто стандартами из популярных приложений или перенимать технологии у индустрии широковещания, чтобы создавать изображения. Вскоре нам пришлось задуматься над такими вещами, как сжатие и портативность – и форматы, не поддерживающие эти функции, быстро оказались на обочине.
И даже у исторических ограничений форматов типа GIF, эволюционировавшего из Compuserve, и продолжающего играть свою роль в качестве одного из самых популярных форматов интернета, есть свой особый шарм.
Однако перечисленные выше форматы не стали известными большинству людей так же хорошо, как JPG, GIF и PNG. Некоторые, вроде PCX, были известны ранее. Некоторые из современных форматов, вроде WebP, HEIC и SVG, набирают популярность в мейнстримовом сознании, однако для этого требуется смесь из стандартизации, технологических преимуществ, постоянного использования и понимания со стороны пользователей. Поэтому не всякому формату суждено стать хитом.
Пробившиеся форматы нашли эту комбинацию – и в неё не входит такая особенность, как улучшенное сжатие данных для факсов.
Файлы… что вообще может быть проще? Мы все привыкли создавать, удалять, редактировать, перекидываться файлами.
Но можем ли мы заглянуть внутрь каждого файла и понять как он устроен? Конечно можем, поэтому сегодня мы немного покопаемся в бинарном коде и пощупаем метаданные.
Заодно узнаем, почему iPhone зависает от SMS и распотрошим PowerPoint.
Почему форматов файлов так много?
Если бы мы просто могли взглянуть на сырые данные, которые хранятся внутри жесткого диска или SSD, то мы бы не увидели никаких файлов: мы бы увидели только нолики и единички. Потому как, в любом случае, в памяти компьютера всё хранится в виде сплошного потока двоичного кода.
Но как же тогда понять, где заканчивается один файл и начинается другой?
Поначалу эту проблему человечество решало брутально. Люди записывали один файл на один жесткий диск, чтобы уж точно не ошибиться. Поэтому раньше словом файл называли не отдельную область на жестком диске, а прям целое устройство. К примеру IBM 305.
CTSS (Compatible Time-Sharing System)
Но потом, люди придумали файловые системы. Если очень упростить, это такое оглавление в котором указано имя файла, где он начинается и его длина. А также всякие метаданные, типа время создания, изменения, и можно ли его перезаписывать.
Но для того чтобы прочитать файл, знать его местоположение и границы на жестком диске недостаточно, ведь нам нужно как-то расшифровать бинарный код.
Для этого и существуют различные форматы файлов. В большинстве операционных систем форматы файлов указываются в виде расширения, которое отделяется точкой от имени файла. А если вы не видите расширения, это нормально. Потому что, по умолчанию, современные ОС их скрывают, но можно поставить галочку в настройках.
Расширение даёт подсказку операционной системе и программам, о том какой тип данных он содержит и как это всё структурировано. Например, увидев файл droider.jpg операционная система и мы, люди, сразу понимаем, что это картинка в формате JPEG.
Естественно, для типов данных и разных задач оптимальной будет разная структура файла. Поэтому и форматов файлов существует огромная масса.
Поэтому давайте разберем, как устроены наиболее популярные форматы файлов от более простых к более сложным.
Один из самый простых форматов — это TXT. Это текстовый формат. Знаменитое приложение «Блокнот» в Windows работает как раз с этим форматом.
TXT — формат незамысловатый. Он может хранить в себе только простой неформатированный текст, то есть в нем нет никаких выделений, подчеркиваний, курсивов, отступов, разных шрифтов. Только голый текст, а точнее просто символы.
Каждый символ в TXT-формате хранится в виде бинарного кода.
То что мы с вами видим как осмысленный текст, операционная система видит вот так:
01001000 01100101 01101100 01101100 01101111 00101100 00100000 01110111 01101111 01110010 01101100 01100100 00100001
Каждые 8 цифр, то есть 8 бит этого кода — это отдельный символ.
Например, 01001000 — это “H”, 01100101 — это “e”, и так далее.
Подобрав правильную кодировку остается дело техники. Система сопоставляет бинарный код с таблицей кодировки UTF-8 и готово! Но что будет если система подберет кодировку неправильно? Вариантов не много, скорее всего мы увидим крякозябры:
И такое часто случается, так как TXT-файл не содержит никакой дополнительной информации о кодировке. И это большой недостаток формата.
И вдобавок, эту таблицу нужно было загрузить в оперативную память при загрузке компьютера, а у типового ПК в начале 80-х годов редко было больше 640 килобайт оперативки. А использовать 16-битные таблицы (65536 вариантов) было просто невозможно, такая таблица просто не влезла бы в память.
Но мощность компьютеров росла и проблема ушла. К таблицам с латинскими символами добавились кириллические, которые занимали уже не по 8 бит, а по 16 бит каждый. Поэтому текст на русском занимает в два раза больше памяти, при том же количестве символов.
11010000 10011111 11010001 10000000 11010000 10111000 11010000 10110010 11010000 10110101 11010001 10000010 00101100 00100000 11010000 10111100 11010000 10111000 11010001 10000000 00100001
11010000 10011111 — П
11010001 10000000 — р
10111000 11010000 — и
11010000 10110010 — в
Старики помнят лайфхак, если писать SMS на латинице, то влезет в два раза больше текста. Всё это как раз из-за кодировки.
Так вот, чтобы у операционной системы не было проблем с пониманием как прочитать файл. Помимо самих данных, в разные форматы стали добавлять данные о данных. То есть метаданные, которые хранятся прямо внутри файла и содержат дополнительную информацию о том, как этот файл прочитать.
Это простой аудиоформат, который содержит несжатый. Всё CD диски записаны в формате WAV.
Первые 44 байта классического WAV-файла содержат заголовок, к котором указывается полезнейшая информация:
- количество аудио каналов;
- частота дискретизации;
- битовая глубина;
- и многое другое.
Открытые и проприетарные форматы
Структура WAV хорошо известна и наверное такой файл сможет прочитать практически любой плеер. Всё потому, что WAV-файл — это пример открытого формата.
Есть и другие открытые форматы, которыми вы ежедневно пользуетесь. Например:
- язык разметки web-страниц — HTML;
- картинки — PNG;
- аудио в формате — OGG;
- архива — ZIP;
- видео — MKV;
- электронной книги — EPUB;
- и другие.
Проприетарные форматы всем прекрасны, но в отдельных случаях они препятствуют конкуренции в сфере программного обеспечения, так как приводят к замыканию на поставщике. Есть даже такой термин Vendor lock-in.
Старый офис
Например, раньше такая ситуация была с форматами Microsoft Office: DOC, XLS, PPT.
Мало того, что это были проприетарные форматы компании Microsoft и работали только с фирменным ПО. Так еще Microsoft постоянно меняли свою структуру файлов от одной версии MS Office к другой. И в результате? при выходе новой версии офисного пакета? файлы из старого редактора уже не читались новым, а наоборот — и подавно.
Такая ситуация не очень нравилась Европейскому Союзу. Поэтому, ЕС взъелся на тему ограничения конкуренции. В итоге, форматы файлов опубличили, и все научились хотя бы их читать, но для записи в старые форматы, по-прежнему, нужна лицензия Microsoft. И параллельно этому начали разрабатываться открытые форматы.
ODF и OOXML
1 мая 2006 года на свет появился формат формат ODF, что буквально расшифровывается как открытый формат документов для офисных приложений. Он был разработан консорциумом OASIS и Sun Microsystems.
- ODF — Open Document Format for Office Application.
- OASIS — Organization for the Advancement of Structured Information Standards.
Microsoft тоже не спал. Под давлением Европейского суда они объединились с рядом компаний в ассоциацию ECMA и разработали свой открытый формат Office Open XML, который появился на свет чуть позже в 2006 году.
OOXML стандартизирован European Computer Manufacturers Association. Standard ECMA-376
К привычным форматом конце добавилась буква X и мы получили: DOCX, XLSX, PPTX.
OOXML — Office Open XML (DOCX, XLSX, PPTX)
OOXML, в целом, очень похож на ODF. Он также основан на XML-разметке и также представляет из себя ZIP-архив. Поэтому вы также можете заглянуть внутрь офисных файлов при помощи любого архиватора. Можно даже вытащить картинки и даже подменить их, что бывает особенно удобно при работе с презентациями или когда вам присылают текстовый документ с картинками внутри файла.
Несмотря на кажущуюся простоту, формат реально сложный. Только основная документация — это 5 тысяч страниц. И это практически без картинок.
Тем не менее, кто-то всё таки смог прочитать всю эту документацию и поэтому на свет появились классные офисные пакеты, например МойОфис, которые умеют работать и ODF форматом, и с Office Open XML, и даже с устаревшими форматами типа DOC.
Но есть важная ремарка про старые форматы. Как правило, современный софт умеет их только читать, но не записывать, потому как это действие требует приобретение лицензии Microsoft. Впрочем, в наше время это действие, мягко говоря, бессмысленно.
Итого
Что мы в итоге узнали? Файлы бывают нескольких типов:
Самые базовые — бинарные. Такие форматы любят придумывать компании, чтобы никто не понял, как их программы хранят данные.
Более открытый вариант — xml-контейнеры. К счастью, большинство популярных офисных форматов сейчас такие. Если хотите работать со всеми этими файлами хоть дома, хоть на бегу, скачивайте программы МойОфис! На этом у нас сегодня всё.
DOC, XLS, PPT — давайте посмотрим, что лежит за пределами этих типов файлов Microsoft Office, которые мы использовали целую вечность.
Обращали ли вы внимание на некоторые незнакомые параметры формата файлов, которые появляются в вашем офисном пакете при попытке сохранить файл? Или вы получили файлы от кого-то в одном из этих форматов и нашли файлы «нечитаемыми»? Мы здесь, чтобы рассказать вам больше об этих странно выглядящих типах файлов
Примечание. Доступные вам параметры формата файла могут различаться в зависимости от того, офисный пакет вы используете. У офисных пакетов онлайн обычно меньше вариантов. Microsoft Office — оригинальная офисная программа — имеет их все.
Несколько полезных связанных с офисом терминов
Прежде чем исследовать различные форматы файлов, давайте кратко рассмотрим некоторые «Officespeak», которые пригодятся вам, когда вы работаете с программами Office. Обратите внимание, если вы еще не знакомы с этими условиями.
1. Устаревшие форматы файлов: они относятся к форматам файлов, которые больше не разрабатываются (но могут продолжать использоваться).
2. OOXML или OpenXML: OOXML расшифровывается как Office Open XML — формат файлов, представленный Microsoft в 2007 году. Не путайте его с Open Office XML, который был форматом файлов, разработанным как часть офисного пакета OpenOffice с открытым исходным кодом.
3. Рабочая книга. Рабочая книга — это просто файл Excel, который содержит одну или несколько рабочих таблиц или электронных таблиц.
4. Макрос. Макрос — это крошечная программа, которая может помочь вам автоматизировать повторяющиеся задачи в Excel. Когда вы записываете макрос, вы создаете последовательность инструкций, используя нажатия клавиш и действия мыши. Как только вы сохраните и запустите макрос, он выполняет эту последовательность, не запрашивая ваш ввод.
5. Надстройка: надстройка расширяет функциональные возможности вашей программы Office с некоторыми полезными дополнительными функциями. Например, эта надстройка Office 2003 / XP [больше не доступна] позволяет удалять скрытые данные (например, комментарии) из документов.
DOCX, XLSX, PPTX
Этот набор расширений файлов, который используется в OpenXML, стал стандартным в Microsoft Office 2007, заменив форматы DOC, XLS и PPT в Microsoft Word, Microsoft Excel и Microsoft PowerPoint соответственно.
Если вы всегда использовали DOC, XLS и PPT, этот новый набор может потребовать некоторого привыкания.
Вы заметите, что файлы в новых форматах имеют меньший размер, чем соответствующие файлы в старых форматах. Это потому, что они идут с механизмом сжатия без потерь. Чтобы поделиться этими файлами с людьми, которые используют более старые версии Microsoft Office, вы можете сохранить файл OpenXML в соответствующей устаревшей версии через « Файл»> «Сохранить как» .
Если вы используете версию Microsoft Office до 2007 года, , вы можете легко просматривать и редактировать файлы OpenXML, установив этот пакет обеспечения совместимости Microsoft Office [более не доступен]. Или вы можете позволить Saikat убедить вас перейти на Microsoft Office 2016 .
Некоторые другие офисные пакеты, такие как Google Docs, также поддерживают форматы OpenXML, поэтому у вас не должно возникнуть проблем с импортом, скажем, файла XLSX в Google Docs.
Кстати, эти форматы OpenXML — это, по сути, сжатые файлы, которые содержат отдельные папки для мультимедиа, файлов XML и т. Д. Это означает, что вы можете, например, просмотреть содержимое файла DOCX, переименовав расширение из DOCX в ZIP. Это очень удобно, когда вам нужно получить доступ к изображению, встроенному в файл DOCX, без необходимости читать файл в этом формате.
ODT, ODS, ODP
Это трио типов файлов находится в формате Open Document Format (ODF), который является стандартизированным форматом файлов, который не имеет ограничений на использование любого рода. Это означает, что любая компания может реализовать этот формат как часть своего программного обеспечения. Неудивительно, что ODF используется в различных офисных программах, как проприетарных, так и с открытым исходным кодом, включая OpenOffice , Google Docs , LibreOffice , Zoho Office Suite и AbiWord .
Если вы используете Office 2010 и более поздние версии, вы сможете с легкостью открывать файлы ODT (для обработки текстов), ODS (для электронных таблиц) и ODP (для презентаций), поскольку эти версии имеют встроенную поддержку файлов ODF. Для предыдущих версий Microsoft Office эта бесплатная надстройка OpenXML / ODF Translator, доступная на SourceForge, очень удобна.
Конечно, если вы хотите прочитать одноразовый файл ODF, вы также можете загрузить его в Документы Google и просмотреть его там. Вы даже можете загрузить файлы Google Docs в формате ODF.
Microsoft Office не поддерживает некоторые из своих обычных функций (или поддерживает их только частично) в файлах ODF.
XLSB, что означает двоичную рабочую книгу Excel, ведет себя более или менее подобно формату XLSX, за исключением того, что сохраняет данные в двоичном формате. Его главное преимущество перед XLSX заключается в том, что первый значительно уменьшает размер файла и, следовательно, ускоряет операции чтения-записи.
Если вы хотите сжать электронную таблицу, чтобы сэкономить место на диске и упростить передачу файлов, XLSB является хорошим решением. Возможно, вы захотите сохранить тестовый файл как XLSB, прежде чем использовать этот формат на регулярной основе.
Если вы получаете файл XLSB, не открывайте его, если вы не доверяете отправителю , поскольку файлы XLSB поддерживают макросы и могут содержать вредоносный код. Конечно, настройка безопасности по умолчанию отключенных макросов в Microsoft предназначена для вашей безопасности, но зачем вызывать проблемы?
PPS, PPSX
PPS или PowerPoint Slide — это режим презентации для файлов PPT (шаблон PowerPoint). Это означает, что когда вы нажимаете на файл PPS, он открывается в виде слайд-шоу напрямую — это очень удобно, когда вы хотите запустить презентацию, не перебирая, чтобы перейти к опции слайд-шоу.
PPS недоступен для редактирования, т.е. отображается только в том случае, если вы открываете его, дважды щелкнув файл. К счастью, преобразовать PPS в PPT (редактируемый) и обратно так же просто, как переименовать расширение файла .pps в .ppt или наоборот, как требуется.
Конечно, вам не нужно вышеуказанное преобразование для редактирования PPS. Вы можете перетащить файл PPS из проводника Windows в пустое окно PowerPoint. Кроме того, вы можете использовать опцию Файл> Открыть в PowerPoint, чтобы открыть редактируемую версию PPS. Это относится и к редактированию файлов PPSX.
Для комбинации PPTX-PPSX преобразования немного сложнее. Вам придется открыть Microsoft PowerPoint, использовать опцию « Файл»> «Открыть», чтобы открыть файл PPSX, а затем использовать диалоговое окно « Сохранить как », чтобы сохранить файл презентации в формате PPTX.
Говоря о преобразованиях файлов, добавьте в закладки наше руководство по конвертации файлов Microsoft Office руководство по конвертеру файлов Microsoft Office руководство по конвертации для подробной информации о конвертации между различными форматами файлов.
Делать форматы файлов веди себя
Если вам нужен быстрый и надежный способ просмотра онлайн-файлов в различных форматах, попробуйте такое решение, как rollMyFile или Docs Online Viewer . Если вы ищете программное обеспечение для преобразования, мы рекомендуем Zamzar . Это один из наших любимых бесплатных инструментов
Другие продукты Microsoft Office, такие как Access, имеют свой собственный протокол для сохранения файлов, но на данный момент мы решили сосредоточиться на наиболее популярном трио Microsoft Office: Word, Excel и PowerPoint.
Когда дело доходит до офисных пакетов, ясно одно: основные устаревшие форматы в Microsoft Office не будут проходить спокойно. Даже в 2016 году DOC, XLS и PPT являются наиболее надежными и совместимыми форматами для сохранения файлов, особенно если вы планируете делиться ими с другими.
В каких форматах вы сохраняете файлы Microsoft Office? Часто ли вы сталкиваетесь с проблемами совместимости, когда делитесь ими с другими? Как вы их решаете? Мы хотели бы знать!
Читайте также: