Алгоритм кодирования в архиваторе 7 zip
7-Zip - отличный бесплатный архиватор. Основная платформа Window 32 и 64 бит, поддерживает работу в командной строке. Есть портированные версии для других систем.
Главное удобство - встраивает свои контекстные меню в ОС. Дополнительное удобство — софтина бесплатная, её можно использовать дома и в коммерческих организациях.
Характеристики
- Поддерживаемые алгоритмы:
- LZMA
- LZMA2
- PPMd
- Bzip2
- Deflate
- Deflate64
- Поддерживаемые форматы:
- упаковка и распаковка:
- 7z
- BZIP2 (BZ2, TB2, TBZ, TBZ2)
- GZIP (GZ, TGZ)
- TAR
- ZIP (JAR)
- XZ
- WIM;
- только распаковка:
- ARJ
- CAB
- CHM
- CPIO
- CramFS
- DEB
- DMG
- FAT
- HFS
- MBR
- ISO
- LZH (LHA)
- LZMA
- MSI
- NSIS
- NTFS
- RAR
- RPM
- SquashFS
- UDF
- VHD
- XAR
- Z (TAR)
- Очень высокая степень сжатия в формате 7z благодаря использованию усовершенствованного алгоритма Лемпела-Зива.
- Для форматов ZIP и GZIP степень сжатия на 2-10 % выше, чем у PKZIP и WinZip.
- Возможность создания самораспаковывающихся архивов для формата 7z.
- Возможность создания многотомных (порезанных на части) архивов (за исключением самораспаковывающихся) для формата 7z.
- Возможность шифрования алгоритмом AES-256 для форматов 7z и ZIP.
- Поддерживает аппаратное ускорение, доступное на процессорах, реализующих набор инструкций AES-NI.
- Интеграция в оболочку Microsoft Windows и Windows NT.
- Плагины для программ FAR Manager, Total Commander и Unreal Commander.
- Встроенная утилита для тестирования производительности.
- Многоязычный графический интерфейс (только для Windows) с функциями двухоконного файлового менеджера.
- Мощная версия для командной строки.
- Специальная версия для 64-разрядных операционных систем Windows.
- Поддержка кодировки Юникод для имён файлов.
Если вам понравилась статья, то ставьте 👍🏻 каналу. Пишите комментарии, задавайте вопросы, подписывайтесь.
Здравствуй Хабр!
Данная статья посвящена, как правильно и максимально сжимать файлы в ZIP-архивы. Данную статью я решил написать по той причине, что очень много приложений свои форматы упаковывают именно в ZIP. В данной статье разберем методы сжатия ZIP, приложения для сжатия в ZIP, и как можно улучшить сжатие.
Метод сжатия в ZIP
Метод сжатия Deflate
На сегодняшний день есть несколько библиотек, основанных на методе сжатия Deflate:
Библиотека Deflate | Скорость работы | Степень сжатия | Приложения |
Zlib | Высокая | Низкая | |
7-zip | Средняя | Средняя | 7-zip, advzip |
Kzip | Низкая | Высокая | kzip |
Архиваторы ZIP
В данном разделе, мы будем рассматривать только те приложения, которые бесплатные для использования.
Алгоритм 7-zip
Здесь мы поговорим о двух программах, где реализован алгоритм 7-zip: 7-zip и advzip.
При создании zip-архива в помощью 7-zip, я использую следующие параметры
Особенность работы advzip в том, что он уже работает с готовыми архивами zip, т.е. вы просто указываете путь к архиву, и он сам пытается его сжать. Бывает удобно когда у вас уже есть готовый архив, и вам не надо распаковывать и архивировать еще раз.
Алгоритм kzip
Алгоритм kzip был реализован в приложении kzip, приложение работает крайне медленно, но практически всегда дает лучший результат. У него есть настройки (/s, /n, /b), которые могут улучшить/ухудшить степень сжатия ZIP.
Удобство использования архива известно всем! Это, в первую очередь, возможность уменьшить занимаемое файлами место на компьютере за счет их сжатия. Да и пересылать по почте или выкладывать в интернете набор файлов бывает удобнее в виде архива, чем по одному.
Но, наверное, не все знают, что помимо сжатия файлов архиваторы дают возможность ограничивать доступ к содержимому архива посредством ввода пароля. Таким образом, кроме экономии места на диске, пользователь получает еще и защищенные с помощью шифрования файлы. Как можно защитить свой архив, рассмотрим на примере использования программ WinRAR и 7-Zip.
Характеристики
- Поддерживаемые алгоритмы:
- LZMA
- LZMA2
- PPMd
- Bzip2
- Deflate
- Deflate64
- Поддерживаемые форматы:
- упаковка и распаковка:
- 7z
- BZIP2 (BZ2, TB2, TBZ, TBZ2)
- GZIP (GZ, TGZ)
- TAR
- ZIP (JAR)
- XZ
- WIM;
- только распаковка:
- ARJ
- CAB
- CHM
- CPIO
- CramFS
- DEB
- DMG
- FAT
- HFS
- MBR
- ISO
- LZH (LHA)
- LZMA
- MSI
- NSIS
- NTFS
- RAR
- RPM
- SquashFS
- UDF
- VHD
- XAR
- Z (TAR)
- Очень высокая степень сжатия в формате 7z благодаря использованию усовершенствованного алгоритма Лемпела-Зива.
- Для форматов ZIP и GZIP степень сжатия на 2-10 % выше, чем у PKZIP и WinZip.
- Возможность создания самораспаковывающихся архивов для формата 7z.
- Возможность создания многотомных (порезанных на части) архивов (за исключением самораспаковывающихся) для формата 7z.
- Возможность шифрования алгоритмом AES-256 для форматов 7z и ZIP.
- Поддерживает аппаратное ускорение, доступное на процессорах, реализующих набор инструкций AES-NI.
- Интеграция в оболочку Microsoft Windows и Windows NT.
- Плагины для программ FAR Manager, Total Commander и Unreal Commander.
- Встроенная утилита для тестирования производительности.
- Многоязычный графический интерфейс (только для Windows) с функциями двухоконного файлового менеджера.
- Мощная версия для командной строки.
- Специальная версия для 64-разрядных операционных систем Windows.
- Поддержка кодировки Юникод для имён файлов.
Если вам понравилась статья, то ставьте 👍🏻 каналу. Пишите комментарии, задавайте вопросы, подписывайтесь.
Здравствуй Хабр!
Данная статья посвящена, как правильно и максимально сжимать файлы в ZIP-архивы. Данную статью я решил написать по той причине, что очень много приложений свои форматы упаковывают именно в ZIP. В данной статье разберем методы сжатия ZIP, приложения для сжатия в ZIP, и как можно улучшить сжатие.
Метод сжатия в ZIP
Метод сжатия Deflate
На сегодняшний день есть несколько библиотек, основанных на методе сжатия Deflate:
Библиотека Deflate | Скорость работы | Степень сжатия | Приложения |
Zlib | Высокая | Низкая | |
7-zip | Средняя | Средняя | 7-zip, advzip |
Kzip | Низкая | Высокая | kzip |
Архиваторы ZIP
В данном разделе, мы будем рассматривать только те приложения, которые бесплатные для использования.
Алгоритм 7-zip
Здесь мы поговорим о двух программах, где реализован алгоритм 7-zip: 7-zip и advzip.
При создании zip-архива в помощью 7-zip, я использую следующие параметры
Особенность работы advzip в том, что он уже работает с готовыми архивами zip, т.е. вы просто указываете путь к архиву, и он сам пытается его сжать. Бывает удобно когда у вас уже есть готовый архив, и вам не надо распаковывать и архивировать еще раз.
Алгоритм kzip
Алгоритм kzip был реализован в приложении kzip, приложение работает крайне медленно, но практически всегда дает лучший результат. У него есть настройки (/s, /n, /b), которые могут улучшить/ухудшить степень сжатия ZIP.
Удобство использования архива известно всем! Это, в первую очередь, возможность уменьшить занимаемое файлами место на компьютере за счет их сжатия. Да и пересылать по почте или выкладывать в интернете набор файлов бывает удобнее в виде архива, чем по одному.
Но, наверное, не все знают, что помимо сжатия файлов архиваторы дают возможность ограничивать доступ к содержимому архива посредством ввода пароля. Таким образом, кроме экономии места на диске, пользователь получает еще и защищенные с помощью шифрования файлы. Как можно защитить свой архив, рассмотрим на примере использования программ WinRAR и 7-Zip.
WinRAR
WinRAR – наверное самый популярный архиватор (программа платная). Может архивировать в формате ZIP и в собственном RAR, а начиная с версии 5, — RAR5, позволяющем сжимать файлы еще лучше, чем RAR. Пароль можно ставить как на ZIP-, так и на RAR-архивы, но есть одно но: в формате ZIP файлы будут зашифрованы, но их названия останутся видны в архиве и без ввода пароля. Формат RAR "умеет" скрывать имена файлов. Итак, выделяем в проводнике Windows файлы, которые хотим защитить, и нажимаем на них правой кнопкой мышки. Выбираем в контекстном меню "Добавить в архив…".
В диалоге создания архива выбираем формат "RAR", метод сжатия – "Без сжатия" (если нужна только защита, можно не тратить время на архивирование) и нажимаем на кнопку "Установить пароль…".
Придумываем и дважды вводим пароль, а также обязательно ставим галочку "Шифровать имена файлов" (преимущество над ZIP). Нажимаем везде "ОК", начнется шифрование файлов.
По завершении всех операций, файлы будут защищены внутри архива. При попытке открыть архив пользователь получит запрос на ввод пароля.
Подобрать пароль практически невозможно, так как WinRAR, начиная с 5-й версии, использует AES шифрование с длиной ключа 256 бит. Более старые версии используют шифрование AES-128. Помню, где-то слышал, что для подбора пароля к архиву, зашифрованному методом AES с длиной ключа в 128 бит, на самом современном компьютере понадобится больше 15 лет. Как видите, вам нечего опасаться!
Если пароль введен правильно, WinRAR покажет вам содержимое архива.
Звездочки рядом с файлами указывают на то, что они зашифрованы, а красный ключ в левом нижнем углу указывает на то, что содержимое архива (имена файлов, комментарии и др.) также недоступно без ввода пароля.
7-Zip – отличный архиватор, бесплатная альтернатива WinRAR’у. Поддерживает очень много форматов:
- Архивирование / разархивирование: 7z, ZIP, GZIP, BZIP2 и TAR;
- Только разархивирование: ARJ, CAB, CHM, CPIO, DEB, DMG, HFS, ISO, LZH, LZMA, MSI, NSIS, RAR, RPM, UDF, WIM, XAR и Z.
Имеет свой собственный одноименный формат сжатия – "7z". Этот формат так же, как и RAR поддерживает защиту имен файлов. Для шифрования кликаем по файлах в проводнике Windows и выбираем опцию контекстного меню "7-Zip > Добавить к архиву…".
Выбираем в выпадающем списке "Формат архива" значение "7z", уровень сжатия – "Без сжатия" (по той же причине, что и в WinRAR), в группе "Шифрование" придумываем и задаем пароль, а также, как и в WinRAR, ставим галочку "Шифровать имена файлов". Как видите, метод шифрования такой же, как и в WinRAR – "AES-256".
Нажимаем "ОК", будет создан зашифрованный архив. При попытке открыть архив будет запрошен пароль.
Совет по выбору пароля: так как программы по подбору пароля используют словари, пароль должен быть необычным словом. Желательно, чтобы он содержал больше 8 символов и состоял как из маленьких так и из больших букв, а также цифр.
Будьте осторожными! Если забыли пароль, никто и ничто не поможет вам восстановить ваши данные!
Для сжатия данных придумано множество техник. Большинство из них комбинируют несколько принципов сжатия для создания полноценного алгоритма. Даже хорошие принципы, будучи скомбинированы вместе, дают лучший результат. Большинство техник используют принцип энтропийного кодирования, но часто встречаются и другие – кодирование длин серий (Run-Length Encoding) и преобразование Барроуза-Уилера (Burrows-Wheeler Transform).
Кодирование длин серий (RLE)
Это очень простой алгоритм. Он заменяет серии из двух или более одинаковых символов числом, обозначающим длину серии, за которым идёт сам символ. Полезен для сильно избыточных данных, типа картинок с большим количеством одинаковых пикселей, или в комбинации с алгоритмами типа BWT.
На входе: AAABBCCCCDEEEEEEAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
На выходе: 3A2B4C1D6E38A
Преобразование Барроуза-Уилера (BWT)
Алгоритм, придуманный в 1994 году, обратимо трансформирует блок данных так, чтобы максимизировать повторения одинаковых символов. Сам он не сжимает данные, но подготавливает их для более эффективного сжатия через RLE или другой алгоритм сжатия.
— создаём массив строк
— создаём все возможные преобразования входящей строки данных, каждое из которых сохраняем в массиве
— сортируем массив
— возвращаем последний столбец
Алгоритм лучше всего работает с большими данными со множеством повторяющихся символов. Пример работы на подходящем массиве данных (& обозначает конец файла)
Благодаря чередованию одинаковых символов, вывод алгоритма оптимален для сжатия RLE, которое даёт «3H&3A». Но на реальных данных, к сожалению, настолько оптимальных результатов обычно не получается.
Энтропийное кодирование
Алгоритм Шеннона — Фано
Одна из самых ранних техник (1949 год). Создаёт двоичное дерево для представления вероятностей появления каждого из символов. Затем они сортируются так, чтобы самые часто встречающиеся находились наверху дерева, и наоборот.
Код для символа получается поиском по дереву, и добавлением 0 или 1, в зависимости от того, идём мы налево или направо. К примеру, путь к “А” – две ветки налево и одна направо, его код будет «110». Алгоритм не всегда даёт оптимальные коды из-за методики построения дерева снизу вверх. Поэтому сейчас используется алгоритм Хаффмана, подходящий для любых входных данных.
1. парсим ввод, считаем количество вхождений всех символов
2. определяем вероятность появления каждого из них
3. сортируем символы по вероятности появления
4. делим список пополам так, чтобы сумма вероятностей в левой ветке примерно равнялось сумме в правой
5. добавляем 0 или 1 для левых и правых узлов соответственно
6. повторяем шаги 4 и 5 для правых и левых поддеревьев до тех пор, пока каждый узел не будет «листом»
Кодирование Хаффмана
Это вариант энтропийного кодирования, работающий схожим с предыдущим алгоритмом методом, но двоичное дерево строится сверху вниз, для достижения оптимального результата.
1. Парсим ввод, считаем количество повторений символов
2. Определяем вероятность появления каждого символа
3. Сортируем список по вероятностям (самые частые вначале)
4. Создаём листы для каждого символа, и добавляем их в очередь
5. пока очередь состоит более, чем из одного символа:
— берём из очереди два листа с наименьшими вероятностями
— к коду первой прибавляем 0, к коду второй – 1
— создаём узел с вероятностью, равной сумме вероятностей двух нод
— первую ноду вешаем на левую сторону, вторую – на правую
— добавляем полученный узел в очередь
6. Последняя нода в очереди будет корнем двоичного дерева.
Арифметическое кодирование
Был разработан в 1979 году в IBM для использования в их мейнфреймах. Достигает очень хорошей степени сжатия, обычно большей, чем у Хаффмана, однако он сравнительно сложен по сравнению с предыдущими.
Вместо разбиения вероятностей по дереву, алгоритм преобразует входные данные в одно рациональное число от 0 до 1.
В общем алгоритм таков:
1. считаем количество уникальных символов на входе. Это количество будет представлять основание для счисления b (b=2 – двоичное, и т.п.).
2. подсчитываем общую длину входа
3. назначаем «коды» от 0 до b каждому из уникальных символов в порядке их появления
4. заменяем символы кодами, получая число в системе счисления с основанием b
5. преобразуем полученное число в двоичную систему
Пример. На входе строка «ABCDAABD»
1. 4 уникальных символа, основание = 4, длина данных = 8
2. назначаем коды: A=0, B=1, C=2, D=3
3. получаем число “0.01230013”
4. преобразуем «0.01231123» из четверичной в двоичную систему: 0.01101100000111
Если мы положим, что имеем дело с восьмибитными символами, то на входе у нас 8х8=64 бита, а на выходе – 15, то есть степень сжатия 24%.
Классификация алгоритмов
Алгоритмы, применяющие метод «скользящего окна»
Всё началось с алгоритма LZ77 (1977 год), который представил новую концепцию «скользящего окна», позволившую значительно улучшить сжатие данных. LZ77 использует словарь, содержащий тройки данных – смещение, длина серии и символ расхождения. Смещение – как далеко от начала файла находится фраза. Длина серии – сколько символов, считая от смещения, принадлежат фразе. Символ расхождения показывает, что найдена новая фраза, похожая на ту, что обозначена смещением и длиной, за исключением этого символа. Словарь меняется по мере парсинга файла при помощи скользящего окна. К примеру, размер окна может быть 64Мб, тогда словарь будет содержать данные из последних 64 мегабайт входных данных.
К примеру, для входных данных «abbadabba» результат будет «abb(0,1,'d')(0,3,'a')»
В данном случае результат получился длиннее входа, но обычно он конечно получается короче.
Модификация алгоритма LZ77, предложенная Майклом Роуде в 1981 году. В отличие от LZ77 работает за линейное время, однако требует большего объёма памяти. Обычно проигрывает LZ78 в сжатии.
DEFLATE
Придуман Филом Кацем в 1993 году, и используется в большинстве современных архиваторов. Является комбинацией LZ77 или LZSS с кодированием Хаффмана.
DEFLATE64
Патентованная вариация DEFLATE с увеличением словаря до 64 Кб. Сжимает лучше и быстрее, но не используется повсеместно, т.к. не является открытым.
Алгоритм Лемпеля-Зива-Сторера-Цимански был представлен в 1982 году. Улучшенная версия LZ77, которая просчитывает, не увеличит ли размер результата замена исходных данных кодированными.
До сих пор используется в популярных архиваторах, например RAR. Иногда – для сжатия данных при передаче по сети.
Был разработан в 1987 году, расшифровывается как «Лемпель-Зив-Хаффман». Вариация LZSS, использует кодирование Хаффмана для сжатия указателей. Сжимает чуть лучше, но ощутимо медленнее.
Разработан в 1987 году Тимоти Беллом, как вариант LZSS. Как и LZH, LZB уменьшает результирующий размер файлов, эффективно кодируя указатели. Достигается это путём постепенного увеличения размера указателей при увеличении размера скользящего окна. Сжатие получается выше, чем у LZSS и LZH, но скорость значительно меньше.
Расшифровывается как «Лемпель-Зив с уменьшенным смещением», улучшает алгоритм LZ77, уменьшая смещение, чтобы уменьшить количество данных, необходимого для кодирования пары смещение-длина. Впервые был представлен в 1991 году в алгоритме LZRW4 от Росса Вильямса. Другие вариации — BALZ, QUAD, и RZM. Хорошо оптимизированный ROLZ достигает почти таких же степеней сжатия, как и LZMA – но популярности он не снискал.
«Лемпель-Зив с предсказанием». Вариация ROLZ со смещением = 1. Есть несколько вариантов, одни направлены на скорость сжатия, другие – на степень. В алгоритме LZW4 используется арифметическое кодирование для наилучшего сжатия.
LZRW1
Алгоритм от Рона Вильямса 1991 года, где он впервые ввёл концепцию уменьшения смещения. Достигает высоких степеней сжатия при приличной скорости. Потом Вильямс сделал вариации LZRW1-A, 2, 3, 3-A, и 4
Вариант от Джеффа Бонвика (отсюда “JB”) от 1998 года, для использования в файловой системе Solaris Z File System (ZFS). Вариант алгоритма LZRW1, переработанный для высоких скоростей, как этого требует использование в файловой системе и скорость дисковых операций.
Lempel-Ziv-Stac, разработан в Stac Electronics в 1994 для использования в программах сжатия дисков. Модификация LZ77, различающая символы и пары длина-смещение, в дополнение к удалению следующего встреченного символа. Очень похож на LZSS.
Был разработан в 1995 году Дж. Форбсом и Т.Потаненом для Амиги. Форбс продал алгоритм компании Microsoft в 1996, и устроился туда работать над ним, в результате чего улучшенная его версия стала использоваться в файлах CAB, CHM, WIM и Xbox Live Avatars.
Разработан в 1996 Маркусом Оберхьюмером с прицелом на скорость сжатия и распаковки. Позволяет настраивать уровни компрессии, потребляет очень мало памяти. Похож на LZSS.
“Lempel-Ziv Markov chain Algorithm”, появился в 1998 году в архиваторе 7-zip, который демонстрировал сжатие лучше практически всех архиваторов. Алгоритм использует цепочку методов сжатия для достижения наилучшего результата. Вначале слегка изменённый LZ77, работающий на уровне битов (в отличие от обычного метода работы с байтами), парсит данные. Его вывод подвергается арифметическому кодированию. Затем могут быть применены другие алгоритмы. В результате получается наилучшая компрессия среди всех архиваторов.
LZMA2
Следующая версия LZMA, от 2009 года, использует многопоточность и чуть эффективнее хранит несжимаемые данные.
Статистический алгоритм Лемпеля-Зива
Концепция, созданная в 2001 году, предлагает проводить статистический анализ данных в комбинации с LZ77 для оптимизирования кодов, хранимых в словаре.
Алгоритмы с использованием словаря
Алгоритм 1978 года, авторы – Лемпель и Зив. Вместо использования скользящего окна для создания словаря, словарь составляется при парсинге данных из файла. Объём словаря обычно измеряется в нескольких мегабайтах. Отличия в вариантах этого алгоритма строятся на том, что делать, когда словарь заполнен.
При парсинге файла алгоритм добавляет каждый новый символ или их сочетание в словарь. Для каждого символа на входе создаётся словарная форма (индекс + неизвестный символ) на выходе. Если первый символ строки уже есть в словаре, ищем в словаре подстроки данной строки, и самая длинная используется для построения индекса. Данные, на которые указывает индекс, добавляются к последнему символу неизвестной подстроки. Если текущий символ не найден, индекс устанавливается в 0, показывая, что это вхождение одиночного символа в словарь. Записи формируют связанный список.
An input such as «abbadabbaabaad» would generate the output "(0,a)(0,b)(2,a)(0,d)(1,b)(3,a)(6,d)". You can see how this was derived in the following example:
Лемпель-Зив-Велч, 1984 год. Самый популярный вариант LZ78, несмотря на запатентованность. Алгоритм избавляется от лишних символов на выходе и данные состоят только из указателей. Также он сохраняет все символы словаря перед сжатием и использует другие трюки, позволяющие улучшать сжатие – к примеру, кодирование последнего символа предыдущей фразы в качестве первого символа следующей. Используется в GIF, ранних версиях ZIP и других специальных приложениях. Очень быстр, но проигрывает в сжатии более новым алгоритмам.
Компрессия Лемпеля-Зива. Модификация LZW, использующаяся в утилитах UNIX. Следит за степенью сжатия, и как только она превышает заданный предел – словарь переделывается заново.
Лемпель-Зив-Тищер. Когда словарь заполняется, удаляет фразы, использовавшиеся реже всех, и заменяет их новыми. Не получил популярности.
Виктор Миллер и Марк Вегман, 1984 год. Действует, как LZT, но соединяет в словаре не похожие данные, а две последние фразы. В результате словарь растёт быстрее, и приходится чаще избавляться от редко используемых фраз. Также непопулярен.
Джеймс Сторер, 1988 год. Модификация LZMW. “AP” означает «все префиксы» — вместо того, чтобы сохранять при каждой итерации одну фразу, в словаре сохраняется каждое изменение. К примеру, если последняя фраза была “last”, а текущая – «next”, тогда в словаре сохраняются „lastn“, „lastne“, „lastnex“, „lastnext“.
Вариант LZW от 2006 года, работающий с сочетаниями символов, а не с отдельными символами. Успешно работает с наборами данных, в которых есть часто повторяющиеся сочетания символов, например XML. Обычно используется с препроцессором, разбивающим данные на сочетания.
1985 год, Матти Якобсон. Один из немногих вариантов LZ78, отличающихся от LZW. Сохраняет каждую уникальную строку в уже обработанных входных данных, и всем им назначает уникальные коды. При заполнении словаря из него удаляются единичные вхождения.
Алгоритмы, не использующие словарь
Предсказание по частичному совпадению – использует уже обработанные данные, чтобы предсказать, какой символ будет в последовательности следующим, таким образом уменьшая энтропию выходных данных. Обычно комбинируется с арифметическим кодировщиком или адаптивным кодированием Хаффмана. Вариация PPMd используется в RAR и 7-zip
bzip2
Реализация BWT с открытым исходным кодом. При простоте реализации достигает хорошего компромисса между скоростью и степенью сжатия, в связи с чем популярен в UNIX. Сначала данные обрабатываются при помощи RLE, затем BWT, потом данные особым образом сортируются, чтобы получить длинные последовательности одинаковых символов, после чего к ним снова применяется RLE. И, наконец, кодировщик Хаффмана завершает процесс.
Мэтт Махоуни, 2002 год. Улучшение PPM(d). Улучшает их при помощи интересной техники под названием „перемешивание контекста“ (context mixing). В этой технике несколько предсказательных алгоритмов комбинируются, чтобы улучшить предсказание следующего символа. Сейчас это один из самых многообещающих алгоритмов. С его первой реализации было создано уже два десятка вариантов, некоторые из которых ставят рекорды сжатия. Минус – маленькая скорость из-за необходимости использования нескольких моделей. Вариант под названием PAQ80 поддерживает 64 бита и показывает серьёзное улучшение в скорости работы (используется, в частности, в программе PeaZip для Windows).
LZMA (Lempel-Ziv-Markov chain Algorithm) — алгоритма сжатия без потерь. Он разрабатывался с 1996-1998 гг и впервые был использован в формате 7z архиватора 7-Zip [1] . Алгоритм использует словарное сжатие , в чем-то схожее с алгоритмом LZ77. На сегодняшний день алгоритм LZMA используется в основном в LZMA SDK [2] архиватора 7-Zip.
Содержание
LZMA использует алгоритм словарного сжатия, выходные данные которого закодированы интервальным кодированием, использующим сложную модель вычисления вероятности появления каждого бита. Система сжатия находит соответствия, используя словарную структуру данных, и создает поток символов и ссылок фраз, уже находящихся в словаре, который закодирован [math]1[/math] битом интервальным кодировщиком.
Главной инновацией LZMA было то, что вместо общей байтовой модели, модель LZMA использовала зависящие от контекста битовые поля в каждом представлении букв или фраз. Эта модель почти также проста как битовая, но дает лучший коэффициент сжатия, потому что избегает смешивания несвязных битов вместе в том же самом контексте.
По сравнению с алгоритмом LZ77 алгоритм LZMA имеет следующие преимущества: более высокий коэффициент сжатия, изменяемый размер словаря, небольшие требования по памяти для «распаковки» данных.
Алгоритм LZMA не на всех типах входных данных работает одинаково эффективно.
В дополнении к алгоритмам, используемым в LZ77, LZMA использует Дельта-фильтр и интервальное кодирование.
Поступив на вход, данные пропускаются через дельта фильтр, где они преобразуются, для дальнейшего кодирования. После полученная последовательность подвергается словарному сжатию, алгоритм которого идентичен, алгоритму используемому в LZ77. Пропустив данные через алгоритм «скользящего» окна, получаем код, который для достижения лучшего сжатия подвергнем интервальному кодированию. На выходе получаем интервал целых чисел который и будет отвечать исходной последовательности.
Дельта фильтр перестраивает входные данные для эффективного сжатия скользящим окном. Первый байт на выходе совпадает с первым байтом на входе, последующие же байты представлены как разность между текущим и предыдущим байтом. Для постоянно меняющихся данных, дельта-кодирование делает работу скользящего окна более эффективной.
- Функция принимает массив и длину массива как аргументы, если длина не была передана, то массив не обрабатывается.
- Инициализируем переменные [math]tmp[/math] , для сохранения последнего элемента и [math]last[/math] для хранения предыдущего числа.Инициализируем цикл.
- В цикле: 3.1 Сохраняем элемент с индексом [math]i[/math] . 3.2 Вычисляем разницу между элементом под номером [math]i[/math] и [math]i-1[/math] и перезаписываем ее в элемент массива с индексом [math]i[/math] .
- Инициализируем переменную для хранения последнего символа.
- Инициализируем цикл.
- В цикле: 3.1 Добавляем к этому элементу значение предыдущего элемента. 3.2 Сохраняем значение текущего элемента.
В декодере должны быть такое же распределение вероятностей как и при кодировании.
Закодируем строку [math]abehhilopsu[/math] . Для начала пропустим ее через дельта фильтр. Тогда исходная строка [math]abehhilopsu[/math] примет вид:
[math]a[/math] [math]1[/math] [math]3[/math] [math]3[/math] [math]0[/math] [math]1[/math] [math]3[/math] [math]3[/math] [math]1[/math] [math]3[/math] [math]2[/math] .
Как мы видим, теперь в нашей строке вместо [math]10[/math] различных символов [math]5[/math] различных символа. Далее применим к получившейся строке метод «скользящего» окна:
Для нашей строки получаем диапазон [math][0; 10^9][/math] и распределение вероятностей: [math]\[/math]
Читайте также: