Где хранятся метаданные файла

Где Mac OS X хранит комментарии Spotlight, связанные с файлом? Хранится ли он как метаданные файла HFS+, или информация хранится в ОС где-то еще?

4 ответа 4

Теперь этот диск разделен. Я объяснил, почему разбиение является хорошей идеей в этом ответе:

Вы можете иметь две ОС на одном жестком диске и не мешать друг другу. Каждый из них будет относиться к своему разделу как к логическому диску и не будет связываться с другими, если вы не скажете это.
Вы можете логически разделить ваши данные. Если по какой-либо причине один раздел будет поврежден, другие разделы, скорее всего, останутся нетронутыми.
Использование разделов лучше, чем использование нескольких жестких дисков меньшего размера, потому что ваша система тише, потребляет меньше энергии, и вы можете изменять размер, удалять, перемещать их и т.д.
Вы можете использовать некоторые части жесткого диска для некоторых специальных целей.

Теперь у каждого раздела есть своя файловая система. Современные версии Windows используют NTFS, но FAT, FAT32 и exFAT поддерживаются для внешних носителей или устаревших разделов. При повседневном использовании Linux обычно используются файловые системы ext, ext4 - самая последняя.

Файловая система определяет способ физического размещения файлов на диске. Вы можете думать об этом так: если бы у вас была книга на 10000 страниц без каких-либо глав, номеров страниц или разрывов строк, ее было бы очень трудно использовать. Конечно, номера страниц и названия глав занимают немного места на странице, но они делают использование книги намного проще и быстрее. Если вы хотите перейти к главе, скажем, 42, вы просто посмотрите ее в оглавлении. Затем вы пролистываете книгу, пока не найдете нужную главу. Ваши файлы - это главы, а ваша файловая система - это книга. Метаданные файловой системы, такие как границы файлов, имена файлов и т.д., Также занимают место, но это сравнительно небольшое пространство, и это заставляет вещи работать намного быстрее.

Если ваша "глава" пуста, она может иметь заголовок или номер страницы, верно? Пустой файл содержит ноль байтов данных. Метаданные занимают место, но это не часть файла, а файловая система. Иначе вы бы увидели имена файлов внутри ваших текстовых файлов?

Кстати, именно поэтому ранние версии DOS принимали только 8.3 имен - пространство, зарезервированное для имен файлов, было очень ограничено. NTFS допускает имена файлов длиной 255 символов [1] .

Еще одно слово в вашем комментарии:

Раньше у меня был своего рода вирус, который каким-то образом повредил пару файлов на моем компьютере, так что их размер составил около 100 ГБ. Каждый из них. На моем жестком диске 40 ГБ. Так что, должно быть, была какая-то магия . :-D

Вполне возможно, что допустимые файлы больше вашего жесткого диска, благодаря функции, называемой разреженными файлами. У Хеннеса есть превосходное объяснение этого в его комментарии к этому вопросу:

Представьте себе переплет, способный вместить 100 страниц. Если вы используете этот переплет как обычный файл, вы можете вставить 100 страниц. Вы могли прочитать все 100. Вы можете написать на все 100. Теперь представьте себе редкое связующее. Вы вставляете первую написанную вами страницу «страница 1: Содержание A». Затем вы вставляете вторую написанную вами страницу «страница 9999: содержание b:». Всякий раз, когда вы пытаетесь прочитать страницу, вы смотрите, если она существует. Если это не так, ваш ответ будет пустой страницей. Если он существует, вы возвращаете содержимое страницы. Всякий раз, когда вы пишете на страницу, которой еще нет в подшивке, вы добавляете новый лист бумаги.

Очень немногие пользователи знают, что для каждого файла, хранящегося на компьютере, имеется набор метаданных, которые содержат информацию о его источнике, авторе и другие важные подробности, в зависимости от типа файла. В этой статье я собираюсь обсудить метаданные, рассказать вам что это такое и для чего их используют. Затем я расскажу, как добавлять и удалять метаданные. Все описанное применимо к любой версии Windows.

1 ответ 1

Какие метаданные будут храниться для данного файла?

RAID не имеет абсолютно никакого отношения к метаданным файла . Это чисто дисковая компоновка, и поэтому она просто обращается к диску для преобразования физического блока.

Файловые метаданные - это чисто файловая система, а файловая система располагается поверх раздела на диске. Существует несколько уровней перевода между файлом и дисковым блоком. Что касается контроллера диска (RAID-контроллера), когда он предоставляет данные, относящиеся к "файлу", он уже был сокращен драйверами логической системы файловой системы и операционной системы для "записи этого блока данных в блоке диска". номер Х ".

RAID упорядочит диски в точной логической форме. Контроллеру известны такие данные, как количество дисков, размер полосы и порядок расположения дисков, и, учитывая эти данные, любой адрес логического блока, передаваемый ему операционной системой, может быть рассчитан и сопоставлен с «диском 2, расположение Y» и т.

Как говорится, RAID 5 может поддерживать 1 Disk Failure, но если диск, содержащий метаданные, выходит из строя, то все впустую, верно?

Нет. RAID 5 содержит 1 диск (ценность данных), который представляет собой логическую сумму других дисков. У вас всегда есть 1 полная копия всех данных плюс метаданные, которые равны объединенной сумме трех других дисков.

В случае отказа одного из дисков вы можете изменить сумму, чтобы дать

Таким образом, вы получаете некоторый уровень отказоустойчивости на ваших дисках. В случае сбоя любого случайного диска у вас все еще есть доступ к достаточному количеству данных для его замены. Надеюсь, вы замените этот диск до того, как другой выйдет из строя, и вы сможете восстановить недостающие данные, чтобы полностью восстановить отказоустойчивость.

Математика, стоящая за избыточным блоком, стоит отдельной статьи, и я бы порекомендовал вам прочитать страницу Википедии о RAID- массивах, чтобы лучше понять ее.

Я хотел знать жизненный цикл файла, который будет храниться в RAID 5 и работает ли обновление, и как работает удаление файла?

Содержит ли каждый блок информацию об одном файле или нескольких файлах?

Файлы являются структурой файловой системы и обрабатываются вашей операционной системой. RAID полностью связан с дисками и ничего не знает о файлах.

Дисковый блок может содержать любое количество файлов, и только операционная система может поместить данные в блоки на диске.

RAID-контроллер просто представляет интерфейс диска для операционной системы, операционная система записывает блоки в нее. Что находится в этих блоках, зависит от операционной системы.

Могу ли я прийти к выводу, что с повышением уровня RAID увеличивается параллелизм чтения, а производительность записи уменьшается?

Да, в некоторой степени это зависит от используемого уровня RAID, и производительность записи не обязательно снижается в соответствии с увеличением производительности чтения. Производительность записи может быть, скажем, 3/4 производительности чтения в зависимости от задачи.

По сравнению с RAID 4, распределенная четность RAID 5 выравнивает нагрузку выделенного диска четности среди всех участников RAID. Кроме того, производительность записи повышается, поскольку все члены RAID участвуют в обработке запросов на запись. Хотя это не так эффективно, как установка чередования (RAID 0), поскольку четность все еще должна быть записана, это больше не является узким местом.

Поскольку вычисление четности выполняется на полной полосе, небольшие изменения в усилении записи в массиве: в худшем случае, когда должен быть записан один логический сектор, необходимо прочитать исходный сектор и соответствующий сектор четности, исходные данные удаляется из паритета, записываются новые данные, вычисленные в паритет, и записываются как новый сектор данных, так и новый сектор паритета.

Когда вы создаете, например, новый пустой текстовый документ, вы обнаружите в его свойствах, что он имеет размер 0 байт. Нулевые байты означают отсутствие информации. Нет данных.
Но, тем не менее, файл имеет некоторое имя, он все еще может содержать даты последнего доступа, изменения и создания. Он несет информацию о том, скрытый файл или нет, доступен ли он только для чтения или нет .

Так где хранятся все метаданные?

3 ответа 3

Метаданные внутри скрыты .Spotlight-V100 в корне проиндексированного тома.

Значения атрибутов kMDItemFinderComment которые хранятся в каталогах хранилища метаданных, например /.Spotlight-V100/ зависит от расширенных атрибутов com.apple.metadata:kMDItemFinderComment .

Finder также сохраняет комментарии Spotlight всех элементов в папке в .DS_Store .

Вы можете распечатать комментарии Spotlight с mdls или некоторым xattr

mdls -n kMDItemFinderComment test.txt

xattr -p com.apple.metadata:kMDItemFinderComment file.txt | xxd -r -p | plutil -convert xml1 -o - - | ruby -rcgi -e 'puts CGI.unescapeHTML(STDIN.read.scan(/(.*)/m)[0][0])'

Если вы используете Finder для добавления комментария Spotlight к файлу, для которого у вас нет разрешения на запись (например, некоторые пакеты приложений в /Applications/ ), комментарий не будет сохранен как расширенный атрибут и не будет выбран в центре внимания. Вы можете открыть Finder от имени суперпользователя или использовать sudo xattr -w .

Если вы удалите .DS_Store файл из папки и выйти и снова открыть Finder, комментарии Spotlight всех файлов в папке исчезают из информационных окон Finder. Если для комментариев Spotlight еще есть расширенные атрибуты, комментарии будут видны в Spotlight.

Если вы используете xattr для добавления расширенного атрибута com.apple.metadata:kMDItemFinderComment получает комментарий, но он не будет отображаться в информационных окнах Finder.

xattr -w com.apple.metadata:kMDItemFinderComment comment file.txt

Если вы используете AppleScript для изменения атрибута comment в файле, комментарий также сохраняется в .DS_Store файл и отображается в Finder.

osascript -e 'on run ' -e 'tell app "Finder" to set comment of (POSIX file f as alias) to c' -e end file.txt comment

(Есть предупреждение, что CFURLGetFSRef was passed this URL which has no scheme в 10.8, когда относительный путь преобразуется в псевдоним, но вы можете его игнорировать.)

Я очень рад узнать о центрах обработки данных, а затем я столкнулся с системами RAID.

Мои вопросы могут быть очень глупыми, пожалуйста, потерпите меня.

Обычно на любом уровне RAID> 0, например: RAID 5 Как операционная система знает, что на каком диске и в каком блоке находятся файловые блоки?

Какие метаданные будут храниться для данного файла?

Если он действительно хранит метаданные о файлах .. Где физически хранятся эти метаданные (и на каком диске они хранятся)?

Как говорится, RAID 5 может поддерживать 1 Disk Failure, но если диск, содержащий метаданные, выходит из строя, то все впустую, верно?

Я хотел знать жизненный цикл файла, который будет храниться в RAID 5 и работает ли обновление, и как работает удаление файла?

Содержит ли каждый блок информацию об одном файле или нескольких файлах?

Могу ли я прийти к выводу, что с повышением уровня RAID увеличивается параллелизм чтения, а производительность записи уменьшается?

Как добавлять и редактировать метаданные

У большинства файлов есть свой набор метаданных, но очень часто их нельзя изменить без специального программного обеспечения от сторонних разработчиков. Хотя метаданные офисных файлов (Word, Excel, PowerPoint) редактируются довольно просто. Прежде всего, для доступа и просмотра метаданных одного из таких файлов, откройте контекстное меню щелчком правой кнопкой мыши и выберите пункт «Свойства».

Так вы откроете окно со свойствами файла. В этом окне откройте вкладку «Подробно». Здесь будет представлен список полей с информацией о файле: включая имя его автора, когда он был создан или изменен, или даже как много в нем слов и знаков.

Некоторые из этих полей можно отредактировать. Для этого нужно просто поставить курсор мыши в поле, которое вы хотите изменить, и ввести то, что вам нужно. Если необходимо, чтобы эти поля оставались пустыми, просто сотрите все, что в них написано.

Когда закончите, нажмите на кнопку «OK» в нижней части окна.

Как удалить метаданные

Если вы хотите удалить все метаданные, которые можно удалить, есть простой способ сделать это. В нижней части вкладки «Подробно» нажмите на ссылку «Удаление свойств и личной информации».

В данной теме я рассмотрю четыре вида метаданных, которые могут быть прикреплены к файлу или каталогу средствами файловой системы NTFS. Я опишу, в каких целях можно использовать тот или иной тип метаданных, приведу пример его применения в какой-либо технологии Microsoft или стороннем программном обеспечении.

Речь пойдёт о точках повторной обработки (reparse points), идентификаторах объектов (object id) и о других типах данных, которые может содержать файл помимо своего основного содержимого.

Object Id

Идентификатор объекта это 64 байта, которые можно прикрепить к файлу или каталогу. Из них первые 16 байт позволяют однозначно идентифицировать файл в пределах тома и обращаться к нему не по имени, а по идентификатору. Остальные 48 байт могут содержать произвольные данные.

Идентификаторы объектов существуют в NTFS со времён Windows 2000. В самой системе они используются для отслеживания расположения файла, на который ссылается ярлык (.lnk). Допустим, файл, на который ссылается ярлык, был перемещён в пределах тома. При запуске ярлыка он всё равно откроется. Специальная служба Windows в случае, если файл не найден, произведёт попытку открыть файл не по его имени, а по заранее созданному и сохранённому идентификатору. Если файл не был удалён и не покидал пределы тома, он откроется, а ярлык снова будет указывать на файл.

Идентификаторы объектов использовались в технологии iSwift Антивируса Касперского 7-ой версии. Вот как описана эта технология: Технология разработана для файловой системы NTFS. В этой системе каждому объекту присваевается NTFS-индентификатор. Этот индентификатор сравнивается с значениями специальной базы данных iSwift. Если значения базы данных с NTFS-индентификатором не совпадают, то объект проверяется или перепроверяется, если он был изменен.

Впрочем, переизбыток созданных идентификаторов вызывал проблемы со сканированием диска стандартной утилитой проверки chkdsk, она происходила слишком долго. В следующих версиях Антивируса Касперского отказались от использования NTFS Object Id.

Reparse Point

В файловой системе NTFS файл или каталог может содержать в себе reparse point, что переводится на русский язык как «точка повторной обработки». В файл или каталог добавляются специальные данные, файл перестаёт быть обычным файлом и обработать его может только специальный драйвер фильтра файловой системы.

В Windows присутствуют типы reparse point, которые могут быть обработаны самой системой. Например, через точки повторной обработки в Windows реализуются символьные ссылки (symlink) и соединения (junction point), а также точки монтирования томов в каталог (mount points).
Reparse-буфер, присоединяемый к файлу это буфер, имеющий максимальный размер 16 килобайт. Он характеризуется наличием тега, который говорит системе о том, к какому типу принадлежит точка повторной обработки. При использовании reparse-буфера собственного типа ещё необходимо задавать в нём GUID в специальном поле, а в reparse-буферах Microsoft он может отсутствовать.

Какие типы точек повторной обработки существуют? Перечислю технологии, в которых используются reparse point'ы. Это Single Instance Storage (SIS) и Cluster Shared Volumes в Windows Storage Server 2008 R2, Hierarchical Storage Management, Distributed File System (DFS), Windows Home Server Drive Extender. Это технологии Microsoft, здесь не упомянуты технологии сторонних компаний, использующие точки повторной обработки, хотя такие тоже есть.

Extended Attributes

Расширенные атрибуты файла. Про них был мой предыдущий топик. Здесь стоит упомянуть только то, что под Windows эта технология практически не применяется. Из известного мне программного обеспечения только Cygwin использует расширенные атрибуты для хранения POSIX прав доступа. У одного файла на NTFS могут быть или расширенные атрибуты, или буфер точки повторной обработки. Одновременная установка и того и другого невозможна. Максимальный размер всех расширенных атрибутов у одного файла составляет 64 Кб.

Alternate Data Streams

Дополнительные файловые потоки. Про них знает уже, наверное, каждый. Перечислю основные признаки этого вида метаданных: именованность (то есть у файла может быть несколько потоков, и у каждого своё имя), прямой доступ из файловой системы (их можно открывать, используя формат «имя файла, двоеточие, имя потока»), неограниченный размер, возможность запуска процесса прямо из потока (и возможность реализовать через это бесфайловый процесс).

Так пользователю даётся дополнительная защита от необдуманного запуска программ, полученных из интернета. Это лишь одно применение потоков, а так в них можно хранить самые разные данные. Упомянутый Антивирус Касперского хранил там контрольные суммы каждого файла, но позже от этой технологии тоже по какой-то причине отказались.

Что-нибудь ещё?

Есть ещё идентификатор безопасности, плюс стандартные атрибуты файла, к которым нет прямого доступа, несмотря на то, что они тоже реализованы как потоки файлов. И они, и расширенные атрибуты, и reparse и object id — всё это потоки файла с точки зрения системы. Напрямую изменять идентификатор безопасности, показанный на следующей картинке как ::$SECURITY_DESCRIPTOR смысла нет, пусть его изменением занимается система. К другим типам потоков сама система не даёт прямого доступа. Так что на этом всё.

Просмотр содержимого object id, точек повторной обработки, а также работа с расширенными атрибутами и альтернативными файловыми потоками возможна с помощью программы NTFS Stream Explorer, а также через системную консольную утилиту fsutil.

Что такое метаданные?

Метаданные представляют собой информацию, которая хранится практически в любом типе файла. Она может включать ваше имя, название компании или организации, имя компьютера, имя сервера в сети или диск, на котором сохранен файл; персональные комментарии, имена предыдущих авторов, время создания и время последнего изменения, номер версии или редакции.

В зависимости от ситуации эти данные могут быть полезными и наоборот. Например, если нужно отследить различных авторов файла, метаданные могут помочь в этом. Также метаданные могут быть полезны при поиске файлов в Windows. К примеру, если ваша коллекция фотографий содержит метаданные, это очень удобно, когда нужно найти фотографию, которую вы сделали в конкретный день и в определенное время.

С другой стороны, если вы работаете в правовой сфере или просто хотите сохранить конфиденциальность, при передаче файлов кому-то еще, удаляйте из них столько информации, сколько это возможно, поскольку метаданные будут следовать за этими файлами повсюду.

Читайте также: