Файл в формате iso 2709
MARC (англ. Machine-Readable Cataloging , «машиночитаемая каталогизация») — формат машиночитаемой каталогизационной записи.
Содержание
История
Впервые программа MARC I была разработана Библиотекой Конгресса США в 1965—1966 годах с целью получения данных каталогизации в машиночитаемой форме. Аналогичная работа выполнялась в Великобритании Советом по Британской национальной каталогизации для обеспечения использования машиночитаемых данных при подготовке печатного издания Британской национальной библиографии — British national Bibliography (проект BNB MARC). На основе указанных разработок в 1968 году начал создаваться коммуникативный англо-американский формат MARC (проект MARC II). Целями его создания стало обеспечение:
- гибкости решения каталогизационных и других библиотечных задач,
- пригодности для национального библиографического описания любых видов документов и использования структуры записи в автоматизированных системах.
В 1971 [2] году обобщённая версия MARC была принята в качестве международного стандарта ISO 2709.
В СЭВ, и, впоследствии, в СНГ, ISO 2709 был адаптирован в качестве ГОСТ 7.14-84 (СТ СЭВ 4269-83) СИБИД и ГОСТ 7.14-98 СИБИД. Однако оба эти стандарта (и международный оригинал и русскоязычная адаптация) являлись слишком общими и не содержали значимых для библиотечного дела подробностей, поэтому не могли применяться напрямую. Про ISO 2709 можно сказать, что практически все форматы семейства MARC соответствуют ему в части определения формата данных, являясь его подмножествами. Но, при этом, они, обычно, выходят за его рамки в части определения конкретных полей его записей.
Национальные адаптации первоначального формата и появление обобщающих стандартов
В процессе развития использования формата в 1970-х гг. появились более 20 его различных версий, ориентированных на национальные правила каталогизации (в том числе UKMARC (Великобритания), INTERMARC (Франция), USMARC (США), AUSMARC (Австрия), CANMARC(Канада), DanMARC (Дания), LCMARC, NorMARCV SwaMARC и др.).
Для преодоления несовместимости этих форматов в 1977 году Международной федерацией библиотечных ассоциаций (ИФЛА) было выпущено издание «Универсальный формат MARC» (Universal MARC Format, UNIMARC). Его целью провозглашено « …содействие международному обмену данными в машиночитаемой форме между национальными библиографическими службами». Предполагалось, что этот формат должен стать посредником между любыми национальными версиями форматов MARC и, следовательно, обеспечивать конвертирование данных из национального формата в него, а из него — в другой национальный формат.
В 1980 году вышло в свет второе издание UNIMARC, а в 1983 — UNIMARC Handbook, в которых основное внимание уделялось каталогизации монографий и сериальных изданий. При этом были использованы требования Международного стандарта библиографических описаний (International Standard Bibliographic Description, ISBD).
В 1987 году издана новая версия формата UNIMARC, отражённая в Руководстве по применению UNIMARC — «UNIMARC Manual», которая расширила его действие на другие виды документов. Кроме того, Руководство предусмотрело возможность использования данного формата «как модели для разработки новых машиночитаемых библиографических форматов».
В то же время, развитие формата USMARC шло самостоятельным путём.
В своих последних редакциях формат USMARC превратился в комплекс специализированных форматов (USMARC Concise Formats) для записи библиографических, авторитетных, классификационных данных, данных о фондах и общественной информации (соответственно — USMARC for Bibliographic Date; USMARC Format for Authority Data, USMARC for Classification Data, USMARC Format for Holding Data, USMARC Format for Community information). Каждый из указанных форматов опубликован, содержит подобное описание полей, инструкции по применению и правила, обеспечивающие ввод и идентификацию данных.
В 1990-х годах на повестку дня стал вопрос об унификации форматов обмена англоязычных стран, работающих по одним и тем же планам каталогизации. Разработчики нового формата (первоначальное название IMARС) планировали согласование форматов США, Великобритании, Канады, Австралии и Новой Зеландии. Но реальную работу по согласованию вели только представители США и Канады [3] .
В 1999 году в результате согласования и последующего слияния библиографических форматов США и Канады (USMARC и CANMARC) объявлено об образовании на их основе нового формата («Формата XXI века») — MARC-21. С этого времени организации, ориентировавшиеся на формат USMARC, должны перейти на формат MARC-21 и отслеживать все его последующие изменения, включая новые дополнения к нему (ранее подобные требования отсутствовали). MARC-21 включает форматы:
- библиографических данных;
- авторитетных данных;
- данных о фондах;
- классификационных данных;
- общественной информации.
В настоящее время формат MARC-21 используется в США, Канаде, Австралии, Новой Зеландии, в университетских библиотеках Великобритании и Франции, Венгрии, Дании, Испании, Швеции, Финляндии, а также в Национальной библиотеке Италии.
Внутреннее устройство
База данных в формате MARC представляет собою последовательность отдельных записей переменной длины, каждая из которых относится к одному конкретному изданию. Внутреннее устройство каждой из записей — переменной длины, с переменным составом стандартных полей, некоторые из которых могут быть множественными. Такой формат хранения данных удобен для работы с магнитными лентами, на которых первоначально и хранились такие данные, для реляционных СУБД он представлял серьёзное неудобство. Маппинг MARC в XML оказался, однако, более естественным.
Форматы
Сейчас существует целое семейство форматов MARC. Два основных ответвления в развитии формата, конкурирующие между собой: MARC21 и UNIMARC.
MARC21
Поддерживается библиотекой конгресса США, используется в основном в США и Великобритании
MARCXML
XML-схема, основанная на MARC21. Определяет вариант XML, совпадающий по выразительным свойствам с MARC21. Так же, как и сам MARC21, разработан и поддерживается библиотекой конгресса США
UNIMARC
Поддерживается международной организацией IFLA и используется в основном в Европе и Азии.
В своей второй редакции 1994 г. и с учётом дополнений последних лет формат UNIMARC включает поля, необходимые для описания таких видов документов, как текстовые документы монографические (прежде всего, современные книги), старопечатные издания, сериальные издания, нотные документы, графические материалы на непрозрачной основе, аудиоматериалы, видео- и проекционные материалы, электронные ресурсы, картографические материалы.
Поля формата UNIMARC можно подразделить на общие и специфические. Общие поля используются при описании любых видов документов, специфические — только при описании определённых видов. Специфические поля встречаются в блоках полей формата 0ХХ, 1ХХ, 2ХХ. В блоке 0ХХ имеются поля для записи уникальных международных идентифицирующих номеров документов (ISBN, ISSN, ISMN и т. д.). В блоке 1ХХ существуют поля кодированных данных отдельно для книг (105), сериальных изданий (110), видеоматериалов (115), графических материалов (116), электронных ресурсов (135). В блоке описательной информации 2ХХ специфическое поле 230 отражает область специфических сведений об электронных ресурсах.
UNIMARC включает достаточно большой перечень полей, однако даже этого перечня не хватает для описания специальных видов научной и технической литературы: диссертаций, отчётов по НИОКР, патентных, нормативно-технических документов и промышленных каталогов, причём не хватает именно специфических полей.
Формат UNIMARC разрабатывался на протяжении ряда лет, он постоянно совершенствуется и теперь, но очень медленно. Это связано с тем, что Постоянный комитет при ИФЛА, поддерживающий UNIMARC, малочислен и работает на общественных началах по принципу консенсуса, используя в основном переписку для взаимных консультаций. Одним из последних крупных изменений, внесённых в структуру формата Постоянным комитетом, является утверждение комплекса полей для описания электронных ресурсов, многие из которых имели статус предварительных ещё в редакции формата 1987 г. Все перечисленные обстоятельства побудили разрабатывать свою версию формата, добавляя поля и подполя национального использования, что допускается данным международным стандартом. Кроме того, для большинства видов документов было решено разработать руководства по применению MARC-формата, которые должны были бы включать описания особенностей заполнении специфических и общих полей для каждого вида, а также содержать рекомендации по описанию в национальной версии формата типовых документов, относящихся к каждому виду, то есть была поставлена задача разработки образцов, или моделей, описания документов.
Национальные версии
Существуют различные национальные версии форматов MARC. Как правило, это адаптированные к языковой и национальной специфике версии форматов MARC21, UNIMARC и др.
MARC в России
В России не существует единственного общепринятого варианта MARC, адаптированного для нужд русского языка и отечественных библиотек. В настоящее время используется ряд версий этого формата. Одной из широко распространённых является RUSMARC [4] — официальная российская версия UNIMARC, которую продвигает часть российского библиотечного сообщества при определённой поддержке Министерства Культуры.
Однако, значимая часть крупных библиотек достаточно активно вкладывалась в использование адаптированной к русскому языку версии USMARC. Среди них можно назвать ГПНТБ, осуществившую перевод стандарта на русский язык [5] , и Российскую государственную библиотеку, которая после появления заменяющего USMARC стандарта MARC21 переориентировалась на него [6] .
Редактор ISO/MST-файлов – инструмент, предназначенный для просмотра, отбора и сохранения данных в файлах формата ISO 2709 (использующегося для обмена библиографическими записями).
В качестве исходных данных могут выступать: файлы ISO 2709, файлы документов баз данных ИРБИС 32 и ИРБИС 64 (расширение .mst), а также файлы .xls, .mdb, .dbf.
Содержание
Функциональные возможности редактора ISO/MST файлов
Функциональные возможности редактора ISO/MST файлов:
- Просмотр в наглядной форме файлов в формате ISO-2709 (RUSMARC, UNIMARC и другие MARC-форматы) и файлов документов БД ИРБИС (файлы с расширением .mst). При этом файлы документов просматриваются независимо от соответствующих адресных файлов (с расширением .xrf), что позволяет просматривать все копии записей (одного и того же MFN). Что, в свою очередь, может быть весьма полезно при восстановлении данных после неудачных корректировок или разрушений. Кроме того, есть возможность просматривать разрушенные файлы документов.
- Отбор записей просматриваемых файлов в т.н. карман (временный буфер) с возможностью последующего сохранения его в виде ISO-файла.
- Отбор в карман последних копий записей MFN-файлов.
- Корректировка записей, отобранных в карман.
- Преобразование файлов форматов Excel, Access, DBF в формат ISO с возможностью последующего импорта в ИРБИС.
Алгоритм чтения файла ISO 2709
Сведения о структуре файла ISO 2709
Длина лидера - 24 байта.
Сегменты лидера: Lider0_4 – длина записи. Lider12_16 – смещение начала данных. Lider20_20 – длина сегмента справочника, в котором хранится длина поля. Lider21_21 – длина сегмента справочника, в котором хранится смещение поля относительно начала записи.
Длина одного входа справочника: 3 + Lider20_20 + Lider21_21.
- метка поля (длина сегмента – 3 байта).
- длина поля (длина сегмента определяется значением Lider20_20).
- смещение поля (длина сегмента определяется значением Lider21_21).
Последовательность чтения файла ISO 2709
Чтение файла представляет собой последовательное чтение составляющих записей.
В качестве исходных данных при чтении очередной записи выступает открытый файл и позиция начала записи.
Считывается справочник. Позиция начала справочника: позиция начала записи + 24.
Смещение начала данных: Lider12.
Позиция начала данных: позиция начала записи + смещение начала данных.
Позиция начала поля: позиция начала данных + смещение поля (из справочника).
Добрый день!
Подскажите пожалуйста,Как импортировать список читателей из файла Excel (формат полей) и как экспортировать в excel или access?
Для импорта из Excel нужно использовать АРМ Администратор - Инструмеры - Редактор ISO/MST файлов - Сервис - Преобразование из Excel.
А как именно пользоваться этим инструментом, читайте в документации.
Для экспорта проще всего использовать выходные формы, в которых данные разделены точкой с запятой. Файл получится с расширением RTF, но по своей структуре будет соответствовать формату CSV, который воспринимает Excel
Какой формат Excel? Сколько и какие поля?дополнительные знаки? У нас более 3000 студентов и ручками не улыбается вводить.Заранее спасибо!
P.S. в документации ничего подобного не нашёл
Вы смотрели опцию "Преобразование из Excel, Access, DBF" в инструменте АРМа Администратор (серверный) под названием "Редактор ISO/MST файлов", который вам посоветовал Геннадий?
irbis64_2008.doc
5.2.5 Режимы ИНСТРУМЕНТЫ
.
• Преобразования файлов форматов Excel, Access, DBF в формат ISO с возможностью последующего импорта в ИРБИС.
.
RELEASE_OVERALL.doc
АРМ Администратор
1. В редакторе ISO-файлов предлагается вложенный инструмент для преобразования Excel-файлов, Access-файлов и DBF-файлов в ISO - преобразование осуществляется на основе таблицы соответствия (столбец таблицы метка ISO), которая может создаваться "на лету" или загружаться из предварительно сохраненной.
Там достаточно простой интерфейс.
1. Загружаете ваш Excel-файл
2. В центральной области отображается таблица, вЫбираете нужный лист
3. по очереди выбираете колонки и указываете для них Метки ISO2709, после чего нажимаете на кнопку с рисунком цепи и переходите к следующей колонке. Метки полей смотрите в БД(Фамилия - 10, Имя - 11, отчество - 12, идентификатор - 30. )
4. В конце нажимаете кнопку с буквой К ("Преобразовать данные и сохранить в карман")
5. Файл - Сохранить "карман" как ISO файл
6. Открывате БД читателей и импортируете подготовленный файл
ГОСТ 7.14-98
(ИСО 2709-96)
Система стандартов по информации, библиотечному и издательскому
делу
ФОРМАТ ДЛЯ ОБМЕНА ИНФОРМАЦИЕЙ.
СТРУКТУРА ЗАПИСИ
System of standards on information, librarianship and publishing.
Format for information exchange. Record structure
Дата введения 1999-07-01
Предисловие
1 РАЗРАБОТАН Всероссийским институтом научной и технической информации РАН и Министерством науки и технической политики России, Научно-техническим центром "Информрегистр", Техническим комитетом по стандартизации ТК 191 "Научно-техническая информация, библиотечное, издательское и архивное дело"
ВНЕСЕН Госстандартом Российской Федерации
2 ПРИНЯТ Межгосударственным Советом по стандартизации, метрологии и сертификации (протокол N 13-98 от 28 мая 1998 г.)
За принятие проголосовали:
Наименование национального органа по стандартизации
Госстандарт Республики Казахстан
Главная государственная инспекция Туркменистана
3 Настоящий стандарт содержит полный аутентичный текст международного стандарта ИСО 2709-96 "Формат для обмена информацией. Структура записи" с дополнительными требованиями, отражающими потребности экономики страны
4 Постановлением Государственного комитета Российской Федерации по стандартизации, метрологии и сертификации от 10 ноября 1998 г. N 392 межгосударственный стандарт ГОСТ 7.14-98 введен в действие непосредственно в качестве государственного стандарта Российской Федерации с 1 июля 1999 г.
1 ОБЛАСТЬ ПРИМЕНЕНИЯ
Настоящий стандарт устанавливает структуру формата, который может содержать записи, описывающие любой вид материала, поддающегося библиографическому описанию.
Стандарт не устанавливает длину и содержание отдельных записей или значений, присваиваемых меткам, индикаторам или идентификаторам. Это осуществляется форматом применения.
Стандарт предназначен для применения лицами и организациями, подготавливающими и выпускающими документы на любых машиночитаемых носителях.
В стандарте описывается обобщенная структура-схема, предназначенная специально для коммуникаций между системами обработки данных, а не для обработки данных внутри систем.
2 НОРМАТИВНЫЕ ССЫЛКИ
В настоящем стандарте использована ссылка на ГОСТ 7.19-85 СИБИД. Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Содержание записи.
3 ОПРЕДЕЛЕНИЯ
В настоящем стандарте применяют следующие термины с соответствующими определениями:
3.1 запись: Совокупность полей, включая маркер записи, справочник и поля данных.
Примечание - Если для библиографических целей необходимо, то допускается установление связи между отдельными записями и разбиение записи на подзаписи, которые осуществляются по правилам, устанавливаемым в нормативных документах по применению данной структуры записей в конкретном обменном формате;
3.2 поле: Часть записи, имеющая переменную длину, предназначенная для данных определенной категории, следующая после справочника и связанная с одной из его статей.
Примечание - Поле данных может содержать одно или несколько подполей;
3.3 идентификатор (подполя): Элемент данных, состоящий из одного или несколько символов, непосредственно предшествующий подполю и идентифицирующий его (см. примечание к 4.3.1).
3.4 индикатор: Первый элемент данных, если он имеется, связанный с некоторым полем данных и несущий дополнительную информацию о содержании поля, о взаимосвязи между этим полем и другими полями в записи или об операциях, требуемых при определенной обработке данных;
3.5 справочник: Указатель местонахождения полей данных в записи;
3.6 маркер записи: Поле, находящееся в начале каждой записи и содержащее параметры для ее обработки;
3.7 план справочника: Набор параметров, определяющих структуру статей справочника;
3.8 разделитель поля: Управляющий символ, предназначенный для разделения условной группы данных в логическом, а иногда в иерархическом смысле;
3.9 подполе: Часть поля, содержащая определенную единицу информации;
3.10 подзапись: Группа полей в пределах одной записи, воспринимаемая как единое целое;
3.11 структура: Схема расположения компонентов, составляющих запись;
3.12 метка поля: Три символа, связанные с полем и применяемые при идентификации этого поля.
4 СТРУКТУРА КОММУНИКАТИВНОГО ФОРМАТА ДЛЯ ЗАПИСИ
Общая структура записи схематически изображена на рисунке 1. Более подробная структура с четырьмя альтернативными вариантами для полей данных изображена на рисунках 2 и 3.
Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кузнецова Л. В., Мазов Н. А.
Nowadays numerous information bodies and libraries in Russia and abroad use various Database Management Systems that are based on ISO-2709-files. This standard underlies national exchange formats for bibliographic records such as USMARC, UNIMARC, RUS-MARC, etc. However ISO-2709 format has a number of essential restrictions. Currently XML is the most universal tool for coding and representation of informational documents. In this article a software application intended for the inter-format transformation of data between ISO-2709 and XML is considered. The attention is focused on the means of formatting that allow not only to transform the data between these formats, but also to flexibly change presentation of data during processing.
Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кузнецова Л. В., Мазов Н. А.
Научно-практические аспекты формирования и представления в Интернет фактографической БД по машинам и оборудованию для животноводства
Текст научной работы на тему «Межформатное преобразование данных в библиографических системах на примере форматов iso-2709 и XML»
МЕЖФОРМАТНОЕ ПРЕОБРАЗОВАНИЕ ДАННЫХ В БИБЛИОГРАФИЧЕСКИХ СИСТЕМАХ НА ПРИМЕРЕ ФОРМАТОВ ISQ-2709 И XML
Nowadays numerous information bodies and libraries in Russia and abroad use various Database Management Systems that are based on ISÜ-2709-files. This standard underlies national exchange formats for bibliographic records such as USMARC, UNIMARC, RUS-MARC, etc. However ISO-2709 format has a number of essential restrictions. Currently XML is the most universal tool for coding and representation of informational documents. In this article a software application intended for the inter-format transformation of data between ISÜ-2709 and XML is considered. The attention is focused on the means of formatting that allow not only to transform the data between these formats, but also to flexibly change presentation of data during processing.
В настоящее время многочисленные информационные органы и библиотеки как в России, так и за рубежом используют различные СУБД [1], основу которых составляют файлы в структуре стандарта ISO-2709 [2]. Широкое использование формата ISO-2709 в библиотечных системах обусловлено тем, что библиографическая информация является свобод-нотекстовой и слабоструктурированной, что не позволяет эффективно использовать для ее обработки реляционные СУБД. Стандарт ISO-2709 лежит в основе всех форматов для библиографических записей семейства MARC (MAchine Readable Cataloguing) [3], таких как USMARC [4], UNIMARC [5], RUSMARC [6] и др. Однако формат ISO-2709 имеет ряд существенных ограничений (например, на длину записи и уровень иерархии) и является сложночитаемым для пользователя (рис. 1).
В настоящее время наиболее универсальным средством кодирования и отображения содержания информационных документов является язык XML 9. Иерархическая структура библиографической записи хорошо согласуется с моделью XML-документа (рис. 2). Использование XML в качестве формата обмена и хранения библиографических данных позволяет осуществлять контроль корректности записей на уровне проверки XML-документа. В отличие от формата ISO-2709, XML — это формат, читаемый для человека и легко документируемый.
© Институт вычислительных технологий Сибирского отделения Российской академии наук, 2005.
00612000000000109000450010000410000010200070004120000380004860001990008622500480 028570000720033332700970040511 Та19980?08с11997 и! ! у0ги5у0102 са8 ТаИШИ? аУездноеТаМыТе[Романы]Т£Е. Замятине 1ТаЗамятинТЬЕ. И.ТдЕвгений ИвановичТГ1884 — 1937ТхИзучение в школе»2п1р-зЬТЗШ\МЬВЧаи1Ь\661249827 1ТаПлатонов»ЬП. П.Тдйндрей ПлатоновичТТ1899 - 1951ТхИзучение в школеТ2п1»—8ЬТЗЛи\МЬК\а1П;Ь\66124982881 ТаШк . классикиТеШКТеКн. для ученика и учителяй 1ТаЗамятинТЬЕ. И.ТТ1884-1937ТдЕвгений ИвановичТЗйи\НЬК\аи1Ь\77571Т4070й1 ТаВ кн. также : Критика и комиент. Темы и ра звернутые планы соч. Материалы для подгот. к урокуйй
Рис. 1. Пример библиографической записи в формате ISQ-2709.
<серия>1 лоШк. клпссикилеШКлеКн. для ученика и учителясерия>
«комментарию 1 "аВ кн. также : Критика и коммвнт. Тимы и развернутые планы соч. Материалы для подгот. к
Рис. 2. Пример библиографической записи в формате XML.
В отличие от большого разнообразия используемых MARC-форматов, XML стандартизирован и поддерживается большим количеством производителей программного обеспечения. В стандарт XML включена поддержка Unicode, что позволяет создавать многоязычные документы, а также использовать расширенный набор символов.
1. Общая характеристика разработанного приложения
Для межформатного преобразования (конвертирования) данных ISO-2709 и XML было разработано специализированное программное приложение. Отличительной чертой данного приложения от аналогичных конвертеров [10, 11], доступных в сети Интернет, является уникальная возможность преобразовывать внешнее представление данных в процессе конвертирования. Это необходимо, прежде всего, для полноценной работы с библиографической информацией, поскольку в повседневной практике часто требуются разнообразные способы отображения документа как целиком, так и его отдельных частей. Так, например, данные, содержащиеся в библиографической записи, могут быть использованы: для формирования карточки библиографического описания, требования для заказа книги в библиотеке, для изменения или добавления новой записи и т.д. То есть внешнее представление данных должно быть гибким и разнообразным. При использовании конвертеров, свободно распространяемых в сети Интернет, чтобы получить запись в нужном представлении в формате XML, необходимо воспользоваться как минимум двумя конвертерами, один из которых изменяет формат данных (между ISO-2709 и XML), а второй меняет внешнее представление данных. Основной отличительной чертой этого программного приложения является возможность осуществлять эти преобразования одновременно.
Приложение имеет классический многодокументный интерфейс, предоставляет возможность просматривать библиографические записи (рис. 3), а также просматривать и
Рис. 3. Пример окна программного приложения с библиографической записью в формате 180-2709.
Рис. 4. Пример окон программного приложения с таблицами, применяемыми при преобразовании данных.
редактировать таблицы (рис. 4), используемые в процессе преобразования данных, структура которых будет описана ниже.
Кроме того, приложение предусматривает различные кодировки данных, в частности кириллицу (отсутствие данной возможности не позволяет эффективно эксплуатировать разработки зарубежных авторов, представленные в сети Интернет), и имеет достаточно подробную справочную систему.
2. Реализация программного приложения
Процесс конвертирования данных из формата ISO-2709 в формат XML в разработанном приложении можно представить блок-схемой, изображенной на рис. 5.
Преобразование данных осуществляется с использованием таблицы выбора полей и таблицы описания полей, определяемых пользователем на расширенном языке форматирования CDS/ISIS. Обе таблицы имеют простую структуру и могут заполняться как в любом текстовом редакторе, так и через интерфейс представленного программного приложения (см. рис. 4). Таблица описания полей (с расширением FDT — File Definition Table) предназначена для связи цифровых меток формата ISO-2709 и мнемонических названий XML-тегов. Структура FDT-файла представлена на рис. 6.
Другой пример таблицы описания полей (в интерфейсе приложения) представлен на рис. 4. Следует сказать, что для функционирования данного приложения не предусматривается никакой конкретной XML-схемы, а структура конечного XML-документа определяется только таблицей описания полей, задаваемой пользователем. Более того, пре-
Рис. 5. Блок-схема конвертирования данных из формата ISQ-2709 в формат XML.
Рис. 6. Структура таблицы описания полей.
Таблица1 Пример FDT-файла
Поле Подполе Наименование
образование из формата ISO-2709 в формат XML может осуществляться при неполной таблице описания полей или вообще при ее отсутствии. В этом случае XML-тегами будут цифровые метки формата ISO-2709 (например, метка v200 на рис. 7). Таблица выбора полей (с расширением FST — File Selection Table) служит для преобразования внешнего представления данных и определяет содержимое элементов конечного XML-файла (или ISO-файла в зависимости от направления преобразования). Строки этой таблицы содер-
Рис. 7. Пример окон программного приложения с библиографическими записями: исходная — в формате ISO-2709, преобразованная — на языке XML.
задание на преобразование данных на ЯФ CDS/ISIS метка поля в ISO-2709
Рис. 8. Структура таблицы выбора полей.
Метка поля Формат
010 | - ISBN vlO л а/,
200 v200" а , 1, v200" f
801 if у80Г a='03' or у80Г a='08' then 'Депонир. рук.' fi,
жат метку поля и задание на форматирование на расширенном языке форматирования CDS/ISIS. Структура FST-файла представлена на рис. 8.
Следует отметить, что применяемый язык форматирования представляет собой расширение языка CDS/ISIS, традиционно используемого для обработки библиографических данных в системе ISIS (UNESCO). Используемый расширенный язык форматирования является достаточно полным (например, включает в себя условный оператор, операторы циклов, множество строковых функций и др.) и имеет практически неограниченные возможности по представлению данных в различных формах. Несмотря на разнообразие конструкций, язык форматирования остается легко понимаемым и легко осваиваемым пользователями.
Стоит подробнее прокомментировать схему, представленную на рис. 5. На первом этапе работы приложения данные ISO-2709 преобразуются во внутренний формат (это структура, содержащая такие данные, как метки полей, длины полей и сами поля данных), кроме того, происходит анализ таблиц выбора полей и определения полей (если таковые имеются). Далее происходит изменение внешнего представления данных согласно таблице выбора полей. Именно возможность этого изменения и отличает данное приложение от программных продуктов данного класса. По завершении форматирования данных происходит создание XML-элементов (см. рис. 7) с учетом названий тегов, представленных в таблице описания полей (при отсутствии таблицы описания полей для создания тегов XML используются метки ISO-2709). Следует заметить, что если поле в записи ISO-2709 содержит подполя, то они оформляются более глубоким уровнем вложения (иерархии) в конечном XML-документе. Повторяющиеся поля, наличие которых допускается форматом ISO-2709, получают после преобразования одинаковые теги и одинаковый уровень иерархии.
Настоящее приложение позволяет также осуществлять преобразование данных в направлении XML-ISO-2709. В этом направлении преобразование происходит практически аналогично преобразованию из формата ISO-2709 в формат XML (вместо создания XML-элементов происходит генерация формата ISO-2709) и не требует дополнительных комментариев. Кроме этого, программное приложение позволяет осуществлять преобразование ISO-2709 — ISO-2709, т. е. в данном случае изменяется только внешнее представление данных, внутренний же формат данных сохраняется.
Ниже кратко продемонстрирована работа представленного программного приложения. В качестве примера рассмотрена библиографическая карточка. В этой карточке представлена не вся информация, имеющаяся о данном издании в библиографической записи (это один из примеров необходимости иметь различное внешнее представление данных). На рис. 9 показаны полная библиографическая запись, а также таблицы выбора и определения полей, с помощью которых осуществляется преобразование библиографической записи из формата ISO-2709 в формат XML. Как видно из рис. 9, конечные данные на языке XML содержат не полную информацию о книге (которая, возможно, избыточна в некото-
Уездное; Мы : [Романы]. - М. : ACT, 1997. - 607 е.; 20 см. Библиогр. : с. 605-606. - ISBN 5-88196-625-2 : 11000 экз.
I. Замятин, Е. И. Мы--1. Книга для ученика и учителя. 2. В кн.
также: Критика и коммент. Темы и развернутые планы соч. Материалы для подгот. к уроку
Рис. 9. Пример библиографической карточки.
рых случаях), а только поля, затребованные пользователем с помощью таблицы выбора полей.
Заметим, что основная цель данной работы заключалась не в детальном рассмотрении MARC-форматов и XML-технологий, а в том, чтобы подчеркнуть актуальность проблемы преобразования данных между форматами ISO-2709 и XML.
Поскольку формат MARC — это в первую очередь формат внешнего представления данных, а его цель — служить средством обмена данными (например, в среде сети Интернет), в настоящее время разработан опытный образец аналогичного web-ориентированного приложения, позволяющий гибко осуществлять импорт различных библиографических данных в локальные информационно-библиотечные системы. Это клиент-серверное приложение реализует все функции описанного локального приложения и позволяет обрабатывать и отображать в формате HTML записи ISO-2709, содержащие TeX-поля (это особенно актуально для работы с математическими текстами в библиографических базах данных). Программное приложение представляет собой модуль расширения PHP. Опытно-промышленный вариант эксплуатируется на web-сервере Apache 2.0.50 с PHP 4.3.7.
[1] Дейт К.Дж. Введение в системы баз данных. 7-е изд.: Пер. с англ. М.: Издательский дом "Вильямс", 2001. 1072 с.
[2] International Organization for Standardization. Documentation: format for bibliographic information interchange on magnetic tape. [2nd ed.] Geneva, ISO, 1981 (ISO 2709-1981).
[3] Основные положения формата MARC для библиографических данных / Под общей ред. действительного члена постоянного Комитета по UNIMARC Я.Л. Шрайберга. М.: ГПНТБ России, 1997. 39 с.
[4] Форматы USMARC. Краткое описание: В 3 ч. М.: ГПНТБ России, 1996.
[5] Руководство по UNIMARC: Руководство по применению международного коммуникативного формата UNIMARC. М.: ГПНТБ России, 1992. 320 с.
[6] Российский коммуникативный формат представления библиографических записей в машиночитаемой форме (Рос. вариант UNIMARC). СПб.: Изд-во РНБ, 1998.
[8] Рэй Э. Изучаем XML: Пер. с англ. СПб.: Символ-Плюс, 2001. 408 с.
[9] Питц-Моултис Н., Кирк Ч. XML в подлиннике: Пер. с англ. СПб.: БХВ-Петербург, 2000. 736 с.
Читайте также: