Файл xml имеет неправильный формат
Для начала, давайте рассмотрим варианты причин, которые могли привести к данной проблеме:
- Наш любимый кеш, хоть в данном случае редко он виновник, но с него стоит начать в решении проблемы;
- Не совпадающие метаданные (Например центральная база была обновлена, а изменения не доехали и/или узел считает что он уже обновлен, тут как раз часто помогает очистка кеша и повторный обмен);
- И наконец проблема, которой и посвящена данная публикация - повреждение значений реквизитов, у которых тип "Хранилище значения". Данная проблема чаще всего возникает при резком отключении компьютера во время записи объектов и прочих случаях (предположительно, хранилище значения, хранится отдельно и записывается в базу, после записи основного объекта, в основном, эти проблемы возникают в файловых базах).
Как же решить проблему в пункте №3?
Варианты решения три (от худшего к лучшему):
Как работает обработка?
А как проверить, что значение, хранилища значения, повреждено?
С этим есть некоторые сложности, так как что при получении значения из поврежденного хранилища значений мы получаем "Неопределено", ровно тоже самое, если в хранилище значения, было помещено "Неопределено". В некоторых случаях, при получении значения возникают исключение, но не всегда. В итоге получилась такая проверка:
Получилась (почти) универсальная обработка, по поиску и исправлению поврежденных данных хранилища значения. В настоящий момент, обработка поддерживает следующие типы объектов:
- Справочники (реквизиты, табличные части)
- Документы (реквизиты, табличные части)
- Регистры сведений (ресурсы, реквизиты)*
- Регистры накопления (ресурсы, реквизиты)*
- Планы видов характеристик (реквизиты, табличные части)
* - В измерениях регистра, не может быть реквизитов типа "ХранилищеЗначения"
Обратите внимание, обработка записывает в поврежденное хранилище значения, значение "Неопределено", некоторые объекты не ожидают такого рода данных и могут выдавать ошибки при открытии и пр. При желании, вы можете сами доработать обработку, чтобы в зависимости от объекта, у вас вставлялась ожидаемая объектом структура и пр. Так же обработка предоставляется "AS IS", так что делайте бэкапы, перед выполнением. Обработка может иметь ошибки, в случае нахождения оных - пишите.
Обработка разрабатывалась и тестировалась на платформе 8.3.10.2505 с конфигурацией 1С:Розница 2.2.5. Но обработка должна быть совместима с любыми конфигурациями на управляемых формах.
Здравствуйте народ.
Столкнулся с такой проблемой "Неверный формат файла выгрузки".
Задача: Выгрузить одну организацию из конфы (ПРОФ), в подобную ей, но за определённый период.
Используемые конфигурации идентичны в плане релизов.
Полученный фал в формате XML имеет размер: 1,96 ГБ (2 105 956 235 байт)
Операция производится на одной машине, с одной платформы.
Обработчик, никак не желает воспринимать файл.
Знает кто, как это лечится, или может есть другие решения?
2 - Название утилиты, в теме имеется "Выгрузка и загрузка данных XML (2.1.8)" (могу приложить скрин). Отбор был произведён только за период с 01.01.2018 по 15.03.2018, по одной организации. Но идея интересная. Сейчас попробую просто справочники выгрузить.
(2) - Вопрос на тему пошаговой выгрузки. А можно ли выгружать - загружать элементы поочерёдно?
Например:
Справочники, затем Константы, затем Документы и т.д.
Не возникнут ли после загрузки проблемы или дублирование элементов?
(Машинка задумалась, видимо загружает, т.к. в прошлые разы, ошибка появлялась практически сразу.)
(8) - Что значит "Слишком большая картинка"? Она обрезана и имеет размер 1652х851px, 177 КБ (182 181 байт)
(9) - Я так уже делал, результат не изменился.
По всей видимости, обработка не может корректно формировать или загружать XML файлы подобного объёма. Если я не прав, то поправьте меня.
Сейчас буду пробовать пошаговый обмен.
(9) Тогда странно, обычно такая ошибка когда объекты метаданных отличаются.
По идее 2 Гб это не так уж и много.
(11) - Я понимаю, но факт остаётся фактом. Ну или я не совсем всё понимаю, а мой 1Снык заболел, спросить не у кого, только у умных людей, т.е. у вас.
Сейчас формирую всё по разделам, а там будет видно, что получится. Хотя, есть большая вероятность, что при загрузке Документов, столкнусь с проблемой. (Большой объём должен получиться.)
А вы какими обработками пользовались для подобного рода задач?
прав не хватает? сталкивался с таким примером - выгружаются справочники, с ними РЛС, затем документы - документы не записываются ибо у пользователя "НеАвторизован" нет прав
(13) - Хм. Интересно, я об этом не подумал. И как следствие не создавал пользователя. Спасибо, сейчас попробую.
(14) - Я обычный ITшник. Ну ты знаешь, натяни провода, протри сервера, убери журнал бухгалтера с клавиатуры (дабы Shift не был зажат, в следствии чего мышка всё выделяет как сумасшедшая), а в перерывах, чай с печеньем и решение вот таких задач.
(13) - Создал пользователя "Администратор", выдал ему права, попытался загрузить файл с полностью выгруженными данными, но увы. "Неверный формат файла выгрузки"
(17) - Хорошо, обязательно воспользуюсь вашим советом. Будем "ломать 1С, через колено", раз по хорошему не понимает.
О результатах, отпишусь. (Если не забуду.)
(23) - А прямым текстом сказать не судьба? Или намёк на FAT32? Так там предел одного файла 4Гб, да и система NTFS. Или о чём вообще речь?
Я так подозреваю, что конфигурации "идентичны" но не полностью. Выгрузи конфигурацию из одной базы, сравни с другой. И обязательно поставь галку "Разрешить удаление объектов". Если у тебя хоть что-то будет серым - ничего не выгрузишь
(27) - Спасибо за совет, сегодня обязательно попробую.
Примечательно, что файл с регистрами, имеет больший размер, чем первоначальный (полный).
Вот этого я так и не понял. Но файл с регистрами, сейчас загружается в базу.
Итак, подведём итоги.
У меня всё получилось. За это хочу выразить свою благодарность пользователю под ником cw014.
(27) - Спасибо дружище, указал на мою ошибку и подсказал метод решения задачи.
Были правда сложности с дублирование данных, но вспомнив совет cw014, благополучно их устранил.
Детальную инструкцию по данной теме, выложу в интернете, дабы народ больше не мучился с подобного рода вещами.
p.s. А вам "уважаемый" Cool_Profi, нужно не строить догадки и пафосно изрекать бесполезные комментарии, а иногда вникать в суть вещей.
Вы приводили в порядок свой компьютер, когда нашли файл, который никогда не видели раньше. Вы пытались открыть его из любопытства, но не нашли способа сделать это. Возможно, вы не установили нужную программу или пропустили несколько шагов. В любом случае, не беспокойтесь: если вы читаете это руководство, значит помощь близка. Если это файл с расширением .xml, тогда нет ни малейшей проблемы: я объясню, как его открыть, но сначала позвольте мне кратко объяснить, с каким типом документа вы имеете дело.
В отличие от файла HTML, который является структурным документом с предопределенными тегами, XML является документом, который действует как контейнер для хранения данных, которые могут использоваться другим программным обеспечением. XML-файлы легко открываются: просто используйте соответствующую программу. Также этот тип файлов можно открыть с помощью онлайн-сервисов и приложений для мобильных устройств Android / iOS.
Как открыть .xml файлы в Windows
Чтобы открыть файл XML в Windows, вам не нужно загружать сложное дополнительное программное обеспечение, поскольку на вашем компьютере уже установлены некоторые базовые программы, которые позволяют просматривать xml за несколько кликов.
Открыть xml в блокноте или WordPad
Простой блокнот Windows способен мгновенно открывать файлы XML. Как это сделать? Просто щелкните правой кнопкой мыши по рассматриваемому файлу и в контекстном меню, которое будет показано, выберите пункты Открыть с помощью → Блокнот. И, вуаля! Перед Вам раскроется содержание данного файла!
Даже простой текстовый редактор Windows, такой как WordPad, способен открывать файлы XML, так как эти типы файлов можно просматривать как простое текстовое содержимое: не забывайте, что файлы XML являются не чем иным, как контейнера данных.
Хотите знать, как открыть файл XML с WordPad? Это действительно легко! Щелкните правой кнопкой мыши по рассматриваемому файлу, а затем в контекстном меню выберите пункты Открыть с помощью → WordPad. Проще некуда, я прав?
Открыть xml с помощью браузера
Mozilla Firefox, Opera, Edge и другие интернет-браузеры без проблем откроют файл XML.
Чтобы сделать это, щелкните правой кнопкой мыши по рассматриваемому файлу и в появившемся вам контекстном меню щелкните элемент Открыть с помощью. Среди предложенных вариантов, выберите элемент, который относится к названию браузера, который вы хотите использовать.
Файл XML будет открыт непосредственно в новой вкладке браузера, и вы сможете прочитать его текстовое содержимое.
Как открыть xml-файл на Mac
Если вы используете Mac и хотите понять, как открыть файл XML, вам не нужно усложнять свою жизнь установкой сложного программного обеспечения. Всё, что вам нужно, это открыть браузер Safari, который, как и любой другой браузер, может легко отображать файлы с этим расширением.
Чтобы открыть файл XML, щелкните правой кнопкой мыши по нему и в контекстном меню выберите пункты Открыть с помощью → Safari. В мгновение ока файл будет открыт с помощью стандартного веб-браузера macOS.
Кроме того, вы можете использовать программное обеспечение для заметок TextEdit, уже предустановленное в macOS. Чтобы открыть файл XML с помощью этого приложения, щелкните файл правой кнопкой мыши и в раскрывающемся меню Открыть с помощью выберите элемент TextEdit. И вот ваш файл открыт.
Как открыть xml-файл в Excel
Если вы обычно используете программное обеспечение пакета Office, вам будет приятно узнать, что некоторые из программ этого набора позволяют открывать файлы XML. Например, Word может отображать содержимое файлов этого типа, делая это также, как я уже показал вам для Блокнота или WordPad.
Даже Excel – популярное программное обеспечение для работы с электронными таблицами – абсолютно точно может отобразить XML-файл. Однако, рассматриваемый файл будет отображаться в виде таблицы XML, а не в виде простого текста, как в случае с Word.
Чтобы открыть xml-файл в Microsoft Excel, запустите программу и в меню «Файл» выберите пункт Открыть → Обзор, чтобы найти нужный XML-файл. В открывшемся диалоговом меню откройте файл в виде таблицы XML, и всё готово! Вы видели, как это было легко? Могу поспорить, вы не думали, что это будет так просто.
Как открыть xml-файл онлайн
Вам важно узнать содержимое файла XML, который вы нашли, но не хотите загружать программное обеспечение? Нет проблем, это не обязательно. Чтобы открыть файлы с расширением .XML, вы можете использовать один из нескольких инструментов онлайн-просмотра.
Вот некоторые интернет-сайты, которые предлагают просмотр файлов XML: это простые в использовании и по-настоящему доступные инструменты.
Codebeautify
Интерфейс XML Viewer невероятно прост и функционален: следуя указаниям, которые вы найдете в следующих строках, вам не составит труда использовать его для просмотра файлов XML.
Сначала нажмите кнопку Browse , чтобы найти файл на вашем ПК или Mac. После выбора нажмите кнопку Открыть в диалоговом окне, чтобы завершить процесс импорта.
На экране XML Input слева вы увидите текст файла, который вы открыли, а на правом экране вы можете увидеть его в соответствии с другими структурами: нажав кнопку просмотра дерева, вы увидите структуру различных тегов и зависимостей; нажав на кнопку Beautify / Format , вы можете просмотреть хорошо отформатированный исходный код, а с помощью кнопки Minify вы можете удалить весь ненужный код.
Кроме того, вы можете экспортировать XML в другие форматы, такие как CSV (Export to CSV) или в JSON (XML to JSON). Если вы хотите внести изменения, вы можете сохранить их, нажав кнопку Download , которая позволяет сохранить новый файл на ПК, всегда в формате XML.
XMLGrid
Как его использовать? Очень просто: сначала зайдите на главную страницу веб-сайта и, как только отобразится соответствующая веб-страница, нажмите Open File и Выберите файл. Очевидно, теперь вам нужно найти XML-файл на вашем компьютере, щелкнуть по нему, а затем по кнопке Открыть в диалоговом окне Windows или macOS, чтобы открыть его. После загрузки нажмите кнопку Submit .
Если всё прошло правильно, файл покажет Well-Formed XML . Затем файл отобразится в нижней панели, и вы можете нажать кнопку TextView , чтобы просмотреть его в полностью текстовом формате.
Среди дополнительных функций этого веб-сайта есть возможность использования таких инструментов, как онлайновые учебники по XML , чтобы узнать, как писать на XML, и онлайн-валидатор XML, чтобы проверить правильность написания.
XMLViewer
Как вы можете догадаться по доменному имени, основная функция заключается в том, чтобы позволить вам просмотреть содержимое файла XML. Сайт делает это очень хорошо и, кроме того, имеет пользовательский интерфейс, который действительно радует глаз.
Чтобы использовать его, перейдите на главную страницу веб-сайта, загрузите файл с помощью кнопки Browse и нажмите кнопку Format .
При желании вы можете отформатировать текст в формат Json, удалить лишний код (кнопка Minify ) и активировать древовидное представление (кнопка Tree View ).
Как открыть xml файл на смартфоне и планшете
Открыть файл XML на смартфоне или планшете Android очень легко. Так как xml-файл, по сути, является текстовым файлом, любой текстовый редактор устройства Android может открыть его. После загрузки файла на устройство, откройте его из файлового менеджера вашего устройства: вы увидите, что он откроется в мгновение ока с помощью инструмента «Текстовый редактор».
Если вы используете устройство iOS, загрузите файл из облачной службы, которую вы использовали, чтобы перенести его на мобильное устройство, например, iCloud. Будучи файлом, содержащим текстовые данные, просто нажмите на него, чтобы просмотреть как обычную текстовую заметку. Как вы уже видели, вам не нужно никакого стороннего приложения, чтобы открывать и просматривать xml-файл.
Как открыть xml файлы в PDF
Хотите открыть файл XML с помощью программного обеспечения для управления PDF? У меня есть решения, которые наверняка могут быть полезны для вас. На самом деле, вы должны знать, что в большинстве случаев XML-файл нельзя открыть напрямую с помощью программного обеспечения PDF, но вы можете преобразовать его.
Хотя существует некоторое программное обеспечение, позволяющее просматривать XML в формате PDF, например, для электронного выставления счетов, в некоторых случаях необходимо сначала выполнить его преобразование. Эта операция возможна с использованием одного из множества решений, проиллюстрированных в предыдущих главах, с помощью фукнции печать в формат PDF. Вы также можете использовать инструменты, которые позволяют выполнить немедленное преобразование XML в PDF.
Как открыть файл xml.p7m
Если вы получили электронный счет в формате XML или XML.P7M, использование одного из инструментов, предложенных в предыдущих главах, не является адекватным решением. Это связано с тем, что предлагаемое программное обеспечение позволяет просматривать текстовое содержимое файла XML без учета их структуры.
В связи с этим вам нужен инструмент, который может открывать этот тип файла, поддерживая структуру и форматирование счета, чтобы правильно его прочитать.
Создал чистую конфу, установил назначение для мобильных, создал справочник номенклатура + 2 реквизита, 2 формы (списка и элемента). Опубликовал ее на IIS. В папке с сайтом появился файли 1cema.xml . Попробовал через браузер - открывается.
Залил на планшетник с андроидом файл 1cem-arm.apk, установил, запустил. Указываю путь до сервера, что то быстро скачивает и .
"Неправильный формат конфигурации".
В моем случае это возникло при одновременном опубликовании мобильного приложения и управляемого приложения.
Выход убрать из публикации управляемое приложение.
Ошибка при обновление конфигурации с сервера мобильной конфигурации "Неправильный формат конфигурации"
Решение:
* Отключить публикацию тонкого клиента
* Повторно опубликовать мобильное приложение
* Перезапустить web сервер
Если в свойствах конфигурации в "Назначении использования" стоит и "Персональный компьютер", и "Мобильное устройство" при попытке опубликовать через Администрирование - Публикация на веб-сервере у меня была такая же ошибка.
Решается вот так:
Одновременно опубликовал через Администрирование/Публикация на веб сервере и в Конфигурация/Мобильное приложение/Публиковать. Помогло отключение публикации в меню Администрирование и публикация исключительно в меню Конфигурация.
(9) Можете по подробнее, описать похожая проблема,делаю все по инструкции вылетает ошибка - Неправильный формат конфигурации. Пробовал другую версию платформу и другую версию мобильной платформы и безрезультатно.
На данный момент версия платформы - 8.3.14.1630, версия мобильной платформы - 8.3.13.45
(10) Изначально публиковал через меню Конфигурация/Мобильное приложение/Публиковать. Что-то не получалось (уже не помню по какой причине). Дальше попробовал опубликовать через Администрирование/Публикация на веб-сервере (не добился нужного результата). Затем в том же Администрировании отключил и всё заработало. Может я еще что-то сделал, что помогло. Т.к. только начинаю осваивать разработку на 1С не смогу точно сориентировать Вас. Моя версия платформы 8.3.13.1513.
(11)Спасибо за ответ, попробую вашу версию платформы. Мое предположение,выгрузка файла xml,не верная.Кроме файла xml, выгружается файл 1cv81.CM
Помог переход с 15й платформы на более младшую.
Разработка на платформе 1С:Предприятие 8.3 (8.3.13.1865)
Сборка на мобильной платформе 8.3 (8.3.13.64).
Добрый день, возникла подобная проблема.
Создавал конфигурацию с нуля, публиковал и ошибка "Неправильный формат конфигурации"
Решил следующим образом:
- Конфигурация/ Мобильное приложение/ Публиковать - убрал галку "Создавать виртуальный каталог на веб-сервере"
- Поставил режим совместимости 8.3.12
- запуск конфигурации версией платформы 8.3.13.1513 (без этого не публиковалось мобильное приложение с режимом совместимости)
После этого размер публикуемого приложения 1cema.xml увеличился с 6 Кб до 36 Кб и ошибка ушла.
Отключил публикацию в Администрирование и сделал через Конфигурация-Мобильное приложение-Публиковать (появился 1 файл в папке: 1cema.xml). Теперь при попытке входа через браузер получаю ошибку: Ошибка при разборе дескриптора виртуальных ресурсов
by reason: Файл не обнаружен 'C:\inetpub\wwwroot\TSDMA\default.vrd'. 2(0x00000002): Не удается найти указанный файл.
При попытке добавить приложение в мобильной платформе получаю ошибку: Ошибка работы с интернет: внутренняя ошибка сервера (500).
Собственно, вопрос: что я делаю не так и что нужно сделать?
Язык XML был изобретен в 1996 году. Едва он успел появиться, как возможности его применения уже начали понимать неправильно, и для тех целей, к которым его пытались адаптировать, он был не лучшим выбором.
Не будет преувеличением сказать, что подавляющее большинство схем XML, которые мне доводилось видеть, представляли собой нецелесообразное или неправильное использование XML. Более того, такое применение XML свидетельствовало о фундаментальном непонимании того, чем прежде всего является XML.
XML — это язык разметки. Это не формат данных. В большинстве схем XML это разграничение явно не учитывали, путая XML с форматом данных, что в итоге означало ошибку в самом выборе XML, поскольку на самом деле нужен был именно формат данных.
Если не вдаваться в детали, XML лучше всего подходит для аннотирования блоков текста со структурой и метаданными. Если вашей главной задачей не является работа с блоком текста, выбор XML вряд ли будет оправдан.
С этой точки зрения существует простой способ проверить, насколько хорошо сделана схема XML. Возьмем для примера документ в предполагаемой схеме и удалим из него все теги и атрибуты. Если в том, что осталось, нет смысла (или если осталась пустая строка), то либо ваша схема построена неправильно, либо вам просто не стоило применять XML.
Далее я приведу несколько наиболее часто встречающихся примеров неправильно построенных схем.
Здесь мы видим пример необоснованной и странной (хоть и весьма распространенной) попытки выразить языком XML простой словарь «ключ-значение». Если удалить все теги и атрибуты, останется пустая строка. По существу данный документ представляет собой, как бы абсурдно это ни звучало, семантическую аннотацию пустой строки.
Что еще хуже, у нас здесь не просто семантическая аннотация пустой строки как экстравагантный способ выражения словаря — на этот раз «словарь» напрямую закодирован в виде атрибутов корневого элемента. Из-за этого заданный набор имен атрибутов на элементе становится неопределенным и динамическим. Более того, отсюда видно, что все, что на самом деле хотел выразить автор, — это простой синтаксис «ключ-значение», но вместо этого он принял абсолютно странное решение применить XML, принудительно задавая использование одиночного пустого элемента просто в качестве префикса для использования синтаксиса атрибутов. И такие схемы попадаются мне очень часто.
Это уже кое-что получше, но теперь ключи по какой-то причине являются метаданными, а значения — нет. Весьма странный взгляд на словари. Если удалить все теги и атрибуты, будет потеряна половина информации.
Правильное выражение словаря в XML будет выглядеть приблизительно так:
Но если люди приняли странное решение применять XML как формат данных и затем с помощью него упорядочивать словарь, то они должны понимать, что то, что они делают неуместно и не удобно. Еще часто проектировщики ошибочно выбирают XML для создания своих приложений. Но еще чаще они усугубляют ситуацию бессмысленным применением XML в одной из описанных выше форм, игнорируя тот факт, что XML для этого просто не подходит.
Самая худшая схема XML? Кстати, приз за самую худшую схему XML, которую мне доводилось видеть, получает формат файла конфигурации автоматического выделения ресурсов для телефонов IP-телефонии Polycom. Такие файлы требуют загрузки XML-файлов запроса по TFTP, которые… В общем, вот отрывок из одного такого файла:
Это не чья-то неудачная шутка. И это не моя выдумка:
- элементы просто используются как префикс для прикрепления атрибутов, которые сами по себе имеют иерархические имена.
- Если нужно приписать значения нескольким экземплярам записи определенного вида, для этого необходимо использовать имена атрибутов, в которых есть индексы.
- Кроме этого, атрибуты, начинающиеся с softkey. , нужно помещать на элементы , атрибуты, начинающиеся с feature. , нужно помещать на элементы и т. д., несмотря на то, что это выглядит совершенно излишним и на первый взгляд бессмысленным.
- И, наконец, если вы надеялись, что первый компонент имени атрибута всегда совпадает с именем элемента — ничего подобного! Например, атрибуты up. должны прикрепляться к . Порядок прикрепления имен атрибутов к элементам — произвольный, причем практически полностью.
Разобраться в этом поможет понятие разницы между документами и данными. В качестве аналога XML можно условно взять машиночитаемый документ. Хоть он и предназначен для считывания машиной, метафорически он относится к документам, и с этой точки зрения фактически является сопоставимым с документами формата PDF, которые чаще всего не являются машиночитаемыми.
К примеру, в XML имеет значение порядок элементов. А в JSON порядок следования пар «ключ-значение» внутри объектов не имеет смысла и не определен. Если вы хотите получить неупорядоченный словарь из пар «ключ-значение», фактический порядок, в котором следуют элементы в этом файле, не имеет значения. Но вы можете сформировать из этих данных много разных документов, поскольку в документе есть определенный порядок. Метафорически это аналог документа на бумаге, хоть он и не имеет физических размеров в отличие от распечатки или файла PDF.
В моем примере правильного представления словаря на языке XML показан порядок следования элементов в словаре, в отличие от представления на языке JSON. Я не могу игнорировать этот порядок: такая линейность изначально свойственна модели документов и формату XML. Кто-то при интерпретации этого XML-документа может решить проигнорировать порядок, но спорить по этому поводу бессмысленно, поскольку данный вопрос выходит за рамки обсуждения собственно формата. Более того, если сделать документ просматриваемым в браузере, прикрепив к нему каскадную таблицу стилей, можно будет увидеть, что элементы словаря следуют в определенном порядке, и ни в каком другом.
Другими словами, словарь (фрагмент структурированных данных) может быть преобразован в n различных возможных документов (в формате XML, PDF, на бумаге и т. п.), где n — количество возможных комбинаций элементов в словаре, и это мы еще не учли другие возможные переменные.
Вместе с тем из этого также следует, что если вы хотите передать одни только данные, то использовать для этого машиночитаемый документ будет не эффективно. В нем используется модель, которая в этом случае лишняя, она будет только мешать. К тому же, для того чтобы извлечь исходные данные, необходимо будет написать программу. Вряд ли есть смысл использовать XML для чего-то такого, что на определенном этапе не будет форматироваться в виде документа (скажем, с помощью CSS или XSLT, либо и того, и другого), поскольку это главная (если не единственная) причина для того, чтобы придерживаться модели документа.
Более того, поскольку в XML нет понятия чисел (или булевых выражений, либо других типов данных), все представленные в этом формате числа считаются лишь дополнительным текстом. Для извлечения данных должна быть известна схема и ее связь с соответствующими выражаемыми данными. Также необходимо знать, когда исходя из контекста тот или иной элемент текста представляет собой число, и его следует преобразовывать в число, и т. д.
Таким образом, процесс извлечения данных из документов XML не так уж сильно отличается от процесса распознавания отсканированных документов, содержащих, например, таблицы, образующие множество страниц численных данных. Да, сделать это в принципе возможно, но это не самый оптимальный путь, — разве что в крайнем случае, когда совсем нет других вариантов. Разумным решением будет просто найти цифровую копию оригинальных данных, не заложенных в модель документа, в которой данные объединены с их конкретным текстовым представлением.
При этом меня совсем не удивляет, что XML популярен в бизнесе. Причина этого именно в том, что формат документов (на бумаге) понятен и привычен для бизнеса, и там хотят продолжать пользоваться знакомой и понятной моделью. По той же самой причине в бизнесе слишком часто используют документы в PDF вместо более удобных для машинной обработки форматов — потому что они по-прежнему привязаны к понятию печатной страницы с определенным физическим размером. Это касается даже тех документов, которые вряд ли когда-нибудь будут распечатываться (например, PDF-файл документации реестра из 8000 страниц). С этой точки зрения использование XML в бизнесе по сути — проявление скевоморфизма. Людям понятна метафорическая идея печатной страницы ограниченного размера, и они понимают, как создавать бизнес-процессы на основе печатных документов. Если это ваш ориентир, документы без ограниченного физического размера, являющиеся машиночитаемыми — документы XML — представляют собой инновацию, являясь при этом знакомым и комфортным аналогом документа. Что не мешает им оставаться неверным и излишне скевоморфичным способом представления данных.
На сегодняшний день единственными известными мне схемами XML, которые я действительно могу назвать правильным применением этого формата, являются XHTML и DocBook.
Читайте также: