Как убрать xml в ворде
Я хочу программно вставить некоторые значения базы данных в документ. Для этого я набрал простой текст, как [[место 1]] в точках, где моя программа должна заменить заполнители своими значениями базы данных.
к сожалению, вывод XML находится в некотором беспорядке. Например. У меня столик на двоих. соседние клетки, которые не должны отличаться от своего заполнителя. Но один из заполнителей разделен в несколько заходов.
[[хороший место]]
и [[плохое место]]
есть ли возможность позволить Microsoft Word очистить мой документ, чтобы все владельцы мест были хороши для идентификации в сгенерированном XML?
Я нашел решение: Упрощитель разметки Open XML PowerTools.
Я выполнил шаги, описанные в http://ericwhite.com/blog/2011/03/09/getting-started-with-open-xml-powertools-markup-simplifier/, но это не сработало 1: 1 (может быть, потому, что теперь это версия 2.2 Power Tools?). Итак, я собрал PowerTools 2.2 в режиме "Release" и сделал ссылку на OpenXmlPowerTools.dll файлы в моем TestMarkupSimplifier.csproj файл. в программе.cs я только изменил путь к моему файлу DOCX. Я запустил программу один раз, и теперь мой документ кажется довольно чистым.
код цитируется из блога Эрика по ссылке выше:
вам нужно избавиться от информации Rsid. Согласно этому страница информация Rsid
позволяет слияние двух документов, которые раскошелились.
вам нужно установить для того, чтобы запустить пример кода ниже. Самый простой способ сделать это-запустить следующее В консоли диспетчера пакетов
затем вы будете настроены на выполнение следующего кода. (Предполагая, что у вас уже есть "Испытание.docx " файл добавлен в ваш документ. При использовании Visual Studio необходимо убедиться, что копия файла находится в папке Debug или Release в соответствии с режимом сборки.)
это удалит информацию Rsid, которая может мешать в процессе манипулирования файлами Word.
для тех, кто ищет ручное непрограммное решение:
Я проверил, что бесплатная пробная версия memoQ 2014 действительно может использоваться в качестве громоздкого обходного пути для очистки тегов заклинаний Word.
Примечание по безопасности: Карта XML и сведения об источнике данных сохраняются вместе с книгой, а не с определенными данными. Злоумышленник может просмотреть эту потенциально конфиденциальную карту с Visual Basic для приложений (VBA). Кроме того, если сохранить книгу в файле формата Open XML Excel с поддержкой макроса, данные карты можно будет просмотреть в Microsoft Блокнот или с помощью другой программы редактирования текста.
Удаление определения источника данных карты XML из книги
Если вы хотите и дальше использовать данные карты, но удалить конфиденциальные сведения об источнике данных, можно удалить из книги определение источника данных схемы XML. В этом случае вы все равно можете экспортировать данные XML.
Эта процедура окончательно удаляет текущее определение источника данных из карты XML.
Щелкните ячейку, чтобы выбрать карту XML.
Если вкладка Разработчик недоступна, выполните указанные ниже действия, чтобы открыть ее.
На вкладке Файл нажмите кнопку Параметры > Настроить ленту.
Выберите разработчик.
На вкладке Разработчик нажмите кнопку Свойства карты.
В диалоговом окне Свойства карты XML в поле Источник данныхснимите флажок Сохранить определение источника данных в книге.
Этот вариант выбран по умолчанию. При удалении этого параметра данные с этого таблицы не удаляются.
Важно: Определение источника данных содержит сведения о под соединении импортируемых данных XML. Если удалить эти данные, другие люди не смогут просматривать их, но вы все равно можете экспортировать данные в XML-файл. Однако при повторном переимпорте файла данных XML определение источника данных будет снова сохранено вместе с ним.
Удаление карты XML из книги
При удалении таблицы XML данные карты, а также источники данных и, возможно, другие конфиденциальные сведения сохраняются в книге. При обновлении книги для удаления конфиденциальных данных обязательно удалите карту XML перед удалением этого таблицы, чтобы окончательно удалить данные карты из книги.
Если вкладка Разработчик недоступна, выполните указанные ниже действия, чтобы открыть ее.
На вкладке Файл нажмите кнопку Параметры > Настроить ленту.
Выберите разработчик.
На вкладке Разработчик в группе XML нажмите кнопку Источник.
В области задач Источник XML выберите пункт Карты XML.
Отобразилось Карты XML-диалоговое окно.
Выберите карту XML, которую вы хотите удалить.
Примечание: При удалении карты XML удаляется только карта XML и не удаляются данные, с которые в данный момент соелась карта XML.
Дополнительные сведения
Вы всегда можете задать вопрос специалисту Excel Tech Community или попросить помощи в сообществе Answers community.
Рассмотрим следующую ситуацию. Вы пытаетесь открыть в Microsoft Office Word 2010 документ одного из следующих форматов:
документ Word (DOCX);
документ Word с включенной поддержкой макросов (DOCM);
шаблон Word (DOTX);
шаблон Word с включенной поддержкой макросов (DOTM);
XML-документ Word (XML);
XML-документ Word 2003 (XML);
После открытия документа вы получаете уведомление, что вся настраиваемая разметка XML в документе удалена.
Дополнительная информация
Версии Word, выпущенные Майкрософт после 10 января 2010 г., больше не могут считывать настраиваемую XML-разметку в файлах DOCX, DOCM, DOTX, DOTM и XML. Версия Word 2010 может открывать такие файлы, но при этом настраиваемая XML-разметка удаляется.
Настраиваемая XML-разметка в документе Word отображается в виде розовых (по умолчанию) тегов, в которые заключен текст в документе:
Настраиваемая XML-разметка удаляется согласно решению суда США, вынесенному 22 декабря 2009 г. Клиенты, приобретшие Word 2010 или получившие его по лицензии, обнаружат, что в это программное обеспечение не включена поддержка настраиваемой разметки XML.
Действие данного исправления не распространяется на следующие функции Word:
Не затрагиваются элементы управления содержимым. Элементы управления содержимым — распространенное средство структуризации содержимого документа и его сопоставления с настраиваемыми элементами XML.
Не затрагиваются открытые стандарты XML (все версии ECMA и ISO).
Не затрагивается настраиваемая XML-разметка в документах Word 97-2003 (DOC).
Не затрагивается XML ленты и расширения ленты.
Не затрагиваются настраиваемые XML-части. Дополнительные сведения о настраиваемых XML-частях см. на следующем веб-сайте MSDN:
Не затрагивается объектная модель Word. При этом некоторые ее методы, работающие с настраиваемой XML-разметкой, могут давать непредвиденные результаты.
Метод TransformDocument продолжит работать, но вся настраиваемая XML-разметка в результатах преобразования будет удалена.
Метод InsertXML продолжит работать, но вся настраиваемая XML-разметка будет удалена перед вставкой содержимого.
Примечание. Если вы разработали решение, использующее настраиваемую XML-разметку, учтите, что она больше не поддерживается. Многие сценарии, реализуемые с помощью настраиваемой XML-разметки, можно реализовать с помощью альтернативных технологий в Word 2007 и Word 2010, например элементов управления содержимым, полей форм и закладок. Так, перечисленные далее статьи описывают, как элементы управления содержимым (наряду с такими технологиями, как закладки) позволяют разработчикам создавать структурированные документы и могут использоваться для задания определенных значений структурированному содержимому. Эти произвольные значения могут задавать семантический смысл элементам содержимого.
Дополнительные сведения об элементах управления содержимым см. на следующем веб-сайте Майкрософт:
Ссылки
Возможности конвертирования с помощью Word Converter:
Конвертирование файлов в формат Adobe PDF File (*.PDF): Word to PDF, Word 2007 to PDF, Html to PDF, Htm to PDF, TXT to PDF, RTF to PDF, CSS to PDF, XML to PDF, BMP to PDF, JPG to PDF, JPEG to PDF, PNG to PDF, GIF to PDF, WMF to PDF, TIF to PDF, DOC to PDF, DOCX to PDF;
Конвертирование файлов в формат Word 2007 (*.docx): Word to DOCX, Word 2007 to DOCX, Html to DOCX, Htm to DOCX, TXT to DOCX, RTF to DOCX, CSS to DOCX, XML to DOCX, BMP to DOCX, JPG to DOCX, JPEG to DOCX, PNG to DOCX, GIF to DOCX, WMF to DOCX, TIF to DOCX, DOC to DOCX, DOCX to DOCX;
Конвертирование файлов в формат Word 97-2003 (*.doc): Word to DOC, Word 2007 to DOC, Html to DOC, Htm to DOC, TXT to DOC, RTF to DOC, CSS to DOC, XML to DOC, BMP to DOC, JPG to DOC, JPEG to DOC, PNG to DOC, GIF to DOC, WMF to DOC, TIF to DOC, DOC to DOC, DOCX to DOC;
Конвертирование файлов в форматы Html и Htm: Word to Htm Html, Word 2007 to Htm Html, Html to Htm Html, Htm to Htm Html, TXT to Htm Html, RTF to Htm Html, CSS to Htm Html, XML to Htm Html, BMP to Htm Html, JPG to Htm Html, JPEG to Htm Html, PNG to Htm Html, GIF to Htm Html, WMF to Htm Html, TIF to Htm Html, DOC to Htm Html, DOCX to Htm Html;
Конвертирование файлов в формат RTF: Word to RTF, Word 2007 to RTF, Html to RTF, Htm to RTF, TXT to RTF, RTF to RTF, CSS to RTF, XML to RTF, BMP to RTF, JPG to RTF, JPEG to RTF, PNG to RTF, GIF to RTF, WMF to RTF, TIF to RTF, DOC to RTF, DOCX to RTF;
Конвертирование файлов в формат TXT: Word to TXT, Word 2007 to TXT, Html to TXT, Htm to TXT, TXT to TXT, RTF to TXT, CSS to TXT, XML to TXT, BMP to TXT, JPG to TXT, JPEG to TXT, PNG to TXT, GIF to TXT, WMF to TXT, TIF to TXT, DOC to TXT, DOCX to TXT;
Конвертирование файлов в формат XML: Word to XML, Word 2007 to XML, Html to XML, Htm to XML, TXT to XML, RTF to XML, CSS to XML, XML to XML, BMP to XML, JPG to XML, JPEG to XML, PNG to XML, GIF to XML, WMF to XML, TIF to XML, DOC to XML, DOCX to XML;
Конвертирование файлов в формат CSS: Word to CSS, Word 2007 to CSS, Html to CSS, Htm to CSS, TXT to CSS, RTF to CSS, CSS to CSS, XML to CSS, BMP to CSS, JPG to CSS, JPEG to CSS, PNG to CSS, GIF to CSS, WMF to CSS, TIF to CSS, DOC to CSS, DOCX to CSS.
Мне все решения, которые здесь предлагались, не помогли, если честно. Зато я придумал собственный способ, разрешивший мою проблему!) Просто скачал заново файл, но уже не в архиве (с xml-файлами), а в нужном мне формате, в каком файл изначально создавался (в моём конкретном случае) -- в docx. И после этого открылся нормально)
Метаданные (metadata) - это служебная информация, которая хранится наряду с полезной информацией и обычно не отображается пользователю. Метаданные обычно включают в себя:
- информацию об авторе документа;
- информацию об используемом редакторе и плагинах;
- дату и время создания/изменения документа и т.д.
Как можно использовать метаданные?
В общем случае метаданные не приводят к разглашению чувствительной информации, однако обычно они широкодоступны (в том числе и для автоматизированного анализа) и могут послужить прекрасной базой для сбора информации об объекте исследования.
Частенько метаданные так же позволяют выявить настоящего автора документа, что порой бывает полезно в межкорпоративной переписке.
С помощью метаданных можно, к примеру, собрать сведения о сотрудниках организации или имена пользователей домена. Для этого бывает достаточно загуглить запрос site: filetype:doc (вместо doc можно использовать ещё docx, xls, xlsx, pdf), скачать найденные документы и проанализировать содержащиеся в них метаданные.
Как извлечь метаданные из документов Word?
Кроме того новый формат документов Word - .docx - представляет собой zip архив с набором XML файлов. Переименовав документ в .zip, его можно открыть любым архиватором и просмотреть файлы вручную в текстовом редакторе в поисках метаданных.
Старый формат документов MS Office - .doc - позволяет иногда вытянуть из документа пути (в которых могут быть и имена пользователей) и версии используемого ПО (может использоваться для подбора нужного эксплоита). Для этого нужно открыть документ не двойным щелчком, а через меню Фаил - Открыть, указав "Восстановить текст из любого файла".
Как убрать метаданные из документов Word?
Инспектор сканирует документ и удаляет из него выбранные категории метаданных. К сожалению сделать запуск инспектора обязательным или автоматическим невозможно (что странно, учитывая любовь Микрософта к навязыванию пользователям своих представлений о безопасности).
With ActiveDocument
.RemoveDocumentInformation (wdRDIVersions)
.RemoveDocumentInformation (wdRDIRemovePersonalInformation)
.RemoveDocumentInformation (wdRDIEmailHeader)
.RemoveDocumentInformation (wdRDIRoutingSlip)
.RemoveDocumentInformation (wdRDISendForReview)
.RemoveDocumentInformation (wdRDIDocumentProperties)
.RemoveDocumentInformation (wdRDITemplate)
.RemoveDocumentInformation (wdRDIInkAnnotations)
.RemoveDocumentInformation (wdRDIDocumentServerProperties)
.RemoveDocumentInformation (wdRDIDocumentManagementPolicy)
.RemoveDocumentInformation (wdRDIContentType)
End With
' save as
Set fd = Application.FileDialog(msoFileDialogSaveAs)
With fd
If .Show Then
ActiveDocument.SaveAs2 FileName:=.SelectedItems(1), FileFormat:=wdNormal
End If
End With
Set fd = Nothing
Application.ScreenUpdating = True
End Sub
О категориях метаданных, которые будут очищены, можно почитать в справке msdn . Я не стал удалять все категории метаданных. Оставил исправления и комментарии, т.к. они все равно всегда на виду и забыть их убрать перед публикацией сложно.
Сохраняем и создаем удобный ярлычок
Теперь каждый раз перед публикацией документа достаточно его открыть, щелкнуть иконку на панели быстрого доступа и сохранить очищенный документ под новым именем.
Один хакер может причинить столько же вреда, сколько 10 000 солдат! Подпишись на наш Телеграм канал, чтобы узнать первым, как выжить в цифровом кошмаре!
Читайте также: