Достать текст из ворда
Есть ли разумный способ извлечь простой текст из файла Word, не зависящий от автоматизации COM? (Это функция для веб-приложения, развернутого на платформе, отличной от Windows - в данном случае это не подлежит обсуждению.)
Antiword кажется разумным вариантом, но, похоже, от него можно отказаться.
Решение Python было бы идеальным, но, похоже, недоступно.
В этой статье мы расскажем о хитростях и советах по Python, которые должны быть известны разработчику Python.
В одном из недавних постов я рассказал о том, как я использую навыки количественных исследований, которые я совершенствую в рамках программы TPQ.
Вы когда-нибудь хотели поделиться с кем-то файлом, но он содержал конфиденциальную информацию? Многие думают, что электронная почта безопасна, но это.
Недавно я столкнулся с интересной бизнес-задачей - визуализацией сбоев в цепочке поставок лекарств, которую могут просматривать врачи и.
Ответы 10
Открытый офис имеет API
Мне удалось это сделать с помощью OpenOffice API, Python и Отличная онлайн-макро книга Андрея Питоняка. Раздел 7.16.4 - это место для начала.
Еще один совет, чтобы заставить его работать без необходимости экрана вообще, - использовать свойство Hidden:
В противном случае документ всплывает на экране (возможно, на консоли веб-сервера), когда вы его открываете.
Я использую для этого catdoc или antiword, независимо от того, что дает результат, который легче всего проанализировать. Я встроил это в функции Python, поэтому его легко использовать из системы синтаксического анализа (которая написана на Python).
Переключатель -w в catdoc отключает перенос строк, BTW.
Для файлов docx ознакомьтесь с Python-скриптом docx2txt, доступным по адресу
для извлечения простого текста из документа docx.
Используйте собственный модуль Python docx, который я сделал на этой неделе. Вот как извлечь весь текст из документа:
Большое спасибо за создание этой библиотеки. Я знаю, что вы разместили это 3 года назад, но есть ли способ преобразовать документ DOCX в HTML с помощью вашей библиотеки? Ваше здоровье
@mikemaccana может ли он также анализировать файлы .doc (не .docx)?
О файлах .doc спрашивайте как отдельный вопрос.
Если все, что вам нужно, - это извлекать текст из файлов Word (.docx), это можно сделать только с помощью Python. Как и написал Гай Старбак, вам просто нужно разархивировать файл, а затем проанализировать XML. Вдохновленный python-docx , я написал для этого простая функция:
Отличный код! Небольшое замечание о вашем блоге, если бы фон кода не был черным, он был бы более читабельным.
О, спасибо за комментарий. Проблема в том, что я немного «взломал» Github CSS, чтобы цвета соответствовали моему сайту. Но когда Github вносит изменения в свой CSS, мне приходится снова исправлять мою таблицу стилей, как сейчас. Не уверен, что сохраню этот подход .
Он вызывает openoffice в командной строке для преобразования файла в текст, который затем можно просто загрузить в python.
(Кажется, есть другие варианты формата, хотя они явно не задокументированы.)
openoffice и libreoffice плохо справляются с форматами MS.
тика-питон
Порт Python библиотеки Apache Tika. Согласно документации, Apache tika поддерживает извлечение текста из более чем 1500 форматов файлов.
Примечание: Также прекрасно работает с pyinstaller
Установить с помощью pip:
Образец:
Ссылка на официальный GitHub
Я пробовал ваш пример, и кажется, что он пытается загрузить и запустить файл Java .jar : "Retrieving search.maven.org/remotecontent?filepath=org/apache/tika/…"
Выполните следующие действия. 1. Вы можете вручную загрузить tika из здесь 2. Затем откройте tika.py из папки \ Lib \ site-packages \ tika и замените TikaJarPath = os.getenv ('TIKA_PATH', "path \ to \ tika-server. jar \ folder ") TikaJarPath = os.getenv('TIKA_PATH', "F:\Projects\python\tika")
Dhinesh kumar M
Dhinesh kumar M
Честно говоря, не используйте "pip install tika" ", это было разработано для монопользователя (один разработчик работает на своем ноутбуке), а не для многопользовательских (многопользовательских).
Небольшой класс TikaWrapper.py ниже, который использует Tika в командной строке, достаточно широко, чтобы удовлетворить наши потребности.
Вам просто нужно создать экземпляр этого класса с помощью пути JAVA_HOME и пути к банке Tika, вот и все! И он отлично работает со многими форматами (например, PDF, DOCX, ODT, XLSX, PPT и т. д.).
Используйте форматы DOC и Текст по максимуму. Мы предоставляем бесплатный Конверте DOC в текст. Наше онлайн-приложение создает TXT из DOC с высокой скоростью и профессиональным качеством. Алгоритм преобразования позволяет конвертировать DOC во многие популярные файловые форматы.
Поиск файлов автовосстановления
- C:\Users\AppData\Roaming\Microsoft\Word
- C:\Users\AppData\Local\Microsoft\Office\UnsavedFiles
Примечание. В этих путях замените UserName> на имя пользователя.
Если вам не удалось найти отсутствующий файл в этих расположениях, откройте Word и выберите Файл > Сведения > Управление документом > Восстановить несохраненные документы.
Если файл так и не был найден, попробуйте выполнить поиск файлов автовосстановления вручную. Для этого нажмите кнопку Пуск, введите .asd в поле поиска, затем нажмите клавишу ВВОД.
Если вам удалось найти файлы с расширением .asd, выполните следующие действия:
- Откройте Word и выберите Файл >Открыть >Обзор.
- В списке Тип файлов справа от имени файла выберите Все файлы.
- Щелкните правой кнопкой мыши найденный файл резервной копии, затем нажмите Открыть.
Если файлы с расширением .asd отсутствуют, перейдите к следующему методу.
Как бесплатно конвертировать DOCX в текст?
Просто воспользуйтесь нашим онлайн Конвертером DOCX в текст. Это быстро, просто и совершенно бесплатно.
Вопросы-Ответы
Сколько DOCX я могу преобразовать в текст за раз?
Вы можете конвертировать одновременно до 10 DOCX файлов.
Какими способами я могу получить готовый результат в текст?
Как конвертировать DOC в текст
Каков максимально допустимый размер DOCX для конвертирования?
Размер каждого DOCX не должен превышать 10 MB.
Поиск временных файлов
Имена временных файлов имеют расширение .tmp. Чтобы найти эти файлы, выполните следующие действия:
Закрыто. Этот вопрос не соответствует правилам переполнения стека . В настоящее время ответы не принимаются.
Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме переполнения стека.
Закрыт 6 лет назад .
Кто-нибудь знает что-нибудь, что они могут порекомендовать, чтобы извлечь только простой текст из .doc или .docx ?
Я нашел это - интересно, были ли какие-либо другие предложения?
Если у нас есть, Software Recommendations почему не передать сюда? Я также ищу программное обеспечение для подобных задач и не нашел лучшего ответа. Но мог бы порекомендовать pandoc как лучшее решение, которое даже таблицы конвертирует правильно. Поэтому я предлагаю вновь открыть вопрос.
Вы, очевидно, не на Mac, но если бы вы были, вы могли бы использовать «textutil» в командной строке, чтобы быстро получить простой текст из различных типов проприетарных документов.
Если вам нужен чистый простой текст (мое требование), то все, что вам нужно, это
Он распаковывает файл docx и получает фактический документ, а затем удаляет все теги xml. Очевидно, что все форматирование потеряно.
Мне нравится эта команда, но часто символы новой строки все еще являются полезными данными для окончательной версии. Поэтому вместо этого я использовал следующую команду: unzip -p document.docx word/document.xml | sed -e 's//\n/g; s/<[^>]\>//g; s/[^[:print:]\n]\//g' Обратите внимание на дополнительный аргумент sed, заменяющий XML-представления новых строк фактическим символом новой строки, и я отредактировал последний аргумент sed, чтобы он не удалял символы новой строки. Это делает приведенную выше команду гораздо более полезной для сравнения документов Word.\>
Спасибо Роб! @Jeff: Я согласен, но на практике для меня лучше работает следующая команда: unzip -p document.docx word/document.xml | sed -e 's// /g; с/<[^>]\>/ /г; с/[^[:print:]]\/ /g'\>
@einpoklum первый бит команды получает необработанный xml, так что все будет работать нормально. второй бит получает все строки тегов xml, которые отсутствуют, и разделяет их новой строкой. Так что до тех пор, пока sed не вырвет эзотерические наборы символов, все будет в порядке. Пожалуйста, напишите ответ, если вы обнаружите, что это не так.
Как долго мои файлы будут храниться на ваших серверах?
Пользовательские файлы хранятся на серверах Aspose 24 часа. По истечении этого времени ваши файлы будут автоматически удалены.
Лучший бесплатный конвертер DOCX в текст
Конвертировать DOCX в текст высочайшего качества в любом браузере. Вам не нужно устанавливать какое-либо дополнительное программное обеспечение, такое как Microsoft Word, OpenOffice или Acrobat Reader. Попробуйте прямо сейчас конвертировать DOCX в текст онлайн. Вы можете использовать его совершенно бесплатно.
Другие поддерживаемые конвертации
Вы также можете конвертировать Word в другие форматы файлов. См. полный список ниже.
Вы можете попытаться восстановить несохраненный документ Word с помощью:
Для получения информации о том, как восстановить последние файлы Office, см. следующие статьи:
Если вы не можете открыть документ или содержимое документа повреждено, см. раздел Устранение неполадок, связанных с поврежденными документами в Word.
Чтобы найти потерянный документ, выполните следующие действия:
Как конвертировать DOCX в текст
Проверка корзины
Если вы удалили документ Word, не очищая корзину, возможно, вы сможете восстановить документ.
- Дважды щелкните значок корзины на рабочем столе.
- Просмотрите список документов с целью поиска удаленного документа Word. Если вы не знаете имя файла, выполните поиск типов файлов, таких как .doc, .docx и .dot.
- Если вы нашли нужный файл Word, щелкните правой кнопкой мыши имя файла и выберите Восстановить, чтобы восстановить файл.
Если вам не удалось найти нужный файл, перейдите к следующему методу.
Cредство восстановления файлов Windows
Если вы используете Windows 10 версии 2004 или более поздней версии, вы можете воспользоваться средством восстановления файлов Windows. Средство восстановления файлов Windows доступно в Microsoft Store. Вы можете использовать его для восстановления файлов, которые были окончательно удалены. Для получения дополнительной информации об этом средстве см. раздел Восстановление потерянных файлов в Windows 10.
Восстановление документов, сохраненных в SharePoint и OneDrive
Дополнительные сведения о документах, сохраненных или синхронизированных с SharePoint, см. в разделе Восстановление элементов, удаленных из корзины SharePoint или Teams.
Дополнительные сведения о документах, сохраненных или синхронизированных с OneDrive, см. в разделе Восстановление удаленных файлов или папок в OneDrive.
Чтобы найти отсутствующее содержимое или более новую версию, выполните следующие действия:
Word предпринимает различные действия для защиты изменений в документах Word:
Если Word открывает документ из SharePoint или OneDrive, программа использует автосохранение для сохранения изменений в «облачном» документе. Рекомендуется оставить для функции автосохранения установленное значение On.
Если Word открывает документ с локального диска или из общей сетевой папки, Word использует автовосстановление для сохранения изменений в файле автовосстановления. Интервал сохранения для автовосстановления по умолчанию составляет 10 минут. Рекомендуется оставить для функции восстановления установленное значение On.
Почему конвертирование DOCX в текст длится так долго?
Конвертирование объёмных DOCX файлов в текст формат, особенно с большим количеством мелких деталей, иногда может занять некоторое время, так как оно связано с перекодированием и повторным сжатием данных.
Поиск файлов резервного копирования Word
Имена файлов резервной копии Word имеют расширение .wbk. Если вы выбрали в Word параметр «Всегда создавать резервную копию», возможно, существует резервная копия файла.
Чтобы проверить, включен ли этот параметр, выберите Файл > Параметры > Дополнительно, прокрутите вниз к разделу Сохранение , затем нажмите Всегда создавать резервную копию.
- C:\Users\AppData\Roaming\Microsoft\Word
- C:\Users\AppData\Local\Microsoft\Office\UnsavedFiles
Примечание. В этих путях замените UserName> на имя пользователя.
Чтобы найти резервную копию файла, нажмите Пуск, введите .wbk в поле поиска, затем нажмите клавишу ВВОД. Если вы обнаружите файлы с именем «Резервная копия», за которым следует имя отсутствующего файла, дважды щелкните имя файла, чтобы открыть его.
Если вам не удалось найти файл резервной копии для документа, перейдите к следующему методу.
LibreOffice
Один из вариантов — libreoffice /openoffice в автономном режиме (сначала убедитесь, что все остальные экземпляры libreoffice закрыты):
Поскольку синтаксис командной строки openoffice слишком сложен, есть удобная оболочка, которая может упростить процесс: unoconv .
Каков максимально допустимый размер DOC для конвертирования?
Размер каждого DOC не должен превышать 10 MB.
Сколько DOC я могу преобразовать в текст за раз?
Вы можете конвертировать одновременно до 10 DOC файлов.
Выполните поиск документов Word
Попробуйте найти документ в Windows:
- Нажмите Пуск, введите имя документа (в Windows 8.1 введите имя документа в поле поиска), затем нажмите клавишу ВВОД.
- Если список документов (или список файлов в Windows 8.1) содержит документ, дважды щелкните его, чтобы открыть в Word.
Если результаты поиска не содержат файл, перейдите к следующему методу.
Сохранить DOCX как текст с высокой скоростью
Преобразование DOCX выполняется быстро и удобно. Выполните следующие простые шаги, чтобы преобразовать DOCX файл в текст формат. Чтобы преобразовать DOCX в текст, перетащите Word в поле загрузки, укажите параметры преобразования и нажмите кнопку КОНВЕРТИРОВАТЬ. Посмотрите, как ваше DOCX превратится в TXT в течение минуты. Выходное содержимое и форматирование будут идентичны исходному документу.
Мои файлы находятся в полной безопасности?
Компания Aspose уделяет особое внимание вопросам информационной безопасности. Вы можете быть уверены, что ваши файлы хранятся на безопасных серверах и надежно защищены от несанкционированного доступа.
Какими способами я могу получить готовый результат в текст?
Сохранить DOC как текст с высокой скоростью
Преобразование DOC выполняется быстро и удобно. Выполните следующие простые шаги, чтобы преобразовать DOC файл в текст формат. Чтобы преобразовать DOC в текст, перетащите DOC в поле загрузки, укажите параметры преобразования и нажмите кнопку КОНВЕРТИРОВАТЬ. Посмотрите, как ваше DOC превратится в TXT в течение минуты. Выходное содержимое и форматирование будут идентичны исходному документу.
Лучший бесплатный конвертер DOC в текст
Конвертировать DOC в текст высочайшего качества в любом браузере. Вам не нужно устанавливать какое-либо дополнительное программное обеспечение, такое как Microsoft Word, OpenOffice или Acrobat Reader. Попробуйте прямо сейчас конвертировать DOC в текст онлайн. Вы можете использовать его совершенно бесплатно.
Почему конвертирование DOC в текст длится так долго?
Конвертирование объёмных DOC файлов в текст формат, особенно с большим количеством мелких деталей, иногда может занять некоторое время, так как оно связано с перекодированием и повторным сжатием данных.
Как долго мои файлы будут храниться на ваших серверах?
Пользовательские файлы хранятся на серверах Aspose 24 часа. По истечении этого времени ваши файлы будут автоматически удалены.
Apache ТОГДА
Другим вариантом является Apache POI — хорошо поддерживаемая библиотека Java, которая, в отличие от Antiword, может читать, создавать и преобразовывать .doc , .docx , .xls , .xlsx , файлы .ppt . .pptx
Вот простейший возможный код Java для преобразования документа .doc или .docx в обычный текст:
ПРИМЕЧАНИЕ. Вам нужно будет добавить библиотеки apache poi в путь к классам. В ubuntu/debian библиотеки можно установить с помощью sudo apt-get install libapache-poi-java — это установит их под /usr/share/java . Для других систем вам нужно скачать библиотеку и распаковать архив в папку, которую вы должны использовать вместо /usr/share/java . Если вы используете maven/gradle (рекомендуемый вариант), включите зависимости org.apache.poi , как показано во фрагменте кода.
Один и тот же код будет работать для обоих , .doc а .docx требуемая реализация преобразователя будет выбрана путем проверки двоичного потока.
Скомпилируйте приведенный выше класс (при условии, что он находится в пакете по умолчанию, а банки apache poi находятся под /usr/share/java ):
Клонируемый проект Gradle, который извлекает все необходимые зависимости и генерирует сценарий оболочки-оболочки (с расширением gradle installDist ).
Мои файлы находятся в полной безопасности?
Компания Aspose уделяет особое внимание вопросам информационной безопасности. Вы можете быть уверены, что ваши файлы хранятся на безопасных серверах и надежно защищены от несанкционированного доступа.
Как бесплатно конвертировать DOC в текст?
Просто воспользуйтесь нашим онлайн Конвертером DOC в текст. Это быстро, просто и совершенно бесплатно.
Другие поддерживаемые конвертации
Вы также можете конвертировать DOC в другие форматы файлов. См. полный список ниже.
Используйте форматы Word и Текст по максимуму. Мы предоставляем бесплатный Конверте DOCX в текст. Наше онлайн-приложение создает TXT из DOCX с высокой скоростью и профессиональным качеством. Алгоритм преобразования позволяет конвертировать DOCX во многие популярные файловые форматы.
Вопросы-Ответы
Перезапуск Word для открытия файлов автовосстановления
Word выполняет поиск файлов автовосстановления при каждом запуске. Таким образом, вы можете попробовать воспользоваться функцией автовосстановления, закрыв и снова открыв Word. Если Word находит любой автоматически восстановленный файл, открывается область задач Восстановление документов, а отсутствующий документ отмечен как «имя документа [Оригинал]» или как «имя документа [Восстановлено]». В этом случае дважды щелкните файл на панели восстановления документов, выберите Файл > Сохранить как, а затем сохраните документ как DOCX-файл. При необходимости вручную измените расширение на .docx, щелкнув правой кнопкой мыши файл и выбрав Переименовать.
Читайте также: