Почему в foxit reader не копируется текст
Файлы офисный программ, например DOCX, которые использует редактор Word могут выглядеть по-разному в зависимости от редактора текста, в котором они были открыты. Но этого никогда не случается с PDF-файлами, которые благодаря особенностям своего устройства и формата всегда выглядят одинаково, независимо от программы, в которой файл был открыт. Но это является причиной того, что данные файлы сложно редактировать и даже не всегда возможно извлечь из них текст. Файлы PDF это что-то среднее между текстом и картинкой.
Как извлечь текст из PDF файла в Foxit Reader
Также там имеется платный вариант, но если вам нужно извлечь только текст из PDF, то хватит и бесплатной версии.
Foxit Reader является кроссплатформенной программой, там же вы можете скачать официальную версию для Linux.
Установите Foxit Reader и откройте в этой программе PDF.
В меню кликните «Файл» → «Сохранить как» и выберите место для сохранения текстового документа.
В качестве «Типа файла» выберите «TXT-файлы (*.txt)» и нажмите кнопку «Сохранить».
В созданном файле форматирование и картинки будут потеряны. Более того, абзацы могут быть разбиты на строки — это особенности хранения текста в PDF и ничего с этим поделать нельзя.
Способ 3: Foxit Reader
Быстрая и полностью бесплатная читалка Foxit Reader отлично справится с задачей копирования текста из ПДФ-файла.
-
Откройте PDF-документ при помощи Foxit Reader.
Как выделить и скопировать текст в Foxit Reader
Если вы не можете выделить текст в Foxit Reader, то в меню программы нажмите кнопку «Выбрать», после этого вы сможете выделять и копировать фрагменты текста.
Для возвращения в режим по умолчанию, выберите инструмент «Рука».
Когда я копирую текст из файла PDF в текстовый редактор, он оказывается искаженным различными способами. Форматирование как жирный шрифт и курсив теряются; мягкие разрывы строк внутри абзаца текста преобразуются в жесткие разрывы строк; тире, разбивающие слово на две строки, сохраняются даже тогда, когда их не должно быть; а одинарные и двойные кавычки заменяются на? знаки.
В идеале я хотел бы иметь возможность копировать текст из PDF и преобразовывать форматирование в HTML-коды, "умные кавычки", преобразованные в "и", и разрывы строк делать правильно. Есть ли способ сделать это?
Во-первых, вы должны понять, что такое PDF. PDF-файлы предназначены для имитации печатной страницы и предназначены только для формата вывода, а не для формата ввода. PDF - это, в основном, карта, содержащая точное расположение символов (отдельных букв или знаков препинания и т. д.) или изображений. В большинстве случаев PDF-файл даже не хранит информацию о том, где заканчивается одно слово и начинается другое, причем гораздо меньше таких вещей, как мягкие разрывы или жесткие разрывы для окончаний абзаца.
(Несколько последних PDF-файлов действительно хранят некоторую информацию об этом материале, но это новая технология, и вам посчастливится найти такие PDF-файлы. Даже если бы вы это сделали, программа просмотра PDF могла бы об этом не знать.)
В любом случае, ваше программное обеспечение должно реализовать какой-то «искусственный интеллект», чтобы просто извлекать из местоположений отдельных персонажей, что такое слово, что такое абзац и так далее. Разное программное обеспечение будет делать это лучше, чем другие, и это также будет зависеть от того, как был создан PDF. В любом случае, вы никогда не должны ожидать идеальных результатов. Наличие выходного PDF не совпадает с исходным документом. Гораздо лучше попытаться получить это, если вы можете.
Стандартное решение вашей проблемы - использовать Adobe Acrobat Professional (дорогой, а не бесплатный ридер) для преобразования PDF в HTML. Даже это не даст идеальных результатов.
Существует бесплатное программное обеспечение, которое можно использовать для извлечения текста из PDF-файлов с некоторым сохранением форматирования, но опять же, не ожидайте отличных результатов. См., Например, калибр (который может быть преобразован в формат RTF), pdftohtml / pdfreflow или текстовый процессор AbiWord (со всеми включенными плагинами импорта / экспорта). Также есть плагин для импорта PDF для OpenOffice.
Но, пожалуйста, не ожидайте совершенства с любым из этих результатов. Вы идете против зерна здесь. PDF просто не подразумевается как редактируемый формат ввода.
обратная связь 5 лет спустя: никаких существенных улучшений: мне пришлось преобразовать его в HTML (используя acrobat x), а затем вставить каждую строку в таблицу MSword. (Сохранение для word или excel или txt просто испортило все, копирование прошлого из chrome также не работало вообще). Все еще жду (очень) умного программного обеспечения.
щелкните правой кнопкой мыши по таблице, выбрав «копировать с форматированием», также с указанными выше ограничениями
Поскольку это принятый ответ, я предлагаю вам также упомянуть (более новый) вариант, который pratnala написал в своем комментарии, - открыть PDF непосредственно из Word 2013. На некоторых PDF-файлах, которые я пробовал, он давал лучшие результаты, чем все вышеперечисленное программное обеспечение.
Другой вариант - скачать и начать использовать бесплатный просмотрщик PDF, Foxit (это хорошо). Затем вы можете «Сохранить как» и выбрать .txt, чтобы преобразовать его в текстовый файл. Это сохранит все форматирование. Не знаю, можете ли вы сделать то же самое в Adobe, потому что я перестал использовать его некоторое время назад, когда я перешел на Foxit.
Я использую foxit PDF Reader для просмотра моего учебника. Я хотел бы скопировать текст из PDF-файла в текстовый документ, но он не позволит мне. Я могу выделить текст хорошо, но опция для копирования текста недоступна. Я могу скопировать текст из других документов, но не некоторые. Есть ли способ обойти эту защиту в окнах?
Я вижу, мой ответ не работает для вас, поэтому вы отправили награду. Если вы разместите где-нибудь пример такого pdf, я посмотрю на него.
Возможно, PDF-файл заблокирован от копирования текста. Ниже приведены два способа разблокировки:
- Если PDF-файл не был заблокирован для печати, вы можете распечатать его на виртуальном PDF-принтере, чтобы создать разблокированный файл. Смотрите это:
«Удалить пароль и разблокировать защищенный PDF, который разрешается печатать, не зная секрета» . - Если функция печати была заблокирована, см. Следующее:
«Снять ограничения и расшифровать защищенные паролем PDF-файлы с помощью PDF Unlocker» .
Вы можете увидеть, заблокирован ли PDF для копирования. В меню «Файл» выберите «Свойства», а на вкладке «Безопасность» указано, разрешено ли копирование содержимого.
Пробовал печатать PDF. Распечатанный файл не позволяет выделять текст, похоже, он преобразовал текст в изображение.
@harrymc Да, есть изображения. Но текст также преобразуется в изображения. Опция Google Chrome хорошо работает на том же документе.
- Откройте PDF-файл в Google Chrome (перетащите файл PDF в Chrome).
- Распечатайте определенную страницу в формате PDF или просто откройте предварительный просмотр.
- Теперь вы можете скопировать текст из предварительного просмотра или вывода PDF. Но я не думаю, что вы могли бы скопировать таблицу напрямую.
Абсолютно блестящий. Кстати, вы можете перетащить файлы на панель вкладок Chrome, чтобы быстро их открыть.
Мне удалось создать версию PDF-файла без DRM, используя Ghostscript (который доступен для Windows).
Полученный файл stripped.pdf можно загрузить в Adobe Reader, и Reader с радостью позволит вам скопировать любую его часть по вашему желанию. Это также сохраняет большую часть форматирования таблицы.
Это великолепно. Мой налоговый бухгалтер отказывается предоставить мне PDF-файлы без DRM и пароль для удаления DRM. Это решает мою проблему. Превосходная работа!
Я смог успешно скопировать таблицу из вашего PDF-файла, используя Okular (для Linux; часть KDE). Чтобы сделать это, мне нужно было зайти в настройки Okular и снять флажок «Подчиняться ограничениям DRM».
Я знаю, что это не очень вам помогает, так как вы работаете с Windows, но это возможно, если у вас есть машина с Linux под рукой или вы хотите ее установить.
К сожалению, это был простой текст без форматирования, но похоже, что воссоздать таблицу не составит большого труда. Вы можете увидеть результаты моего копирования и вставки приключений здесь .
Вот для чего предназначен VirtualBox. : D Я также могу копировать простой текст без форматирования, но, выбирая один столбец за раз, его довольно легко экспортировать.
Похоже, это лучше всего подходит для таблиц чисел, так как Okular позволяет делать прямоугольный выбор текста и извлекать один столбец по порядку.
Обратите внимание, что Okular может работать в Windows. На самом деле многие программы KDE могут работать на Windows .
Вы можете использовать GT Text - программу, которая переводит изображения (также pdf snapshots = image) в текст. Вы можете выбрать область и скопировать ее в буфер обмена. Это бесплатно.
если копия неактивна, так как теперь это сомнение для вас, тогда PDF-файл «заблокирован», его можно прочитать, но он действительно мешает вам копировать / вставлять что-либо из него.
Этот сайт откроет PDF
Если вы просто ищете короткие фрагменты, вы часто можете ввести несколько слов в Google внутри кавычек и найти точную цитату, уже отсканированную в другом формате или набранную кем-то другим.
Другой вариант - «Документ из фотографии» в приложении Google Docs для Android, в котором текст вводится через OCR. Это подвержено ошибкам, конечно.
Я бы хотел, чтобы функциональность блокировки PDF никогда не существовала. :(
Ваш PDF защищен от копирования, но не защищен от печати.
Поэтому я распечатал одну страницу, содержащую таблицу 6.15, в другой PDF-файл, который не защищен от копирования, выделил и скопировал таблицу, а затем вставил ее в Word. К моему большому удивлению, результатом пасты стал полный мусор.
Теперь я еще раз взглянул на эту таблицу и нашел очень удивительный результат: это не таблица!
Это на самом деле монтаж небольших фрагментов текста, расположенных на странице, чтобы выглядеть как таблица. Но это не настоящая таблица.
Лучшее, что вы можете сделать, это либо переписать все это в виде таблицы, либо просто использовать в своей работе скриншот этого табличного текста в собранном виде.
Часто бывает, что нужно заполнить, допустим, анкету. Но распечатать ее и заполнить ручкой – не самое удобное решение, да и аккуратность оставит желать лучшего. К счастью, отредактировать PDF файл можно и на компьютере, без платных программ, без мучений с мелкими графами на распечатанном листе.
Foxit Reader является простой и бесплатной программой для чтения и редактирования PDF файлов, работа с ней гораздо удобнее и быстрее, чем с аналогами.
Сразу стоит оговориться, что редактировать (менять) текст здесь нельзя, все же это «Ридер». Речь идет только про заполнение пустых полей. Тем не менее, если в файле много текста, его можно выделить и скопировать, допустим, в Microsoft Word, а там уже отредактировать и сохранить в качестве PDF файла.
Итак, вам прислали файл, и нужно в определенных полях набрать текст и поставить галочки в квадраты.
1. Открываем файл через программу. Если по умолчанию он через Foxit Reader не открывается, тогда жмем правой кнопкой и в контекстном меню выбираем «Открыть с помощью > Foxit Reader».
2. Кликаем по инструменту «Пишущая машинка» (его также можно найти на вкладке «Комментарий») и кликаем в нужное место в файле. Теперь можно смело писать нужный текст, а далее откроется доступ к обычной панели редактирования, где можно: менять размер, цвет, местоположение, выделение текста и т. д.
3. Для добавления знаков или символов существуют дополнительные инструменты. Во вкладке «Комментарий» найдите инструмент «Рисование» и выберите подходящую фигуру. Для рисования галочки подойдет «Ломаная линия».
После рисования можно кликнуть правой кнопкой и выбрать «Свойства». Откроется доступ к настройке толщины, цвета и стиля границы фигуры. После рисования нужно кликнуть в панели инструментов по выбранной фигуре еще раз, чтобы вернуться к режиму обычного курсора. Теперь фигуры можно свободно двигать и перемещать в нужные ячейки анкеты.
Чтобы процесс не был столь нудным, можно создать одну идеальную галочку и путем нажатия правой кнопки мыши копировать и вставлять ее в другие места документа.
4. Сохраняем результаты! Жмем в левом верхнем углу «Файл > Сохранить как», выбираем папку, задаем имя файла и нажимаем «Сохранить». Теперь внесенные изменения будут в новом файле, который далее можно отправлять в печать или переслать по почте.
Таким образом, отредактировать PDF файл в Foxit Reader очень просто, особенно если нужно просто ввести текст, либо вместо крестиков ставить букву «x». Увы, полноценно отредактировать текст не получится, для этого лучше воспользоваться более профессиональной программой Adobe Reader.
Мы рады, что смогли помочь Вам в решении проблемы.
Отблагодарите автора, поделитесь статьей в социальных сетях.
Опишите, что у вас не получилось. Наши специалисты постараются ответить максимально быстро.
Помогла ли вам эта статья?
Еще статьи по данной теме:
никогда не любил эту прогу. когда я впервый раз мне потребовалос отредактировать pdf, то я скачал именно эту прогу, начал редактировать и практически отредактировал весь файл, но когда сохранил pdf, то заметил, что файл полностью покрылся непонятными иероглифами, тт.е он либо кодировку перепутал либо что-то еще, но факт остался фактом, что прога коряво сохранила мне файл, который был в одном экземпяре.
Здравствуйте! Подскажите, пожалуйста, как в этой программе вводить текст в каждую клетку, не переходя по ним стрелкой как в Excel? Т.е.: скачала бланк-форму в интернете, встаешь в первую клетку и набираешь, допустим фамилию, и каждая буква встает в нужную (последующую) клетку. Объясните, пожалуйста, если можно, попонятнее как это сделать. Спасибо!
мне надо поменять страницы местами первую сметить на последнюю а из середины в начало
ПДФ-файлы могут содержать в себе текстовую информацию, которую можно перенести, не конвертируя целый файл в какой-нибудь популярный формат текстового электронного документа. В этой статье будет рассказано о том, как копировать текст из PDF.
Способ 1: Evince
Evince предоставляет возможность копировать текст даже из тех документов, в которых данная функция заблокирована автором.
- Установите Evince, предварительно скачав установочный файл по ссылке выше.
Заключение
В данном материале были рассмотрены три способа копирования текста из ПДФ-файла — при помощи Evince, Adobe Acrobat DC и Foxit Reader. Первая программа позволяет скопировать защищённый текст, вторая является наиболее популярной программой для работы с данным форматом файлов, а третья предоставляет возможность быстро копировать текст при помощи автоматически всплывающей ленты с инструментами.
Мы рады, что смогли помочь Вам в решении проблемы.
Отблагодарите автора, поделитесь статьей в социальных сетях.
Опишите, что у вас не получилось. Наши специалисты постараются ответить максимально быстро.
Копируем текст из PDF
С текстом, скопированным из ПДФ-документа, можно взаимодействовать, как и с обычным — работать в текстовых процессорах, вставлять на страницы, редактировать и т.д. Ниже будет рассказано о вариантах решения данной задачи в двух самых известных программах для работы с PDF. Также будет рассмотрено приложение, из которого вы сможете скопировать даже защищённый от копирования текст!
Не всегда возможно извлечь текст из PDF
В зависимости от способов создания PDF, в документе может присутствовать или отсутствовать текстовый слой. Пример PDF файла без текстового слоя: отсканированная книга сохранена в виде изображений и из этих изображений страниц без распознавания текста составлена PDF книга. В этом случае ни одна программа, кроме ABBYY FineReader, которая может распознавать текст (OCR), не сможет полноценно конвертировать PDF файл.
Если же файл сделан с помощью офисных программ, то они добавляют поверх изображения ещё и текстовый слой. В зависимости от того, что вам нужно, вы можете извлечь этот текстовый слой без форматирования и сохранить в файл с простым текстом (.txt), либо вы можете извлечь его с форматированием — но даже в этом случае полученный документ может выглядеть не так, как в PDF.
Если вы хотите извлечь текст с форматированием, то смотрите статью «Как конвертировать PDF в документ Microsoft Word». Данная статья расскажет, как скопировать текст из PDF без необходимости сохранения форматирования.
Если вам нужно скопировать из PDF файла несколько абзацев или несколько страниц, то это можно сделать практически в любой программе, которая умеет открывать PDF файлы (даже в веб-браузерах), но при условии, конечно, что в файле есть текстовый слой.
Но что делать, если нужно сохранить текст из всего PDF файла? Из бесплатных программ такое может Foxit Reader.
Способ 2: Adobe Acrobat DC
Мощное и удобное приложение для редактирования и обработки PDF от компании, разработавшей этот формат файлов, которое позволит скопировать текст, содержащийся внутри документа.
-
Откройте ПДФ, из которого нужно достать текст, при помощи Adobe Acrobat DC.
Читайте также: