Как выгрузить из 1с файл в формате pdf
Возникла задача (и, как показал поиск, не у меня одного) формирования печатных форм в формате pdf для отправки клиентам. Причем процесс этот должен был происходить практически полностью автоматически - в один-два клика. То, что я нашел на эту тему в сети меня не устроило по тем или иным причинам, поэтому пришлось писать свое. Первое с чем я столкнулся - это достаточно скудное количество информации на эту тему, очень мало примеров. Несколько дней разбирался сам, теперь решил поделиться опытом с вами. Америку, я конечно не открыл, но пару интересных решений в процессе написания родилось - возможно кому-то пригодится и сэкономит время.
Публикацию я решил оформить в виде статьи, поскольку написанная мной обработка имеет несколько прикладной характер и заточена под конкретную конфигурацию. Так что поделюсь с вами кодом, и постараюсь прокомментировать его максимально подробно.
Итак, сначала немного предыстории. Изучив вопрос, я остановил свой выбор на бесплатных виртуальных принтерах BullZip PDF Printer и PDFCreator, которые позволяют на выходе получать файлы pdf, а также файлы различных графических форматов. Обе утилиты имеют возможность автосохранения файлов без лишних вопросов пользователю. В принципе, для полуавтоматического создания печатных форм в электронном виде, этого достаточно. Мы можем написать в коде
ТабДок . ИмяПринтера = "PDFCreator" ; //"BullZip PDF Printer";
ТабДок . Напечатать ();
и в каталогах, указанных в настройках автосохранения, появятся нужные файлы. Но, во-первых, пользователь может что-нибудь в настройках изменить, во-вторых, принтер вообще может оказаться переименован или удален чьими-нибудь шаловливыми ручонками (то есть нам нужно как-то контролировать имя и вообще наличие виртуального принтера в системе), в-третьих, придется настроить автосохранение для каждого пользователя (если принтер не сетевой), в-четвертых, проблематично добиться вменяемого имени файла с помощью настроек. Да и вообще, мы же все хотим делать автоматически, а так пользователю придется самому создать письмо, указать адрес клиента, прикрепить нужные вложения - вероятность ошибки возрастает, ну и лениво конечно. Приходим к выводу, что нужно юзать COM-объект, самому устанавливать необходимые настройки и выполнять нужные действия, чтобы не взрывать потом мозг ни себе, ни пользователю.
Изначально имелось пожелание сохранять файлы в графическом формате, скажем jpeg или png. PDFCreator, по-моему мнению, обладает более гибкими возможностями, но, к сожалению, он не умеет разбивать изображения на страницы, поэтому при сохранении печатных форм в виде картинок, можно наблюдать только первую страницу документа. BullZip же такую функцию имеет, поэтому я начал работать с ним. Но вот его COM-интерфейс оказался довольно скудным, да и плюс ко всему, настройки свои утилита хранит в ini-файле. Соответственно тратится время на их чтение и запись, если мы хотим (а мы хотим!) в них что-то менять. Вобщем, чтобы не извращаться и не придумывать всякую ерунду, было принято решение сохранять печатные формы в pdf и использовать для этих целей PDFCreator. Полностью конечно "ерунды" избежать не удалось, но в целом задача была решена.
Собственно дальше код моей функции для формирования файлов с подробными комментариями в проблемных местах. Функция выдрана из модуля обработки с минимальными изменениями, поэтому имеет "узкие" места в виде привязки к конфигурации и конкретному виду документов. Но общий смысл понятен и при необходимости код легко может быть преобразован для конкретной задачи.
upd 14.04.2011
Сегодня понадобилось переписать обработку, сделав ее более универсальной. Теперь в главную функцию передается массив готовых табличных документов для конвертации в pdf. Для передачи имен файлов используется свойство табличного документа "ИспользуемоеИмяФайла", которое необходимо заполнить программно до вызова функции конвертации.
upd 03.05.2011
Выявил неявный баг. У табличного документа есть свойство "ИмяПараметровПечати". Оно отвечает за сохранение параметров печати, установленных пользователем, и их восстановление при следующем показе табличного документа. Так вот, если это свойство используется в конфигурации (а в типовых оно, как правило, используется), то при печати в pdf в указанных параметрах будет сохранен наш виртуальный pdf-принтер, и, если в следующий раз табличный документ будет печататься обычным способом, то 1С восстановит именно этот принтер для печати по-умолчанию (не путать с принтером по-умолчанию в Windows). Чтобы этого избежать, после формирования наших файлов, вернем табличному документу его старое имя принтера.
// Функция формирует файлы для отправки по электронной почте с помощью виртуального принтера PDFCreator,
// Возвращаемое значение: тип "Массив" - массив сформированных файлов pdf
// Параметры: ТабличныеДокументы - тип "Массив", массив табличных документов для конвертации
// Путь - тип "Строка", путь к каталогу, в котором будут создаваться конечные файлы pdf
//
Функция PDFCreator_СформироватьФайлыДляОтправки ( ТабличныеДокументы , Путь ) Экспорт
Состояние ( "Настройка виртуального принтера . " );
// Получим виртуальные принтеры, установленные в системе, если нет ни одного - создадим новый, если есть - будем использовать первый попавшийся
ПринтерыPDF = УтилитаПечати . cGetPDFCreatorPrinters ();
Если ПринтерыPDF . Count () = 0 Тогда
УтилитаПечати . cAddPDFCreatorPrinter ( "PDFCreator" );
ПринтерыPDF = УтилитаПечати . cGetPDFCreatorPrinters ();
КонецЕсли;
ИмяПринтераPDF = ПринтерыPDF . Item ( 1 );
// Запустим утилиту, в области уведомлений появится соответствующий значок очереди печати
УтилитаПечати . cStart ();
// PDFCreator позволяет создавать несколько профилей с настройками - это очень удобно: мы не будем менять настройки по умолчанию, а создадим отдельный профиль для печати из 1С и будем его использовать. То есть для "ручной" печати пользователь может настроить принтер как ему вздумается.
// Проверим, существует ли профиль для печати документов из 1С, если нет - создадим
Если Не УтилитаПечати . cProfileExists ( "Печать 1С" ) Тогда
УтилитаПечати . cAddProfile ( "Печать 1С" , УтилитаПечати . cStandardOptions );
КонецЕсли;
// Поскольку теоретически пользователь может изменить настройки и нашего профиля, а некоторые из них для нас критичны, будем записывать их принудительно каждый раз. Это настройки автосохранения, остальные - пусть меняет, если надо.
// Запишем настройки профиля, которые не должны меняться
НастройкиПоУмолчанию = УтилитаПечати . cReadOptions ( "Печать 1С" );
НастройкиПоУмолчанию . UseAutosave = 1 ;
НастройкиПоУмолчанию . UseAutosaveDirectory = 1 ;
НастройкиПоУмолчанию . UseCreationDateNow = 1 ;
НастройкиПоУмолчанию . AutosaveDirectory = Путь ;
// Подробно на каждой опции останавливаться не буду, думаю и так понятно. Поясню только принципиальный момент, на котором строится дальнейшая логика работы функции.
// Я долго пытался добиться более менее вменяемого и при этом уникального имени файла стандартными настройками - это оказалось довольно проблематично. В итоге я пришел к такой схеме: в качестве имени файла автосохранения используем предопределенную настройку Title - заголовок нашего документа. Поскольку табличный документ мы создаем программно, средствами 1С изменить его не удастся (есть лишь возможность задать его при выводе на экран, указав в качестве первого параметра метода Показать()). Соответственно, используя такую настройку, мы всегда будем получать файл вида "Табличный документ.pdf". Что ж, значит, придется переименовать его после. Если бы мы печатали один файл, можно было задать его имя сразу в настройках, но мы-то хотим печатать много и сразу, а в этом случае опции просто не будут успевать сохраняться. Короче говоря, экспериментальным путем я пришел именно к такому варианту.
НастройкиПоУмолчанию . AutosaveFileName = "Title" ; // Здесь Title должно быть в угловых скобках, но редактор HTML воспринимает это как тег и сбивает разметку
НастройкиПоУмолчанию . AutosaveFormat = 0 ; // 0 = PDF, 1 = PNG, 2 = JPEG, 3 = BMP, 4 = PCX, 5 = TIFF, 6 = PS, 7 = EPS, 8 = TXT, 9 = PDF/A-1b, 10 = PDF/X, 11 = PSD, 12 = PCL, 13 = RAW
НастройкиПоУмолчанию . AutosaveStartStandardProgram = 0 ;
УтилитаПечати . cSaveOptions ( НастройкиПоУмолчанию , "Печать 1С" );
Состояние ( "Создание файлов . " );
// Делаем наши настройки текущими. Возможно как-то можно сделать активным конкретный профиль программно, но мне это не удалось, а так - заработало и ладно. По сути здесь мы подменяем настройки по умолчанию своими.
УтилитаПечати . cOptionsProfile = "Печать 1С" ; // эта строка, по-моему, не работает, но так "красивше" =)
УтилитаПечати . cOptions = НастройкиПоУмолчанию ;
// Собственно, начинаем штамповать наши файлы
МассивФайлов = Новый Массив ;
Для Индекс = 0 По ТабличныеДокументы . Количество () - 1 Цикл
// Получаем табличный документ по индексу из массива. Цикл Для . По . используем для того, чтобы иметь возможность сразу получать индекс элемента из счетчика без применения метода Найти().
ТабДок = ТабличныеДокументы [ Индекс ];
// Запоминаем старое имя принтера, т.к. при использовании параметров печати, они будут сохраняться с нашим pdf-принтером
СтароеИмяПринтера = ТабДок . ИмяПринтера ;
// Далее уже знакомый нам кусок кода. Все настройки сделаны - можем смело печатать.
ТабДок . ИмяПринтера = ИмяПринтераPDF ;
ТабДок . Напечатать ();
// Здесь одна особенность, которую я победил не очень хорошим способом. Помните, что у нас все файлы называются "Табличный документ.pdf"? Это нас не устраивает - надо переименовать, но поскольку принтер работает не мгновенно, необходимо сначала дождаться, пока файл сформируется и запишется на диск. Так что запускаем цикл и ждем пока файл появится. Да, грузится проц, но что поделать - это ненадолго.
// На случай, если что-то пойдет не так, ставим ограничение в 30 секунд, по истечении которых цикл прерываем принудительно
ФайлСформирован = Истина;
ФайлPDF = Новый Файл ( Путь + "Табличный документ.pdf" );
Порог = ТекущаяДата () + 30 ;
Пока Не ФайлPDF . Существует () И ФайлСформирован Цикл
ОбработкаПрерыванияПользователя ();
Если ТекущаяДата () >= Порог Тогда
ФайлСформирован = Ложь;
КонецЕсли;
КонецЦикла;
// Наш файл уже существует, но еще не записан - ждем еще, но не более 30 секунд
Порог = ТекущаяДата () + 30 ;
Пока ФайлPDF . Размер () = 0 И ФайлСформирован Цикл
ОбработкаПрерыванияПользователя ();
Если ТекущаяДата () >= Порог Тогда
ФайлСформирован = Ложь;
КонецЕсли;
КонецЦикла;
Возврат Неопределено;
КонецЕсли;
// Вот теперь переименуем его. Используем свойство табличного документа "ИспользуемоеИмяФайла" (должно быть заполнено программно до вызова процедуры, предполагается, что имя файла указано без расширения), либо , если оно не заполнено , просто порядковый номер элемента.
НовоеПолноеИмя = Путь + ?( ЗначениеЗаполнено ( ТабДок . ИспользуемоеИмяФайла ), ТабДок . ИспользуемоеИмяФайла , "Табличный документ " + Строка ( Индекс + 1 ) ) + ".pdf" ;
ПереместитьФайл ( ФайлPDF . ПолноеИмя , НовоеПолноеИмя ) ;
// Добавим в массив вложений, который вернет в итоге наша функция
ФайлPDF = Новый Файл ( НовоеПолноеИмя );
МассивФайлов . Добавить ( ФайлPDF );
// Возвращаем старое имя принтера, чтобы не менялись параметры печати по-умолчанию
ТабДок . ИмяПринтера = СтароеИмяПринтера ;
КонецЦикла;
// Закрываем утилиту - иконка в трее пропала. Что примечательно, закрывать раньше времени очередь печати нельзя, а то пропадут все задания, но так как мы с нетерпением ждем появления каждого файла и в этот момент уже дождались, то тут все ок.
УтилитаПечати . cClose ();
УтилитаПечати = Неопределено;
НастройкиПоУмолчанию = Неопределено;
Ну а дальше уже дело техники, что с этими файлами делать. Я, например, использую встроенный в УТ почтовый клиент, создаю новое письмо, заполняю адрес из контактной информации контрагента, добавляю туда вложения и открываю письмо пользователю для просмотра и принятия решения об отправке, а pdf-ки с диска удаляю.
Естественно, мой код не претендует на истину в последней инстанции - может где и коряво получилось, но вобщем-то он работает и свою задачу выполняет. Более элегантного решения я во всяком случае не нашел. Принимаю конструктивную критику и предложения
upd 08.10.2010
Создал аналогичную функцию с использованием внешней компоненты Yoksel. Код проще и прозрачнее, файлы формируются намного быстрее, нет заморочек с искусственными задержками времени, но печатная форма добавляется в документ картинкой, причем не очень хорошего качества, плюс требуется создание временного файла на диске для последующей конвертации.
// Функция формирует файлы для отправки по электронной почте с помощью внешней компоненты Yoksel.dll
//
Функция Йоксель_СформироватьФайлыДляОтправки ( ТабличныеДокументы , Путь )
Попытка
ЗагрузитьВнешнююКомпоненту ( КаталогПрограммы () + "Yoksel.dll" );
Йоксель = ПолучитьCOMОбъект ( "" , "Йоксель" );
КонвертерPDF = Йоксель . СоздатьГрафическийКонвертерPDF ();
Исключение
Предупреждение ( "Не удалось загрузить внешнюю компоненту Yoksel! Сообщите администратору системы!" , 20 );
Возврат Неопределено;
КонецПопытки;
МассивФайлов = Новый Массив ;
Состояние ( "Создание файлов . " );
Для Индекс = 0 По ТабличныеДокументы . Количество () - 1 Цикл
// Получаем табличный документ
ТабДок = ТабличныеДокументы [ Индекс ];
// Формируем временный файл xls
ИмяФайлаБезРасширения = ?( ЗначениеЗаполнено ( ТабДок . ИспользуемоеИмяФайла ), ТабДок . ИспользуемоеИмяФайла , "Табличный документ " + Строка ( Индекс + 1 ) ) ;
ТабДок . Записать ( Путь + ИмяФайлаБезРасширения + ".xls" , ТипФайлаТабличногоДокумента . XLS97 );
// Удаляем временный файл xls
УдалитьФайлы ( Путь + ИмяФайлаБезРасширения + ".xls" );
// Добавляем в массив вложений
ФайлPDF = Новый Файл ( Путь + ИмяФайлаБезРасширения + ".pdf" );
МассивФайлов . Добавить ( ФайлPDF );
КонецЦикла;
Выгрузка таблиц из 1С
Не редко создается необходимость выгрузить список каких – либо данных из табличной части документа, формы списка, журнала документов и т. п. Такие задачи часто единичны, и нецелесообразно привлекать специалиста для написания отчета.
Например, вам нужно получить всю номенклатуру с видом «Материалы» при этом нужны только колонки «Номенклатура» и «Единица».
В том случае, когда необходимо выгрузить данные с их фильтрацией, первым делом, необходимо настроить список в меню «Ещё» табличной части.
В появившемся окне из левой части (доступные поля) необходимо выбрать те, по которым вы будете делать отбор (в данном случае «Вид номенклатуры»). В правой части окна устанавливаются значения параметров отбора. При этом вид сравнения не ограничивается одним лишь равенством.
После того, как был установлен обор, в форме списка справочника «Номенклатура» будут отображаться лишь те позиции, которые подходят под заданное условие.
Следующим шагом будет вывод данного списка в табличный документ.
В меню «Еще» выберите пункт «Вывести список».
Получите понятные самоучители по 1С бесплатно:
Если вам нужно вывести не все колонки, как в нашем примере, то установите «галочки» только на тех, которые необходимы.
В итоге вы получаете, по сути, отчет, который можем сохранить в любой доступный формат. Как это сделать будет рассмотрено ниже. Подобным образом можно выгружать табличные части документов и справочников, данные из журналов документов, форм списков и не только.
Выгрузка отчетов и печатных форм из 1С
Любой отчет, печатную форму, табличный документ (например, который мы получили в нашем примере) в 1С 8.3 можно выгрузить во внешний файл в два клика.
На верхней панели программы находится кнопка сохранения во внешний файл (интерфейс «Такси»). Она будет активна на любых отчетах и печатных формах, где доступно сохранение.
После нажатия на кнопку «Сохранить как» программа предложит вам выбрать формат, имя и место расположения полученного файла. Оформление сохраняется при условии его доступности в выбранном формате — HTML, PDF, Excel, Word.
Выгрузка базы данных 1С целиком
Данный способ необходим в тех случаях, когда базу данных 1С нужно выгрузить целиком, например, для создания тестовой копии.
Зайдите в нужную информационную базу в режиме конфигуратора.
В меню «Администрирование» выберите пункт «Выгрузить информационную базу».
Укажите при необходимости другое имя файла и путь для сохранения.
Полученный файл выгружаемых данных с расширением *.dt в дальнейшем очень легко загрузить. Для этого в режиме конфигуратора в меню «Администрирование» выберите пункт «Загрузить информационную базу» и откройте полученный ранее файл *.dt.
Наверное, каждый специалист по 1С сталкивался с ситуацией необходимости перенести данные из одной информационной базы в другую. В том случае, когда конфигурации разные, приходится писать правила конвертации данных. Данные правила создаются в конфигурации 1С «Конвертация данных».
Так же данные можно переносить при помощи загрузки из Excel и табличных документов. Во многих конфигурациях 1С 8.3 есть типовой функционал для настройки синхронизации данных между различными конфигурациями и бесшовная интеграция с 1С Документооборот.
Но когда данные необходимо перенести данные между абсолютно идентичными конфигурациями, можно упростить себе задачу и воспользоваться стандартной обработкой выгрузки и загрузки через XML. Обратите внимание, что такой способ, как и конвертация данных сопоставляет между собой объекты по уникальному идентификатору (GUID), а не по наименованию.
Она является универсальной и подойдёт для любой конфигурации.
Рассмотрим пример выгрузки справочника «Номенклатура» из одной информационной базы 1С 8.3 Бухгалтерия 3.0 в другую. Обязательным условием будет отбор по родителю (группе) «Деревообработка».
Выгрузка данных из 1С в XML
Зайдите в ту информационную базу, откуда будут выгружаться данные (источник). Обязательно проверьте их, предусмотрев все возможные условия во избежание возникновения нежелательных последствий.
Откройте обработку выгрузки и загрузки данных XML (Ctrl+O).
Нас интересует вкладка «Выгрузка». Первым делом укажите имя файла, в который будут выгружены данные и путь для сохранения. В данном случае данные выгружаются «В файл на сервере».
В шапке обработки настраивается период, по которому будет осуществляться отбор. Так же, для периодических регистров можно указать способ применения отбора по периоду. В случае необходимости выгрузки движений вместе с документами, устанавливается соответствующий флаг. В данном случае мы перегружаем справочник, поэтому в шапке ничего настраивать не нужно.
Получите понятные самоучители по 1С бесплатно:
Перейдем к выбору данных для выгрузки. В табличной части формы обработки отметьте флажками те объекты конфигурации, которые вам нужно перенести.
Колонка «Выгружать при необходимости» означает, необходимо ли перегружать данный объект, если на него ссылается реквизит перегружаемого нами справочника. Например, позиция перегружаемой вами номенклатуры имеет такую единицу измерения, которой нет в базе – приемнике. Если напротив справочника с единицами измерения будет установлен флаг в колонке «Выгружать при необходимости», создастся новая позиция. В противном случае в качестве значения реквизита будет надпись «» и его уникальный идентификатор.
В простом случае без отборов настройка перегрузки номенклатуры будет выглядеть следующим образом.
В данном примере нужно отобрать только ту номенклатуру, которая находится в папке «Деревообработка».
Аналогичная обработка для 8.2 позволяет в удобной форме устанавливать отборы для каждого объекта конфигурации. В 8.3, к сожалению, такого функционала нет. Одним из вариантов выхода в данной ситуации будет отбор необходимых позиций на вкладке «Дополнительные объекты для выгрузки».
Добавить объекты здесь можно как вручную (кнопка «Добавить»), так и запросом («Добавить запросом…»). При большом их количестве предпочтительнее второй вариант.
В данном случае запрос будет следующим. Заполните параметры, выполните запрос, проверив данные, и нажмите на кнопку «Выбрать результат».
В данном примере необходимо было выгрузить только 3 позиции, но выгрузилось пять. Всё потому, что напротив справочника «Номенклатура» в колонке «Выгружать при необходимости» был установлен флаг. Вместе с нужными позициями перегрузились их родители.
Загрузка справочника из XML
После успешной выгрузки данных из конфигурации – источника в XML файл, откройте базу – приемник. Структура объектов и их реквизитов должны совпадать между собой. В данном случае перенос осуществляется между двумя типовыми конфигурациями 1С:Бухгалтерия 3.0.
Откройте обработку в базе – приемнике. Данная обработка используется как для выгрузки, так и для загрузки данных. Перейдите на вкладку «Загрузить» и укажите путь к XML файлу, в который ранее были выгружены данные. После этого нажмите на кнопку «Загрузить данные».
Справочник «Номенклатура» в базе – приемнике не был заполнен. Теперь в нем пять элементов: три номенклатурных позиции и две группы.
Все платформы 1С, начиная с версии 8.2, а следовательно 8.3 и 8.4 могут сохранять табличные документы, печатные формы и отчеты в формате PDF, причем для этого не нужно устанавливать другие программы. Как сохранить из 1С 8.2 в PDF Для этого нужно подготовить документ к печати и перейти в меню “Файл – Сохранить как…” и в […]
Все платформы 1С, начиная с версии 8.2, а следовательно 8.3 и 8.4 могут сохранять табличные документы, печатные формы и отчеты в формате PDF, причем для этого не нужно устанавливать другие программы.
Как сохранить из 1С 8.2 в PDF
Для этого нужно подготовить документ к печати и перейти в меню “Файл – Сохранить как…” и в поле “Тип файла” выберите Документ PDF (*.pdf). Для примера сохраним в программе 1С Управление торговлей, редакция 10.3 печатную форму “Приходный кассовый ордер (ПКО)”:
Как сохранить документ из 1С 8.3 в файл PDF
В платформе 8.3 сохранение происходит аналогично, только здесь меню “Файл – Сохранить как…” находится под кнопочкой со стрелкой внизи в поле “Тип файла” выберите Документ PDF (*.pdf). Дальше, аналогично – в поле “Тип файла” выбрать “Документ PDF.
Если пункт меню “Сохранить как…” недоступен в 1С, то сначала нажмите левой кнопкой мыши в любом месте документа, который хотите сохранить и после этого пункт меню должен стать доступным:
Куда пропало меню “Сохранить” в 1С 8.3.15
После обновления платформы на версию 8.3.15 изменилось расположение пунктов “Сохранить как…”, теперь для его вызова нужно нажать на кнопку с тремя вертикальными точками, в правом верхнем углу формы:
Как программно сохранить табличный документ в PDF?
Часто программистам нужно программно сохранить табличный документ 1С в формате PDF. Для этого нужно использовать метод Записать() и в качестве второго параметра указать ТипФайлаТабличногоДокумента.PDF
Всем привет. Как-то мне поступило задание прикреплять PDF файлы к документам в 1С, при том что было много документов и один многостраничный PDF файл, который необходимо было разделять на странички и каждая страница соответствовала определенному документу. Естественно мне хотелось автоматизировать полностью весь процесс, чтобы 1с сама разделяла файл PDF на листы, прочитывала каждый лист и сопоставляла его с документом. Я нашла решение и прикрепляю программы, которые мне в этом помогли:)
Программа Pdftk server позволила мне узнать сколько страниц есть в файле PDF:
Далее программа Pdftk server при помощи команды "cat + "номер страницы" + output" разбила мне файл PDF по страницам в цикле:
В итоге у меня в папке есть много файлов PDF по одной страничке, теперь мне необходимо прочитать каждый файл при помощи программы PDF2TXT:
Вот ссылки на программы:
Мы создали текстовый файл в кодировке UTF-8, теперь его нужно прочитать:
Вот где я скачала программу-помощницу:
Инструменты XPDF (по ссылке скачать инструменты xpdf, в архиве найдете pdftotext, остальные файлы не нужны)
Надеюсь, моя работа поможет многим!)
Специальные предложения
делал свою компоненту Native на C++ пару лет назад, все никак руки доделать не дойдут ибо сейчас это не актуально, то что нашел, прикрепил. умеет сохранять страницы в текст(правда там поленился убрать вывод информации по шрифтам и прочему), в png, количество страница. но основная цель была сохранение в png
andrey314; akR00b; Stalnoff; Zarikus26; tyasytova; sharonovev; AllexSoft; kraynev-navi; DrAku1a; Margo462; + 10 – Ответить
(0) (1) Можно воспользоваться tesseract ocr (смотрите на github'е)
Там крайне много возможностей, в том числе можно получать не только сырой текст, но и положение онного на странице.
Ставиться не сложно, на лине так вообще одной строкой в терминале.
Под винду уже есть собраные версии.
(25) ага, и качество распознавания ниже плинтуса, пробовал я его, тут речь идет об извлечении текста, который не нужно распознавать, он и так текст
(1)Наше то,. что долго искал.
Есть вопрос - попробовал использовать закомментированный кусок кода:
Платформа благополучно отъезжает.
На сохранении файла - работает корректно все.
Этот метод работает?
Я в свое время тоже разбирался с разбиением ПДФов. Мне понравилась программа GostScript, в ней разбиение многостраничного файла делается одной командой: вот строка из bat-файла
call "C:\Program Files\gs\gs9.20\bin\gswin64.exe" -q -dSAFER -dBATCH -dNOPAUSE -sDEVICE=jpeg -r100 -sPAPERSIZE=a4 -sOutputFile="Z:\!\doc-%03d.jpg" "Z:\!\1234.pdf"
Здесь:
"Z:\!\1234.pdf" - путь к многостраничному фалу
-sOutputFile="Z:\!\doc-%03d.jpg" - параметр говорит о создании файлов по маске (1 страница - 1 файл): doc-001.jpg, doc-002.jpg, doc-003.jpg, .
В свое время остановился, на попытке понять как обработать не 1, 2, 3 многостраничный файлов, а 100+ (так до конца и не разобрался с параметрами). Может время придет - вернусь к работе
Без компонент, на двоичных данных бы. За такое и 10 $m не жалко будет!
Где-то на ИС встречал в комментариях "Количество страниц в PDF-файле".
(6) интересно. хотелось бы, а то этот конвертер PDF2TXT на 30 дней, еще ключи искать, бесплатную прогу найти пока не смогла
(7) Можно воспользоваться tesseract ocr (смотрите на github'е)
Там крайне много возможностей, в том числе можно получать не только сырой текст, но и положение онного на странице.
Ставиться не сложно, на лине так вообще одной строкой в терминале.
Под винду уже есть собраные версии.
UPD:
Если вопрос стоит как "искать ключи", то очивидный FineReader очивиден, дальше торрентов искать не придеться ;-)
Также практически на 100% уверен, что у гугла есть подобный вебсервис, там вроде хотели денюжек, но крайне мало и возможно есть "триал".
(27) посмотрите я дополнила статью, нашла бесплатное приложение pdftotext, работает тоже из командной строки :)
Для ковыряния двоичных данных под окнами лучше использовать бесплатный HxD
(6) (7) Из личного: для решения описанной задачи (0) мы сначала воспользовались программой ABBYY Scan Station (ABBYY - по запросу спокойно предоставляет 30-дневный ключ, спокойно предоставили продление еще на 1 месяц, для тестов), после чего мы сделали приобретение, т.к. софтина ОЧЕНЬ проста в настройке и хорошо выполняет обозначенную задачу (но без распознавания).
Единственный ее недостаток и весьма значительный - это не возможность ее запустить с командной строки - то есть нет запуска по расписанию.
Но из плюсов я бы назвал цену 2-3 года назад она составляла 24 000 руб. или 10 часов франча (на тот момент).
Так мы поигрались наверное с год, пока мне не надоело запускать каждый день данную сфотину и мы приобрели ее расширенную версию - ABBYY Recognation Server. В данной софтине настроек и возможностей поболее - работает на УРА уже 1,5 года. Есть еще распознавание и индексирование - последнее требует работу оператора (при приобретении удалось зачесть стоимость ранее приобретенной ABBYY Scan Station).
По ценам уже значительно дороже и цена зависит от количества распознанных страниц в месяц. На сегодня у нас 50к страниц и этого пока хватает (1 числа каждого месяца счетчик сбрасывается).
Цены опять же в открытых источниках не найти, но я их так же приведу для понимания: Сама программа + лицензия на 15к страниц - 215 000 руб, апгрейд с 15к до 50к страниц- 170к руб, апгрейд с 15к до 100к страниц - 247к руб (цены на июль 2016)
Стоимость разовая и в дальнейшем доплат не требует.
Это не реклама , просто показал, что решили использовать у нас в организации. Иногда может быть значительно эффективнее купить готовый продукт, чем писать свое с нуля. С нуля для разработчика хорошо - ты учишься работать с "новым", но работодатель не всегда может быть заинтересован оплачивать таким образом твое обучение, если стоит вопрос в сроках и качестве (ведь сколько еще времени уйдет на отладку "подводных камней").
P.S.
Кстати в 1С Документооборот используют так же сторонние библиотеки, тот же самый GostScript указанный в (4) для "распиливания" файлов, а для распознавания другую не помню как называется. От туда можно было бы глянуть как они это делают, но пока у меня нет на это времени да и описаный выше софт решает поставленную задачу.
Читайте также: