Программа для поиска текста в файлах
С течением времени на жестком диске компьютера накапливается огромное количество информации. Прежде всего, это периодические электронные журналы типа Internet Zone, почтовые рассылки и просто Веб-страницы и целые сайты, которые мы загружаем на диск в надежде найти им достойное применение потом, когда-нибудь. Чтобы воспользоваться полезной информацией, которой мы часто запасаемся впрок, необходимо иметь хороший поисковик, который позволял бы быстро и удобно находить нужную страницу, открывать ее и использовать в работе. Программ, которые подходили бы для целей поиска не так уж и много.
Мне известно несколько таких программ, о которых и пойдет речь далее. Для примеров и сравнительного тестирования я буду использовать папку, в которой у меня собраны журналы Internet Zone. Объем папки 139 мегабайт, количество файлов - 23075, формат файлов - HTML.
Поисковая утилита AVSearch
"Программа предназначена для поиска файлов по фрагментам текста в любой русской кодировке. Возможен поиск в архивах, в КЭШах Web-браузеров, на сетевых дисках, в "Корзине" и т.д." - так представляет свою программу сам автор.
Из характеристик поисковика основное значение имеют следующие:
Доступные форматы файлов - TXT, HTML, RTF, архивные и бинарные файлы.
Язык запросов - логические операции И, ИЛИ, НЕТ, ? (любой символ в маске).
Зона поиска - реальная папка на диске.
Удобная навигация среди найденных файлов и возможность открыть любой из них непосредственно в поисковике - это обязательное свойство в данной программе присутствует.
В рабочем состоянии поисковик выглядит так:
Здесь можно прочитать характеристики тестового поиска: искались документы, содержащие слово "norton". Поиск занял 3 минуты 57 секунд, было просмотрено 28623 файла и найдено 464, удовлетворяющих поисковому заданию.
Контекстное меню для найденного файла имеет такой вид:
Просмотреть текст документа можно в правом окне целиком, но при открытии документа из контекстного меню он открывается в браузере и становятся работоспособными гиперссылки и графика.
Сервис, предоставляемый этой программой вполне удовлетворительный, а значительное время сканирования большой папки компенсируется тем, что не требуется предварительного индексирования зоны поиска, обязательного при добавлении новых папок и файлов.
Отметим, что программа - русскоязычная, и разобраться в ее применении очень просто.
Поисковая система diskMETA- Lite
Здесь виден результат поиска по тестовому запросу "norton". Найдено 57 документов (в AVSearch - 464). Оказывается, в этом бесплатном варианте индексируются для поиска только 1000 документов, поэтому большая часть файлов поисковой зоны оказались проигнорированными, а результат, соответственно, куцым. Другим ограничением бесплатного варианта является возможность использования только двух зон поиска. Хотя эта программа больше похожа на рекламный ролик, посмотрим ее характеристики:
Формат документов - DOC, TXT, HTML. В платной версии дополнительно - XLS, RTF.
Язык запросов - логические операторы И, И НЕ, ИЛИ, операторы уточнения запроса, учет грамматической формы ключевых слов.
Зона поиска - индексный файл. Использование индексного файла позволяет производить поиск мгновенно (в AVSearch - 4 минуты) за счет того, что сканирование уже выполнено при индексации. Но, если Зона поиска изменилась, то для получения корректного результата индексирование нужно произвести
заново, причем, в нашем конкретном случае оно займет время более 4 минут для полнофункционального варианта данной программы.
Результаты поиска выдаются отсортированными по мере убывания адекватности запросу. Приводится фрагмент документа с ключевыми словами. Для просмотра документ открывается внешним Приложением, в нашем случае, браузером.
Примечание: Для загрузки нужно посетить страницу и заполнить небольшую форму. Полнофункциональный вариант распространяется по принципу: "Деньги вперед".
Персональная поисковая система "Ищейка"
Так назван русскоязычный вариант поисковика, разработки немецкой фирмы iSLeuthHound Technologies. Основное окно с результатом тестового поиска выглядит так:
Как видим, здесь по запросу "norton" найдено всего 23 документа. То же, что и в предыдущем случае - поисковая зона ограничена числом до 500 файлов для данного бесплатного варианта, поэтому и результат получился скудным.
Основные характеристики:
Формат документов - TXT, DOC, RTF, HTML. С плагинами дополнительно - ZIP, PDF, ASP, XLS.
Язык запросов - логические операторы И, ИЛИ, НЕТ, скобки (), учет словоформы ключевых слов.
Зона поиска - индексный файл.
Документ открывается внешним Приложением в соответствии с типом файла. Имеется возможность посмотреть, как выглядит полнофункциональный вариант этой программы. Этот вариант - англоязычный и имеет гордое имя TheSleuthhound! Pro 4.21 PowerPack. Давайте посмотрим:
Здесь найдено 452 документа, и мы вплотную приблизились к результату (AVSearch - 464). Видно, что найденные документы отсортированы по дате создания, но можно сортировать по признаку: Имя, Папка, Размер, Время создания.
В целом, нужно отметить, что уровень программы довольно высокий - профессионально сделана для профессионального применения.
Примеры непрофессионального применения поисковой системы "Ищейка": имея такой быстрый поисковик и приличную информационную базу, можно, наверное, кроме прямого поиска нужных документов использовать как-то и другие возможности. Я, например, нашел одно применение, связанное со статистикой. Так статистика слова Траффик равна 63, а слова Трафик = 162, откуда следует, что по большинству голосов лучше писать Трафик а не Траффик. Броузер = 162, Браузер = 1139; В общем = 1932, Вобщем = 9 и т.д. Вот такая интересная статистика по правописанию.
Индексный файл: При индексации Зоны поиска под именем I-Zone объемом 139 мегабайт, эта программа отобрала 13104 подходящих файла и описала их в нескольких бинарных файлах формата CNK, расположив их в папке Ищейка\DB\i-zone с общим размером 38.5 Мбайт. Под Индексным файлом, видимо, надо подразумевать всю эту папку.
Сравнение с обычными поисковиками: Обычные поисковики файлов, такие, например, как в Windows Commander, неплохо и достаточно быстро обрабатывают простые запросы (из одного слова). Трудности начинаются при дальнейшем поиске в найденных файлах. Поскольку контекста нет, придется открывать и просматривать каждый файл, что при простом запросе практически невозможно из-за большого их числа. Чтобы сократить число найденных файлов, можно развернуть запрос, например, так как это сделано в следующем примере:
Здесь вместо ключевого слова "norton" , по которому было найдено 460 файлов введена фраза "Norton Utilities 2000" , по которой найдено всего 4 файла. Для проверки качества поиска привлечена полнофункциональная "Ищейка", которая нашла по этому запросу 9 документов, причем все они - правильные. Это говорит о том, что простые поисковики файлов не обеспечивают качественного поиска информации. С такими документами, как DOC, PDF, RTF простые поисковики вообще не работают.
Поисковая программа "Ищейка" - очень хорошая, быстрая, удобная и понятная программа, которая, к тому же, работает безотказно.
Поисковая утилита Xteq X-Find
"Просто выберите, где и что нужно найти, и нажмите "go"; это - все, что Вы должны делать. Вы можете даже определить текст, который должен быть внутри файлов" - так представляет свою программу сам автор.
Этикетка разработчика и самой программы выглядит так:
Как видим, по запросу "norton" найдено 460 документов, то есть первый тест прошел успешно. В собственном окне программы можно просмотреть каждый документ полностью, причем ключевое слово подсвечивается. Все файлы в просмотрщике открываются, как текстовые, то есть формат HTML мы видим вместе с тегами. Это не очень удобно, но разобраться в содержании можно. В окне программы контекстное меню Проводника не действует, поэтому открыть документ нормальным способом здесь нельзя.
Продолжим тестирование:
Запрос "norton utilites" - 6 ("Ищейка" нашла 10).
Как видим, этот результат - не совсем удачный, но у программы имеется немало привлекательных качеств. Это:
Малый размер (181 Кбайт),
Ненужность инсталляции,
Простота применения( ни одной настройки),
Удобный интерфейс (три панели),
Четкая отработка простых запросов,
Бесплатность и доступность распространения.
Все это свидетельствует о том, что для многих пользователей этот миниатюрный поисковик может стать удобным и полезным инструментом.
Agent Ransack
Здесь виден результат поиска по тестовому запросу "norton". Найдено 425 документов ("Ищейка" - 453). Этот тест будем считать успешным. Результат второго теста по запросу "norton utilites" виден на следующей картинке:
Здесь виден вид окна в упрощенном варианте, а также результат поиска. Найдено 10 файлов ("Ищейка" - 10). Результат вполне удачный.
Эта утилита имеет и другие привлекательные особенности:
С началом поиска открывается окно анимации с показом папок сканирования в данный момент, а также Прогресс-бар и числовой указатель состояния поиска. Все это очень удобно и оставляет приятное впечатление о программе.
В окне просмотра показываются строки с ключевым словом, которое подсвечивается. Объем фрагмента достаточен, чтобы уяснить содержание всего документа в контексте ключевого слова.
В окне списка найденных файлов в полном объеме действует контекстное меню Проводника, что позволяет открыть, копировать, переместить и т.д. найденный файл.
Название файла. Если название не задается, это означает, что нужно смотреть все файлы. Лучше задать тип файла, например, *.htm - это может значительно сократить время поиска. Так, тест "norton" в первом случае выполняется 3 минуты 53 секунд, а во втором варианте (с маской) - 2 минуты 51 секунду, на минуту быстрее.
Содержание файла. Задается как строковое выражение. Чем больше слов в строке, тем точнее задание и тем более подходящих документов будет отсеяно, поскольку поисковик не учитывает автоматически словоформы и варианты строки.
Зона поиска. Задается в виде одной папки ( кнопка Browse for Single Folder) или нескольких папок (кнопка Browse for multiple Folder).
Регулярные выражения. "Регулярные выражения - это механизм, позволяющий задать шаблон для строки и осуществить поиск данных, соответствующих этому шаблону в заданном тексте". Регулярные выражения в данном поисковике могут применяться как для задания ключевой строки, так и имени файла и существенно уточнить запрос. Но, к сожалению, воспользоваться этим механизмом сложновато - нужно не только хорошо уяснить сами правила составления шаблона, но еще и набить хоть немного руку на этом деле. Помощь в составлении шаблонов оказывает Мастер (кнопка Expression Wizard), но чтобы воспользоваться Мастером, правила все равно нужно знать.
Использование регулярных выражений - это, наверное, признак профессионального применения данной программы. Но и при любительском использовании данным поисковиком можно получать вполне приличные и полезные результаты, что позволяет мне рекомендовать эту программу пользователям, которые регулярно занимаются поиском информации на собственном компьютере, и которых "Ищейка" по каким-то причинам не устраивает.
EF Find
Внешний вид поисковика с результатами второго теста с ключевой строкой "norton utilites" показан на картинке:
Как видим, найдено 10 файлов ("Ищейка" - 10 ). Это хороший показатель. Обращаем внимание на наличие русскоязычного интерфейса и на отсутствие контекстного просмотра ключевого слова. Что можно сделать с найденными файлами хорошо видно на следующей картинке:
Здесь раскрыто содержание меню "Файл", в котором можно уточнить смысл двух команд:
Выполнить - для файла HTML означает - открыть в web-браузере,
Редактировать - означает открыть в Блокноте.
Хотя текстовый поиск - не основное назначение это утилиты, надо отметить, что эту задачу она выполняет хорошо. На второй картинке видно, что по первому тесту с ключевым словом "norton" найдено 420 файлов, что является вполне нормальным. Наиболее существенным достоинством утилиты является поиск в архивах ACE, ARC, ARJ, BZIP2, CAB, GZIP, LHA, RAR, TAR, TGZ, ZIP и ZOO. Найти в дистрибутиве Windows нужную библиотеку - дело и скучное, и долгое. EF Find проделывает такую работу и весело, и быстро. На следующей картинке показан пример поиска библиотеки:
File Finder
"Быстрый и простой поиск любых файлов на вашем компьютере или в локальной сети" - так представляет свою программу автор.
Имя файла и место поиска: Это основная вкладка программы, на которой формируется задание на поиск (запрос). Если требуется найти файл по имени, то указывается зона поиска - папка, включающая вложенные папки и имя файла, в котором можно использовать символы (*) и (?). В текстовом поиске имя файла не указывается, но желательно указать тип файла.
Тип файла: Как видим, этот поисковик может работать практически со всеми типами файлов, включая такие форматы, как DOC, XLS, PDF, HTML, TXT - главные форматы, в которых распространяется различная документация и повседневная информация. Задавая тип файла, мы уточняем запрос и ускоряем поиск, так как при сканировании неотмеченные типы файлов не просматриваются.
Вкладка "Дополнительно": На этой вкладке можно уточнить задание на поиск, в частности, указать нужно ли учитывать регистр буквенных символов, нужно ли просматривать ZIP-архивы и в каких кодировках искать текстовую строку. Для кириллицы поддерживаются все возможные кодировки, что особенно важно, если основной формат ваших документов - HTML.
Еще более сузить зону поиска можно, задав интервал дат создания или изменения интересующих нас файлов. При необходимости так можно отсечь устаревшие документы или, наоборот, слишком новые.
Настройка: На этой вкладке задаются долговременные параметры поисковика, смысл которых, в основном, ясен из их названия. После опции "Отчет" идут опции, определяющие состав (содержание) собственно "Отчета" - текстового списка найденных файлов, которые можно сохранить в файл формата TXT или CSV (Excel).
Контекстное меню: Контекстное меню найденного файла определяет наши возможности воспользоваться результатом поиска. Файл можно Запустить, Копировать, Удалить или просмотреть свойства. Можно просмотреть Отчет (Список найденных файлов) или сохранить его в файл.
Можно использовать новый инструмент, который носит название поиск "В найденном", который значительно убыстряет поиск и открывает новые возможности постепенного уточнения запроса без повторного сканирования всей зоны поиска. Этот режим запускается кнопкой "В найденном".
Обратим внимание на кнопку "Go back", Эта кнопка позволяет вернуться в предыдущее состояние с результатом по начальному запросу, изменить запрос и вновь "Искать в найденном". И так - пока не будет найден нужный документ. Все это - исключительно важная и полезная особенность этой программы. Часто, начиная поиск, мы не можем достаточно точно сформулировать запрос и, только просмотрев несколько документов, получаем возможность сделать уточнение и возможность искать в найденном значительно экономит время.
Контекст ключевого слова: При наведении мышкой на файл всплывает контекст ключевой фразы (слова), который позволяет сделать предварительную оценку содержания данного документа не открывая его в полном объеме.
Заключение
Для поиска нужной информации в массе файлов и документов, накопившихся на жестком диске целесообразно применять специальную программу-поисковик. Если формат документов однообразный и достаточно простой (только TXT и HTML), то можно обойтись утилитой AVSearch. При разнообразии типов документов потребуется изощренная поисковая система Ищейка или ее украинский аналог DiskMeta.
File Finder - программа для текстового поиска документов на компьютере, работающая практически, со всеми форматами документов и с архивами ZIP и удобно реализующая поиск в найденном. Эта очень толковая утилита может быть полезной для всех пользователей, которым приходится заниматься поиском документов и файлов на собственном компьютере или в локальной сети.
Ускоряет систему, реестр и доступ в Интернет. Оптимизирует, чистит и исправляет все проблемы с ПК в 1 клик. Выявляет и удаляет шпионские и рекламные модули.
Программа - победитель многих конкурсов. Подробнее
EF Duplicate Files Manager - утилита, которая позволяет осуществлять поиск и удаление дублирующихся файлов по маске, размеру и дате создания. Программа способна анализировать содержимое архивов.
get_app4 304 | Условно-бесплатная |
EF Find - мощная и, в то же время, простая в использовании поисковая программа для операционных систем семейства Windows. Утилита позволяет осуществлять поиск на наличие файлов, текста, шестнадцатиричных последовательностей и регулярных выражений.
get_app5 342 | Условно-бесплатная |
FolderSizes - мощная программа для анализа и мониторинга заполненности как жестких дисков в целом, так и отдельных директорий.
get_app1 673 | Условно-бесплатная |
Duplicate Remover Free - простая программа, которая поможет вам легко найти и удалить дубликаты файлов. С ее помощью вы сможете освободить дисковое пространство и повысить производительность вашего ПК.
get_app5 211 | Бесплатная |
Бесплатный и простой инструмент для поиска похожих или полностью идентичных изображений, в заданном пользователем каталоге. Присутствует поддержка различных форматов, включая BMP, GIF, PNG, TIFF, JPEG, предварительный просмотр дубликатов в виде эскизов.
get_app559 | Бесплатная |
NetworkOpenedFiles - небольшая портативная утилита для отображения списка всех файлов, которые сейчас открыты на других компьютерах в общей сети.
get_app2 222 | Бесплатная |
SearchMyFiles - неплохая альтернатива стандартному средству Windows "Поиск файлов и папок". Программа позволяет легко искать файлы в Вашей системе по таким параметрам, как например последняя модификация/создание, последнее обращение к файлу.
get_app18 729 | Бесплатная |
Крошечная портативная утилита, с помощью которой можно легко искать файлы на мобильных смартфонах и планшетах, подключенных к USB-порту компьютера. Найденные файлы можно экспортировать в CSV, HTML, XML, JSON файл или скопировать в нужную папку на ПК.
get_app1 013 | Бесплатная |
FastCopy - небольшая, но весьма удобная утилита от японских разработчиков, которая пригодится для быстрого копирования и удаления файлов.
get_app10 767 | Бесплатная |
get_app12 841 | Бесплатная |
Soft4Boost Dup File Finder - простая, бесплатная утилита, которая помогает найти и удалить ненужные дубликаты файлов на компьютере.
get_app16 307 | Бесплатная |
DiskSorter - неплохой инструмент для сортировки и классификации файлов на Вашем компьютере, что поможет упорядочит их размещение для более удобного и быстрого доступа.
get_app3 327 | Бесплатная |
Directory Monitor - программа для мониторинга выбранных папок на компьютере или в сети на предмет изменения их содержимого.
get_app4 090 | Бесплатная |
Auslogics Duplicate File Finder - эффективная и легкая в использовании программа, предназначенная для поиска и удаления ненужных дубликатов файлов.
get_app22 361 | Бесплатная |
AllDup - бесплатный инструмент для поиска и удаления дубликатов файлов на Вашем компьютере.
Иногда возникает необходимость заменить определенный кусок текста в нескольких документах: например, сменить пути установки в серии конфигурационных файлов или быстро изменить оформление в серии каких-нибудь договоров и т. д. Конечно, можно открыть каждый файл в редакторе, произвести поиск и замену штатными средствами; но если этих файлов больше десятка, то ручная работа становится весьма нудной, а если их больше полусотни, то это просто трата времени. Для решения таких задач есть специальные программы-автоматизаторы, три из которых - RQ Search and Replace, MultiReplace и @Text Replacer - будут рассмотрены в этом обзоре. Каждая из них имеет разные возможности и, в общем-то, разную область применения.
@Text Replacer
На вкладке "Текст и расположение" надо указать путь к файлу или файлам (допускаются стандартные подстановочные символы * и ?), что заменять и на что заменять. Флажок "Просмотреть вложенные папки" позволяет произвести замену не только в указанной папке, но и во всех ее подпапках. На вкладке "Дополнительно" можно указать игнорируемые символы (полезно, если текст разбит символами конца строки, например тексты с lib.ru, или между словами стоит больше одного пробела), установить классическую опцию "Учитывать регистр" и ввести путь к файлу, где будет сохранен отчет о переименовании.
После выставления всех опций и нажатия кнопок "Заменить" или "Найти" программа выдаст список обработанных файлов внизу основного окна. Форму выдачи результатов можно изменить в меню "Вид" - любой вариант из стандартных "Список", "Таблица" и т. д. К сожалению, какой бы пункт вы ни выбрали – программа выдаст только перечень файлов, а не искомые места в них. Впрочем, вооружившись любым просмотрщиком текста (например, встроенным в Total Commander), в них легко можно отыскать нужные строки.
Замечание: хотя @Text Replacer не поддерживает нестандартные методы замены, наподобие "Вставить Б между А и В", это не значит, что обязательно нужна другая программа. Того же эффекта можно добиться, заменив строчку "А В" на "А Б В"; то же самое касается удаления выбранного текста и вставки до и после указанного отрывка. Выделение таких действий в отдельную функцию оправдано при больших кусках для правки, тогда это экономит время.
Multi Replace
Программа Multi Replace предоставлена компанией Alphynsoftware. Основные поля в программе такие же, как и в предыдущей, – путь поиска, окно исходного текста и текста для замены, но эта утилита заметно функциональней @Text Replacer. Существует две версии программы, незначительно отличающиеся друг от друга, – Lite ($19,95) и Pro ($29,95). Пробная версия полнофункциональна, но ограничена 15 днями.
Среди преимуществ можно отметить более мощную работу с подстановочными символами – разрешается задача диапазона символов через [a-z] и отмена служебных символов при помощи обратного слеша – "". (То есть комбинацией "*" можно задать поиск в тексте именно символа *, а не любого символа.)
Очень удобен флаг "Помещать результаты в новую директорию", особенно в случае, когда нужно произвести несколько пакетных замен подряд на каком-нибудь бланке. Также можно выбрать типы файлов, которые будут (или напротив – не будут) учитываться при поиске или замене. Что приятно, некоторые из наиболее часто используемых расширений уже указаны в выпадающем меню. Используя кнопки "+" и "-", можно добавлять или удалять их (только в Pro).
Флаг "Многострочный текст" аналогичен флагу "Игнорировать конец строки" в @Text Replacer. Имейте в виду, что в режиме многострочного текста нельзя применить отмену спецсимвола при помощи знака ""!
Групповая замена позволяет задать выполнение нескольких замен одновременно. При наличии большого количества файлов это поможет сэкономить время, равно как и флаг "Экспресс-замена" (выполнение всех замен только с одним запросом).
Среди функций также стоит отметить "Авторезервирование", которое создает копии изменяемых программой файлов. Выполняя автозамену для важных документов, особенно такую, которую нельзя совершить в обратную сторону, будет нелишним поставить этот флажок. Копии будут храниться в папке Backup в директории программы.
Часто случается, что нужно произвести замену несколько сложнее, чем А на Б. Например, нужно вставить в текст отчество между именем и фамилией или просто удалить некоторые куски текста. В таком случае справа от опций можно выбрать нестандартный способ замены.
Все параметры программы можно использовать и для дальнейшей работы с автозаменой, используя иконки "Сохранить параметры замены" и "Загрузить параметры замены" (Только в Pro).
RQ Search&Replace
RQ Search&Replace от MiraSoftware - самая мощная из всех трех программ. Кроме стандартного алгоритма поиска и замены файлов содержит в себе множество дополнительных функций. Демонстрационная версия позволяет обрабатывать или только один файл, или несколько файлов, но не больше 8 килобайт каждый. Выбор можно сделать непосредственно во время работы программы из меню "Помощь". Стоимость полнофункциональной версии – $19.
Основной принцип работы – задание различных правил обработки текста в специальной таблице, содержимое текущего ее ряда отображается в окнах Find what и Replace with. Если программа развернута на полный экран, то внизу появляется детальный лог, содержащий все совершенные программой операции.
- блок - любой массив данных;
- строка - массив данных до разрыва строки;
- слово целиком - массив данных, отделенный пробелами;
- блок, заключенный в. - все символы между А и Б;
- MSWord - вызывает отдельное диалоговое окно, в котором можно настроить замену, используя все функции одноименного окна Word, включая спецсимволы;
- HTML-тег - позволяет удалить теги (вместе с парными закрывающими, что удобно) или модифицировать их: например, заменить аргумент или перевести написание в другой регистр.
Меню "Таблица" дублирует все вышеупомянутые функции, позволяя установить их сразу для нескольких строк.
Из меню "Проект" можно сохранять и загружать параметры поиска и замены, как и в Multi Replace.
В меню "Кодировка" можно указать кодировку, которая будет принята по умолчанию при обработке. Программа умеет работать с Win1251, koi8, DOS-кодировками, а также с UTF8, отдельно вынесенном в меню "Опции".
В следующем пункте – "Просматривать в виде" - можно выбрать способ интерпретации текста в окне предпросмотра. Программа понимает не только обычный plain text, но и RTF, и HTML. (Удобно для редактирования архива веб-страниц, где строки разбиты тегами.)
Меню "Операции" содержит несколько дополнительных алгоритмов, на которых стоит остановиться поподробнее.
Создать индекс-файл. Работает правильно, только если подсветить в окне выбора файлов .html страницы. Создает файл со ссылками на каждую из страниц. Файл получается абсолютно без всякого оформления, поэтому сгодится или в качестве основы для нормального индекса, или же для внутреннего использования при каталогизации сохраненных веб-страниц.
Text-HTML. Функция, превращающая текст в HTML-страницу. Несмотря на то что мусорного кода операция эта практически не добавляет, для русскоязычного пользователя она абсолютно бесполезна: получившийся из кириллического текста файл с символами вида "’e7" не смогла прочитать ни одна программа, включая саму Search&Replace. С файлами на европейских языках все ОК.
HTML-Text. Производит обратное действие (в этом направлении кириллица обрабатывается нормально), но зачем это нужно – не очень понятно, ведь того же самого можно добиться, просто-напросто выделив текст в любом браузере.
Удалить файлы нулевого размера. Название функции говорит само за себя. Удаляет все пустые файлы из выбранной папки. Можно запускать в конце работы, чтобы удалить файлы, чье содержимое уже было очищено.
Заменить символы 0-31. Символы с кодами 0-31 в коде ASCII считаются управляющими, и иногда может потребоваться очистить от них текст (например, убрать лишние переводы строки), для чего и предназначена эта операция.
В меню "Настройки" можно поменять цветовую гамму утилиты, а также указать случаи, в которых программа будет запрашивать подтверждения действий.
Меню "Копии" и "История папок" дают пользователю гибкие возможности по управлению резервными копиями измененных файлов без необходимости пользоваться файл-менеджером.
Итоговое сравнение
@Text Replacer
Плюсы: низкая стоимость, простота в освоении.
Минусы: ограниченное удобство использования, низкая функциональность.
MultiReplace
Плюсы: удобный и понятный интерфейс, богатый набор фунцкий.
Минусы: из всех представленных программ – самая дорогая, даже Lite.
RQ Search & Replace
Плюсы: огромный набор функций, дополнительные операции, детальный лог всех действий, хорошая цена.
Минусы: несколько громоздкий интерфейс, простые действия занимают больше времени, чем в других программах.
Выводы
Привет, друзья. В этой публикации рассмотрим такой вопрос: как найти файл по содержимому. Т.е. по каким-то отдельным ключевым словам или словосочетаниям. Если вам нужно найти на своём компьютере какой-то документ или текстовый файл, при этом вы не помните его название, но вам чётко врезались в память отдельные слова или фразы с этого документа, вы найдёте этот документ. Правда, поиск в проводнике Windows для этих целей не годится, его лучше использовать только для поиска данных по ключевым фразам в названиях файлов. Для поиска по текстовому содержимому файлов необходимо прибегнуть к различным сторонним программам. И мы рассмотрим несколько таких - Total Commander, Everything, Archivarius 3000.
Как найти файл по содержимому
Друзья, к рассмотрению темы, как найти файл по содержимому, меня подтолкнула просьба о помощи одного читателя сайта:
Здравствуйте, админ. Проблема такая: срочно нужно найти файл по его содержимому среди целой кучи других похожих файлов, находящихся на жёстком диске моего компьютера. У меня на диске D находится много папок с файлами, и среди них есть текстовый файл с решением одной математической задачи. Но я помню только часть исходных данных y0= (4*2-22)/4=1, более ничего не помню. Расширение файла тоже не помню, это может быть «.txt», «.doc», «.xlsx», «.ttf» и даже «.phtml» или «.php3». Пробовал применить программу Multi Text Finder, но она ничего не нашла.
Программа Multi Text Finder, друзья, с виду вроде бы серьёзная, в ней можно выбирать типы документов для поиска, ключевые слова для поиска по содержимому документов, можно использовать маски поиска. Но, увы, это программа совершено бесполезна, найти файлы, содержащие текст, она не может. Возможно, в какой-то части случаев она и работает, но мой тест показал её полную непригодность. Я указал место поиска, ввёл ключевое слово, запустил поиск. Но поиск ничего не обнаружил.
Хотя по указанному пути документ не то, что с ключевым словом внутри, с ключевым словом в названии есть.
Увы, так бывает. Эту программу мы, друзья, отправим в топку. И давайте посмотрим на эффективные программы, которые реально помогут нам найти нужный файл, содержащий текст, какой мы помним.
Примечание: друзья, проводник Windows не ищет файлы по их внутреннему содержимому, но у него есть иные критерии поиска, с помощью которых вы можете сузить область поиска нужного вам файла. Как работать с поиском в системном проводнике, смотрите в статье «Как найти файл на компьютере».
Total Commander
Поиск файлов по ключевым словам в их тексте предусматривает функциональный файловый менеджер Total Commander. Эта программа сможет найти исчезнувший на вашем компьютере файл и по содержащемуся тексту, и по названию, и по расширению, и по дате создания, и по различным атрибутам. Ну и также у Total Commander много прочих интересных возможностей для опытных пользователей, так что если вы никогда не пользовались этим файловым менеджером, решение вашей проблемы может стать идеальным поводом для знакомства с ним и исследования прочих его возможностей.
Как найти файл по содержимому в Total Commander? На его панели инструментов есть кнопка поиска файлов, кликаем её. Или можем использовать горячие клавиши Alt+F7.
В форме поиска выбираем место поиска, можем указать весь раздел диска, на котором предположительно хранится нужный нам файл. И вводим ключевой запрос. Если мы его введём в графу «Искать файлы», поиск будет выполнен по названиям файлов. Если же мы активируем графу «С текстом» и в неё впишем ключевой запрос, то поиск будет выполняться по содержимому файлов. Что, собственно, и нужно нам. Вписываем в графу «С текстом» те слова или фразы, которые мы помним. И жмём «Начать поиск».
И далее по мере выполнения поиска на нижней панели окошка мы получим результаты поиска. И вот нам удалось найти файл, содержащий текст, который мы помним.
Чтобы поиск выполнялся быстрее, нужно максимально сузить его область, т.е. указать более точный путь нахождения файла. И тогда процедура поиска займёт меньше времени.
Everything
Друзья, для поиска файлов на Windows-компьютере есть специальные программы. Одна из них – бесплатная Everything. Очень простая и удобная, может работать обычно с установкой в Windows, и также может работать портативно. Ищет файлы по именам и содержимому, предусматривает расширенный поиск с разными настройками и фильтрами. Программа изначально выполняет индексацию содержимого компьютера, и благодаря этому поиск файлов выполняется мгновенно, гораздо быстрее, чем в проводнике Windows. Но индексация проводится только по именам файлов и, соответственно, мгновенный поиск возможен, если мы вводим ключевое слово в названии документа. Внутреннее содержимое файлов программа не индексирует, и, соответственно, если нам понадобится найти файлы, содержащие текст, придётся подождать, этот процесс может быть небыстрым.
Итак, программа Everything. Дабы искать в ней файлы по названиям, вводим ключевое слово из названия в поле программы в её главном окне.
Указываем ключевые слово или фразу. И желательно указать местоположение искомого файла, хотя бы примерное, хотя бы просто раздел диска. Если хотите, можете использовать другие фильтры и настройки расширенного поиска.
FileSearchy
Аналог Everything – программа FileSearchy, у неё такие же возможности, она рассмотрена у нас на сайте в отдельной публикации «Эффективный поиск внутри компьютера вместе с программой FileSearchy».
Archivarius 3000
И ещё одну программу, друзья, рассмотрим, которая может найти файлы, содержащие текст, какой мы помним – это программа Archivarius 3000. Но это программа максимум-уровня, это суперфункциональный внутрисистемный поисковик файлов, включающий возможность поиска документов по их содержимому. И такой поиск программа выполнят мгновенно за счёт индексации содержимого указанных нами областей компьютера. Это не программа-однодневка, она платная, нужна она не всем, а только тем, кто постоянно работает с документами, у кого на компьютере хранятся большие их базы, и кому принципиально нужна оперативность и эффективность при поиске данных. Archivarius 3000 изначально индексирует указанные нами пути хранения документов, и впоследствии периодически также выполняет индексацию, чтобы в индексе всегда были актуальные сведения.
Механизм поиска у Archivarius 3000 такой, как у поисковых систем: программный поисковик ищет файлы не только с прямым вхождением наших ключевых запросов, но также с изменёнными словоформами, т.е. с разными падежами существительных и прилагательных имён, с разными временами глаголов и прочими морфологическими изменениями. И также при поиске учитывается плотность ключевых слов, а результаты поиска выстраиваются по релевантности. Друзья, программа очень серьёзная, у неё настраиваемый механизм индексации, собственный просмотрщик документов. Более того, программа даже может обеспечивать удалённый доступ к нашей базе документов по принципу сервера, и мы сможем искать файлы на нашем компьютере, будучи далеко от него, по сути, из любой точки мира. Так что в нескольких словах об этой программе не расскажешь, она достойна отдельного обзора. Покажу лишь, как пользоваться настроенной программой.
Как найти файл по содержимому с использованием Archivarius 3000? Вводим ключевой запрос, будь это слова из названия, будь это слова в тексте документа. И отсматриваем результаты поиска. Смотрим, где встречается все слова из нашего запроса.
DocFetcher – это приложение с открытым исходным кодом, позволяющее вам совершать поиск по содержимому файлов на вашем компьютере. — Это как Google, но только для локальных файлов. Приложение работает на Windows, Linux и OS X. Распространяется по лицензии Eclipse Public License.
Приведённый ниже скриншот отображает основной пользовательский интерфейс программы. Запросы вводятся в текстовое поле (1). Результаты поиска отображаются в панели результатов (2). В поле предпросмотра (3) можно увидеть текстовое содержание файла, выделенного в панели результатов. Все совпадения выделены жёлтым.
Вы можете фильтровать результаты, указав минимальный или максимальный размер файла (4), тип файла (5) или его расположение (6). Кнопки, отмеченные цифрой (7), используются для вызова руководства пользователя, настроек и сворачивания программы в трей.
Для работы DocFetcher необходимо проиндексировать те папки, в которых вы хотите осуществлять поиск. Что такое индексация и как она работает подробнее описано ниже. Вкратце, индекс позволят DocFetcher быстро (буквально за несколько мгновений) определить, в каких файлах содержится определённый набор слов. Соответственно, скорость поиска увеличивается. Данный скриншот показывает диалог DocFetcher по созданию новых индексов.
Нажатие на кнопку «Запуск» внизу этого диалогового окна запускает индексацию. Процесс индексирования может занять некоторое время, в зависимости от количества и размера файлов для индексирования. Как правило, в минуту индексируется около двухсот файлов.
Нет необходимости каждый раз индексировать заново одну и ту же папку. Обновление индекса папки после изменения её содержимого происходит гораздо быстрее. Этот процесс обычно занимает несколько секунд.
Вот чем выделяется DocFetcher на фоне других приложений по поиску на локальном компьютере:
Отсутствие мусора: Интерфейс DocFetcher полностью чист. Никакой рекламы и всплывающих окон с предложением зарегистрироваться. Ничего ненужного не устанавливается в ваш браузер, реестр или ещё куда-нибудь.
Приватность DocFetcher не собирает вашу личную информацию. Никакую и никогда. Сомневающиеся могут проверить это, просмотрев исходный код программы.
Бесплатно навсегда: Так как у DocFetcher открытый исходный код, вам не стоит бояться, что программа когда-нибудь устареет и перестанет развиваться. А если говорить о технической поддержке, слышали ли вы, что Google Desktop, один из основных коммерческих конкурентов DocFetcher перестал разрабатываться в 2011? Вот.
Кроссплатформенность: В отличие от многих конкурентов, DocFetcher работает не только на Windows, но и на Linux, и на OS X. Таким образом, если вы вдруг решите перейти с Windows на Linux или OS X, DocFetcher будет ждать вас там.
Портативность: Один из главных плюсов DocFetcher – это портативность. Короче говоря, вы можете создать полноценное доступное для поиска хранилище документов на USB-носителе. Подробнее в следующем разделе.
Индексирование только необходимых документов: Среди коммерческих конкурентов DocFetcher наблюдается тенденция по сканированию всего жёсткого диска — Возможно, это делается из соображений, что пользователи «туповаты» и не смогут правильно пользоваться программой. А возможно, программы собирают таким образом конфиденциальные данные. Практика показывает, что большинство пользователей не хотят индексировать весь жёсткий диск. Не только из-за пустой траты времени и места на диске, но ещё и потому, что это засоряет поисковую выдачу ненужными файлами. DocFetcher же индексирует только те папки, на которые вы укажете. А ещё вам доступно множество опций фильтрации.
Одна из выдающихся особенностей DocFetcher – это его доступность в виде портативной версии, которая позволяет вам создать портативное хранилище документов — полностью доступное для индекса и поиска. Вы можете взять с собой.
Примеры использования: Вот что вы можете делать с таким хранилищем документов: вы можете взять его с собой на USB-диске, записать его на CD в целях архивации, поместить его на защищённый раздел диска (рекомендуем использовать TrueCrypt), синхронизировать его с другими компьютерами через облачное хранилище вроде DropBox. А так как у DocFetcher открытый исходный код, вы можете поделиться своим хранилищем документов со всем миром, если вдруг вам захочется.
Java: Производительность и портативность: Наверное, не всем нравится тот факт, что DocFetcher написан на платформе Java, имеющей репутацию «медленной». Лет десять назад производительность Java действительно оставляла желать лучшего, но сейчас всё хорошо, можете почитать об этом на Википедии. Как бы то ни было, Java позволяет одному и тому же пакету DocFetcher быть запущенным на Windows, Linux и OS X — В то же время многие другие программы требуют разных пакетов для каждой платформы. В итоге вы можете, например, поместить ваше портативное хранилище документов на USB-диск, а потом получить доступ к нему из любой из вышеперечисленных операционных систем, убедившись, что в системе установлена Java.
Данный раздел даёт базовое представление, что такое индексация и как она работает.
Простой подход к поиску файлов: Самым простым подходом к файловому поиску является банальный перебор каждого файла в папке. Это отличное решение для поиска только по имени файла, ведь анализ названий происходит достаточно быстро. Но если вам необходим поиск по содержимому файлов, то перебор здесь не подойдёт – извлечение текста более трудоёмкая задача.
Поиск, основанный на индексе: Именно поэтому DocFetcher, выполняя поиск по содержимому, использует подход, называемый «индексация». Считается, что большинство файлов (примерно 95%), по которым пользователь осуществляет поиск, не изменяются (как минимум делается это редко). Вместо того чтобы открывать каждый файл после каждого нового поискового запроса, гораздо эффективнее было бы сделать это лишь раз. Таким образом создаётся что-то вроде словаря, который называется индексом. Он позволяет быстро находить документы по содержащимся в них словам.
Сравнение с телефонной книгой: Просто подумайте о том, насколько удобнее искать чей-то номер телефона в телефонной книге (это своеобразный индекс), а не обзванивать каждый возможный номер телефона с целью узнать, не является ли человек на другом конце провода тем, кого вы ищете. — Звонок кому-либо и извлечение текста из файла – это трудоёмкие операции. Кроме того, люди не очень часто меняют свои телефонные номера. Точно так же и многие файлы на компьютере долго остаются неизменными.
Обновления индекса: Конечно, индекс отображает файлы в их состоянии на момент индексирования. А оно могло и измениться. То есть, если индекс не актуален, результаты поиска будут устаревшими. Точно так же устаревает телефонная книга. Но это не проблема. Как мы уже знаем, большинство файлов обновляется очень редко. Кроме того, DocFetcher может автоматически обновлять индексы: (1) При запуске он определяет изменённые файлы и, соответственно, обновляет их индексы. (2) Когда он не запущен, маленький фоновый процесс будет определять изменения в файлах и составлять список тех из них, которые требуют обновления индекса. DocFetcher обновит эти индексы при следующем запуске. Вы можете не беспокоиться об этом фоновом процессе: он действительно мало нагружает процессор и память, так как не делает ничего, кроме обнаружения изменения в папках, оставляя более затратное обновления индекса DocFetcher.
Читайте также: