Компьютерная программа для поиска файлов расположенных на ftp сайтах через интернет
На действующих сегодня FTP-серверах можно найти самые разные типы файлов, в том числе музыку и видео. Значительная часть FTP-ресурсов имеет платный или ограниченный доступ, тем не менее многие из них являются общедоступными. Набравшись немного опыта и определив для себя наиболее предпочтительные ресурсы, пользователь может искать на них файлы, просто переходя из папки в папку. Однако гораздо удобнее воспользоваться услугами FTP-поисковиков, которые ищут файлы на различных FTP-серверах.
Особенность поиска файлов в том, что они, кроме имени и типа, не имеют каких-либо признаков, которые могли бы их идентифицировать. Это даже не картинки, содержимое которых можно определить, используя специальные алгоритмы. Содержимое файла никак нельзя классифицировать. Правда, мультимедийные файлы часто содержат в себе некоторую информацию, скажем, о названии композиции или исполнителе. Однако архивы, программы и многие другие типы файлов не поддаются классификации. Вследствие этого основным признаком, по которому можно найти файл, остается его имя.
• файл/каталог – поиск по всем файлам и папкам;
• музыка (mp3) – поиск MP3-музыки;
• изображения – поиск картинок;
• видео – поиск видеофайлов;
• сервер – поиск FTP-сервера.
Еще в одном раскрывающемся списке можно выбрать географические границы поиска: в России или по всем (то есть по всему миру). Задав необходимые параметры, следует набрать имя нужного файла или его часть и нажать кнопку Найти – результаты поиска появляются практически мгновенно.
Совет
Имя файла можно задавать, используя спецсимволы * и ?, которые означают соответственно любую группу символов и любой одиночный символ.
На главной странице поискового сервера есть также ссылка Драйверы, перейдя по которой можно попасть на страницу поиска драйверов для различных устройств компьютера. Выбрав тип устройства и его производителя, нужно будет указать конкретную модель, в результате чего появятся ссылки на найденные драйверы, хранящиеся на FTP-серверах.
Данная страница практически не содержит настроек, требующих пояснения. Среди возможностей следует отметить отключение показа в результатах поиска файлов, предназначенных для использования на системах семейства Unix. Целесообразно пользоваться этой возможностью, когда нужно найти файлы для Windows, чтобы не перегружать результаты поиска лишними данными. Полезной иногда бывает возможность ограничения размера файла, если, например, известно, что искомый файл не может быть менее определенного размера или чтобы отбросить слишком большие файлы, загрузка которых на компьютер может потребовать больших временных затрат.
Напомню, что для загрузки файлов с FTP-сервера понадобится одна из программ FTP-клиентов (см. гл. 2, разд. «Загрузка и выгрузка файлов посредством FTP»).
Подводя итог рассказу о возможностях поиска в Интернете, стоит упомянуть еще об одном новом явлении в Сети – визуальном поиске, суть которого в наглядном и красочном представлении результатов поиска.
Отмечу также, что для успешного поиска от пользователя требуется приобретение некоторых навыков. Кроме того, помните: «Кто ищет, тот всегда найдет!»
Данный текст является ознакомительным фрагментом.
Продолжение на ЛитРес
Поиск
Поиск Элемент input со значением “search” в атрибуте type будет вести себя примерно так же, как элемент ввода со значением “text” атрибута type:<label for="query">Поиск</label><input name="query" type="search">Единственная разница между “text” и “search” состоит в том, что браузер может
Поиск
Поиск В процессе работы в компьютере накапливается большое количество файлов, и зачастую сориентироваться в них самостоятельно и найти нужный оказывается затруднительно. В этом случае вам на помощь придет система поиска. В Windows Vista она была значительно
Поиск на научных сайтах с использованием платформы Flexum «Поиск по научным сайтам»
Поиск на научных сайтах с использованием платформы Flexum «Поиск по научным сайтам» Тема научного поиска не прошла мимо разработчиков персональных поисковиков. Подробному рассказу о возможностях таких поисковых систем посвящена отдельная глава нашей книги (см. главу 6).
RSS-поиск
Поиск по FTP-серверам
Поиск по FTP-серверам На действующих сегодня FTP-серверах можно найти самые разные типы файлов, в том числе музыку и видео. Значительная часть FTP-ресурсов имеет платный или ограниченный доступ, тем не менее многие из них являются общедоступными. Немного набравшись опыта и
Обеспечение доступа к серверам Kerberos
Обеспечение доступа к серверам Kerberos На первый взгляд может показаться, что для обращения к серверам приложений Kerberos достаточно иметь соответствующие клиентские программы. На самом деле ситуация выглядит несколько сложнее. Прежде всего, в процессе обмена участвуют
Поиск
Поиск Если вы хотите удалить пункт Поиск (Найти) из меню кнопки Пуск, то откройте разделHKEY_CURRENT_USER SoftwareMicrosoftWindowsCurrentVersionPoliciesExplоrer и создайте параметр NoFind типа DWORD со значением, равным 1.После перезагрузки пункт Поиск исчезнет из меню кнопки Пуск, а также исчезнет команда
Поиск
Поиск Классический видЧтобы использовать классический вид поиска файлов без анимированного персонажа, то присвойте строковому параметру Use Search Asst значение no в разделе HKCUSoftwareMicrosoftWindowsCurrentVersionExplorerCabinetStateОчистка истории раннее вводимых словЕсли вы часто пользуетесь
Поиск
Поиск Строка поискаЧтобы скрыть строку поиска из IE7, в разделе HKCUSoftwarePoliciesMicrosoftInternet ExplorerInfoDeliveryRestrictionsсоздайте параметр типа DWORD ·NoSearchBox· со значением 1. Перезапустите IE7, чтобы изменения вступили в силу. Кнопка Поиск (IE6)Чтобы изменить адрес поисковика, который у вас
Яндекс. Поиск – быстрый поиск документов
Яндекс. Поиск – быстрый поиск документов Документы, как известно, имеют премерзкое свойство накапливаться. И чем больше документов, тем труднее в их залежах найти нужный. Электронные документы здесь не слишком отличаются от бумажных. Проблема места для хранения, правда,
Поиск
Поиск Поиск величины при вводе Каким способом можно производить поиск подходящих величин в момент ввода? Табличный курсор (визуально) должен перемещаться к наиболее подходящему значению при добавлении пользователем новых символов водимой величины.Первоначально код
Доступ к FTP-серверам
Поиск
Поиск Управление отображением команды Поиск, которая также по умолчанию входит в состав меню кнопки Пуск, осуществляется в системном реестре в разделе HKEY_CURRENT_USERSoftwareMicrosoftWindowsCurrentVersionPoliciesExplorer с помощью REG_DWORD-параметра NoFind. Чтобы удалить данную функцию, следует присвоить
Глава 12 Поиск с предпочтением: эвристический поиск
Глава 12 Поиск с предпочтением: эвристический поиск Поиск в графах при решении задач, как правило, невозможен без решения проблемы комбинаторной сложности, возникающей из-за быстрого роста числа альтернатив. Эффективным средством борьбы с этим служит эвристический
18.5.5. Посылка сигналов серверам с помощью цикла for
18.5.5. Посылка сигналов серверам с помощью цикла for Поскольку цикл for может обработать каждое слово списка, установим переменную для отображения названий некоторых серверов сети. Воспользуемся циклом for для посылки сигналов каждому из этих серверов.$ pg
Ускоряет систему, реестр и доступ в Интернет. Оптимизирует, чистит и исправляет все проблемы с ПК в 1 клик. Выявляет и удаляет шпионские и рекламные модули.
Программа - победитель многих конкурсов. Подробнее
FileZilla Server - Компактный, мощный, быстро работающий и при этом бесплатный FTP-сервер. Позволяет легко и быстро превратить ваш ПК в сервер и является одной из лучших среди программ такого рода.
get_app53 052 | Бесплатная |
FTP Disk - удобный клиент для быстрой и легкой загрузки файлов и данных на FTP-сервер.
get_app2 844 | Условно-бесплатная |
Serv-U - мощная и простая в управлении утилита, превращающая любой подключенный к Интернету компьютер в FTP-сервер.
get_app50 091 | Условно-бесплатная |
NetDrive - очень удобное приложение, позволяющее подключать удаленные и облачные хранилища данных в виде обычного локального или сетевого диска.
get_app4 694 | Условно-бесплатная |
FireFTP - расширение для браузера Firefox, которое предоставит Вам полноценный FTP-клиент в обычной вкладке браузера.
get_app3 498 | Бесплатная |
Eserv Mail Server - комплект программ для Windows, превращающих компьютер в intranet- и internet-сервер, позволяющий решать практически любые задачи.
get_app8 240 | Условно-бесплатная |
RaidenFTPD - это полностью настраиваемый FTP-сервер, который может быть запущен под любой операционной системой Windows. Как и любая другая программа подобного рода, RaidenFTPD позволяет осуществлять контроль над скачиваемыми файлами, поддерживает работу.
get_app8 205 | Условно-бесплатная |
get_app38 995 | Условно-бесплатная |
Golden FTP Server Pro - Персональный FTP сервер для Windows. Очень прост в использовании. FTP сервер запускается автоматически при загрузке Windows. Вам не потребуется каких-либо особых знаний для использования программы.
get_app11 453 | Условно-бесплатная |
Golden FTP Server - Бесплатный персональный FTP сервер для Windows. Программа максимально проста и удобна в использовании с интуитивно понятным мультиязычным интерфейсом.
Преимущественно медиафайлы. На полном серьезе, без шуток.
Увы, частая ситуация в попытке хоть что-то скачать
Зачем это нужно?
• Отличие контента ТВ- и DVD-версии
Например, мультсериал «Дарья» лишился почти всей музыки, которая была в ТВ-версии, из-за юридических проблем с перелицензированием. Долгое время люди, желающие посмотреть данный сериал, стояли перед выбором: либо полноценная ТВ-версия с музыкой и плохим качеством видео, либо DVD-версия с хорошим качеством, но без музыки.
• Региональные различия
Справедливы как для видео, так и для музыки. Мультсериал W.I.T.C.H. выпускался с 4 разными опенингами, только один из которых попал на DVD.
Зачастую, музыкальные альбомы, выпускаемые для рынка Японии, содержат бонусные треки, которых нет в других изданиях.
Как вы уже поняли, причин может быть множество. Где искать непопулярные и старые файлы?
История Usenet
С увеличением пропускной способности линий, улучшением модемов и их протоколов, к девяностым сеть уже вовсю использовали для передачи бинарных файлов: вареза, музыки, видеофайлов. Делалось это примерно таким же образом, как и в Email: файл разбивается на небольшие части (тома), кодируется печатными символами в 7-битной кодировке с использованием Base64 или uuencode, и отправляется в ньюсгруппу. Кодирование в 7 бит добавляет около 30% накладных расходов на передачу файла. Спецификация позволяет использовать большинство символов из ASCII-таблицы, поэтому в 2001 году появляется алгоритм передачи файлов yEnc, увеличивающий файл всего на 1-2%, экранируя только символы переноса строки, NULL-байты и символ равенства (=). Им пользуются и по сей день.
Для контроля целостности и восстановления поврежденных или отсутствующих данных используется Parchive.
До 2008 года крупнейшие Usenet-провайдеры хранили бинарные файлы около 100-150 дней с момента их загрузки (так называемый retention time, срок хранения файлов). С 2008 года самые крупные провайдеры вообще перестали что-либо удалять, и на текущий момент можно без проблем скачать файлы восьмилетней давности, а провайдеры поменьше выставили retention time в 1000+ дней, что тоже немало. К этому моменту текстовое общение в Usenet сошло на нет и сеть использовалась преимущественно для хранения и передачи файлов.
Начиная где-то с середины 2011 года за сетью начали следить правообладатели, из-за чего Usenet-провайдерам пришлось удалять файлы, что сильно повлияло на целостность релизов. Некоторые провайдеры сделали автоматизированные системы удаления файлов, чтобы правообладатели могли удалять загрузки самостоятельно. Дабы предотвратить или хотя бы замедлить обнаружение файлов правообладателями, энтузиасты начинают загружать файлы с обфусцированными именами, в архивах под паролями, и добавляют их в каталоги систем индексации релизов (indexers), доступ к которым, как правило, осуществляется либо за деньги, либо по приглашениям. Обычными способами ни найти, ни скачать такие релизы не удастся.
В современной России о Usenet почти никому не известно, хотя рунет зарождался именно с него, по протоколу UUCP, и был одним из двух рабочих каналов для связи с Западом во время путча 1991 года (второй — FIDO). Сейчас Usenet наиболее популярен в странах, законы которых позволяют штрафовать пользователей за скачивание или раздачу контента, защищенного авторским правом, например, в Германии. В отличие от BitTorrent, узнать IP-адресы пользователей Usenet сторонней организации невозможно.
Подключение к Usenet
Теперь нужно каким-то образом получить nzb-файл с метаинформацией, это что-то вроде .torrent-файла. Если у вас его нет, нужно воспользоваться поисковиком-индексатором.
Индексаторы
Скачивание с Usenet
Файлы, защищенные паролем, как правило, являются просто фейками.
На второй странице обнаруживается DVDRip, с адекватным размером, в архиве без пароля — хороший знак.
На третьей странице находим BDRip и несколько DVDRip'ов, похожих на настоящие (судя по размеру файла и дате загрузки).
Выбираем файлы, которые хотим скачать, нажимаем кнопку «Download NZB», скачиваем .nzb-файл и импортируем его в NZBGet или SABnzbd, предварительно вписав данные своего Usenet-аккаунта в настройки программы. Начинается скачивание со скоростью канала моего провайдера.
По окончанию скачивания, NZBGet автоматически распакует архивы и удалит их. Файл размером 6.74 ГБ, загруженный 4.5 года назад, скачался за 15 минут!
Internet Relay Chat — протокол текстового общения, до сих пор пользующийся популярностью у разработчиков свободного ПО, администраторов торрент-трекеров, анимешников и авторов ботнетов из-за своей простоты. Появившийся в 1989 году, IRC стал стандартом групповых чатов в интернете на долгие годы, и начинает терять популярность только к середине 2000-х, с приходом ICQ и Jabber. В IRC существует возможность передачи файлов — DCC , на основе которой в 1994 году был написан первый бот для автоматического распространения доступных боту файлов — Xabi DCC (отсюда и название — XDCC).
На сегодняшний день существуют как отдельные каналы, так и целые серверы, посвященные файлообмену через XDCC. Почти у любой мало-мальски серьезной аниме релиз-группы, у которой даже может не быть веб-сайта, есть свой бот, с которого можно скачать все релизы группы независимо от их возраста. Популярность XDCC обусловлена функциональностью скриптов, легкостью их настройки и администрирования: выкладывающему релиз достаточно загрузить каким-либо образом файл на сервер с ботом, например по FTP, а бот сам добавит его в индекс, оповестит пользователей на канале о появлении нового файла, автоматически отправит его пользователям, подписавшимся на обновления этого бота (например, если это новый эпизод сериала).
В специальных IRC-сетях распространяют варез, свежие и не очень фильмы, музыку, игры, книги. XDCC не наделен вниманием правообладателей, поэтому у ботов можно найти множество вещей, которые сложно найти в других местах.
Индексаторы
Скачивание из IRC
Попробуем скачать «How Music Got Free» («Как музыка стала свободной» по-русски) — замечательная книга об истории музыкальной индустрии, технологиях обмена музыкой и человеке, который почти в одиночку стащил 2000 альбомов и выложил их в сеть.
Бот присылает результат поиска в виде ZIP-архива с текстовым файлом:
Отправляем боту запрос на скачивание файла:
…и принимаем его!
Конечно, не обязательно искать напрямую на канале. Если вы нашли нужный файл через индексатор, можете сразу запросить его у бота командой, которую вам сгенерирует сайт.
Direct Connect-сеть представляет собой клиент-серверную архитектуру, где все коммуникации, кроме непосредственно обмена файлами, происходят через сервер. В DC++ есть возможность расшаривания файлов и директорий, поиск файлов с учетом их типа (видео, аудио, архивы, документы, образы дисков), ссылки на файлы, независящие от имени файла и, конечно же, чат, из-за чего DC++-хабы были очень популярны в локальных сетях интернет-провайдеров РФ. Сибирский провайдер GoodLine рекламировал свой внутрисетевой хаб на уличных рекламных щитах, писал ПО для упрощения файлообмена и даже встраивал его в свои Set-top box, чтобы клиенты могли смотреть новинки кинематографа прямо с телевизора. На хабе сидело более 100000 человек — больше, чем в любом другом хабе в мире.
Из-за того, что пользователю достаточно указать путь к файлам, к которым он хочет открыть публичный доступ, в DC++ можно найти жуткое, малоизвестное старьё, которое, по мнению пользователя с этим файлом, уж точно никому не сдалось, но он его все равно расшарил, так, на всякий случай.
3 человека раздают видеоурок 11-летней давности, который ни одному вменяемому человеку смотреть не захочется, поверьте.
Скачивание из DC++
Вам потребуется какой-нибудь DC-клиент. Под Windows рекомендую FlylinkDC++ (который, к тому же, поддерживает BitTorrent), под Linux — EiskaltDC++ и AirDC++ Web. Далее нужно подключиться к популярным хабам, лучше сразу к десятку. Список хабов есть в самих программах, но можно воспользоваться специальной страницей и скопировать адреса оттуда.
Настоятельно рекомендую включить «активный» режим, пробросить порты, ввести ваш внешний IP-адрес в настройках программы и удостовериться, что к вам возможны подключения извне, иначе, в «пассивном» режиме у вас будут ограничения на количество результатов поиска, вы не сможете качать файлы с других пользователей в «пассивном» режиме.
Поиск и скачивание файлов интуитивно понятно: вводите название, опционально выбираете тип контента и фильтр по размеру, нажимаете кнопку поиска, кликаете два раза по результату, файл начинает скачиваться. Также можно посмотреть все файлы пользователя (и, например, скачать папку с найденным файлом целиком), нажав правой кнопкой по конкретному результату и выбрав соответствующий пункт меню.
Если нужного вам файла не нашлось, имеет смысл периодически повторять поиск. Некоторые люди запускают DC-клиент только тогда, когда им нужно что-то скачать, и вам нужно поймать момент, чтобы найти файл у таких пользователей.
Индексаторы
Поиск внутри программы может найти только файлы пользователей, находящихся в DC-сети на момент поиска, поэтому индексаторы очень полезны для нахождения и скачивания файлов с редко запускающих программу людей.
ed2k — протокол децентрализованной передачи файлов, требующий сервер-хаб для нахождения пользователей и соединения с ними. Был протоколом №1 для передачи файлов среди всех слоев населения, до закрытия самого популярного сервера Razorback 2 в 2006 году и роста популярности BitTorrent.
eDonkey2000 выжил. Этому поспособствовал протокол полностью децентрализованного обмена Kad, который был внедрен в сторонние клиенты незадолго до закрытия Razorback 2 и главного сервера оригинальной программы, уступающей в функциональности и скорости альтернативным реализациям.
В ed2k можно найти примерно то же самое, что и в DC++ — старые файлы, ТВ-шоу на разных языках, разнообразную музыку, игры, варез, старые книги по программированию, математике, биологии. Новинки, разумеется, тоже в наличии. Хоть протокол и поддерживает чаты и просмотр всех файлов пользователя в открытом доступе, эти функции по умолчанию отключены, и, скорее всего, вам не удастся пообщаться с интересующими вас людьми через программу.
Скачивание в eDonkey2000 / Kad
Как вы уже догадались, потребуется ed2k-клиент. Хороший выбор для Linux — aMule, для Windows, наверное, eMule, хоть он и не обновлялся с 2011 (Обновление: появилась официальная версия eMule от сообщества, доступная для скачивания на официальном сайте, она обновляется). Крайне рекомендую пробросить порты, чтобы иметь возможность скачивать с пользователей за NAT (LowID).
Процесс поиска и скачивания файлов очень похож на таковой в DC++ — вводим поисковой запрос, получаем результаты поиска с пользователей, находящихся онлайн, кликаем на файлы для начала скачивания.
Файл отобразится в результатах даже в том случае, у пользователей, находящихся онлайн, есть только его части, но не файл целиком.
Вводим поисковую фразу, получаем результаты:
Кликаем, начинается скачивание:
Загрузка файла может растянуться на недели и месяцы. По какой-то причине, многие пользователи сети имеют отвратительное интернет-соединение, да еще и появляются раз в неделю на пару часов, а то и меньше.
Soulseek — централизованная сеть обмена музыкальным файлами по принципу P2P, созданная в 2000 году одним из разработчиков Napster. Долгое время была популярна среди слушателей и авторов IDM и прочей электронной музыки, и по сей день сеть развивается и остается хорошим местом для поиска аудиофайлов. Есть групповые и приватные чаты, возможность раздачи файлов только друзьям, удобный поиск музыки с указанием битрейта и других характеристик аудиофайлов. Некоторые поисковые запросы цензурируются.
Существует официальный кроссплатформенный проприетарный клиент SoulseekQt и два развивающихся неофициальных: Nicotine+ и Museek+.
Почти в каждом регионе существуют свои местные файлообменники, пользующиеся популярностью у конкретной языковой группы. Например, на uloz.to можно найти много чешского и словацкого контента, zone-telechargement.ws подойдет любителям французского языка, а chomikuj.pl для поляков.
До совсем недавнего времени большое количество контента можно было найти на ex.ua, но увы.
Не всегда достаточно искать файлы только по названию материала, так можно упустить сценические релизы.
Рели́зная гру́ппа — сообщество людей-энтузиастов, объединенных идеей свободы информации. Выпускает электронные копии CD или DVD с фильмами, музыкой, программами и играми для компьютеров и игровых приставок, руководствуясь правилами релизов и соревнуясь со своими коллегами-конкурентами в скорости и качестве выпуска таких копий (релизов). Сообщество релизных групп, объединенных одной темой (музыка определенного жанра, кинофильмы или варез), называется сценой.
Попробуем узнать сценическое название архивов с релизом We Live In Public от PUZZLE на Layer13:
NFO-файл называется «puzzle-wlip.nfo». Названия архивов практически всегда, в 99% случаев совпадают с названием NFO, поэтому попробуем поискать это название в Usenet-индексаторе:
Ура, теперь мы можем скачать DVD фильма!
Обычные поисковые системы вроде Google не всегда будут вам помощниками. Во-первых, Google следует букве закона и удаляет (скрывает) результаты с сайтов, о которых сообщают ему правообладатели в рамках DMCA , во-вторых, поиск контента с названием из спецсимволов затруднен: проблемно найти что-либо о W.I.T.C.H., вам постоянно подсовывают информацию о Witch, The Witch или Blair Witch. Я предпочитаю пользоваться DuckDuckGo, Bing и метапоисковиком SearX — через них можно найти материалы, недоступные в Google.
Если вас интересует релиз на конкретном языке, уместней узнать локализованное название и совершать поиск по нему. Получить подобную информацию можно на Wikipedia, IMDb и других подобных сайтах.
Для аниме есть anidb, хранящий информацию о релизах групп на разных языках. Карточка группы, как правило, содержит ссылку на сайт или IRC-канал, где можно пообщаться с ее членами и скачать файлы через XDCC.
Помимо источника, разрешения видео, языков аудиодорожек и субтитров, на anidb есть TTH-хеш для DC++ и ed2k-ссылка для каждого файла.
Примерно так я ищу нужные мне файлы. В посте намеренно не упомянуты очевидные вещи, вроде покупки дисков с Amazon или Ebay и поиска по популярным открытым и закрытым Torrent-трекерам. Все способы применимы для медиаконтента из Европы и США, мне никогда не приходилось искать, например, арабский и индийский контент, поэтому не могу сказать, насколько они эффективны.
А еще Usenet можно использовать для дешевого хранения резервных копий: шифруем файлы, покупаем доступ в Usenet за $10, загружаем файлы, через 4 года опять покупаем доступ и скачиваем их за еще одни $10. В отличие от облаков, в Usenet не нужно оплачивать хранение файлов. Но без фанатизма, а то удалят.
Почти каждый из нас когда-либо работал в компании, где есть всеми ненавистная "файлопомойка" — шара с тысячами документов без какой-либо структуры. И наверняка у каждого был момент, когда ему нужно было что-то в этой помойке отыскать. "А Василич этот отчёт на шару кидал в прошлом месяце, глянь там" — слышали мы от коллеги, а тот самый Василич на вопрос "А в какой папке?" конечно же отвечал "А х… не помню, в общем, сам ищи". И мы погружались в многочасовой ад — бродили по папкам с документами из 90-х, фотографиями котов, договорами вперемешку с анекдотами и прочим шлаком в надежде найти заветный документ.
Наверняка многие из нас пытались навести в этой шаре порядок, "С меня хватит, сейчас возьму, разгребу всё и разложу по полочкам" — заявляли мы всем, тратили часы, дни и недели своего времени разгребая завалы. А параллельно Василиса Семёновна из бухгалтерии, или тот же Василич снова разбавляли разобранные файлы своими документами, котами, анекдотами и прочим, возвращая привычный хаос на своё место. И так продолжалось до тех пор, пока вы не сдались. И шара обратно превратилась в привычную помойку.
Как быть?
Раз идея заставить всех пользователей поддерживать порядок в шаре потерпела фиаско, значит нужно искать альтернативные подходы. Очевидным выбором с минимальными трудозатратами был бы поисковик, который позволяет выполнять поиск как по названиям и метаданным, так и по содержимому всех файлов в помойке.
Когда мы находились на этапе решения данной проблемы для наших клиентов, мы в первую очередь рассмотрели имеющиеся системы для поиска и менеджмента документов, отдавая приоритет open-source решениям. Не вдаваясь в детали поиска и исследования сразу декларирую результат: быстрого, простого и удобного решения для индексации и поиска в шарах, с OCR, тегированием и подсветкой именованных сущностей просто не существовало.
Что дальше? Решение
Поэтому, видя эту проблему во многих компаниях, мы решились на создание своего продукта, конечно же open-source'ного.
В итоге у нас получился Ambar — система для поиска и структуризации документов, которая наконец соответствовала всем нашим требованиям (GitHub), а именно:
- Мгновенный поиск по содержимому документов, в т.ч. изображений
- Тегирование документов, в т.ч. автоматическое (например, помечать все изображения тегом image, или помечать все документы где есть IP адреса тегом ip)
- Поддержка всех офисных форматов (в т.ч. openoffice), pdf с картинками и старых кодировок вроде CP866
- Автоматический сбор и синхронизации документов из шар-помоек
Рассмотрим вариант решения нашей проблемы с помощью Ambar, по шагам:
- Устанавливаете Ambar на линукс сервере: нужен Docker и Ubuntu Server 16.04 и выше (
инструкция по установке на английском) - Настраиваете SMB или FTP краулер (инструкция на английском)
В этой короткой статье мы поделились нашей болью, связанной с большими файловыми помойками в компаниях и нашим подходом к решению этой проблемы.
Ну, во-первых, можно вбить в строке ввода поисковой системы запрос вида "наш FTP-сервер", "доступ к нашему FTP", "Our FTP" и т. д. Скорее всего, результаты рано или поздно порадуют вас каким-нибудь сервером с различными файлами. Но вот гарантии, что на найденном FTP будут именно нужные вам материалы, не даст никто. В этом случае стоит воспользоваться одним из специальных поисковых сервисов, аналогичных Яндексу и др., но осуществляющим поиск файлов на FTP-серверах. Далее я привел несколько таких сервисов, исправно функционирующих уже длительное время.
Сервис "Мамонт" (http://www.mmnt.ru/) предлагает средства поиска как по веб-страницам, так и по содержимому FTP-серверов. Выбор варианта поиска осуществляется установкой переключателя в одно из положений, расположенных под полем ввода запроса. Эта поисковая система помимо простого поиска предполагает использование и операторов. Например, запрос вида "tekkno.htm|.txt" позволит найти все файлы с именем tekkno и с расширениями htm и txt.
Из зарубежных сервисов, найденных за пару минут, рабочим оказался только Napalm FTP Indexer (http://www.searchftps.com/). Что примечательно на этом "поисковике", так это возможность задания параметров поиска в группе Search Parameters (Параметры поиска), в которой и указывается ключевое слово (в поле ввода Keyword (Ключевое слово)). Раскрывающийся список Search type (Тип поиска) позволяет выбрать вариант поиска по указанным ключевым словам: With all the words (Со всеми словами) или With any of the words (C любым словом). Список Sort method (Метод сортировки) предлагает определить способ сортировки результатов: By date in descending order (По дате в убывающем порядке), By date in ascending order (По дате в возрастающем порядке), By size in descending order (По размеру в убывающем порядке), By size in ascending order (По размеру в возрастающем порядке) или же None (Без сортировки). В раскрывающемся списке Search filter (Фильтрация поиска) имеет смысл выбрать значение Only anonymous (Только анонимные), чтобы из результатов поиска были исключены FTP-серверы, при входе запрашивающие логин и пароль пользователя. Поиск осуществляется после нажатия кнопки Search (Поиск).
Ключевое слово (несколько слов) указывается в поле ввода Я ищу. Вдобавок, вы можете настроить поиск так, чтобы результат был точен относительно введенного значения. Для этого следует установить флажок точно. В раскрывающемся списке, расположенном в правой части страницы, можно выбрать тип искомых файлов: видео, аудио, изображения, образы дисков, архивы, текстовые или исполняемые файлы, а также src (исходные коды). По умолчанию ищутся все типы файлов.
На этом настройки не заканчиваются, вы можете тщательнее уточнить запрос. Чтобы получить доступ к дополнительным настройкам, следует щелкнуть мышью на ссылке уточнить, расположенной справа от раскрывающегося списка с типами искомых объектов (рис. 2.11).
Вы увидите дополнительные элементы управления, позволяющие уточнить некоторые детали запроса: имя хоста, имя и расширение файла, его размер, способ сортировки и др.
Указав запрос, например, "winamp" в поле ввода Я ищу, следует нажать кнопку Искать. Через некоторое время вы увидите результаты поиска (рис. 2.12).
? Без оператора. Указанное в запросе слово является необязательным, но содержащие его результаты будут выведены впереди остальных. Запрос вида "audio video" позволяет найти результат, содержащий, по меньшей мере, одно из этих слов.
? Оператор +. В каждой строке результатов поиска обязательно присутствует слово, указанное в запросе после оператора +. Запрос вида "+audio +video" позволяет найти результат, содержащий оба слова. Запрос вида "+audio video" позволяет найти результат, содержащий слово audio, но если будет найден результат со словом video — он будет приоритетней.
? Оператор —. В каждой строке результатов поиска обязательно отсутствует слово, указанное в запросе после оператора —. Запрос вида "+audio — video" позволяет найти результат, содержащий слово audio и не содержащий слово video.
? Оператор (). Круглые скобки группируют слова в подвыражения.
? Операторы < и >. Эти два оператора используются для того, чтобы изменить вклад слова в величину релевантности, которое приписывается строке. Оператор < уменьшает этот вклад, а оператор >— увеличивает.
? Оператор ~. Это своего рода оператор отрицания, в отличие от оператора —, слово с оператором ~ будет присутствовать в результатах, но позже более релевантных значений. Запрос вида "audio — video" позволяет найти результат, содержащий слова audio и video, причем результаты со словом video будут выведены после значений с одним словом audio.
? Оператор *. Звездочка является оператором усечения. В отличие от остальных операторов, она должна добавляться в конце слова, а не в начале. Запрос вида "audio*" позволяет найти результаты, содержащие слова audio, audiologic, audiogram, audiovisuals и т. п.
? Оператор "". Фраза, заключенная в двойные кавычки, соответствует только строкам, содержащим эту фразу, написанную буквально. Запрос вида ""audio video"" позволяет найти результат, содержащий, например, "audio video material", но не "audio material video".
Если хочется просто побродить по файловым хранилищам, не выполняя поисковых запросов, то можно посмотреть TOP (рейтинг) лучших FTP-серверов. Для этого достаточно щелкнуть мышью на ссылке расширенный в правом верхнем углу веб-сайта. Вы увидите результаты индексации, а ниже — таблицу, содержащую сведения о десяти лучших ресурсах (рис. 2.13).
Вы можете просмотреть данные и о 100 лучших ресурсах, щелкнув на одной из ссылок, расположенных над таблицей. В зависимости от способа сортировки FTP-серверов следует щелкнуть мышью на ссылке размер (по объему предоставленной информации), переходы (по количеству переходов на данный ресурс) или голоса за (по количеству проголосовавших за ресурс посетителей).
Доступ к FTP-серверам, требующим авторизации, часто можно получить, зарегистрировавшись на веб-сайтах этих серверов. Также, о большинстве наиболее интересных файловых архивах, например, материалы на которых посвящены только одному музыкальному исполнителю, я узнал на различных форумах, в темах с названиями вида "Список FTP-серверов с музыкой", "Доступные FTP" и т. д. Кроме того, с аналогичными ключевыми фразами можно попробовать осуществить поиск и веб-страниц со статьями и блогами на данную тему. Здесь вы уже сами — весь Интернет и так у ваших ног.
Данный текст является ознакомительным фрагментом.
Продолжение на ЛитРес
XSLT-преобразования на web-серверах
XSLT-преобразования на web-серверах Можно осуществлять XSLT-преобразования на web-сервере — так чтобы XML-документ был преобразован до того, как web-сервер отправит его браузеру. Здесь самое распространенное преобразование — это преобразование документа XML в HTML, но
9.3. Поиск заголовочных и библиотечных файлов
9.3. Поиск заголовочных и библиотечных файлов Заголовочные файлы в системе Linux хранятся в иерархии каталогов /usr/include. Именно там по умолчанию компилятор ищет включаемые файлы. (Заголовочные файлы могут храниться за пределами /usr/include, но тогда на них имеются ссылки внутри
Поиск файлов с использованием регyлярных выражений
Поиск файлов с использованием регyлярных выражений Всем хорошо известно, что для поиска файлов и папок с помощью стандартных средств Windows в именах можно использовать подстановочные символы "?" (обозначает любой один символ) и "*" (обозначает любое число любых символов).
Поиск на научных сайтах с использованием платформы Flexum «Поиск по научным сайтам»
Поиск на научных сайтах с использованием платформы Flexum «Поиск по научным сайтам» Тема научного поиска не прошла мимо разработчиков персональных поисковиков. Подробному рассказу о возможностях таких поисковых систем посвящена отдельная глава нашей книги (см. главу 6).
Поиск и закачка файлов
Поиск и закачка файлов Теперь, когда мы познакомились с окном программы DC++, следует приступить к поиску и закачке понравившихся файлов.Как уже упоминалось ранее, загрузка файлов в сетях Direct Connect происходит напрямую с компьютера пользователя. Хаб является только
Поиск на FTP-серверах
Поиск на FTP-серверах Одно дело – если вы хотите найти в Интернете список ссылок на веб-ресурсы, чтобы с их помощью выбрать нужный ресурс, и совсем другое – когда вам нужен конкретный объект: мультимедийный файл, электронная книга, программное обеспечение и т.п. Для решения
10.1.34. Поиск файлов и каталогов
10.1.34. Поиск файлов и каталогов Ниже мы воспользовались стандартной библиотекой find.rb для написания метода, который находит один или более файлов и возвращает их список в виде массива. Первый параметр — это начальный каталог, второй — либо имя файла (строка), либо
Поиск в содержимом файлов
Поиск в содержимом файлов По умолчанию операционная система Windows Vista поддерживает возможность выполнения поиска в содержимом файлов со следующими расширениями: ASM, BAT, C, CMD, CPP, DIC, H, INF, INI, JAVA, LOG, M3U, MDB, RC, REG, SQL, TXT, VBS, WRI и т. д.Однако вы можете самостоятельно определить расширения
8.1.3. Поиск среди нескольких файлов
8.1.3. Поиск среди нескольких файлов Если в текущем каталоге требуется найти последовательность символов "sort" во всех файлах с расширением doc, выполните такую команду:$ grep sort *.docСледующая команда осуществляет поиск фразы "sort it" во всех файлах текущего каталога:$ grep "sort it"
7.7. Поиск файлов
7.7. Поиск файлов Для поиска файлов выполните команду главного меню Windows Пуск, Найти, Файлы и папки или нажмите Win+F — так будет быстрее. Вы увидите окно поиска (рис. 64). Помощник поиска предложит вам выбрать категории файлов, которые вы хотите найти. Если вы не собираетесь
4.4. Поиск файлов и папок
4.4. Поиск файлов и папок Для поиска файлов нажмите <Win>+<F> и введите имя файла или папки. Вместо имени можно ввести маску (см. ранее). Второй способ: нажмите кнопку Пуск и в поле Найти программы и файлы введите имя файла (папки) или маску. Вы увидите результаты поиска. На
2.4.8. Поиск файлов и папок
2.4.8. Поиск файлов и папок Иногда случается пренеприятная ситуация — предположим, писали вы что-то, или рисовали, или еще чего делали, сохранили ваши достижения на жесткий диск и… начисто забыли, в какой папке результаты ваших трудов лежат-покоятся. Диск большой, папок
Урок 2.5. Упорядочивание и поиск файлов
Урок 2.5. Упорядочивание и поиск файлов Общие сведения о поиске и индексировании Количество файлов на современных жестких дисках может составлять десятки и сотни тысяч. Если вы забыли, где именно находится файл, то его поиск может оказаться довольно непростой задачей. В
Практическая работа 13. Упорядочивание и поиск файлов в Windows Vista
Практическая работа 13. Упорядочивание и поиск файлов в Windows Vista Задание 1. Изучить различные способы упорядочивания объектов.Последовательность выполнения1. Последовательно откройте в Проводнике Windows Vista папки С:Пользователи ? Общие ? Изображения ? Образцы изображений.2.
Читайте также: