13. Поиск и обмен информацией в глобальных и локальных компьютерных сетях
13.1. Методы поиска и обмена информацией в глобальных компьютерных сетях
Само понятие информационного поиска появилось только в середине 20 века. В основе этого понятия лежит представление о том, что поиск необходимой информации в любом собрании документов невозможен путем прочтения или даже беглого просмотра текстов всех документов этого собрания.
Прочтение полного текста документа заменяется просмотром заглавий, аннотаций, рефератов. Документы пришлось систематизировать по содержанию, которое условно стали обозначать индексами (буквами или цифрами). Систематизация по разделам наук – один из первых способов раскрытия содержания документа.
С увеличением объемов документов ввели алфавитно-предметную классификацию.
До середины 20 века в библиотеках, в основном, ограничивались тремя способами: систематическим, предметным и алфавитным. В 50-года сформировалось само понятие информационного поиска.
Информационный поиск – это совокупность логических процедур, в результате которых в ответ на информационный запрос выдается:
— документы, в которых она находится;
— библиографические адреса этих документов.
Информационный поиск реализуется с помощью информационно-поисковой системы, которая в абстрактном виде должна состоять из информационно-поискового языка, правил перевода на этот язык и критерия смыслового соответствия, определяющего объем выдачи документов или информации (критерий выдачи).
Состав и принципы работы поисковой системы
В России основной поисковой системой является «Яндекс», Google.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».
Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.
Модуль индексирования
Модуль индексирования состоит из трех вспомогательных программ (роботов):
Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.
Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:
- URL страницы
- дата, когда страница была скачана
- http-заголовок ответа сервера
- тело страницы (html-код)