9. Системы информационного поиска сети Интернет
В Интернет представлена информация на любые темы, которые только можно себе представить. Но найти в ней нужную информацию не так-то легко из-за того, что сеть по своей природе не имеет чёткой структуры. Поэтому для ориентировки в Интернет и быстрого получения свежей справочной информации разработаны системы поиска информации.
Все системы поиска информации Интернет располагаются на специально выделенных компьютерах с мощными каналами связи. Ежеминутно они бесплатно обслуживают огромное количество клиентов.
Поисковые системы можно разбить на два типа:
предметные каталоги, формируемые людьми-редакторами;
автоматические индексы, формируемые специальными компьютерными программами, без участия людей.
Системы, основанные на предметных каталогах. Используют базы данных, формируемые специалистами-редакторами, которые отбирают информацию, устанавливают связи для баз данных, организуют и снабжают данные в разных поисковых категориях перекрёстными ссылками. Кампании, владеющие предметными каталогами, непрерывно исследуют, описывают и каталогизируют содержимое WWW-cерверов и других сетевых ресурсов, разбросанных по всему миру. В результате этой работы клиенты Интернет имеют постоянно обновляющиеся иерархические (древовидные) каталоги, на верхнем уровне которых собраны самые общие категории, такие как “бизнес”, “наука”, “искусство” и т.п., а элементы самого нижнего уровня представляют собой ссылки на отдельные WWW-страницы и серверы вместе с кратким описанием их содержимого.
Каталоги, составленные людьми, более осмыслены, чем автоматические индексы. Их очень мало, так как их создание и поддержка требуют огромных затрат.
Автоматические индексы. Переоценить их трудно. Поиск по ключевым словам в одной базе данных, занимающий в худшем случае несколько секунд, принесёт те же результаты, что и обшаривание всех WWW-страниц во всей сети Интернет.
Автоматический индекс состоит из трёх частей:
базы данных, собираемой этим роботом;
интерфейса для поиска в этой базе, с которым и работает пользователь.
Все эти компоненты функционируют без вмешательства человека.
К автоматическим индексам следует прибегать только тогда, когда ключевые слова точно известны, например, фамилия человека или несколько специфических терминов из соответствующей области. Индексы получают информацию из каждого отдельного узла, регистрируют и индексируют её и добавляют к своим базам данных.
В Интернет один и тот же узел сети может одновременно работать по нескольким протоколам. Поэтому крупные узлы сети сейчас обладают полным набором серверов, и к ним можно обращаться почти по любому из существующих протоколов.
К системам автоматизированного поиска информации в сети Internet принадлежат следующие системы.
Gopher — наиболее широко распространенное средство поиска информации в сети Internet, позволяющее находить информацию по ключевым словам и фразам. Gopher позволяет получить информацию без указания имен и адресов авторов, благодаря чему пользователь не тратит много времени и нервов. Он просто сообщит системе Gopher, что именно ему нужно, и система находит соответствующие данные. Gopher-серверов свыше двух тысяч, поэтому с их помощью не всегда просто найти требуемую информацию. В случае возникших затруднений можно воспользоваться службой VERONICA. VERONICA осуществляет поиск более чем в 500 системах Gopher, освобождая пользователя от необходимости просматривать их вручную.
WAIS — еще более мощное средство получения информации, чем Gopher, поскольку оно осуществляет поиск ключевых слов во всех текстах документов. Запросы посылаются в WAIS на упрощенном английском языке. Это значительно легче, чем формулировать их на языке алгебры логики, и это делает WAIS более привлекательной для пользователей-непрофессионалов.
WWW — система для работы с гипертекстом. Потенциально она является наиболее мощным средством поиска. Гипертекст соединяет различные документы на основе заранее заданного набора слов. Например, когда в тексте встречается новое слово или понятие, система, работающая с гипертекстом, дает возможность перейти к другому документу, в котором это слово или понятие рассматривается более подробно.
WWW часто используется в качестве интерфейса к базам данных WAIS, но отсутствие гипертекстовых связей ограничивает возможности WWW до простого просмотра.
Практически все услуги сети построены на принципе клиент-сервер. Сервером в сети Internet называется компьютер способный предоставлять клиентам (по мере прихода от них запросов) некоторые сетевые услуги. Взаимодействие клиент-сервер строится обычно следующим образом. По приходу запросов от клиентов сервер запускает различные программы предоставления сетевых услуг. По мере выполнения запущенных программ сервер отвечает на запросы клиентов.
Все программное обеспечение сети также можно поделить на клиентское и серверное. При этом программное обеспечение сервера занимается предоставлением сетевых услуг, а клиентское программное обеспечение обеспечивает передачу запросов серверу и получение ответов от него.
Информационно-поисковые системы на пространстве www
Информационно-поисковые системы в Интернет на пространстве WWW бывают различных типов.
Первым классификационным признаком поисковых служб является способ организации пополнения базы данных о документах сети. Поэтому признаку системы делятся на каталоги и поисковые машины.
Под каталогом принято понимать информационно-поисковую систему, предназначенную для поиска и просмотра информации содержащейся в иерархически упорядоченной базе данных по Интернет-ресурсам. В основе каталога лежит база данных (рубрикатор) документов, информация в которую заносится человеком. Под поисковой машиной мы будем понимать информационно-поисковую систему, предназначенную для поиска и просмотра информации содержащейся в индексированной базе данных. В отличие от каталогов, поисковые машины исследуют Сеть с целью пополнения своих баз данных документов. В настоящее время наметилась тенденция к созданию так называемых гибридных поисковых систем, которые сочетают в себе функции как каталога, так и поисковой машины.
Второй способ классификации поисковых служб – классификация по глубине охвата ресурса. По данному признаку системы делятся на глобальные и локальные. Глобальные каталоги и поисковые машины действуют на всем пространстве WWW. Это означает, что все документы WWW потенциально могут попасть в базу данных такой информационно-поисковой системы. В качестве примеров глобальных каталогов можно привести Yahoo (www.yahoo.com), а в качестве примеров поисковых машин – Altavista (www.altavista.com). К сожалению, русскоязычных глобальных поисковых систем нет.
В локальных информационно-поисковых системах поисковое пространство является частью пространства WWW и, следовательно, не все документы этого ресурса могут попасть в базу данных таких систем. Примером локальных каталогов служат российские каталоги «Русский медицинский сервер» (dir.rusmedserv.com), Каталог сайтов «Referal.ru» (referal.ru), Инернет-справочник свободного Рунета «Freedom.ru» (www.freeedom.ru). В качестве локальных поисковых машин, действующих на пространстве РУНет, следует назвать Арогt (www.aport.ru), Rambler (www.rambler.ru) и Яndeх (www.yandex.ru). Очевидно, что сужение информационно-поискового пространства снижает результаты поиска.
Кроме того, некоторые сайты Интернет располагают собственными механизмами поиска (в пределах данного сайта). На сайте БелГУ имеется ссылка «поиск» по разным подразделениям университета.
Особенности каталогов
Основной характеристикой каталогов является объем базы данных, т.е. количество представленных документов. По сравнению с поисковыми машинами скорость увеличения баз данных каталогов достаточно мала, поскольку их пополнение происходит вручную. Однако это может рассматриваться и как преимущество поисковых систем данного типа, поскольку ручной отбор позволяет повысить точность поиска.
В качестве второй характеристики следует выделить количество категорий или рубрик в каталоге. Естественно, чем выше это значение, тем большей точностью характеризуются результаты поиска.
Принципы работы с каталогами достаточно просты. Как правило, главная страница сайта каталога содержит в себе список категорий, или рубрик, каждая из которых представлена гиперссылкой. По такой гиперссылке пользователь может перейти на страницу, содержащую список подрубрик или документов, соответствующих этой рубрике. В качестве примера на рисунке 1 представлена главная страница каталога Referal.Ru (http://referal.ru)
Рис.1 Главная страница каталога Referal.Ru