1. Информационные ресурсы сети Интернет
Благодаря повсеместному развитию и применению компьютерных технологий в настоящее время в той или иной электронной форме находится информация всех областей человеческой деятельности: наука, производство, коммерция, литература, развлечения и т.д. Сеть Интернет имеет совместимость с различными электронными сетями и базами данных и позволяет получить удобный доступ практически к любому виду информации. Для миллионов людей разных профессий, а особенно для учащихся, Интернет стал необходимым инструментом в работе и универсальным средством развлечения в часы досуга. В связи с этим возникает потребность в программных средствах, эффективно решающих проблемы поиска необходимой пользователю сети Интернет информации.
Информационные ресурсы, доступные через Интернет, огромны. Это десятки миллионов документов, представленных различными способами, число которых постоянно увеличивается. В зависимости от способа представления, вида и характера информации разнятся и методы доступа к ней, поэтому, прежде чем рассматривать методы поиска, рассмотрим классификацию информационных ресурсов.
По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины.
Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т.д.), где каждая тема разветвляется на несколько подуровней.
Особенность этих средств поиска информации состоит в том, что создание структуры, базы данных и их постоянное обновление осуществляется «вручную», коллективом редакторов и программистов, и сам процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке.
Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.
При поступлении запроса от пользователя машина поиска рассматривает всю индексированную информацию и выдает список документов, соответствующих задаче поиска. Найденные документы ранжируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста, в первых параграфах) и частоты их появления в тексте.
Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.
2. Типология методов поиска
Более или менее серьезный подход к любой задаче начинается с анализа возможных методов ее решения. Поиск информации в Интернете может быть произведен по нескольким методам, значительно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой информации. В ряде случаев приходится использовать весьма трудоемкие методы — результат того стоит.
Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей и задач ищущего, используются по отдельности или в комбинации друг с другом:
Непосредственный поиск с использованием гипертекстовых ссылок
Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью броузера.
Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн. узлов, «ручной» просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое «копание» уступает место более глубокому анализу. Использование каталогов, классифицированных и тематических списков и всевозможных небольших справочников также относится к этому виду поиска.
Использование поисковых машин
Сегодня этот метод является одним из основных и фактически единственным при проведении предварительного поиска. Результатом последнего может являться список ресурсов Cети, подлежащих детальному рассмотрению.
Как правило, применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.
Поиск с применением специальных средств
Этот полностью автоматизированный метод может оказаться весьма эффективным для проведения первичного поиска.
Одна из технологий этого метода основана на применении специализированных программ — спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на них искомую информацию. Фактически это автоматизированный вариант просмотра с помощью гипертекстовых ссылок, описанный выше (поисковые машины для построения своих индексных таблиц используют похожие методы). Нет нужды говорить, что результаты автоматического поиска обязательно требуют последующей обработки.
Применение данного метода целесообразно, если использование поисковых машин не может дать необходимых результатов (например, в силу нестандартности запроса, который не может быть адекватно задан существующими средствами поисковых машин). В ряде случаев этот метод может быть очень эффективен.
Выбор между использованием спайдера или поисковых серверов являет собой вариант классического выбора между применением универсальных или специализированных средств.
Анализ новых ресурсов
Поиск по новообразованным ресурсам может оказаться необходимым при проведении повторных циклов поиска, поиска наиболее свежей информации или для анализа тенденций развития объекта исследования в динамике.
Другой возможной причиной может явиться то, что большинство поисковых машин обновляет свои индексы со значительной задержкой, вызванной гигантскими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем менее популярна интересующая тема. Это соображение может оказаться весьма существенным при проведении поиска в узкоспециальной предметной области.
Учебник по информатике (курс лекций) / 4.Компьютерные сети.Интернет / 4.7. Информационные ресурсы сети Интернет
Человек, получивший доступ к Интернету, попадает в мир практически неограниченных информационных ресурсов. Следует учитывать, что некоторые ресурсы могут быть платными. Ниже приводится очень краткий обзор основных ресурсов сети.
1) Электронная почта.
Электронная почта, или e-mail (от electronic mail- электронная почта), представляет собой один из способов связи между людьми. Она объединяет в себе все достоинства почты, телетайпа, телеграфа и факса. Причем пересылка по электронной почте обходится дешевле, чем услуги каждого из рассмотренных средств связи.
Пример адреса электронной почты sas@.isuct.interline.ivanovo.ru
В рассматриваемом примере sas – идентификатор абонента, составляемый, как правило, из начальных букв его фамилии, имени, отчества. То, что стоит справа от знака @, называется доменом и однозначно описывает местонахождение абонента.@ — обязательный символ в адресе e-mail.
Наверное, самым интересным, удобным и эффективным ресурсом, который пользуется в настоящее время огромной популярностью, является гипертекстовая сетевая информационная система World Wide Web (всемирная паутина). Всемирная паутина, которую для краткости называют Web или WWW, представляет собой гипертекстовую (более точно гипермедийную) информационную систему, содержащую связанную между собой ссылками документы, которые могут создаваться в различных программных средах и находиться в любом из компьютеров Интернета.
Гипертекст можно рассматривать как текст, содержащий ссылки, которые связаны с определением, пояснением, дополнений отдельных слов, словосочетаний, изображений, входящих в рассматриваемый текст. Важнейшим свойством гипертекста является автоматический доступ к информации, связанной с указываемой пользователем ссылкой. Поиск этой информации и ее вывод на экран осуществляется с помощью специальных программ работы с гипертекстами.
3) Адрес ресурса.
Каждая web-страница с точки зрения операционной системы представляет собой файл, находящийся на одном из дисковых устройств компьютера, играющего роль web-сервера. Следовательно, для того чтобы получить доступ к какой либо web-странице, нужно тем или иным способом указать на файл, хранящий эту страницу.
sunsite.unc.edu – доменный адрес компьютера
4) Электронные доски объявлений.
На электронных досках объявлений (в литературе часто используется сокращение BBS от Bulletin Board System — система досок объявлений) размещаются объявления, которые посылаются пользователями всем, кто их прочитает. Электронные доски являются аналогом обычных досок объявлений, которые размещаются в общедоступных, часто посещаемых людьми местах. Можно также провести аналогию с объявлениями, печатаемыми в газетах и журналах.
На базе программ электронной почты, электронных досок объявлений и других специальных пакетов проводятся деловые совещания, научные конференции, в которых могут участвовать несколько человек, находящихся на своих рабочих местах в разных городах или странах.
Пересылаемые по сети сообщения могут состоять только из кодов ASCII. Однако, присоединив любой файл к сообщению, его также можно переслать по сети, но только в автономном (offline) режиме. В Интернете существует другой способ пересылки произвольных файлов между компьютерами. Этот способ основан на протоколе FTP (File transfer Protocol – протокол передачи файлов), который подразумевает передачу файлов в так называемом оперативном, или online, режиме. Это означает, что на время передачи файла передающий и принимающий компьютеры должны находиться в прямом контакте друг с другом (как люди, разговаривающие друг с другом по телефону).
Протокол FTP является достаточно мощным, но вместе с тем и ограниченным средством доступа к ресурсам «чужих» компьютеров сети. Он обеспечивает только копирование, то есть пересылку копий файлов от одного компьютера сети к другому. Полноценный доступ к ресурсам компьютеров, входящих в Интернет, обеспечивает протокол telnet (TErminaL over NETwork protocol – протокол удаленного доступа). С помощью этого протокола пользователь может подключиться к компьютеру, который находится на противоположной стороне земного шара, и работать с ним, как со своим персональным компьютером.
Как было отмечено выше, для того чтобы пользоваться протоколами ftp или telnet, необходимо знать доменный адрес соответствующего сервера. Если же такой адрес неизвестен, то доступ к необходимому ресурсу может быть существенно затруднен. Для облегчения поиска нужных серверов в Интернете была разработана основанная на принципах меню система доступа к серверам Интернета. Эта система получила название GOPHER. Термин происходи то ли от слова gopher – суслик (Миннесота, родина этой системы, считается штатом «золотых сусликов»), то ли от жаргонного термина go fer – рыщущий человек.
9) Базы данных в Интернете.
К Интернету подключено большое количество баз данных, содержащих огромное количество информации по самым различным вопросам: от сведений по конкретным наукам – биологии, математике, физике — до коллекции анекдотов и небылиц. Как правило, они входят в состав информационной системы широкого пользования WAIS (Wide Area Information System). Компьютер, имеющий специальное программное обеспечение и предоставляющий пользователям доступ к базам данных этой системы, называют wais-сервером.
WAIS объединяет wais-серверы всего мира, имеющие доступ к более чем 1000 общедоступных и коммерческих баз данных. Для доступа к WAIS нужно знать домашний адрес какого-либо конкретного wais-сервера.