Как работают интернет роботы

Поисковые роботы

Это обычные программы, которые работают на серверах поисковых систем, например Яндекс или Гугл. Задача этих программ ходить по ресурсам интернета, собирать информацию и передавать для обработки программам — анализаторам контента.

Специально употребил слово «ресурс», поскольку оно включает в себя не только сайты интернета, но и всевозможный другой контент — от текстовых документов «без сайта» до баз данных и баз знаний.

Конечно, когда сейчас говорю о роботах в первую очередь подразумеваю их как исследователей сайтов.

Как работают поисковые роботы

Система работы, если использовать роботов с позиции «черный ящик», очень проста:

На главном сервере, допустим, Яндекса запускается сразу множество копий программ — роботов. Задача каждого — поиск и сбор информации.

Если посмотреть карту интернета, то увидим взаимосвязи между всеми ресурсами в сети. И робот, однажды попавший в сеть, может бродить бесконечно долго переходя по ссылкам с одной страницы на другую, с одного ресурса на другой.

Сразу отвечу на вопрос о тех сайтах, на которые никто не ссылается. Как туда попадет робот? На самом деле таких ресурсов нет. У каждого ресурса есть адрес и имя. Адрес и имя храняться на всех узловых станциях интернета. Эти узловые станции обходит специальная программа — робот, которая заносит все встреченные адреса и имена в свою базу данных. И по этой базе данных «свободные» роботы направляются в путь. Другое дело, что сеть интернет достигла колосальных объемов и база данных очень большая и свободных роботов мало. Поэтому до такого сайта робот может дойти не сразу, а через какое-то время. Несколько лет назад это время было от нескольких дней до месяца. Сейчас «тихий сайт» может оставаться не охваченный роботом очень длительное время.

Еще раз. Задача поискового робота взять информацию с сайта и передать её для обработки дальше.

Алгоритм работы примерно следующий:

2. Проверил настройки и получил/не получил дополнительных указаний. Тут имеется в виду то, что роботом можно управлять. Но об этом дальше.

3. Идет с условной «главной страницы» по ссылкам и «читает» сайт. Читает он всё: разметку, служебные данные, данные которые видит пользователь, скрытые данные, настройки шаблонов.

4. Переход между страницами идет по ссылкам на страницах. То есть обработав материал текущей страницы, робот собирает ссылки на этой странице и дальше переходит по ним. По ссылкам робот может как бродить по сайту, так и перейти на другой сайт.

Как робот работает с сайтом определяется, на мой взгляд, двумя вещами:

1. Внешними настройками. Тут и доверие к конкретному сайту, и размер сайта, и время отпущенное роботу для работы с этим сайтом. Эти параметры задаются сервером поисковика и, важно , они могут меняться со временем и по результатам анализа данных.

Читайте также:  Структура сети интернет является

2. Внутренними. Указаниями куда и как смотреть сайт роботу.

Управление роботом

Как сказано выше, робот управляется «родителем». Однако, нам предоставили возможность корректировать поведение робота.

Для начала мы можем запретить роботу появляться у нас на сайте. Или ограничить области его доступа. Или подсунуть ему много не нужной информации.

Основной инструмент влияния это файл robots.txt. Описывать не буду. Кому интересно сходите по ссылке.

Дополнительными элементами влияния являются настройки сайта. То есть быстрый и правильно структурированный сайт будет обрабатываться быстро и полнее, чем медленный и с плохой навигацией. В последнем случае возможно будут отдельные статьи до которых робот просто никогда не доберется. Это обусловлено, что ресурсы робота ограничены и он не может (может, конечно, но ему для этого нужноспециальное разрешение от «хозяина») вечно бродить по Вашему сайту.

Ведь не зря все рекомендуют, в том числе и в справке Великих Яндекса и Гугла работать над сайтом. Над всеми его параметрами от внешнего вида до оптимизации движка.

Карта сайта . Управляет роботом опосредовано. Как она работает. Карта сайта это набор основных материалов сайта, которые предлагаются поисковым ботам в качестве обязательной программы. Таким образом приоритет идет ссылкам из карты сайта, особенно новым ссылкам в ней. Затем уже по возможности обходятся и другие доступные страницы.

Интересным механизмом влияния на роботов является feed. Гуглу, например, фид говорит напрямую о новых материалах и бот быстренько их перерабатывает. После настройки фида у себя на проектах с индексацией гуглом проблем совсем не стало. Новые материалы обходятся за считанные часы, а в выдачу попадают на следующие сутки обычно. На Яндекс такого влияния нет, но feed лента им так же обходится и принимается в расчет.

О работе поисковиков

В этом свете поисковики выступают в роли хозяев ботов. Хозяева определяют алгоритмы работы роботов и после получении от них информации приступают к её анализу. В результате анализа получают, как минимум следующие результаты:

1. Данные для поисковой выдаче. Какие статьи и по каким запросам показывать, на каком месте в поиске выводить, как выводить и т.д.

2. Корректировка уровня доверия к сайту (траст сайта). Чем больше доверие, тем в поиске сайт выше и тем чаще и тщательнее будет осматривать поисковый бот конкретный сайт.

3. Команды боту по изменеию работы с конкретным сайтом.

Источник

Поисковые роботы — как они работают и что делают

Роботы поисковой системы, иногда их называют «пауки» или «кроулеры» (crawler) — это программные модули, занимающиеся поиском web-страниц. Как они работают? Что же они делают в действительности? Почему они важны?

Читайте также:  Дайте определение глобальной сети интернет

Учитывая весь шум вокруг поисковой оптимизации и индексных баз данных поисковиков, вы, наверное думаете, что роботы должно быть великие и могущественные существа. Неправда. Роботы поисковика обладают лишь базовыми функциями, похожими на те, которыми обладали одни из первых броузеров, в отношении того, какую информацию они могут распознать на сайте. Как и ранние броузеры, роботы попросту не могут делать определенные вещи. Роботы не понимают фреймов, Flash анимаций, изображений или JavaScript. Они не могут зайти в разделы, защищенные паролем и не могут нажимать на все те кнопочки, которые есть на сайте. Они могут «заткнуться» в процессе индексирования динамических адресов URL и работать очень медленно, вплоть до остановки и безсилием над JavaScript-навигацией.

Как работают роботы поисковой машины?

Поисковые роботы стоит воспринимать, как программы автоматизированного получения данных, путешествующие по сети в поисках информации и ссылок на информацию.

Когда, зайдя на страницу «Submit a URL», вы регистрируете очередную web-страницу в поисковике — в очередь для просмотра сайтов роботом добавляется новый URL. Даже если вы не регистрируете страницу, множество роботов найдет ваш сайт, поскольку существуют ссылки из других сайтов, ссылающиеся на ваш. Вот одна из причин, почему важно строить ссылочную популярность и размещать ссылки на других тематических ресурсах.

Прийдя на ваш сайт, роботы сначала проверяют, есть ли файл robots.txt. Этот файл сообщает роботам, какие разделы вашего сайта не подлежат индексации. Обычно это могут быть директории, содержащие файлы, которыми робот не интересуется или ему не следовало бы знать.

Роботы хранят и собирают ссылки с каждой страницы, которую они посещают, а позже проходят по этим ссылкам на другие страницы. Вся всемирная сеть построена из ссылок. Начальная идея создания Интернет сети была в том, что бы была возможность перемещаться по ссылкам от одного места к другому. Вот так перемещаются и роботы.

«Остроумность» в отношении индексирования страниц в реальном режиме времени зависит от инженеров поисковых машин, которые изобрели методы, используемые для оценки информации, получаемой роботами поисковика. Будучи внедрена в базу данных поисковой машины, информация доступна пользователям, которые осуществляют поиск. Когда пользователь поисковой машины вводит поисковый запрос, производится ряд быстрых вычислений для уверенности в том, что выдается действительно правильный набор сайтов для наиболее релевантного ответа.

Вы можете просмотреть, какие страницы вашего сайта уже посетил поисковый робот, руководствуясь лог-файлами сервера, или результатами статистической обработки лог-файла. Идентифицируя роботов, вы увидите, когда они посетили ваш сайт, какие страницы и как часто. Некоторые роботы легко идентифицируются по своим именам, как Google’s «Googlebot». Другие более скрытые, как, например, Inktomi’s «Slurp». Другие роботы так же могут встречаться в логах и не исключено, что вы не сможете сразу их идентифицировать; некоторые из них могут даже оказаться броузерами, которыми управляют люди.

Читайте также:  Скорость интернета как называется

Помимо идентификации уникальных поисковых роботов и подсчета количества их визитов, статистика также может показать вам агрессивных, поглощающих ширину катала пропускания роботов или роботов, нежелательных для посещения вашего сайта.

Как они читают страницы вашего web-сайта?

Когда поисковой робот посещает страницу, он просматривает ее видимый текст, содержание различных тегов в исходном коде вашей страницы (title tag, meta tags, и т.д.), а так же гиперссылки на странице. Судя по словам ссылок, поисковая машина решает, о чем страница. Есть много факторов, используемых для вычисления ключевых моментов страницы «играющих роль». Каждая поисковая машина имеет свой собственный алгоритм для оценки и обработки информации. В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базу данных поисковой системы.

После этого, информация, доставленная в индексные базы данных поисковой системы, становится частью поисковика и процесса ранжирования в базе. Когда посетитель существляет запрос, поисковик просматривает всю базу данных для выдачи конечного списка, релевантного поисковому запросу.

Базы данных поисковых систем подвергаются тщательной обработке и приведению в соответствие. Если вы уже попали в базу данных, роботы будут навещать вас периодически для сбора любых изменений на страницах и уверенности в том, что обладают самой последней информацией. Количество посещений зависит от установок поисковой машины, которые могут варьироваться от ее вида и назначения.

Иногда поисковые роботы не в состоянии проиндексировать web-сайт. Если ваш сайт упал или на сайт идет большое количество посетителей, робот может быть безсилен в попытках его индексации. Когда такое происходит, сайт не может быть переиндексирован, что зависит от частоты его посещения роботом. В большинстве случаев, роботы, которые не смогли достичь ваших страниц, попытаются позже, в надежде на то, что ваш сайт в ближайшее время будет доступен.

Многие поисковые роботы не могут быть идентифицированы, когда вы просматриваете логи. Они могут посещать вас, но логи утверждают, что кто-то использует Microsoft броузер и т.д. Некоторые роботы идентифицируют себя использованием имени поисковика (googlebot) или его клона (Scooter = AltaVista).

В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базы данных поисковой машины.

Базы данных поисковых машин подвергаются модификации в различные сроки. Даже директории, имеющие вторичные поисковые результаты используют данные роботов как содержание своего web-сайта.

Собственно, роботы не используются поисковиками лишь для вышеизложенного. Существуют роботы, которые проверяют баз данных на наличие нового содержания, навещают старое содержимое базы, проверяют, не изменились ли ссылки, загружают целые сайты для просмотра и так далее.

По этой причине, чтение лог-файлов и слежение за выдачей поисковой системы помогает вам наблюдать за индексацией ваших проектов.

Источник

Оцените статью
Adblock
detector