Это программа, которая индексирует сайты. Существует несколько видов роботов и все они выполняют определенные функции. К примеру, есть робот, который индексирует только новостные ленты (RSS), есть робот, предназначенный для загрузки документов, применяются, и роботы которые ищут ссылки и потом добавляют их в свой каталог.
Основные виды роботов
Также поисковики, такие как «Google» или «Яндекс» применяют один основной индексатор. В его обязанности входит «сканирование» уникальной информации (текст, тэги, ссылки и т.д.), а потом и ее формирование для основной базы данных. Вскоре эта информация отображается в поисковых запросах.
Еще используется робот для быстрого индексирования новой и популярной информации. В случаях, когда показывается несколько копий сайта в выдаче — это означает, что головного робота, сайт сканировал быстрый робот. Данные программы можно различить по юзер агенту (User Agent) и ай-пи (IP) адресу интернет-протокола.
Как происходит индексация ресурсов
Отдельная программа для маршрутизации, составляет ветвь маршрутов для робота. Внутри содержится список из актуальных документов или сайтов, которые нужно срочно проиндексировать. Список составляется не в случайном порядке, а по определенным свойствам ресурсов. В частности, учитываются факторы цитируемости, а также частота обновления материалов. Популярные и активные сайты гораздо чаще и быстрей индексируются.
Готовый маршрут отправляется от планировщика заданий к пауку и тот в свою очередь идет по всей ветке. Когда сайт активен, то запланированные материалы загружаются в базу данных. Вскоре происходит отбор скачанного контента (html, pdf, swf и т.д.). Документы, материалы анализируются: кодировка, язык искомого контента.
Затем все элементы html-кода ретируются, и остается только текст. Раскладывается на отдельные составляющие каждое слово, которое впоследствии приобретает порядковый номер в документе и его местоположение. А потом слова (тэги) отправляются в индексацию. Искомый текст остается в хранилище.
Что включено в базовый поиск
В документе присутствуют и еще некоторые составляющие:
- информация о типе документа;
- информация о кодировке;
- информация о языковой принадлежности документа;
- сохраненная копия документа.
Впоследствии, базу поиска отправляют на основной сервер, который занимается поисковой выдачей. Важно понимать, что база уйдет, не полностью будет удалено все лишнее: дубликаты страниц, зеркала, спам и другое. Поскольку физически добавить тот или иной сайт нет возможности, то данные проходят пакетами с периодичность один раз в несколько суток. Такая операция происходит только ночью, в тот момент, когда большинство пользователей спят и нагрузки на сервер небольшие.
Однако не все материалы проходят такое длительное индексирование, поскольку быстрые роботы добавляют в базу информацию мгновенно. Зачастую такой контент преобладает в сфере новостей, когда нужно оперативно проиндексировать в выдаче материал робот приходит на выручку. Но опять же, под такие запросы подпадают лишь очень важные и срочные документы.
Как произвести успешную индексацию для выдачи:
- код документа или материала должен быть прост и легко читаем;
- лучше всего указывать язык и тип документа;
- ключевые слова должны быть правильно и грамотно составлены.
Это не все требования, которые должны быть учтены для успешной индексации, но основные и их хватит, чтобы попасть в ТОП. Также, можно помочь роботу облегчить работу с самим сайтом оптимизировав карту сайта, а также текстовый файл «robots.txt».