Алгоритмы яндекса. Часть 1: индексация и апдейты
Интернет

Алгоритм индексации

Привет, друзья! Сейчас в SEO-сегменте блогосферы часто появляются посты о том как не попасть под АГС и др. И очень забавно читать такие статьи от людей, которые совершенно не понимают, что из себя представляют фильтры поисковиков или их роботы.

Но это и понятно, чтобы разбираться, нужно самому хоть раз попробовать написать простой алгоритм поиска, фильтр данных или парсер. А с программированием дружат далеко не все блогеры.

В этой серии статей я не хочу давать советов, по типу: меньше продажных ссылок, уникальный контент и др. Я хочу разобраться в алгоритмах яндекса, так сказать, изнутри и немного углубить знания новичков и не только в вопросе поисковых фильтров.

Для начала немного о том, что же такое поисковый индекс и индексация. То, что все сайты, проиндексированные ПС (поисковой системой) хранятся в базе данных, объяснять, думаю, не стоит. Но многие ошибочно думают, что индексация сайта это занесение его контента в эту базу данных. На самом деле этот процесс называется загрузкой, индексация же — это совсем иное.

Представьте, сколько контента хранится в базе поисковика. Думаю, не ошибусь, если скажу — миллиарды страниц. И как вы думаете, сколько времени понадобится, чтобы найти фразу, которую вы ввели в поисковое поле, в этих миллиардах страниц? Даже на самом мощном сервере на это уйдёт несколько часов, а то и десятков часов.

Но ведь поисковик находит нужные страницы за доли секунды, не так ли? А всё дело в том, что база поисковика тщательно отсортирована по поисковым запросам и разбита на группы по тематическому, региональному и др. признакам.

И вот после того, как робот поисковика загрузил достаточное количество нового контента, включается алгоритм, который сортирует его и заносит в нужные разделы БД (базы данных) и присваивает контенту некий индекс, который указывает на то где именно в базе данных хранится тот или иной контент.

И теперь, когда вы вводите поисковую фразу и жмёте на кнопку «поиск», программе нужно просто привести ваш запрос к нужному виду (разбить его на ключевые слова и др.), посмотреть в таблице индексов где находятся результаты соответствующие вашему запросу, получить из это таблицы место в базе данных, взять оттуда контент и вывести его на экран, а это уже дело одной секунды.

Всё это похоже на то, как мы ищем в книге нужную главу. Мы не перелистываем всю книгу страница за странице в поисках нужной информации, мы просто смотрим в содержание и сразу открываем нужную страницу. В нашем случае — страница это контент, а номер страницы это индекс этого контента.

И именно процесс присвоения индекса контенту называется поисковой индексацией, а время когда эти индексы присваиваются мы называем апдейтами выдачи.

По индексации всё. Если есть что дополнить, буду рад почитать ваши комментарии.

Следующая часть будет о том, что поисковый бот видит на нашем сайте и как он анализирует его содержимое. Статья будет очень познавательная, поэтому подписывайтесь на RSS, чтобы не пропустить ! Всем, удачи!

Каждый вебмастер должен тщательно выбирать хостинг для своего сайта. Очень важно достичь оптимального соотношения цены и качества.

  • http://gorkiymed.blogspot.com/ ladosha

    Сравнение с книгой понравилось — действительно, очень доступно разъяснили, спасибо.

  • http://composapience.ru st1xer

    Спасибо, структурировал знания по индексации и выдаче ;)

  • http://wonder-blog.ru wonder

    Спасибо за пост, но мне кажется это и так было понятно :)

  • http://softcomment.ru npu3pak

    Самое понятно объяснение из многих, мной прочитанных. Спасибо!