Привет, друзья! Сейчас в SEO-сегменте блогосферы часто появляются посты о том как не попасть под АГС и др. И очень забавно читать такие статьи от людей, которые совершенно не понимают, что из себя представляют фильтры поисковиков или их роботы.
Но это и понятно, чтобы разбираться, нужно самому хоть раз попробовать написать простой алгоритм поиска, фильтр данных или парсер. А с программированием дружат далеко не все блогеры.
В этой серии статей я не хочу давать советов, по типу: меньше продажных ссылок, уникальный контент и др. Я хочу разобраться в алгоритмах яндекса, так сказать, изнутри и немного углубить знания новичков и не только в вопросе поисковых фильтров.
Для начала немного о том, что же такое поисковый индекс и индексация. То, что все сайты, проиндексированные ПС (поисковой системой) хранятся в базе данных, объяснять, думаю, не стоит. Но многие ошибочно думают, что индексация сайта это занесение его контента в эту базу данных. На самом деле этот процесс называется загрузкой, индексация же — это совсем иное.
Представьте, сколько контента хранится в базе поисковика. Думаю, не ошибусь, если скажу — миллиарды страниц. И как вы думаете, сколько времени понадобится, чтобы найти фразу, которую вы ввели в поисковое поле, в этих миллиардах страниц? Даже на самом мощном сервере на это уйдёт несколько часов, а то и десятков часов.
Но ведь поисковик находит нужные страницы за доли секунды, не так ли? А всё дело в том, что база поисковика тщательно отсортирована по поисковым запросам и разбита на группы по тематическому, региональному и др. признакам.
И вот после того, как робот поисковика загрузил достаточное количество нового контента, включается алгоритм, который сортирует его и заносит в нужные разделы БД (базы данных) и присваивает контенту некий индекс, который указывает на то где именно в базе данных хранится тот или иной контент.
И теперь, когда вы вводите поисковую фразу и жмёте на кнопку «поиск», программе нужно просто привести ваш запрос к нужному виду (разбить его на ключевые слова и др.), посмотреть в таблице индексов где находятся результаты соответствующие вашему запросу, получить из это таблицы место в базе данных, взять оттуда контент и вывести его на экран, а это уже дело одной секунды.
Всё это похоже на то, как мы ищем в книге нужную главу. Мы не перелистываем всю книгу страница за странице в поисках нужной информации, мы просто смотрим в содержание и сразу открываем нужную страницу. В нашем случае — страница это контент, а номер страницы это индекс этого контента.
И именно процесс присвоения индекса контенту называется поисковой индексацией, а время когда эти индексы присваиваются мы называем апдейтами выдачи.
По индексации всё. Если есть что дополнить, буду рад почитать ваши комментарии.
Следующая часть будет о том, что поисковый бот видит на нашем сайте и как он анализирует его содержимое. Статья будет очень познавательная, поэтому подписывайтесь на RSS, чтобы не пропустить ! Всем, удачи!
Каждый вебмастер должен тщательно выбирать хостинг для своего сайта. Очень важно достичь оптимального соотношения цены и качества.