Все об индексации сайтов

Сайты в поисковых системах – индекс решает все

В основе работы всех поисковых систем лежит индекс, или так называемая индексная база. Именно благодаря индексу мы можем рассчитывать на то, что поисковый робот предоставит обширный список сайтов, лучше всего отвечающих на введенный нами запрос. Так что собой представляет поисковый индекс, и как он работает?

Индекс поисковых систем

Индекс поисковых систем –по сути это база данных с определенной структурой, в идеале отражающая весь или почти весь интернет: сайты и их страницы, тексты, изображения, документы и прочее, что есть в сети. Каждая поисковая система имеет так называемых поисковых роботов (ботов, пауков), которые постоянно исследуют интернет и выкачивают его содержимое в индексную базу. Основная работа таких ботов – обнаружение и сохранение текстовой информации, но есть и такие, которые специализируются на картинках, новостных ресурсах, мобильных версий сайтов и т.д. В итоге поисковый индекс – это своеобразное зеркало всего интернета со всем его содержимым.

Информация, скачанная с сайтов в индекс,подлежит индексации – обработке и сортировке. Проще говоря, она разбивается на отдельные слова и их основы и сортируется с учетом привязки к конкретному ресурсу. Благодаря этому поисковые машины в ответ на наш запрос (слово или несколько) могут быстро найти страницы, содержащие оптимальное количество искомых лингвистических единиц и лучше всего отвечающие нашим ожиданиям. Параллельно поисковый индекс хранит копии каждой из страниц, что позволяет пользователям видеть фрагменты исходного текста в сниппетах поисковой выдачи, а также ознакомиться с сохраненными копиями, если те или иные страницы стали недоступны. Индексная база поисковых машин обновляется постоянно и с огромной скоростью (с учетом общего количества веб-страниц во всемирной сети), благодаря чему мы получаем максимально актуальную информацию на запросы в поисковиках.

Поисковый робот узнает о новых сайтах, переходят по ссылкам на уже известных емуресурсах. Так что если у вас есть новый сайт, и вы хотите, чтобы на него переходили из поисковых систем, необходимо наличие хотя бы нескольких внешних ссылок. Есть и другой способ – можно сообщить поисковым системам о появлении нового сайта через сервисы для вебмастеров.

Апдейты поисковых систем

Постоянное обновления индексных баз приводят к регулярным изменениям в поисковой выдаче. Появляется новая информация, старая – устаревает, и поисковые машины учитывают все эти изменения при формировании очередного списка сайтов на запрос пользователя. В итоге какие-то сайты падают на более низкие позиции, а какие-то, напротив, поднимаются. Собственно, эти обновления индексных баз с последующим изменением поисковой выдачи и называются апдейтами поисковых систем.

Каждая поисковая система обновляет индексную базу и поисковую выдачу по-своему. Но основное внимание вебмастеров, оптимизаторов и владельцев сайтов приковано к апдейтам двух наиболее крупных, популярных и востребованных в России поисковиков: Яндекс и Google.

У Яндекса принято выделять несколько видов апдейтов:

  • Текстовые апдейты – это обновления, касающиеся текстовой составляющей сайтов и учитывающее все изменения в текстах на веб-страницах;
  • Ссылочные апдейты учитывают изменения внешней и внутренней ссылочной массы на страницах сайтов;
  • Апдейты баз картинок направлены на актуализацию графической информации в поисковой выдаче: изображений, фото и т.п.;
  • Поведенческие апдейты появились относительно недавно и отражают изменения в поведении пользователей на тех или иных сайтах. В результате таких апдейтов сайты, где посетители дольше задерживаются, глубже погружаются и проявляют прочую активность, поднимаются в результатах поиска и наоборот.

У Яндекса существуют и другие виды апдейтов, но эти – основные и самые главные. Интересный факт в том, что среди всех апдейтов поисковой выдачи Яндекса существует и «промежуточный» апдейт. В числе роботов-пауков этой поисковой системы есть быстробот. Его задача – как можно быстрее найти свежие актуальные веб-страницы и сразу же отправить их в поисковую выдачу. Такие страницы могут быть доступны для поиска через Яндекс пару дней, после чего пропадают вплоть до полноценного апдейта.

С обновлением индексной базы и поисковой выдачи Google все гораздо проще – все апдейты происходят постоянно и непрерывно. Новая страница, обнаруженная ботами Google, сразу полноценно индексируется и попадает в выдачу.

Ранжирование сайтов в поисковой выдаче

Итак, у поисковых машин есть обширные постоянно обновляющиеся индексные базы, а у пользователей – свои запросы. Каким образом поисковики выстраивают в определенной последовательности десятки, сотни и тысячи сайтов, отвечающих на тот или иной запрос? Почему один сайт занял первую позицию в списке, а другой безнадежно затерялся на десятой странице?

Все дело в алгоритмах ранжирования поисковых систем. По сути ранжирование – это процесс выстраивания списка сайтов (конкретных веб-страниц), которые лучше всего отвечают на запрос пользователя, по убыванию их релевантности, проще говоря «полезности».

Алгоритм ранжирования сайтов – это порядок и правила, по которым поисковая машина сортирует веб-страницы друг за другом в списке выдачи.Факторов, прописанных в алгоритмах ранжирования, очень и очень много, и они регулярно меняются, обновляются и дополняются. При этом у каждой поисковой системы свой взгляд на ранжирование – у всех алгоритмы разные. Например, Яндекс заявлял о наличии более одной тысячи факторов, которые играют роль как по отдельности, так и в совокупности. Считается, что у Google таких факторов меньше, но подход к проработке алгоритма формирования выдачи – сложнее.

Принято выделять внутренние и внешниефакторы ранжирования. Считается, что основная роль отводится внутренним – то есть контенту сайта и его страниц. Первое, на что смотрит любая поисковая система – это текстовая составляющая сайта. Статьи, подписи картинкам и прочие тексты должны включать в себя ключевые слова из запросов пользователей и при этом быть естественными, уникальными, интересными и полезными. Поисковой машине, кстати, вполне под силу отличить хороший текст от искусственно накаченного ключевыми словами, и страница с таким содержимым рискует быть пессимизированной. К внутренним факторам ранжирования относится очень многое – удобочитаемость шрифтов, наличие картинок, удобство сайта для пользователей (юзабилити), его структура, возраст домена и прочее.

Важнейшим внешним фактором ранжирования является ссылочный. Поисковые машины наибольшее внимание обращают на входящие ссылки, то есть ссылки на сайт с других ресурсов. Считается, что чем больше сторонних ресурсов ссылаются на ваш сайт, тем он авторитетнее. Так оно и было бы, если бы не появился новый вид интернет-промысла – торговля ссылками. Поисковые системы борются с этим и идут в сторону снижения влияния ссылочной массы в алгоритмах ранжирования. В частности, сегодня значение имеет не столько количество входящих ссылок, сколько их качество: текст ссылки, ее возраст, стабильность, местоположение в структуре ссылающегося сайта, а также его авторитетность.

В погоне за наиболее релевантной выдачей поисковики регулярно вносят изменения в свои алгоритмы ранжирования. Конечно, никто точно не знает, на что конкретно направлены эти изменения, и как они будут работать. Да и сами алгоритмы ранжирования не раскрываются и доподлинно неизвестны никому, кроме ограниченного круга сотрудников Яндекса, Google и прочих. Все делается для того, чтобы владельцы нерелевантных и некачественных сайтов не смогли повлиять на позиции своих ресурсов в выдаче, а она, в свою очередь, была естественной и максимально полезной для пользователей.


Возврат к списку