Италия. Туры. Отдых. Города и курорты.

Индексирование документов поисковыми роботами

Наиболее эффективными и результативными средствами раскрутки веб-сайтов являются регистрация в каталогах и индексирование поисковыми системами. В статье изложены основные сведения об начальном этапе подготовки ресурса к регистрации, а именно о работе с метатегами.

Краткая справка

Поисковая система представляет собой более сложную структуру и состоит из трех компонентов:

Робот (spider):
Программа, которая просматривает веб-страницы, считывает (индексирует) их содержимое, следуя по ссылкам, найденным внутри документов. Возобновляет работу через определенный период времени.
Индексы:
База данных о проиндексированных роботом документах.
Поисковый механизм:
Программа, проверяющая в соответствии с запросом пользователя содержание индексов.

Следует сказать, что поисковые системы, в отличие от встроенных в каталоги поисковых двигателей, ищут не в пределах определенной серверными настройками базы данных, а по всей Сети, выводя страницы, находящиеся в их индексах (реестрах данных, где хранится информация о проиндексированных ресурсах). Именно последним и занимаются так называемые поисковые роботы (spiders, wanderers, robots). При обращении к серверу робот проверяет наличие файла robots.txt в его корневой директории, в котором могут быть вручную установлены правила индексирования тех или иных документов текущего узла. Однако, не все роботы "умеют" читать указанную в этом файле информацию: часть из них не поддерживает специальный стандарт описания правил индексирования файлов - Standard for Robot Exclusion. К сожалению, сегодня не все веб-мастера и ведущие Интернет-проектов имеют представление об этом стандарте, к тому же не каждый системный администратор, настраивающий веб-сервер, придает применению правил описания для поисковых роботов должное внимание.

Но данная статья будет посвящена не стандарту Standard for Robot Exclusion, что требует изучения специальных параметров описания правил и работы с веб-сервером, а тому, как правильно подготовить веб-документ для индексирования поисковыми роботами.

Релевантность документов

Когда пользователь вводит в строке запроса поисковой системы какое-то слово или словосочетание, робот обращается ко всем проиндексированным страницам. Количество полученных результатов может достигать десятков и даже сотен тысяч. Робот выводит результаты по критерию наибольшего соответствия содержания документов запросу пользователя, который называется релевантностью. Другими словами, самые подходящие страницы будут размещены в начале результирующего списка, выдаваемого поисковой системой. На релевантность влияют факторы ключевых слов, речь о которых и пойдет.

Количество ключевых слов

Под количеством ключевых слов (keywords) подразумевается их частота присутствия в документе (не путать с указанием ключевых слов в мета-тегах, разговор о которых пойдет чуть ниже). То есть страница, на которой робот обнаружит 15 раз запрошенное пользователем слово, будет более релевантна, чем та, которая содержит это слово всего 3 раза. Этот фактор как правило зависит от тематики ресурса и профессиональной этики веб-мастера. Логично допустить, что если страница называется "Лучшие бесплатные программы для Unix", в ее тексте навряд ли можно встретить слова "эротика", "макияж" или "трубопровод". Зато "система" или "Unix" могут встретиться десятки раз. Но когда вопрос траффика перерастает в вопрос жизни или смерти, некоторые веб-мастера идут на неэтичный шаг: указывают в документе ключевые слова, совершенно не имеющие отношения к теме ресурса. Делается это обычно очень мелким шрифтом, в самом низу страницы или цветом, совпадающим с задним фоном. Реже эти методы берут на вооружение люди, стремящиеся искусственным путем повысить релевантность своих документов: одно и тоже ключевое слово указывается большое количество раз.

Густота (плотность) ключевых слов

Под густотой (плотностью) ключевых слов принято понимать степень отношения количества ключевых слов к остальным словам в пределах документа. Поисковые роботы считают более релевантной страницу с конкретным словосочетанием, нежели документ, в котором есть помимо этого словосочетания другие слова и фразы. Например, документ, содержащий только два слова "коммерческое предложение", будет идти в результирующем списке впереди страницы, содержащей помимо сочетания слов "коммерческое предложение" еще и другие слова.

Расположение ключевых слов

Такой подход имеет, как минимум, три больших минуса: во-первых, исходный размер HTML-файла заметно увеличивается, во-вторых, при выдаче результатов поисковики выводят данные, указанные в заголовке (TITLE), что делает название найденных документов малопривлекательными, в-третьих, пользователю будет довольно сложно поместить страницу с таким длинным заголовком в папку Favorites/Bookmarks. Кроме этого, на релевантность документов влияет наличие выделенных фрагментов текста (теги форматирования STRONG, , EM, U, I, H1, H2 и др.) и внесение ключевых слов в комментарии, поле альтернативного текста ALT и мета-теги (им будет посвящена отдельная часть статьи). Комментарии обособляются символами !-- и -- и могут включать абсолютно любую информацию (она в окне браузера не отображается)

Поле альтернативного текста ALT, предназначенное для появления подсказок к графическим элементам при наведении на них курсора, тоже имеет большой вес, когда речь заходит о релевантности страниц. Для сравнения приведу следующий пример: на странице абстрактного предприятия "Фирма" размещена кнопка about.gif размером 5 Кб со ссылкой, ведущей в раздел, рассказывающий об истории возникновения предприятия. Три варианта использования поля альтернативного текста ALT:

IМG SRC=about.gif ALT="about.gif, 5 Кб"
IМG SRC=about.gif ALT="Об истории"
IМG SRC=about.gif ALT="История возникновения ООО Фирма"

Релевантность страниц согласно порядку применения поля будет изменяться от первого варианта к последнему: документ, где кнопке присвоено поле "История возникновения ООО Фирма", будет иметь более высокую релевантность, чем тот, чья кнопка имеет значение тега "about.gif, 5 Кб".

Мета-теги

META NAME="keywords" CONTENT="........."

Здесь в значении атрибута CONTENT следует указывать ключевые слова и словосочетания. Делается это через запятую. Сюда можно добавить слова, которые не встречаются в документе (или встречаются крайне мало), но имеют отношение к тематике сайта (что снова повысит релевантность). Не стоит избегать указания словосочетаний: во-первых, многие пользовательские запросы состоят из нескольких слов, а во-вторых, документ с указанием в качестве keywords целой фразы, будет иметь большую релевантность, чем страница, где вместо ключевой фразы определены ее отдельные слова (например, "электронные магазины" или "электронные" и "магазины"). В среднем допускается указывать до 150-200 символов в качестве ключевых слов.
META NAME="description" CONTENT="........."

Значение атрибута CONTENT в данном случае уместно использовать, если в самом документе нет (или очень мало) тематического описания вашего сайта. Дело в том, что большинство поисковых систем в результирующем списке рядом с заголовком выводит 70-150 символов, относящихся к характеристике найденного документа. Если робот не обнаружит данного значения, его внимание будет обращено к проверке страницы с целью нахождения текста, характеризующего документ, и дальнейшего вывода этого текста в результирующем списке. Оптимальным решением является параллельное использование значений ключевых слов и описания (возможно дублировать ключевые слова в конструкции META NAME="description" CONTENT="...").
META NAME="robots" CONTENT="........."

Эта конструкция предназначена для того, чтобы указать поисковому роботу, индексирующему ваш сайт, что надо добавлять в индексы, а что нет. Последний случай не является редким, т.к. существует множество ситуаций, когда просто необходимо запретить индексирование: чаты, баннерные показы и пр. Есть шесть возможных значений атрибута CONTENT для данной конструкции:
- ALL (разрешение индексации документа со всеми присутствующими в нем гиперсвязями);
- NONE (запрет индексации документа со всеми присутствующими в нем гиперсвязями);
- INDEX (разрешение индексации документа);
- NOINDEX (запрет индексации документа);
- FOLLOW (разрешение индексации присутствующих гиперсвязей);
- NOFOLLOW (запрет индексации присутствующих гиперсвязей);

Если этот мета-тег пропущен или не указано значение атрибута CONTENT, то поисковый робот понимает их отсутствие как конструкцию CONTENT="INDEX, FOLLOW" (эти два значения - INDEX и FOLLOW аналогичны ALL).
Все тэги.

Проблемы индексирования страниц

Однако в процессе подготовки страниц к индексированию роботами пользователь может столкнуться с целым рядом затруднений (или значительно позже, что еще хуже):

Страницы с фреймам
В Сети огромное количество сайтов, созданных с применением многооконной структуры (фреймов), а большинство поисковых систем не умеют с ними работать. Что же делать пользователю, который хочет, чтобы его ресурс был проиндексирован? Оказывается, выход есть. Если вы когда-нибудь работали с фреймами, то знаете, что подобно роботам некоторые браузеры их не поддерживают, для чего в документе, определяющем адреса загрузки составных страниц, ставится парный тег . В нем обычно пишут что-то вроде "Ваш браузер не поддерживает фреймы", дается ссылка на последнюю версию MSIE или NN, а в лучшем случае - линк на безфреймовый вариант сайта. Разумеется, информация, заключенная в данный тег, не отображается браузерами, имеющими поддержку фреймовых структур. Посему туда можно поместить подробное описание вашего сайта, указать ключевые слова и словосочетания. И потом нельзя забывать заголовок начальной страницы (TITLE), в котором тоже следует определить ключевые слова.
Невозможность индексирования
Причин затруднениям индексирования может быть несколько: некоторые поисковые роботы индексируют страницы, расположенные только в зоне .RU и соответствующих ей городских зонах, посему, если ваш сайт размещен на зарубежном сервере, в индексы он не попадет; некоторые спайдеры имеют ограничение на занесение в индексы не более какого-то числа ресурсов с одного домена; в конце концов, возможно, что вы случайно вместо значения INDEX мета-тега указали NOINDEX или сделали синтаксическую ошибку в составлении конструкции тегов мета-данных, влияющих на процесс индексирования веб-документов.

Итоги. Создавайте уникальную, полезную информацию для своих посетителей и вы будете «бесплатно» получать ссылки на свои страницы, тем самым увеличивая их показатели «цитируемости». Только таким образом ваш сайт и услуги, которые вы предлагаете, действительно могут себя зарекомендовать. Как пример, данную статью ежедневно читают около 60 посетителей нашего сайта.