russian ukrainian english
Главная страница Города Италии Туры в Италию Отели Италии Памятка туристам
Гостевая книга Форум

Обмен ссылками
Государство Италия:
Общая информация
История Италии
Экономика Италии
Валюта Италии
Герб, Флаг, Гимн
Итальянский язык
География Италии
Карта Италии

Отдых в Италии:
Морские курорты
Горнолыжные курорты
Отдых на островах
Термы / SPA
Альпийские озера

Культурные центры:
Города искусств
Памятки культуры
Музеи, парки, замки...

Итальянцы:
Культура Италии
Традиции и обычаи
Праздники в Италии
Национальная кухня
Итальянский юмор

Справка Италии:
Выставки в Италии
Экстренные службы
Погода Италии
Компании, организации
Сайты Италии

СМИ, коммуникации и связь:
Интернет и телефония
Пресса, Радио, ТВ
Веб-камеры Италии

 

Индексирование документов поисковыми роботами

Наиболее эффективными и результативными средствами раскрутки веб-сайтов являются регистрация в каталогах и индексирование поисковыми системами. В статье изложены основные сведения об начальном этапе подготовки ресурса к регистрации, а именно о работе с метатегами.


Краткая справка

 Поисковая система представляет собой более сложную структуру и состоит из трех компонентов:

  • Робот (spider):
    Программа, которая просматривает веб-страницы, считывает (индексирует) их содержимое, следуя по ссылкам, найденным внутри документов. Возобновляет работу через определенный период времени.
  • Индексы:
    База данных о проиндексированных роботом документах.
  • Поисковый механизм:
    Программа, проверяющая в соответствии с запросом пользователя содержание индексов.

Следует сказать, что поисковые системы, в отличие от встроенных в каталоги поисковых двигателей, ищут не в пределах определенной серверными настройками базы данных, а по всей Сети, выводя страницы, находящиеся в их индексах (реестрах данных, где хранится информация о проиндексированных ресурсах). Именно последним и занимаются так называемые поисковые роботы (spiders, wanderers, robots). При обращении к серверу робот проверяет наличие файла robots.txt в его корневой директории, в котором могут быть вручную установлены правила индексирования тех или иных документов текущего узла. Однако, не все роботы "умеют" читать указанную в этом файле информацию: часть из них не поддерживает специальный стандарт описания правил индексирования файлов - Standard for Robot Exclusion. К сожалению, сегодня не все веб-мастера и ведущие Интернет-проектов имеют представление об этом стандарте, к тому же не каждый системный администратор, настраивающий веб-сервер, придает применению правил описания для поисковых роботов должное внимание.

Но данная статья будет посвящена не стандарту Standard for Robot Exclusion, что требует изучения специальных параметров описания правил и работы с веб-сервером, а тому, как правильно подготовить веб-документ для индексирования поисковыми роботами.


Релевантность документов

Когда пользователь вводит в строке запроса поисковой системы какое-то слово или словосочетание, робот обращается ко всем проиндексированным страницам. Количество полученных результатов может достигать десятков и даже сотен тысяч. Робот выводит результаты по критерию наибольшего соответствия содержания документов запросу пользователя, который называется релевантностью. Другими словами, самые подходящие страницы будут размещены в начале результирующего списка, выдаваемого поисковой системой. На релевантность влияют факторы ключевых слов, речь о которых и пойдет.


Количество ключевых слов

 Под количеством ключевых слов (keywords) подразумевается их частота присутствия в документе (не путать с указанием ключевых слов в мета-тегах, разговор о которых пойдет чуть ниже). То есть страница, на которой робот обнаружит 15 раз запрошенное пользователем слово, будет более релевантна, чем та, которая содержит это слово всего 3 раза. Этот фактор как правило зависит от тематики ресурса и профессиональной этики веб-мастера. Логично допустить, что если страница называется "Лучшие бесплатные программы для Unix", в ее тексте навряд ли можно встретить слова "эротика", "макияж" или "трубопровод". Зато "система" или "Unix" могут встретиться десятки раз. Но когда вопрос траффика перерастает в вопрос жизни или смерти, некоторые веб-мастера идут на неэтичный шаг: указывают в документе ключевые слова, совершенно не имеющие отношения к теме ресурса. Делается это обычно очень мелким шрифтом, в самом низу страницы или цветом, совпадающим с задним фоном. Реже эти методы берут на вооружение люди, стремящиеся искусственным путем повысить релевантность своих документов: одно и тоже ключевое слово указывается большое количество раз.


Густота (плотность) ключевых слов

Под густотой (плотностью) ключевых слов принято понимать степень отношения количества ключевых слов к остальным словам в пределах документа. Поисковые роботы считают более релевантной страницу с конкретным словосочетанием, нежели документ, в котором есть помимо этого словосочетания другие слова и фразы. Например, документ, содержащий только два слова "коммерческое предложение", будет идти в результирующем списке впереди страницы, содержащей помимо сочетания слов "коммерческое предложение" еще и другие слова.


Расположение ключевых слов

 Такой подход имеет, как минимум, три больших минуса: во-первых, исходный размер HTML-файла заметно увеличивается, во-вторых, при выдаче результатов поисковики выводят данные, указанные в заголовке (TITLE), что делает название найденных документов малопривлекательными, в-третьих, пользователю будет довольно сложно поместить страницу с таким длинным заголовком в папку Favorites/Bookmarks. Кроме этого, на релевантность документов влияет наличие выделенных фрагментов текста (теги форматирования STRONG, , EM, U, I, H1, H2 и др.) и внесение ключевых слов в комментарии, поле альтернативного текста ALT и мета-теги (им будет посвящена отдельная часть статьи). Комментарии обособляются символами !-- и -- и могут включать абсолютно любую информацию (она в окне браузера не отображается)

Поле альтернативного текста ALT, предназначенное для появления подсказок к графическим элементам при наведении на них курсора, тоже имеет большой вес, когда речь заходит о релевантности страниц. Для сравнения приведу следующий пример: на странице абстрактного предприятия "Фирма" размещена кнопка about.gif размером 5 Кб со ссылкой, ведущей в раздел, рассказывающий об истории возникновения предприятия. Три варианта использования поля альтернативного текста ALT:

IМG SRC=about.gif ALT="about.gif, 5 Кб"
IМG SRC=about.gif ALT="Об истории"
IМG SRC=about.gif ALT="История возникновения ООО Фирма"

Релевантность страниц согласно порядку применения поля будет изменяться от первого варианта к последнему: документ, где кнопке присвоено поле "История возникновения ООО Фирма", будет иметь более высокую релевантность, чем тот, чья кнопка имеет значение тега "about.gif, 5 Кб".


Мета-теги

  • META NAME="keywords" CONTENT="........."

    Здесь в значении атрибута CONTENT следует указывать ключевые слова и словосочетания. Делается это через запятую. Сюда можно добавить слова, которые не встречаются в документе (или встречаются крайне мало), но имеют отношение к тематике сайта (что снова повысит релевантность). Не стоит избегать указания словосочетаний: во-первых, многие пользовательские запросы состоят из нескольких слов, а во-вторых, документ с указанием в качестве keywords целой фразы, будет иметь большую релевантность, чем страница, где вместо ключевой фразы определены ее отдельные слова (например, "электронные магазины" или "электронные" и "магазины"). В среднем допускается указывать до 150-200 символов в качестве ключевых слов.
  • META NAME="description" CONTENT="........."

    Значение атрибута CONTENT в данном случае уместно использовать, если в самом документе нет (или очень мало) тематического описания вашего сайта. Дело в том, что большинство поисковых систем в результирующем списке рядом с заголовком выводит 70-150 символов, относящихся к характеристике найденного документа. Если робот не обнаружит данного значения, его внимание будет обращено к проверке страницы с целью нахождения текста, характеризующего документ, и дальнейшего вывода этого текста в результирующем списке. Оптимальным решением является параллельное использование значений ключевых слов и описания (возможно дублировать ключевые слова в конструкции META NAME="description" CONTENT="...").
  • META NAME="robots" CONTENT="........."

    Эта конструкция предназначена для того, чтобы указать поисковому роботу, индексирующему ваш сайт, что надо добавлять в индексы, а что нет. Последний случай не является редким, т.к. существует множество ситуаций, когда просто необходимо запретить индексирование: чаты, баннерные показы и пр. Есть шесть возможных значений атрибута CONTENT для данной конструкции:

    • ALL (разрешение индексации документа со всеми присутствующими в нем гиперсвязями);
    • NONE (запрет индексации документа со всеми присутствующими в нем гиперсвязями);
    • INDEX (разрешение индексации документа);
    • NOINDEX (запрет индексации документа);
    • FOLLOW (разрешение индексации присутствующих гиперсвязей);
    • NOFOLLOW (запрет индексации присутствующих гиперсвязей);

Если этот мета-тег пропущен или не указано значение атрибута CONTENT, то поисковый робот понимает их отсутствие как конструкцию CONTENT="INDEX, FOLLOW" (эти два значения - INDEX и FOLLOW аналогичны ALL).
Все тэги.


Проблемы индексирования страниц

Однако в процессе подготовки страниц к индексированию роботами пользователь может столкнуться с целым рядом затруднений (или значительно позже, что еще хуже):

  • Страницы с фреймам
    В Сети огромное количество сайтов, созданных с применением многооконной структуры (фреймов), а большинство поисковых систем не умеют с ними работать. Что же делать пользователю, который хочет, чтобы его ресурс был проиндексирован? Оказывается, выход есть. Если вы когда-нибудь работали с фреймами, то знаете, что подобно роботам некоторые браузеры их не поддерживают, для чего в документе, определяющем адреса загрузки составных страниц, ставится парный тег . В нем обычно пишут что-то вроде "Ваш браузер не поддерживает фреймы", дается ссылка на последнюю версию MSIE или NN, а в лучшем случае - линк на безфреймовый вариант сайта. Разумеется, информация, заключенная в данный тег, не отображается браузерами, имеющими поддержку фреймовых структур. Посему туда можно поместить подробное описание вашего сайта, указать ключевые слова и словосочетания. И потом нельзя забывать заголовок начальной страницы (TITLE), в котором тоже следует определить ключевые слова.
  • Невозможность индексирования
    Причин затруднениям индексирования может быть несколько: некоторые поисковые роботы индексируют страницы, расположенные только в зоне .RU и соответствующих ей городских зонах, посему, если ваш сайт размещен на зарубежном сервере, в индексы он не попадет; некоторые спайдеры имеют ограничение на занесение в индексы не более какого-то числа ресурсов с одного домена; в конце концов, возможно, что вы случайно вместо значения INDEX мета-тега указали NOINDEX или сделали синтаксическую ошибку в составлении конструкции тегов мета-данных, влияющих на процесс индексирования веб-документов.
Итоги. Создавайте уникальную, полезную информацию для своих посетителей и вы будете «бесплатно» получать ссылки на свои страницы, тем самым увеличивая их показатели «цитируемости». Только таким образом ваш сайт и услуги, которые вы предлагаете, действительно могут себя зарекомендовать. Как пример, данную статью ежедневно читают около 60 посетителей нашего сайта.

Информация об авторе статьи

Информация взята с сайта alpet.spb.ru
Автор: Алексей Петюшкин Советы:

Как получить прибыль от туристического сайта
Способы повышения видимости узла из поисковых систем
Службы автоматического представления
Индексирование документов поисковыми роботами


Каталог ресурсов
Обмен ссылками
Партнерская программа
Карта веб сайта
Поиск по сайту
Контакты
Games Партнерська програма Викторина
Hosted by uCoz