Для чего нужен файл robots.txt?

4 января

Каждый уважающий себя вебмастер должен знать, что такое файл robots.txt и зачем его применяют. Ни для кого не секрет, что индексация сайта осуществляется поисковыми роботами (другое название – краулеры). Робот обходит сайты в автоматическом режиме и заносит их содержимое в специальную базу данных (индекс) поисковой системы. Довольно часто возникает необходимость скрыть от поисковика какие-то разделы своего сайта или отдельные страницы.

Например, неплохо бы закрыть от индексации административную часть вашего ресурса, а также страницы, не имеющие прямого отношения к тематике сайта. Robots.txt – это обыкновенный текстовый файл, находящийся в корневой директории сайта и содержащий набор инструкций для одного или нескольких поисковых роботов. Пустой файл robots.txt поисковый паук воспринимает, как и его отсутствие.

Итак, как же осуществляется запрет индексации в robots.txt? Чтобы полностью запретить индексацию своего сайта всеми роботами, в файле напишите следующее:

User-agent: *
Disallow: /

Звездочка означает любого робота, а запись «Disallow: /» — это запрет индексации страниц, которые начинаются со знака «/», то есть всех страниц на сайте.
Индексация сайта в Яндексе разрешается такой записью:
User-agent: Yandex
Disallow:
А вот так можно запретить индексацию отдельных папок на своем сайте:

User-agent: *
Disallow: /tmp
Disallow: /logs

При этом следует отметить, что в каждую Disallow-строчку можно записать только один путь.
Вместо этого вы можете папки tmp и logs записать в папку norobots, тогда директивы в файле будут выглядеть так:

User-agent: *
Disallow: /norobots

Естественно, сервер нужно перенастроить так, чтобы он не отдавал список файлов, которые находятся в этой папке. Таким образом, хакер узнает о существовании папки norobots, но ничего не узнает о ее содержимом – папках tmp и logs.

В том случае, если у пользователя нет доступа к сайту через FTP клиент FileZilla, нужно использовать тег noindex и nofollow. Для того, чтобы весь документ не индексировался поисковиком, в код веб-страницы нужно добавить следующий тег:

META NAME=«ROBOTS» CONTENT=«NOINDEX»

Если же ваша цель – это запрет индексации ссылок, тогда вы должны написать:

META NAME=«ROBOTS» CONTENT=«NOFOLLOW»

А можно и поступить и так: в сам код ссылки включить rel=”nofollow”. Например:

<a href="http://ktonanovenkogo.ru" rel="nofollow">Блог для начинающих вебмастеров</a>

Таким образом, nofollow является значением атрибута rel тега гиперссылки A.

В конце 2009 года поисковик Google изменил алгоритм учета атрибута nofollow. Так, если раньше атрибут запрещал передачу веса со страницы-донора странице акцептору, но вес страницы донора сохранялся, то после нововведения вес со страницы-донора просто испаряется. В мае 2010 года Яндекс «пошел по стопам» Google и перестал учитывать вес ссылок с атрибутом rel=nofollow.

Рубрика : Создание и продвижение сайтов

Комментарии

Комментариев пока нет.


Извините, комментарии не доступны.