Использование файла robots.txt

Файл robots.txt используется для запрета индексации какими-либо поисковыми роботами каких-либо разделов сайта.

Основные правила создания robots.txt

  1. Имя файла должно быть всегда в нижнем регистре — robots.txt
  2. На сайте может быть только один файл robots.txt и он должен располагаться в корневой директории домена.

Содержимое файла

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

Приведенный выше пример запрещает индексацию всеми роботами директорий /cgi-bin/ и /tmp/ .

«Звездочка» в строке User-agent: означает «все роботы».  Вместо «звездочки» можно явно указать имя робота. Использовать регулярные выражения нельзя.

В строках Disallow: указывается имя директории или конкретного файла. Использовать регулярные выражения, также нельзя. Директивы Allow: не существует.

В файле robots.txt должна быть хотя бы одна директива Disallow: .

Список наиболее популярных имен роботов (сначала имя робота, потом поисковика):

Наиболее полный список вы найдете здесь

 Примеры

Разрешить индексацию всего сайта всем роботам

User-agent: *
Disallow:

Запретить индексацию всего сайта всем роботам

User-agent: *
Disallow: /

Запретить для робота Google индексацию директории /tmp/ и файла info.txt находящегося в корне сайта

User-agent: Googlebot
Disallow: /tmp/
Disallow: /info.txt

Запретить индексацию всего сайта всем  кроме Яндекс

User-agent: Yandex
Disallow: 

User-agent: *
Disallow: /

Ссылки по теме

Добавить комментарий