Вебстроительство

PCSET.NAROD.RU

Вебстроительство,Вебдизайн.

Главная

Вебмастеру

Ссылки

Форум

Контакты

Лучшие статьи

Что нужно знать о файле robot.txt? Синтаксис и прочие подробности.

Что нужно знать о файле robot.txt? Синтаксис и прочие подробности.

Многие люди, проводящие время в сети за продвижением собственного сайта, хоть раз, но слышали или читали о файле robots.txt. Это небольшой файл способен стать эффективным инструментом в руках умелого вебмастера. Обо всех (о многих :) секретах синтаксиса мы сегодня и поговорим. О тонкостях в работе с файлов читайте в моей следующей статье.

Что такое robots.txt

Судя по расширению — это файл. Простой текстовый файл, который создаётся за пару секунд в любом текстовом редакторе. С помощью этого файла владелец сайта может активно влиять как на качество, так и на длительность индексации поисковиками его сайта. Представьте себе — всего один крохотный файл, а выполняет столько нужной работы!
Этот файл может сообщить роботу поисковой системы, который индексирует страницы, что ему нельзя индексировать определенные страницы. Таким образом, Вы можете формировать страницы для поисковика А и сообщать роботу поисковика Б, чтобы он их игнорировал. Файл должен находиться обязательно в корневом каталоге. Всё гениальное — просто! Перейдём к синтаксису.

Синтаксис

Как я уже говорил, файл robots.txt создаётся в любом текстовом редакторе.
Синтаксис довольно-таки просто:

User-agent: {ИмяПаука}
Disallow: {ПутьКПапке\Файлу}

Например, чтобы сообщить пауку Рамблера (он называется StackRambler) не индексировать папку cgi-bin полностью и 2 файла в корне: error404.php, error500.php, нужно записать это в файле таким образом:

User-agent: StackRambler
Disallow: /cgi-bin/
Disallow: /error404.php
Disallow: /error500.php

Разбираем по полочкам. Первая строка говорит о том, что нижеприведённые адреса не следует индексировать только роботам Рамблера. О других пока не говорим.
Вторая строка сообщает нам, что папка cgi-bin полностью закрыта для поисковиков.
Третья и четвёртая строки дают понять поисковому боту Рамблера, что файлы error404.php, error500.php, которые лежат в корневом каталоге также индексировать не надо.

Переходим дальше. Запрещаем всем поисковым ботам индексировать эти файлы.

User-agent: *
Disallow: /cgi-bin/
Disallow: /error404.php
Disallow: /error500.php

Легко и просто. Запретим всем поисковикам индексировать все страницы сайта, т.е. весь сайт.

User-agent: *
Disallow: /

Некоторым наверное, так и хотелось в этом случае во второй строке также поставить звёздочку. Но это будет грубейшей ошибкой, которая не принесёт эффекта.
Хотя, всё-таки нет, эффект будет, но противоположный, т.к. файлов начинающихся со знака * в природе просто не существует.
Аналогично можно запретить поисковому боту Яндекса (он так и зовётся Yandex — об именах поисковых ботов читайте далее в продолжении этой статьи) не индексировать этот сайт.

User-agent: Yandex
Disallow: /

Если одни и те же файлы вы хотите исключить для нескольких поисковиков, то это делается так: сперва записываются имена ботов, затем файлы вот в таком формате:

User-agent: Yandex
User-agent: StackRambler
Disallow: /cgi-bin/
Disallow: /error404.php
Disallow: /error500.php

Если на Вашем сайте имеются страницы, предназначенные только под определённые поисковики, то этот вопрос с помощью robots.txt решается так:

User-agent: StackRambler
Disallow: /foryandex/

User-agent: Yandex
Disallow: /forrambler/

Этот пробел необходим, чтобы отделить параметры для разных поисковых ботов.

Если ваш сайт доступен под разными именами (например — домены с дефисом и без, с приставкой www и без), то может возникнуть ситуация, когда в индексах поисковых систем хранится несколько копий сайта. Это плохо, так как ссылочные показатели (тИЦ, PR, ссылочное ранжирование) "распыляются".
У всех поисковых машин существуют какие-то механизмы определения и склейки зеркал, но они не всегда срабатывают, и иногда срабатывают не так, как хотелось бы — основным выбирается не то зеркало, которое нужно вам.
С помощью файла robots.txt указать роботам поисковых систем на то, какое зеркало нужно считать основным:

User-agent: Yandex
Disallow: /admin/
Host: www.mainsite.ru

Директива Host уникальна для каждого поискового бота.
Но на этом наша статья не заканчивается, так как о файле robots.txt можно рассказать так много. Ждите продолжения статьи. В следующей части — тонкости работы с файлом и типичные ошибки, всё о поисковых роботах и альтернативных способах НЕиндексирования страниц.

Автор : Alexander