Поисковая машина перед тем как индексировать ваш сайт, ищет в корневом каталоге файл с именем robots.txt. Находится он www.домен/robots.txt
В этом файле оптимизаторы разрешают или запрещают индексировать определенные моменты вашего сайта.
Если вы оставите файл пустым, поисковая машина проиндексирует сайт полностью, независимо, хотите ли вы этого, или что-то скрываете в своем фтп, например, цензурные картинки, или просто текст. У меня был случай, когда я залил файлы на фтп, чтобы их скачал мой друг, файлы были нежелательного содержания, ПС после обхода моего сайта нашла файлы, и сделала пессимизацию сайта, поэтому будьте внимательны, что вы заливаете на FTP.
Был также случай, когда я сделал работу наполовину, и после текстового апдейта ПС нашел html странички с “полу-работой’ и внес в индекс. Для ПС – это плюс, т.к. дополнительная информация, но для людей… – можете потерять трафик.
Если у вас нету файла robots.txt – просто создайте его в блокноте, и залейте в корень FTP.
А теперь изучим основные функции:
1. Строка user-agent – говорит о названии робота.
К примеру: user-agent: googlebot
Но лучше написать такой код: символ * – обозначает, что правила указываются для всех роботов. user-agent:
2. Далее, вторая строка disallow: – указываем то, что не нужно сканировать поисковой машине. (Указываем папки в FTP, которые мы не хотим индексировать, перед папкой ставится /). К примеру, если у вас сайт на Joomla – можно указать: disallow: /administrator
3. Далее, закрываем папки на свой выбор.
Важно знать:
Если в robots.txt указан следующий код: то мы разрешаем всем роботам индексировать все папки нашего сайта, а значит и все файлы, и все страницы сайта.
user-agent: *
disallow:
Если я хочу занести данную страницу в роботс, тогда код будет таков:
disallow: /stat-seo/robots-txt.html
Если я хочу занести целую категорию со статьями в роботс, код будет таков:
disallow: /stat-seo