Robots.txt — это текстовый файл, который нужно поместить в корневую директорию вашего сайта. Данный файл указывает роботу поисковой системы какие файлы и директории сайта можно индексировать, а какие нет.
Директива User-agent - обязательная и должна присутствовать в каждом файле. Указывает на робота, на который распространяются перечисленные далее другие директивы.
User-agent: * - директивы будут распространяться на все роботы;
User-agent: YandexBot – только на робот Яндекс;
User-agent: GoogleBot – только на робот Гугл.
Директивы Allow/Disallow – разрешают или запрещают индексацию отдельных директорий или файлов сайта. Директории или файлы указываются далее за директивой в параметре. Параметр в директиве может быть только один. Звёздочка в параметре обозначает любой текст.
Директивы располагаются последовательно одна за другой:
User-agent: * # для всех роботов
Disallow: /*dat # запретить индексировать все директории,
# которые заканчиваются на dat
Disallow: /programs # запретить индексировать директорию programs
Allow: /programs/js/ # в директории programs разрешить
# индексировать поддиректорию js
Allow: /programs/example.html # в директории programs разрешить
# индексировать файл example.html
Со знака # начинается комментарий. В строке может располагаться только одна директива и без пробелов в начале строки. Директивы должны следовать подряд без пустых строк между ними.
В файле robots.txt может быть несколько директив User-agent:
User-agent: *
Disallow: /*dat # для всех роботов
User-agent: YandexBot
Disallow: /*dat # для роботов Яндекс
User-agent: GoogleBot
Disallow: /*dat # для роботов Гугл
Пустая строка заканчивает действие директивы User-agent. Используя разные директивы User-agent можно установить запрет/разрешение индексации выбранных директорий для конкретного робота.
Директива sitemap указывает путь к файлу (файлам) sitemap.xml на вашем сайте. Файлов может быть несколько и называться не обязательно sitemap: