И еще: именуйте файл robots.txt в нижнем регистре, иначе все усилия будут напрасны. Будьте очень внимательно при написании данного файла. Необходимо соблюдать строгий синтаксис. Более подробно о конструкциях файла robots.txt можно узнать по ссылке:
Необходимо скрыть подобным образом все системные директории на сервере. Однако ни в коем случае нельзя скрывать адреса директорий, содержащих страницы сайта или сами файлы страниц.
После слова Disallow необходимо прописать адрес файла или директории для скрытия от индексации. Поскольку таких файлов и директорий в большинстве случаев множество, то каждая директория или файл описывается с новой строки. Пример, как должны быть описаны адреса файлов:
Sitemap адрес xml-карты сайта
Host - домен, который будет выбран при индексировании сайта в случае, если сайт доступен по нескольким адресам.
Disallow - запрет индексации, после него указываем каталог, или файл, который следует запретить.
User-agent - имя робота индексатора. У каждого поисковика есть свое обозначение. Мы можем задать индивидуальные параметры индексации для каждого из них, они это любят .
Теперь, что касается кода. Существует много вариантов написания, однако указываю здесь только то, что действительно Вам пригодиться. Обратите внимание, что каждая команда пишется в новой строке. Итак, файл будет выглядеть следующим образом:
Третий случай для тех, у кого сайт доступен по нескольким доменам. Очень частое явление, когда располагаем сайт на бесплатном домене третьего уровня, а затем, припарковываем к этой площадке домен второго уровня. В итоге сайт доступен сразу под двумя именами, и индексация может пройти не по «хорошему » домену. В этом случае, мы в файле robots.txt прописываем правильный домен, который будет проиндексирован.
У каждого поискового робота есть свой лимит, который заключается в количестве файлов, который он индексирует за раз. Таким образом, робот может проиндексировать кучу бесполезного хлама на вашем сайте и не дойти до необходимого. А если учитывать, что поисковые роботы могут проводить переиндексацию довольно редко, то ничего хорошего в этом нет.
На сайте могут располагаться страницы, в которых содержится какая-либо приватная информация, закрытый для простого посетителя контент, и Вы не желаете, чтобы через поисковик, кто-либо на такую страничку зашел. Иногда мы специально дублируем контент, делая отдельные страницы для печати, в этом случае, нам нужно избегать, чтобы подобные дубликаты попали в поисковик.
-скрытие от поисковиков некоторой информации для обеспечения информационной безопасности и увеличения скорости индексации;
-индексация сайта под правильным адресом;
-быстрый доступ ко всем страницам сайта;
В итоге получаем:
Использование данного файла очень важно. В данном файле указывается адрес основного зеркала сайта, по которому он будет впоследствии проиндексирован, адрес xml-карты сайта, а также указываются файлы и директории, которые необходимо скрыть от индексации поисковыми системами. Корректно написанный файл robots.txt позволяет управлять индексацией сайта поисковыми системами.
Файл robots.txt средство универсальное, он работает на хостинге под любой ОС, будь то Unix или Windows хостинг. Файл определяется любыми поисковыми системами, разве что отдельные поисковики стали пользоваться дополнительными, своими метатегами в этом файле.
Когда мы размещаем в сети наш сайт, регистрируем его в поисковиках, либо в других местах указываем на него ссылки, то рано или поздно, сайт будет проиндексирован поисковыми системами. Когда поисковый робот натыкается на нашу ссылку, он переходит по ней и начинает индексировать страницу за страницей нашего сайта, покуда ведут ссылки. Но первым делом, он смотрит наличие в корне сайта файла robots.txt, и если он существует и не пустой, следует его командам.
Начнем с того, что это вообще такое. Это обычный текстовый файл, который необходимо разместить в корневой директории сайта на хостинге под именем robots.txt. Файл этот управляет индексацией Вашего сайта. В этом файле системными командами мы можем указать, как индексировать сайт - его отдельные страницы и каталоги. Этот файл можно использовать для закрытия от индексации ненужных разделов: пользовательской информации, результатов поиска, административных разделов, страниц регистраций и т.д.
Robots.txt: управляем индексацией сайта в поисковиках - WEBideal.ru
Комментариев нет:
Отправить комментарий