Четверг, 17 августа 2017   Подписка на обновления  RSS  Письмо редактору
Популярно
10:13, 11 ноября 2013

Файл robots.txt для WordPress — как создать правильный файл


Здравствуйте друзья! Уважаемые посетители блога krugloffm.ru! В этой статье я хочу рассказать, как создать Правильный файл robots.txt для WordPress. Robots.txt — это обыкновенный текстовый файл, который должен находиться в корне Вашего сайта. Он говорит поисковым роботам как именно индексировать Ваш проект, на какие страницы не стоит обращать внимание, а каким уделить особое внимание.

Как создать правильный файл robots.txt для WordPress.

Итак, продолжим. Если в файле robots.txt не указать определенные правила для поисковых роботов, то поисковые пауки обязательно проиндексируют много мусорных страниц, и может произойти многократное дублирование информации Вашего проекта, что недопустимо. Для того, чтобы правильно составить robots.txt вы должны знать основные директивы этого файла.

Наиболее важная директива — это ‘User-agent‘ – она должна содержать название поискового робота. Если вы не укажете название поискового робота в этой директиве, то это правило будут понимать все поисковые системы.

Пример написания  «User-agent», для всех поисковых роботов в файле robots.txt:

User-agent: *

Если Вы хотите задать правила поведения у вас на сайте именно поисковому роботу Яндекса, то в User-agent задаем название Yandex.

User-agent: Yandex

Теперь правила которые будут указаны после User-agent  будет понимать именно эта поисковая система. Вообще робот каждой поисковой системы имеет своё уникальное название. Например, поисковый бот Google — это Googlebot, Rambler - StackRambler, Mail - Mail.Ru, Yandex - Yandex. Кроме того у поисковых систем Google и Yandex кроме основных, имеются специальные роботы  для индексации новостей, изображений и т.д., так что если у Вас проект с множеством уникальных фотографий, то можете составлять правила для роботов которые индексируют изображения.

Следущие директивы  robots.txt — это Allow и Disallow, первая —  разрешающая, а вторая —  запрещающая индексацию поисковым роботам.  Правильный файл robots.txt для WordPress должен содержать, как минимум, одну директиву «Disallow» после каждой записи «User-agent». Если Вы оставите  файл robots.txt, пустым, то поисковые машины будут индексировать Ваш ресурс полностью и в индекс попадет много мусорных и дублированных страниц, что, как я уже говорил, плохо.

Вот простые примеры составления правильного robots.txt для WordPress , с участием директивы User-agent, Disallow и Allow:

User-agent: *

Disallow:

В этом примере я разрешаю всем поисковым роботам индексировать весь веб-ресурс целиком, без ограничений.  Если же Вам нужно запретить индексацию всего сайта всем поисковым роботам, то в файле robots.txt нужно прописать следующее:

User-agent: *

Disallow: /

Можно, к примеру запретить индексацию всего блога, всем поисковым роботам, кроме робота Yandex.

User-agent: *

Disallow: /

User-agent: Yandex

Disallow:

Таким образом вы можете разрешать или запрещать индексацию определенным ботам. В следующем примере мы с вами запретим индексацию каталога index.

User-agent: *

Disallow: /index/

То есть, все поисковые системы будут игнорировать каталог index. В следующем примере будет запрещена индексация директории «index», и не будут индексироваться все файлы и страницы, которые начинаются с символами index,  к примеру файлы и страницы index.html,  index, index1, index34 и т. д.:

User-agent: *

Disallow:

Для директив Allow и Disallow предусмотрены символы ‘*’ и ‘$’, при помощи которых вы можете задавать, определенные логические выражения.  Символ ‘*’ означает любую (в том числе и пустую) последовательность символов. В этом примере мы  запрещаем индексацию всех файлов с окончанием «.aspx» всем поисковым роботам.

User-agent: *

Disallow: * .aspx

Вот так работают директивы User-agent, Disallow и Allow.  Ещё имеется директива Host, которую понимает только поисковая система Yandex. Она служит, для определения главного зеркала Вашего сайта, то есть ваш ресурс может быть доступен по нескольким адресам, допустим, с www и без. Для поисковых систем это два разных сайта. Ваш сайт может быть в индексе поисковиков с www и без, и даже эти два разных сайта, с точки зрения поисковиков, могут иметь разные показатели ТИЦ и пр, это очень плохо скажется на раскрутке вашего интернет проекта и, конечно же, этот момент отрицательно скажется на поисковой выдаче. Вот пример составления файла robots.txt с директивой Host:

User-agent: Yandex

Disallow:

Host: www.site.ru

или

User-agent: Yandex

Disallow:

Host: site.ru

При составлении правильного robots.txt вы должны соблюдать правила написания: (директива):(пробел)(значение)

И осталась ещё одна директива, которая в несколько раз улучшает и убыстряет индексацию Вашего интернет проекта и называется она Sitemap. Эта директива показывает, где у вас на блоге расположена карта сайта в формате xml и сжатая карта сайта в формате gz.

User-agent: *

Sitemap: //krugloffm.ru/sitemap.xml.gz

Sitemap: //krugloffm.ru/sitemap.xml

Многие блогеры вообще не ограничивают роботов поисковых систем в индексации. Чаще всего можно встретить файл robots.txt автоматически заполненный плагином Google XML Sitemaps, в котором присутствует лишь ссылка на адрес карты сайта для блога, созданной этим плагином. Однако, я думаю, что  следует, всё-таки ограничить поисковики в прогулках по файлам и страницам Вашего блога. А для этого нужно составить правильный файл robots.txt  для WordPress, ниже я приведу файл которым пользуюсь сам, вы можете использовать его в таком виде как есть, а можете дополнить его в соответствии с Вашими потребностями.

robots.txt

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cach

Disallow: /wp-content/thems

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Sitemap: //ваш домен.ru/sitemap.xml.gz

Sitemap: //ваш домен.ru/sitemap.xml


robots.txt

User-agent: Yandex

Disallow: /cgi-bin

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cach

Disallow: /wp-content/thems

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Host: ваш домен.ru

Sitemap: //ваш домен.ru/sitemap.xml.gz

Sitemap: //ваш домен.ru/sitemap.xml

Ну, вот на этом, пожалуй, и всё. Надеюсь эта статья поможет Вам составить Правильный файл robots.txt для WordPress.

С уважением, Евгений Запорожский.

Онлайн бронирование туров - 728*90

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

© 2017 Mr.X
Дизайн и поддержка: GoodwinPress.ru