Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.
Обычно с помощью robots.txt запрещают индексацию одинаковых по своему содержанию (т.е. дублей) страниц вашего сайта, а также нежелательные страницы, например, это может быть раздел с копипастом или какие-либо технические страницы (например, страница входа для пользователей).
Обязательно изучите:
Яндекс: Использование robots.txt
Все о файле robots.txt по-русски!
Анализ robots.txt - здесь вы сможете проверить свой файл, а также убедиться в том, правильно ли вы все закрыли или наоборот разрешили к индексации роботу Яндекса. То же самое вы можете проверить и для Google в своей панели для вебмастера.
Как узнать - что закрывать, а что разрешать роботам?!
Если ваш сайт уже проиндексирован, то все страницы вы сможете просмотреть в своих панелях для вебмастеров. Если вы не добавляли туда свой сайт, то можно воспользоваться специальными командами для поиска всех страниц, которые попали в индекс:
в Яндексе: host:domen.ru | host:www.domen.ru
в Google: site:domen.ru
Далее по списку просто отслеживаете нужное и соответственно вносите изменения в robots.txt.
Примеры.
Файл для сайтов Joomla + родной SEF. Пример от Xuga.
Код:
User-agent: Yandex #К какому роботу обращаемся
Allow: /index.php?option=com_xmap&sitemap=1&view=xml #разрешает доступ к карте сайта
Disallow: /administrator/ #Закрываем доступ к админке
Disallow: /cache/ #Закрываем доступ к кеш
Disallow: /components/ #Закрываем доступ к компонентам
Disallow: /images/ # #Закрываем доступ к картинкам. Удалите, если хотите индексации картинок!
Disallow: /includes/ # #Не помню
Disallow: /language/ # #Языки
Disallow: /libraries/ # #Закрываем библиотеки
Disallow: /logs/ # # #Закрываем логи
Disallow: /media/ # # #Закрываем медиа
Disallow: /modules/ # #Закрываем модули
Disallow: /plugins/ # #Плагины
Disallow: /templates/ # #Папка с шаблонами
Disallow: /tmp/ # # #Не помню
Disallow: /xmlrpc/ # # #Не помню
Disallow: /*com_mailto* #Форма отправки писем
Disallow: /*pop=* # #Всплывающие окна
Disallow: /*lang=ru* # #Не помню
Disallow: /*format=* # #Не помню
Disallow: /*print=* # #Ссылка вывода на печать
Disallow: /*task=vote* # #Голосования
Disallow: /*=watermark* #Идиотская ссылка на водяные знаки
Disallow: /*=download* # #Ссылки на скачивание
Disallow: /*user/* # #Не помню
Disallow: /.html # # #На всякий случай. Удалите, если у вас url с этим суффиксом!
Disallow: /404 # # #Закрываем 404 ошибку
Disallow: /index.php?
Disallow: /index.html
Disallow: /*? # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /*% # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /*& # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /index2.php # #Закрываем дубли
Disallow: /index.php # #Закрываем дубли
Disallow: /*tag # # #Закрываем облака тегов
Disallow: /*.pdf # # #Закрываем pdf файлы. По вашему усмотрению
Disallow: /*.swf # # #Закрываем флеш. По вашему усмотрению
Disallow: /*print=1 # #Закрываем ссылку на печать
Disallow: /*=atom # #Закрывает RSS
Disallow: /*=rss # # #Закрывает RSS
Host: Ваш сайт # # #Прописываем ваш сайт
User-agent: Googlebot
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto*
Disallow: /*pop=*
Disallow: /*lang=ru*
Disallow: /*format=*
Disallow: /*print=*
Disallow: /*task=vote*
Disallow: /*=watermark*
Disallow: /*=download*
Disallow: /*user/*
Disallow: /.html
Disallow: /404
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /index.php?
Disallow: /index.html
Disallow: /index2.php
Disallow: /index.php
Disallow: /*tag
Disallow: /*.pdf
Disallow: /*.swf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss
User-agent: *
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto*
Disallow: /*pop=*
Disallow: /*lang=ru*
Disallow: /*format=*
Disallow: /*print=*
Disallow: /*task=vote*
Disallow: /*=watermark*
Disallow: /*=download*
Disallow: /*user/*
Disallow: /.html
Disallow: /404
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /index.php?
Disallow: /index.html
Disallow: /index2.php
Disallow: /index.php
Disallow: /*tag
Disallow: /*.pdf
Disallow: /*.swf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss
Sitemap: http://сайт/sitemap.xml
Строка -
Код:
Disallow: /*.html
Если в настройках - Добавить суффикс к URL стоит Да, то закроется весь сайт для индексации.
Данная строка справедлива для сайтов без суффикса, т.е. когда такие адреса - site.ru/razdel/kategoriya
Строка -
Код:
Disallow: /*%
Запрещает индексацию кириллических url
Нюанс про папку images
Показать текстовый блок
Если вас донимают какие-либо супер активные, нежелательные боты, то вы можете запретить им индексацию своего сайта. Можно лично к такому обратиться в строке User-agent, а можно прописать условия для Яндекса и Google (см. пример выше), - а всем остальным ниже пропишем
Код:
User-agent: *
Disallow: /
Joomla + VirtueMart + SH404
Код:
User-agent: Yandex # #К какому роботу обращаемся
Allow: /sitemap-xml.html?sitemap=1 # #Разрешаем доступ к карте сайте
Allow: /components/com_virtuemart/shop_image/category #разрешаем доступ к картинкам категорий
Allow: /components/com_virtuemart/shop_image/product #разрешаем доступ к картинкам продуктов
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /shop/ask/
Disallow: /index.php?
Disallow: /index2.php
Disallow: /*keyword= #Поиск по ключевому слову на сайте
Disallow: /*pop=0 #Косяк sh404
Disallow: /*product-search #Результаты поиска
Disallow: /*flypage= #Адреса страниц карточек из результатов поиска по сайту
Disallow: /*cart #Корзина
Disallow: /*feed #Также запрещается RSS и atom
Disallow: /404
Disallow: /*? #все ссылки которые содержат этот знак не индексируются !
Disallow: /*% #запрещает индексацию кириллических url
Crawl-delay: 3 #задает таймаут в 3 секунды
Host: ваш сайт
User-agent: *
Allow: /sitemap-xml.html?sitemap=1
Allow: /components/com_virtuemart/shop_image/category
Allow: /components/com_virtuemart/shop_image/product
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /shop/ask/
Disallow: /index.php?
Disallow: /index2.php
Disallow: /*keyword=
Disallow: /*pop=0
Disallow: /*product-search
Disallow: /*flypage=
Disallow: /*cart
Disallow: /*feed
Disallow: /404
Disallow: /*?
Disallow: /*%
Sitemap: здесь url карты сайта
Директива Host.
Эту директиву поддерживает только Яндекс, для всех ее писать бессмысленно!
С 9.11.2011г. главное зеркало с www или без можно выбрать в панели Яндекс.Вебмастер,- такой способ имеет больший приоритет, чем директива Host.
Комментариев нет:
Отправить комментарий