четверг, 9 февраля 2012 г.

Настройка индексации средствами файла robots.txt

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.
Обычно с помощью robots.txt запрещают индексацию одинаковых по своему содержанию (т.е. дублей) страниц вашего сайта, а также нежелательные страницы, например, это может быть раздел с копипастом или какие-либо технические страницы (например, страница входа для пользователей).

Обязательно изучите:
Яндекс: Использование robots.txt
Все о файле robots.txt по-русски!

Анализ robots.txt - здесь вы сможете проверить свой файл, а также убедиться в том, правильно ли вы все закрыли или наоборот разрешили к индексации роботу Яндекса. То же самое вы можете проверить и для Google в своей панели для вебмастера.

Как узнать - что закрывать, а что разрешать роботам?!
Если ваш сайт уже проиндексирован, то все страницы вы сможете просмотреть в своих панелях для вебмастеров. Если вы не добавляли туда свой сайт, то можно воспользоваться специальными командами для поиска всех страниц, которые попали в индекс:
в Яндексе: host:domen.ru | host:www.domen.ru
в Google: site:domen.ru

Далее по списку просто отслеживаете нужное и соответственно вносите изменения в robots.txt.

Примеры.

Файл для сайтов Joomla + родной SEF. Пример от Xuga.
Код:
User-agent: Yandex #К какому роботу обращаемся
Allow: /index.php?option=com_xmap&sitemap=1&view=xml #разрешает доступ к карте сайта
Disallow: /administrator/ #Закрываем доступ к админке
Disallow: /cache/ #Закрываем доступ к кеш
Disallow: /components/ #Закрываем доступ к компонентам
Disallow: /images/ # #Закрываем доступ к картинкам. Удалите, если хотите индексации картинок!
Disallow: /includes/ # #Не помню
Disallow: /language/ # #Языки
Disallow: /libraries/ # #Закрываем библиотеки
Disallow: /logs/ # # #Закрываем логи
Disallow: /media/ # # #Закрываем медиа
Disallow: /modules/ # #Закрываем модули
Disallow: /plugins/ # #Плагины
Disallow: /templates/ # #Папка с шаблонами
Disallow: /tmp/ # # #Не помню
Disallow: /xmlrpc/ # # #Не помню
Disallow: /*com_mailto* #Форма отправки писем
Disallow: /*pop=* # #Всплывающие окна
Disallow: /*lang=ru* # #Не помню
Disallow: /*format=* # #Не помню
Disallow: /*print=* # #Ссылка вывода на печать
Disallow: /*task=vote* # #Голосования
Disallow: /*=watermark* #Идиотская ссылка на водяные знаки
Disallow: /*=download* # #Ссылки на скачивание
Disallow: /*user/* # #Не помню
Disallow: /.html # # #На всякий случай. Удалите, если у вас url с этим суффиксом!
Disallow: /404 # # #Закрываем 404 ошибку
Disallow: /index.php?
Disallow: /index.html
Disallow: /*? # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /*% # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /*& # # #все ссылки которые содержат этот знак не индексируются !
Disallow: /index2.php # #Закрываем дубли
Disallow: /index.php # #Закрываем дубли
Disallow: /*tag # # #Закрываем облака тегов
Disallow: /*.pdf # # #Закрываем pdf файлы. По вашему усмотрению
Disallow: /*.swf # # #Закрываем флеш. По вашему усмотрению
Disallow: /*print=1 # #Закрываем ссылку на печать
Disallow: /*=atom # #Закрывает RSS
Disallow: /*=rss # # #Закрывает RSS
Host: Ваш сайт # # #Прописываем ваш сайт

User-agent: Googlebot
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto*
Disallow: /*pop=*
Disallow: /*lang=ru*
Disallow: /*format=*
Disallow: /*print=*
Disallow: /*task=vote*
Disallow: /*=watermark*
Disallow: /*=download*
Disallow: /*user/*
Disallow: /.html
Disallow: /404
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /index.php?
Disallow: /index.html
Disallow: /index2.php
Disallow: /index.php
Disallow: /*tag
Disallow: /*.pdf
Disallow: /*.swf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss

User-agent: *
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto*
Disallow: /*pop=*
Disallow: /*lang=ru*
Disallow: /*format=*
Disallow: /*print=*
Disallow: /*task=vote*
Disallow: /*=watermark*
Disallow: /*=download*
Disallow: /*user/*
Disallow: /.html
Disallow: /404
Disallow: /*?
Disallow: /*%
Disallow: /*&
Disallow: /index.php?
Disallow: /index.html
Disallow: /index2.php
Disallow: /index.php
Disallow: /*tag
Disallow: /*.pdf
Disallow: /*.swf
Disallow: /*print=1
Disallow: /*=atom
Disallow: /*=rss

Sitemap: http://сайт/sitemap.xml

Строка -
Код:
Disallow: /*.html

Если в настройках - Добавить суффикс к URL стоит Да, то закроется весь сайт для индексации.
Данная строка справедлива для сайтов без суффикса, т.е. когда такие адреса - site.ru/razdel/kategoriya

Строка -
Код:
Disallow: /*%

Запрещает индексацию кириллических url

Нюанс про папку images
Показать текстовый блок

Если вас донимают какие-либо супер активные, нежелательные боты, то вы можете запретить им индексацию своего сайта. Можно лично к такому обратиться в строке User-agent, а можно прописать условия для Яндекса и Google (см. пример выше), - а всем остальным ниже пропишем
Код:
User-agent: *
Disallow: /


Joomla + VirtueMart + SH404
Код:
User-agent: Yandex # #К какому роботу обращаемся
Allow: /sitemap-xml.html?sitemap=1 # #Разрешаем доступ к карте сайте
Allow: /components/com_virtuemart/shop_image/category #разрешаем доступ к картинкам категорий
Allow: /components/com_virtuemart/shop_image/product #разрешаем доступ к картинкам продуктов
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /shop/ask/
Disallow: /index.php?
Disallow: /index2.php
Disallow: /*keyword= #Поиск по ключевому слову на сайте
Disallow: /*pop=0 #Косяк sh404
Disallow: /*product-search #Результаты поиска
Disallow: /*flypage= #Адреса страниц карточек из результатов поиска по сайту
Disallow: /*cart #Корзина
Disallow: /*feed #Также запрещается RSS и atom
Disallow: /404
Disallow: /*? #все ссылки которые содержат этот знак не индексируются !
Disallow: /*% #запрещает индексацию кириллических url
Crawl-delay: 3 #задает таймаут в 3 секунды
Host: ваш сайт

User-agent: *
Allow: /sitemap-xml.html?sitemap=1
Allow: /components/com_virtuemart/shop_image/category
Allow: /components/com_virtuemart/shop_image/product
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /shop/ask/
Disallow: /index.php?
Disallow: /index2.php
Disallow: /*keyword=
Disallow: /*pop=0
Disallow: /*product-search
Disallow: /*flypage=
Disallow: /*cart
Disallow: /*feed
Disallow: /404
Disallow: /*?
Disallow: /*%

Sitemap: здесь url карты сайта

Директива Host.
Эту директиву поддерживает только Яндекс, для всех ее писать бессмысленно!
С 9.11.2011г. главное зеркало с www или без можно выбрать в панели Яндекс.Вебмастер,- такой способ имеет больший приоритет, чем директива Host.

понедельник, 29 августа 2011 г.

Видео обзор сайта Красотка

 
Доброго времени суток, уважаемые формучане. Хочу предоставить вашему внимнаию одну из лучших своих работ.

Женский Online Журнал "Красотка"

Видео обзор данного сайта. Длительность ~30 мин. Очень рекомендую посмотреть обзор!
Контент:
~280 тысяч символов качественного рерайта (уникальность 95-100% по адвего) оптимизированного под низко частотные тематические запросы
185 текстовых записей объемом от 1500 до 2000 символов. Одна запись содержит две тематических картинки (названия картинок - это ключевое слово прописанное в транслите. Каждая картинки уникализирована - переименована, изменена в размере, обрезана и сжата).
Для каждой статьи опубликовано 3 тематических изображения в фотогалерее (под каждой картинкой есть краткое описание, содержащее ссылку с ключевым словом в анкоре на основную статью) и 2 тематических видеоролика в видеогалерее (под каждым роликом есть ключевое слово, ссылающееся на основную статью). Также фото и видео публикуются с задержкой от 5 до 25 дней с момента публикации основной статьи.
Как выполнена внутренняя оптимизация каждой статьи вы можете посмотреть на скриншоте внутренней страницы.
Всего на сайте 1177 записей, 55% приблизительно уже опубликовано, остальные будут публиковатся на протяжении следующих двух месяцев.
Для каждой записи прописан заголовок (дублирует заголовок статьи), описание (используется подзаголовок, который есть в каждой статье) и ключевые слова (это просто низкочастостное ключевое слово)
Тематические изображения, видео и основная статья связаны одной меткой, что позволяет очень качественно перелинковать и связать все статьи между собой
Все статьи разбиты на 42 рубрики, из них 9 основных рубрик, каждая из которой имеет от 3 до 6 дочерних рубрик.
На странице одиночной записи под контентом выводится тематическое изображение или видеоролик из соответсвующей галереи для того, чтоб страница была более информативной. Выводить именно тематические ролики и фото стало возможным благодаря связке всех записей метками.
Описание:
Есть возможность оставлять комментарии, установлен счетчик просмотров одной записи, есть возможность ставить оценки записи, из которых после формируется топ статей.
На сайт есть дополнительные фишки в виде: Калькулятора калорийности продукта, Счетчика расхода калорий и Сервиса подбора имени ребенку по дате рождения со значением имени, ежедевный гороскоп. Все эти скрипты рабочие и будут полезны будущим посетителям.
Всего на создание этого сайта было использовано 185 ключевых слов. Учитывая качество оптимизации каждой статьи под конкретный запрос, плюс внутренняя перелинковка метками и вручную вставленные ссылки из фото и видео галерей, сайт по данным запросам уверенно займет топ 3-5 в выдаче поисковых систем. Ориентировочно, потенциальная посещаемость данного сайта после полной индексации будет составлять около 500 человек в день, минимальная посещаемость - 185 человек.
На сайте очень грамотно расположены блоки под рекламу, они гармонично вписываются в общий дизайн и находятся у пользователя "под рукой", что будет увеличивать количество кликов, а следовательно - и ваш доход.
Изменена страница регистрации. Вместо стандартного дизайна формы регистрации добавлена тематическая картинка, изменен фон, вставлен логотип сайта со ссылкой на главную страницу.
Очень грамотно и красиво сделана страница ошибки 404 на которую пользователи достаточно часто натыкаются на сайте. Вместое стандратного сообщения выведен список всех архивов, чтоб посетитель остался на сайте максимально долго.
Весь сайт сделан таким образом, чтоб в-первую очередь, привести пользователя на сайт, и во-вторую - оставить его на сайте на максимально длительный период.
Установлен и настроен форум. Созданы тематические разделы.
Благодаря уникальности картинок сайт будет иметь хороший поисковый трафик из яндекс и гугл-картинок, поскольку для каждого изображения прописаны разные заголовки, описания и альтернативные тексты.
На сайте установлено и настроено два способа кэширования: для страниц и для картинок, что существенно ускоряет работу сайта.

Скриншоты: одна запись, страница фотогалереи, архив рубрики, архив фотогалереи, архив видеогалереи, калькулятор калорий, расход калорий, подбор имени, страница ошибки 404, страница регистрации

Дизайн
уникальный, красивый и функциональный тематический шаблон премиум-уровня собственного производства За основу брался шаблон только для того, чтоб не писать вручную стандартные используемые функции.
шаблон имеет собственную панель управления, из которой легко менять рубрики для вывода контента на главной странице в слайдере и легко управлять рекламой (вставлять рекламные коды в соответсвующие предусмотренные для этого блоки)
шаблон уникальный по коду для пс и своему внешнему виду для посетителей
покупатель получает psd файлы всех графических элементов сайта
все заголовки на страницах записи в теге Н1, в архивах в теге Н2, на внутренних страницах реализована перелинковка записей, то есть шаблон с точки зрения сео сделан грамотно и правильно.
сайт одинаково красиво смотрится во популярных браузерах (проверял опера и мазила)

Функциональность
All in One SEO Pack - позволяет дописывать каждой записи и странице метаданные (заголовки, описания и ключевые слова)
Contact Form 7 - простая и удобная форма обратной связи для связи с админом сайта
Dagon Design Sitemap Generator - генерирует удобную и функциональную карту сайта для посетителей
Math Comment Spam Protection - математическая капча, против спама
Google XML Sitemaps - создает карту сайта для поисковых систем
MaxSite Russian Date - русские даты
Most Popular Posts - позволяет выводить виджетом в сайдбаре наиболее комментируемые записи
RusToLat - необходим при использовании ЧПУ, переводит русские символы в латиницу
Simple:Press - функциональный и удобный форум, наиболее оптимальное решение для реализации форума на wordpress
User Sidebar Panel - повзоляет войти в админку из любой страницы сайта
WordPress Database Backup - экспорт базы данных прямо из админки сайта
WordPress Importer - плагин для иморта разного рода информации на сайта
WP-Noindex - закрывает ссылки в комментариях от индексации
Wp-PageNavi - простая и удобная постраничная навигация для сайта
WP-PostRatings - дайте возможность пользователям ставить оценки записям и выводить в сайдбаре наиболее оцениваемые статьи
WP-PostViews - счетчик просмотров записи, повзоляет выводить в сайдбар наиболее просматриваемые статьи
WP Super Cache - продвинутый и функциональный плагин кэширования страниц, существенно ускоряет работу сайта.
Условия продажи
стартовая цена - 280 wmz
минимальный шаг - от 20wmz
блиц цена - объявлю позже
окончание аукциона 36 часа после последней ставки или по блицу

Покупатель получает: архив с файлами сайта (250мб), файл с ключевыми словами, краткую инструкцию, и бесплатную установку на хостинг.
А также возможность изменить некоторые элементы дизайна под свой вкус.

PS: в данный момент посещаемость сайта, на котором было опубликовано 50 статей под 50 запросов по технологии, использованной на данном сайте выглядит вот таким образом, и это без покупных ссылок. Внешние ссылки на данный сайт только из контакта, твиттера и яндекс блогов, и то, ссылки без анкоров.
UPD ссылка на статистику обновлена.
__________________