янв 09 2013
Дублированный контент - проблемы и решения
Многие сайты «могут похвастаться» дублированным контентом. По большей части, это не является большой проблемой. Когда поисковые системы находят дублированный контент они выбирают наиболее «подходящую» страницу, чтобы занести ее в индекс, а другие дублированные страницы будут игнорироваться. Кому-то может показаться, что наличие дублированного контента не представляет большой опасности, однако, не все так просто как кажется.
Рассмотрим некоторые из наиболее распространенных причин наличия дублированного контента:
1. Партнерские программы
Если у вас есть партнерская программа, скорее всего, ваши партнеры используют URL, который выглядит примерно так: http://www.yoursite.ru?affid=123456. Поисковые системы будут рассматривать данный URL адрес как другую страницу, отличающуюся от http://www.yoursite.ru, и, соответственно, могут зафиксировать на вашем сайте дублированные страницы.
2. Каталоги статей
Если вы распространяете информацию, размещенную на вашем сайте, через каталоги статей, вы создаете дублированный контент на других доменах. Имейте в виду, что поисковые системы выберут одну копию страницы для индексации и высокого ранжирования, как первоисточник и, при определенном стечении обстоятельств, оригинальная статья на вашем сайте может быть проиндексирована позже с вытекающими последствиями.
3. Адресная архитектура сайта с несколькими вариантами URL параметров
Часто бывает, что сайт настроен так, что при указании или не указании определенного параметра в URL, происходит перенаправление на одну и туже страницу. Например: при заходе по этому URL адресу http://www.yoursite.ru/prod=1&type=7 может произойти перенаправление на http://www.yoursite.ru?type=7. В результате, если поисковые систему найдут подобные ссылки, то они, вероятно, могут расценить данную ситуацию, как дублированное содержание.
4. Субдомены
На некоторых субдоменах http://subdomain.yoursite.ru веб-мастера располагают такое же содержание, как и на основном домене http://www.yoursite.ru, что приводит к дублированию.
5. Версия сайта с www и без
Зайти на ваш сайт можно как с приставкой www (http://www.yoursite.ru), так и без неё (http://yoursite.ru). Обычно, веб-мастера либо сами настраивают 301 редирект на какую-либо версию, либо это уже сделано (например, при создании сайта на популярной CMS). Но, если 301 редирект не настроен, то поисковые системы могут продублировать главную страницу, а в случае одновременной простановки хотя бы двух внешних ссылок на одну и ту же страницу – поисковые системы продублируют и ее.
Так в чем же реальная опасность дублированного контента? Во-первых, если на вашем сайте присутствует очень много дублированного контента, то поисковые системы могут проиндексировать сайт не полностью, а следовательно, смысл от таких страниц практически пропадает. Google, в частности, хорошо умеет оценивать сайты на наличие дублированного или не уникального контента. Он сканирует все страницы сайта, но в поиск допускает только те, которые, по его мнению, могут нести какую-то пользу для пользователей. В интертене присутствуют сайты с 100 000 страницами, однако, в поисковом индексе Гугла присутствует 0%. Данные страницы представляют собой либо ворованный копипаст, либо генерированный текст. В обоих случаях, ничего полезного и нового для пользователей они не представляют, следовательно, в поиске им делать нечего. Иначе у вас могут получиться шальные деньги бразильский сериал.
В общем случае, существует 3 вида последствий при наличии дублированного контента:
1. Поисковая система не может выбрать "правильную" копию страницы для индексирования. Примером может служить частое появление в индексе варианта для печати. Как привило, в этом случае на странице не отображается реклама, лишний код, следовательно, поисковым машинам такая страница нравиться больше, чем ее оригинальный вариант.
Решение – запрет индексации подобного рода страниц (лучше всего при помощи robots.txt).
2. Долгое индексирование новых и переиндексирование старых страниц. Если поисковой робот приходит на ваш сайт, а там 1000 страниц, половина из которых – дублированный контент, то роботу приходится затрачивать много времени для сканирования подобных страниц, в результате, с большой долей вероятности, вы получите меньше проиндексированных страниц, чем могли бы.
3. Потеря ссылочного веса. Некоторые ссылки, проставленные на дублированные страницы, не принесут никакой пользы и их вес будет потрачен на страницах, которые не попадут в индекс. Если исключить дублированый контент, то ссылочный вес будет распространяться только среди проиндексированных страниц, в результате чего произойдут потенциальные улучшения в рейтинге этих страниц.
Так что же делать?
Все вышеперечисленные проблемы имеют решение, но решение во многом зависит от точного характера вашей проблемы. Например, если у вас возникли проблемы с партнерской ссылкой, самым простым решением является требование от ваших партнеров размещать ссылки с атрибутом rel="nofollow". Конечно, это неприятная ситуация, ведь в этом случае вы теряете ссылочный вес.
Для решения проблем на сайте необходимо закрыть все дубли страниц при помощи корневого файла robots.txt и настроить 301 редирект. НЕ используйте 302 редирект, или мета-теги (за исключением, когда вы не можете получить доступ к файлам сервера для настройки переадресации).
