/ / Приручаем поисковых роботов
февраль 02 2009

Приручаем поисковых роботов

Все пользователи сети интернет любят поисковые системы. Они позволяют им ориентироваться в огромных пространствах сети, помогают найти именно то что им необходимо. Но для владельцев интернет сайтов они могут также стать и головной болью, т.к. поисковые роботы заходя на сайт, имеют одну единственную цель: проиндексировать ваш сайт как можно быстрее и добавить в свою базу данных. Почему головной болью? Да потому что поисковые роботы делают свою работу достаточно быстро и усердно, скачивая страницы вашего сайта с большой интенсивностью. Если на вашем сайте 5 страниц, то нет проблем, все проходит быстро и безболезненно. А если тысячи, десятки тысяч? На практике это выглядит так: неожиданно в какое то определенное время суток, сайт начинает генерировать большую нагрузку, сервер держит эту нагрузку, до тех пор пока ему позволяют лимиты или возможности, а потом либо сервер падает, либо просто перестает отдавать страницы, а вы получаете от хостинг компании грозные требования прекратить нагружать сервер, переехать на более высокий тариф, и т.д. Что делать в данной ситуации? Заблокировать роботов? Не наш метод. Все просто, роботов можно приручить и сделать их добрыми и пушистыми и заставить их считаться с вами. Для этого нужно обратиться к документации и протоколу управления роботами. Каждая уважающая себя поисковая система уважает разработанные стандарты и следует им. При посещении сайта поисковый робот в первую очередь обращается к файлу robots.txt, который должен находится в корне сайта, этот файл и управляет действиями поискового робота. Итак создаем в корне вашего сайта файл robots.txt и внутри него пишем:
User-agent: *
Crawl-delay: 10

Параметр Crawl-delay указывает поисковому роботу чтобы он загружал страницы вашего сайта с интервалом не менее 10 секунд, другими словами просто выдерживал паузу во время индексации страниц вашего сайта. И ваш сайт спокойно индексируется в пределах допустимой нагрузки. Вы можете менять интервал по своему усмотрению, делая его больше или меньше. Но имейте ввиду делая интервал слишком большим, вы замедляете темпы индексации сайта, и индексация проходит гораздо дольше. Все как говорится должно быть в меру.

Комментарии

kosen

kosen

2 февраля 2009 05:42 Клиенты
1
Весьма ценный совет.
Благодарю...
Medik18

Medik18

2 февраля 2009 07:41 Клиенты
0
Спасибо за совет. Дописал.
Kino-man

Kino-man

2 февраля 2009 11:10 Клиенты
0
Ну не знаю, мой виртуальный хостинг не жаловался ни на что, а сайт у меня не маленький... Да и к тому же робот не будет сидеть много времени и ждать, ему надо всё сделать быстро и прыгнуть на следующий сайт, я думаю, что это уменьшит кол-во проиндексированных страниц за раз. ИМХО
Zergio

Zergio

2 февраля 2009 21:02 Клиенты
0
У меня была такая ситуация, так мне сам хостер подсказал это прописать, после этого действительно проблем небыло.
gogay

gogay

3 февраля 2009 01:45 Посетители
0
а как приручить тех кто выкачивает сайты целиком? например сайты киноархивов с картинками и скриншотами...?
Petrovichalt

Petrovichalt

3 февраля 2009 06:11 Клиенты
0
Насколько мне известно, данный параметр действителен только для поискового робота яндекса.
celsoft

celsoft

3 февраля 2009 06:13 Администраторы
0
Цитата: Petrovichalt
Насколько мне известно, данный параметр действителен только для поискового робота яндекса.

Нет не только
Sogorukuhn

Sogorukuhn

3 февраля 2009 19:46 Посетители
0
Спасибо, ато уже думал болие дорогой сервер брать wink
GTS_gelezn

GTS_gelezn

4 февраля 2009 01:34 Клиенты
0
Вообще очень полезно почитать про robots.txt и закрыть от индексирования ссылки на регистрацию, правила, статистику, обратную связь, восстановление пароля и т.д и т.п.
w3x

w3x

6 февраля 2009 13:06 Клиенты
0
Спасибо! Я это гдето на форуме читал и не обратил мнимание! Оказывается вещ нужная... winked
maxler

maxler

6 февраля 2009 16:42 Посетители
0
Поставте 10 сек и вам гарантирован БАН! Читайте внимательно. На сайте Гугла написано не больше 5 сек!
celsoft

celsoft

6 февраля 2009 18:41 Администраторы
0
Цитата: maxler
Поставте 10 сек и вам гарантирован БАН! Читайте внимательно. На сайте Гугла написано не больше 5 сек!

Ссылку именно на google дайте где именно на их сайте написано что бан. Почему то dle-news.ru никто не банит. Это обычная команда роботу и сайт за это принципиально не может быть забанен, поисковик может игнорировать эту настройку, но попадание в бан из-за этого это полная ерунда
IMPERATOR

IMPERATOR

7 февраля 2009 09:35 Клиенты
0
а какой CMOD выставлять на этот файл?
И что обозначает тэг в роботе?
User-agent: Mediapartners-Google*
maxler

maxler

7 февраля 2009 10:49 Посетители
0
Вот информация для ознакомления в яндекс блоге.

http://webmaster.ya.ru/replies.xml?item_no=1338
celsoft

celsoft

7 февраля 2009 11:13 Администраторы
1
Цитата: IMPERATOR
а какой CMOD выставлять на этот файл?

Оставьте тот который по умолчанию
Цитата: IMPERATOR
И что обозначает тэг в роботе?
User-agent: Mediapartners-Google*

Имя робота для которого предназначены директивы которые идут после этой строки
ASFerraras

ASFerraras

7 февраля 2009 18:19 Посетители
0
Цитата: maxler
Поставте 10 сек и вам гарантирован БАН! Читайте внимательно. На сайте Гугла написано не больше 5 сек!

Насчёт этого вот что скажу: Гугл вообще не обрабатывает это правило.
Для ознакомления смотрите скрин, который сделан после использования анлизатора robots.txt. Анализ производился посредством инструментов для вебмастеров от Google: _http://newsudar.ru/google.jpg
myname

myname

13 февраля 2009 18:15 Клиенты
0
Нужная вещица, спасибо, я уж думал перейти на болей дорогой тариф...
freeprogs.kiev.ua

freeprogs.kiev.ua

16 февраля 2009 02:56 Клиенты
0
Я всегда указываю 5 и только для робота Slurp
willow300

willow300

27 марта 2009 07:55 Посетители
0
Цитата: Kino-man
я думаю, что это уменьшит кол-во проиндексированных страниц за раз. ИМХО

подтверджаю на личном опыте, прописал User-agent: * Crawl-delay: 10 - и в тичении суток - количество проиндексированных страниц на яндексе уменьшилось до нуля :(

Также подтверждаю слова ASFerraras касательно гугла - он игнорирует это правило.
celsoft

celsoft

27 марта 2009 13:28 Администраторы
0
Цитата: willow300
подтверджаю на личном опыте, прописал User-agent: * Crawl-delay: 10 - и в тичении суток - количество проиндексированных страниц на яндексе уменьшилось до нуля :(

Причина обнуления индексации далеко не в этом, это лишь совпадение по времени. Почему то сайт dle-news.ru не вылетает из индексации, хотя при этом https://dle-news.ru/robots.txt
Цитата: willow300
Также подтверждаю слова ASFerraras касательно гугла - он игнорирует это правило.

гугл игнорирует, но он и индексирует с паузами, роботы гугла несут наименьшую нагрузку по сравнению с другими поисковиками.
paycom

paycom

20 апреля 2009 17:16 Клиенты
0
А вот у меня вопрос. Возможно немного не в тему.
Влияет ли параллельно на загрузку поисковыми роботами наличие карты сайта?

К примеру:
у меня есть страничка (статическая) mypage.html.
как я понял, при создании карты сайта для гугла, эта страничка также проглатывается поисковиком.
но, если я в robots.txt поставлю Disallow: /mypage.html,
сожрет ли в конечном итоге поисковик эту страничку или все же проигнорирует?

Одним словом, что является для поисковика приоритетным, карта сайта или robots.txt?
willow300

willow300

24 апреля 2009 21:29 Посетители
0
Цитата: celsoft
Причина обнуления индексации далеко не в этом, это лишь совпадение по времени.

Да, прошу прощения, если ввел кого-то в заблуждение или заставил сомневаться. Связался с яндексом, оказалось, что это какие-то проблемы с их стороны. Сейчас благополучно использую «Crawl-delay: 10» и всё нормально, сайт индексируется.
3umf

3umf

27 апреля 2009 14:00 Посетители
0
проще закрыть IP ненужных роботов которых масса.
если страницы добавляете не автоматом думаю больше тысячи за месяц не сделать, за 1 приход робота это всего сотня другая страниц для индексации.
Vladis000

Vladis000

14 мая 2009 14:46 Посетители
0
Спасибо за совет залил на сервер
hrompic

hrompic

25 октября 2009 20:26 Посетители
0
А без этого параметра,тоесть по умолчанию,с каким периодом поисковики индексируют страницы?
akimaltyn

akimaltyn

1 декабря 2009 20:28 Посетители
0
Хороший совет, спасибо!
intakegroup

intakegroup

10 января 2011 18:38 Клиенты
0
Подскажите, как в dle robots.txt запретить индексацию календаря?
Новости за определенную дату, день, месяц и т.д.
Спасибо.
P.S. Календарь в админпанели отключен, но в индекс выдаются его странички типа
https://dle-news.ru/2011/01/03/

Информация

Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.
Календарь
«    Апрель 2017    »
ПнВтСрЧтПтСбВс
 12
3456789
10111213141516
17181920212223
24252627282930
Опрос на сайте
Совершаете ли вы покупки в интернет?

Популярные новости
Архив новостей
Апрель 2017 (3)
Март 2017 (2)
Февраль 2017 (1)
Январь 2017 (1)
Декабрь 2016 (3)
Ноябрь 2016 (3)