Главная страница / Советы / Приручаем поисковых роботов
февраль 02 2009

Приручаем поисковых роботов

celsoft 2 февраля 2009 Советы 22 217
Все пользователи сети интернет любят поисковые системы. Они позволяют им ориентироваться в огромных пространствах сети, помогают найти именно то что им необходимо. Но для владельцев интернет сайтов они могут также стать и головной болью, т.к. поисковые роботы заходя на сайт, имеют одну единственную цель: проиндексировать ваш сайт как можно быстрее и добавить в свою базу данных. Почему головной болью? Да потому что поисковые роботы делают свою работу достаточно быстро и усердно, скачивая страницы вашего сайта с большой интенсивностью. Если на вашем сайте 5 страниц, то нет проблем, все проходит быстро и безболезненно. А если тысячи, десятки тысяч? На практике это выглядит так: неожиданно в какое то определенное время суток, сайт начинает генерировать большую нагрузку, сервер держит эту нагрузку, до тех пор пока ему позволяют лимиты или возможности, а потом либо сервер падает, либо просто перестает отдавать страницы, а вы получаете от хостинг компании грозные требования прекратить нагружать сервер, переехать на более высокий тариф, и т.д. Что делать в данной ситуации? Заблокировать роботов? Не наш метод. Все просто, роботов можно приручить и сделать их добрыми и пушистыми и заставить их считаться с вами. Для этого нужно обратиться к документации и протоколу управления роботами. Каждая уважающая себя поисковая система уважает разработанные стандарты и следует им. При посещении сайта поисковый робот в первую очередь обращается к файлу robots.txt, который должен находится в корне сайта, этот файл и управляет действиями поискового робота. Итак создаем в корне вашего сайта файл robots.txt и внутри него пишем:
User-agent: *
Crawl-delay: 10

Параметр Crawl-delay указывает поисковому роботу чтобы он загружал страницы вашего сайта с интервалом не менее 10 секунд, другими словами просто выдерживал паузу во время индексации страниц вашего сайта. И ваш сайт спокойно индексируется в пределах допустимой нагрузки. Вы можете менять интервал по своему усмотрению, делая его больше или меньше. Но имейте ввиду делая интервал слишком большим, вы замедляете темпы индексации сайта, и индексация проходит гораздо дольше. Все как говорится должно быть в меру.

Комментарии

  1. kosen (Клиенты)

    2 февраля 2009 05:42 20 комментариев
    Весьма ценный совет.
    Благодарю...
  2. Medik18 (Клиенты)

    2 февраля 2009 07:41 22 комментария
    Спасибо за совет. Дописал.
  3. Kino-man (Клиенты)

    2 февраля 2009 11:10 43 комментария
    Ну не знаю, мой виртуальный хостинг не жаловался ни на что, а сайт у меня не маленький... Да и к тому же робот не будет сидеть много времени и ждать, ему надо всё сделать быстро и прыгнуть на следующий сайт, я думаю, что это уменьшит кол-во проиндексированных страниц за раз. ИМХО
  4. Zergio (Клиенты)

    2 февраля 2009 21:02 19 комментариев
    У меня была такая ситуация, так мне сам хостер подсказал это прописать, после этого действительно проблем небыло.
  5. gogay (Посетители)

    3 февраля 2009 01:45 12 комментариев
    а как приручить тех кто выкачивает сайты целиком? например сайты киноархивов с картинками и скриншотами...?
  6. Petrovichalt (Клиенты)

    3 февраля 2009 06:11 1 комментарий
    Насколько мне известно, данный параметр действителен только для поискового робота яндекса.
  7. celsoft (Администраторы)

    3 февраля 2009 06:13 3 358 комментариев
    Цитата: Petrovichalt
    Насколько мне известно, данный параметр действителен только для поискового робота яндекса.

    Нет не только
  8. Sogorukuhn (Посетители)

    3 февраля 2009 19:46 21 комментарий
    Спасибо, ато уже думал болие дорогой сервер брать wink
  9. GTS_gelezn (Клиенты)

    4 февраля 2009 01:34 70 комментариев
    Вообще очень полезно почитать про robots.txt и закрыть от индексирования ссылки на регистрацию, правила, статистику, обратную связь, восстановление пароля и т.д и т.п.
  10. w3x (Клиенты)

    6 февраля 2009 13:06 30 комментариев
    Спасибо! Я это гдето на форуме читал и не обратил мнимание! Оказывается вещ нужная... winked
  11. maxler (Посетители)

    6 февраля 2009 16:42 5 комментариев
    Поставте 10 сек и вам гарантирован БАН! Читайте внимательно. На сайте Гугла написано не больше 5 сек!
  12. celsoft (Администраторы)

    6 февраля 2009 18:41 3 358 комментариев
    Цитата: maxler
    Поставте 10 сек и вам гарантирован БАН! Читайте внимательно. На сайте Гугла написано не больше 5 сек!

    Ссылку именно на google дайте где именно на их сайте написано что бан. Почему то dle-news.ru никто не банит. Это обычная команда роботу и сайт за это принципиально не может быть забанен, поисковик может игнорировать эту настройку, но попадание в бан из-за этого это полная ерунда
  13. IMPERATOR (Клиенты)

    7 февраля 2009 09:35 4 комментария
    а какой CMOD выставлять на этот файл?
    И что обозначает тэг в роботе?
    User-agent: Mediapartners-Google*
  14. maxler (Посетители)

    7 февраля 2009 10:49 5 комментариев
    Вот информация для ознакомления в яндекс блоге.

    http://webmaster.ya.ru/replies.xml?item_no=1338
  15. celsoft (Администраторы)

    7 февраля 2009 11:13 3 358 комментариев
    Цитата: IMPERATOR
    а какой CMOD выставлять на этот файл?

    Оставьте тот который по умолчанию
    Цитата: IMPERATOR
    И что обозначает тэг в роботе?
    User-agent: Mediapartners-Google*

    Имя робота для которого предназначены директивы которые идут после этой строки
  16. ASFerraras (Посетители)

    7 февраля 2009 18:19 1 комментарий
    Цитата: maxler
    Поставте 10 сек и вам гарантирован БАН! Читайте внимательно. На сайте Гугла написано не больше 5 сек!

    Насчёт этого вот что скажу: Гугл вообще не обрабатывает это правило.
    Для ознакомления смотрите скрин, который сделан после использования анлизатора robots.txt. Анализ производился посредством инструментов для вебмастеров от Google: _http://newsudar.ru/google.jpg
  17. myname (Клиенты)

    13 февраля 2009 18:15 4 комментария
    Нужная вещица, спасибо, я уж думал перейти на болей дорогой тариф...
  18. freeprogs.kiev.ua (Клиенты)

    16 февраля 2009 02:56 12 комментариев
    Я всегда указываю 5 и только для робота Slurp
  19. willow300 (Посетители)

    27 марта 2009 07:55 2 комментария
    Цитата: Kino-man
    я думаю, что это уменьшит кол-во проиндексированных страниц за раз. ИМХО

    подтверджаю на личном опыте, прописал User-agent: * Crawl-delay: 10 - и в тичении суток - количество проиндексированных страниц на яндексе уменьшилось до нуля :(

    Также подтверждаю слова ASFerraras касательно гугла - он игнорирует это правило.
  20. celsoft (Администраторы)

    27 марта 2009 13:28 3 358 комментариев
    Цитата: willow300
    подтверджаю на личном опыте, прописал User-agent: * Crawl-delay: 10 - и в тичении суток - количество проиндексированных страниц на яндексе уменьшилось до нуля :(

    Причина обнуления индексации далеко не в этом, это лишь совпадение по времени. Почему то сайт dle-news.ru не вылетает из индексации, хотя при этом https://dle-news.ru/robots.txt
    Цитата: willow300
    Также подтверждаю слова ASFerraras касательно гугла - он игнорирует это правило.

    гугл игнорирует, но он и индексирует с паузами, роботы гугла несут наименьшую нагрузку по сравнению с другими поисковиками.
  21. paycom (Клиенты)

    20 апреля 2009 17:16 6 комментариев
    А вот у меня вопрос. Возможно немного не в тему.
    Влияет ли параллельно на загрузку поисковыми роботами наличие карты сайта?

    К примеру:
    у меня есть страничка (статическая) mypage.html.
    как я понял, при создании карты сайта для гугла, эта страничка также проглатывается поисковиком.
    но, если я в robots.txt поставлю Disallow: /mypage.html,
    сожрет ли в конечном итоге поисковик эту страничку или все же проигнорирует?

    Одним словом, что является для поисковика приоритетным, карта сайта или robots.txt?
  22. willow300 (Посетители)

    24 апреля 2009 21:29 2 комментария
    Цитата: celsoft
    Причина обнуления индексации далеко не в этом, это лишь совпадение по времени.

    Да, прошу прощения, если ввел кого-то в заблуждение или заставил сомневаться. Связался с яндексом, оказалось, что это какие-то проблемы с их стороны. Сейчас благополучно использую «Crawl-delay: 10» и всё нормально, сайт индексируется.
  23. 3umf (Посетители)

    27 апреля 2009 14:00 1 комментарий
    проще закрыть IP ненужных роботов которых масса.
    если страницы добавляете не автоматом думаю больше тысячи за месяц не сделать, за 1 приход робота это всего сотня другая страниц для индексации.
  24. Vladis000 (Посетители)

    14 мая 2009 14:46 1 комментарий
    Спасибо за совет залил на сервер
  25. hrompic (Посетители)

    25 октября 2009 20:26 1 комментарий
    А без этого параметра,тоесть по умолчанию,с каким периодом поисковики индексируют страницы?
  26. akimaltyn (Посетители)

    1 декабря 2009 20:28 6 комментариев
    Хороший совет, спасибо!
  27. intakegroup (Клиенты)

    10 января 2011 18:38 1 комментарий
    Подскажите, как в dle robots.txt запретить индексацию календаря?
    Новости за определенную дату, день, месяц и т.д.
    Спасибо.
    P.S. Календарь в админпанели отключен, но в индекс выдаются его странички типа
    https://dle-news.ru/2011/01/03/

Информация

Комментирование публикаций доступно только пользователям имеющим действующую лицензию на скрипт. Если вы уже приобретали скрипт, то вам необходимо зайти на сайт под своим клиентским аккаунтом.

Календарь

«    Апрель 2020    »
ПнВтСрЧтПтСбВс
 12345
6789101112
13141516171819
20212223242526
27282930 

Опрос на сайте

Совершаете ли вы покупки в интернет?