• Поисковые пауки FaceBook 5 0 5 1
Текущий рейтинг:  

A A A A Автор Тема: Поисковые пауки FaceBook  (Прочитано 605 раз)

Description:

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн SuperProfi

Заметил, что на этом сайте много гостей и не так много пауков (относительно количества гостей).
Вспомнил, что не так давно заметил подобную странность на своих сайтах. Стал смотреть что за гости.

Оказалось, начал активно посещать какой-то новый (для меня) паук FacebookExternalHit. Причем сидит постоянно и довольно большим количеством сессий.
IP адреса, с которых приходит, приписаны Facebook Inc.

Facebook даёт информацию про этого паука на своём сайте:
https://developers.facebook.com/docs/sharing/webmasters/crawler?locale=ru_RU

Можно добавить в список пауков, для честности статистики. Ну или заблокировать, по вкусу :)
На своих сайтах добавил в список пауков
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus, Andrey Klimkovsky

Онлайн Andrey Klimkovsky

Заметил, что на этом сайте много гостей и не так много пауков...
На своих сайтах добавил в список пауков

Что за пауки такие?

Я что-то наверное пропустил. Не знаю...
Улетаю к звёздам, набираю команду
 

Оффлайн SuperProfi

Andrey Klimkovsky,
когда вы в Яндексе набираете "найди мне то-то и то-то", то Яндекс говорит: оно есть вот на этом сайте, вот на этом, вот на этом и еще на том. И так 20 страниц результатов поиска.

А откуда Yandex знает где что лежит? а знает он это потому, что постоянно так называемые "пауки" (spiders)  яндекса (или их еще называют "поисковыми роботами") постоянно скачивают разные страницы разных сайтов в интернете и сохраняют у себя "выжимку" из них. Собственно по этой "выжимке" и производится поиск.

И такие автоматизированные программы (пауки) есть у всех поисковых систем, плюс у разных других сервисов, которые собирают какую-либо информацию с сайтов в интернете для каких-то своих целей. Честные "пауки" честно представляются: "я от яндекса пришёл", "я от гугла пришёл". Это позволяет их идентифицировать и, например, писать "гостей 20, из них поисковых роботов 15".
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus, Andrey Klimkovsky

Онлайн Andrey Klimkovsky

С индексацией сайта или его отдельных страниц в поисковых системах это имеет что-то общее?
Улетаю к звёздам, набираю команду
 

Оффлайн SuperProfi

Собственно обход пауками сайтов, скачивание с сайтов страниц и есть индексация поисковиками.
Если про это вопрос.
 
Пользователи, которые поблагодарили этот пост: Andrey Klimkovsky

Онлайн Andrey Klimkovsky

Собственно обход пауками сайтов, скачивание с сайтов страниц и есть индексация поисковиками.
Если про это вопрос.
Значит, этим процессом можно как-то управлять?
Улетаю к звёздам, набираю команду
 

Оффлайн SuperProfi

Управлять в каком смысле и с какой целью?

Программа-"паук" неподвласна владельцу форума. Единственно что он может - запретить доступ паука совсем или попросить паука ограничить количество сессий (т.е. нагрузку на сайт), если паук поддерживает считывание какие-то управляющих сигналов (приличные пауки поддерживают). Но в целом паук работает так, как заблагорассудится его создателям, управлять в смысле гарантированно получать желаемую реакцию - возможности нет, кроме явного запрета отдавать контент тому или иному пауку (если его как-то можно гарантированно идентифицировать)
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus, Andrey Klimkovsky

Онлайн Andrey Klimkovsky

Но ведь на индексирование сайта или его отдельных страниц в поисковых системах владельцы сайтов как-то влияют.

Например, Google создал для этого отдельный инструмент: https://search.google.com/search-console
Улетаю к звёздам, набираю команду
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus

Оффлайн SuperProfi

Да никак не влияют.
Любые такие указания имеют "рекомендательный" характер. как и файл robots.txt, например.
Робот поисковой системы может выполнять инструкции из него, а может и не выполнять. У меня вот google заходит в разделы, запрещенные в robots.txt. Да, в поиске их не показывает (воде), но заходит и скачивает.
Так что любые эти управлялки имеют лишь рекомендательный характер.

Видимо тут вопрос терминологии.
Я под "управляю" имею ввиду полный и гарантированный контроль с моей стороны. Но в случае с поисковыми роботами я не имею такого контроля, могу лишь "вежливо просить" :)
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus, Andrey Klimkovsky

Оффлайн Dmitry Dobrikus

Можно добавить в список пауков, для честности статистики. Ну или заблокировать, по вкусу :)
На своих сайтах добавил в список пауков

Я добавил Фэйсбук в список пауков, но пока он не отображается в списке посетителей.
 

Оффлайн SuperProfi

Сегодня по утру увидел полторы сотни гостей на своём сайте. Чего, к сожалению, у меня не бывает, потому заподозрил очередных ботов.
Заглянул в сессии - и точно!
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Ходят с амазоновских серверов. Похоже тянут контент для обучения нейросетей.

А вот фик вам! решил я.
И заблокировал их совсем  в .htaccess


Роботы следят за нами
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus, Andrey Klimkovsky

Онлайн Andrey Klimkovsky

А вот фик вам! решил я.
И заблокировал их совсем  в .htaccess

Практический смысл в этом есть?
Улетаю к звёздам, набираю команду
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus

Теги:
 

FacebookTwitter Vkontakte Youtube Telegram Wikimedia

"Privacy Policy" "Cookie Policy"

© "Forum Art Cafe" - при копировании контента ссылка на форум обязательна
SimplePortal 2.3.7 © 2008-2025, SimplePortal