• Поисковые пауки FaceBook 5 0 5 1
Текущий рейтинг:  

A A A A Автор Тема: Поисковые пауки FaceBook  (Прочитано 424 раз)

Description:

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн SuperProfi

Практический смысл в этом есть?
Я не хочу, чтобы брали контент с моего сайта для обучения нейросетей.
Плюс все эти роботы создают дополнительную нагрузку на сайт бесполезную совершенно.
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus, Andrey Klimkovsky

Онлайн Andrey Klimkovsky

Понятно. Спасибо
Улетаю к звёздам, набираю команду
 

Оффлайн SuperProfi

Я добавил Фэйсбук в список пауков, но пока он не отображается в списке посетителей.
Нашлось описание:

Цитировать
Facebook External Hit, также известный как Facebook Crawler, обходит сайты, упомянутые на Facebook.
Использование собственного поискового робота позволяет Facebook создавать общедоступный предварительный просмотр каждой ссылки, размещенной на платформе. Заголовок, описание и уменьшенное изображение отображаются благодаря произведенному индексированию.
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus, Andrey Klimkovsky

Онлайн Andrey Klimkovsky


И заблокировал их совсем  в .htaccess


А можно узнать, какие строчки в .htaccess разрешают или запрещают Facebook Crawler-у создавать превьюшки посещенного сайта?
Улетаю к звёздам, набираю команду
 

Оффлайн SuperProfi

<IfModule mod_rewrite.c>
   RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} FacebookExternalHit
RewriteRule .* - [F]
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus, Andrey Klimkovsky

Онлайн Andrey Klimkovsky

<IfModule mod_rewrite.c>
   RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} FacebookExternalHit
RewriteRule .* - [F]

Это разрешающая конструкция?
Улетаю к звёздам, набираю команду
 

Оффлайн SuperProfi

Это запрет.
[F] forbidden - возвращает ошибку 403;

Что не запрещено - то разрешено.
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus

Оффлайн Dmitry Dobrikus

Ого, а сегодня прямо нашествие ботов Фэйсбука какое-то:



Придётся блокировать как-то этих ботов.

SuperProfi, не подскажете как лучше заблокировать всех ботов из Фэйсбука?
 
Пользователи, которые поблагодарили этот пост: Andrey Klimkovsky

Онлайн Andrey Klimkovsky

Ого, а сегодня прямо нашествие ботов Фэйсбука какое-то:



Придётся блокировать как-то этих ботов.

SuperProfi, не подскажете как лучше заблокировать всех ботов из Фэйсбука?

Если заблокировать ФБ-краулера, то при попытке опубликовать ссылку в ФБ на этот форум, картинка-превьюшка создаваться не будет?
Улетаю к звёздам, набираю команду
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus

Оффлайн Dmitry Dobrikus

Если заблокировать ФБ-краулера, то при попытке опубликовать ссылку в ФБ на этот форум, картинка-превьюшка создаваться не будет?

А я даже и не знаю, надо уточнить этот момент.
 
Пользователи, которые поблагодарили этот пост: Andrey Klimkovsky

Оффлайн SuperProfi

Ого, а сегодня прямо нашествие ботов Фэйсбука какое-то
Это заразно!  ;D ;D ;D

SuperProfi, не подскажете как лучше заблокировать всех ботов из Фэйсбука?
"Лучше" - это что иенно?

Если это значит "надежно заблокировать им доступ" - проще через  .htaccess, что добавить я приводил ранее.
Можно еще железобетоннее - заблокировать доступ с IP адресов FaceBook, список их официально опубликован. Через тот же .htaccess, например, как это сделать - легко нагугливается, либо спросить в поддержке хостинга (для разных хостингов бывают немного разные по синтаксису директивы для IP в зависимости от настроек WEB-сервера).

К сожалению, на директивы robots.txt этот паук, похоже, кладёт болт, извините за мой французский. Так что аккуратно его урезонить, судя по всему, вариантов нет. (Это к разговору ранее по поводу что есть надежно и чем мы управляем и не управляем.)
гугдид эту тему, причем упоминания в основном в буржунете, видимо до нас только докатилось. Везде жалуются на жуткую агрессивность в смысле числа коннектов и интенсивность повторного скачивания страниц, но приличных вариантов нет.

Особо хитрые для паука Facebook'а подрезают ему скорость такого соединения, но уменьшает ли это нагрузку на сайт в итоге - не понятно. Коннект-то есть все равно.

Так что или мириться, или отрезать совсем. Попадались даже упоминания, что из-за агрессивности паука фейсбука пауки поисковых систем снижали свою активность на сайте. А вот это уже совсем плохо: на фейсбук мне наплевать, а вот если яндекс или гугл станет реже заходить - это печально, это ж трафик на сайт.
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus

Оффлайн SuperProfi

Кстати, заглянул в админку своего форума, который тоже на SMF: прямо в админке есть возможность банить по IP.
 
Пользователи, которые поблагодарили этот пост: Dmitry Dobrikus

Теги:
 

© "Forum Art Cafe" - при копировании контента ссылка на форум обязательна
SimplePortal 2.3.7 © 2008-2024, SimplePortal