Уважаемые пользователи!
Напоминаем, что с 7 ноября 2020 года phpBB Group прекращает поддержку phpBB версии 3.2.
Сайт официальной русской поддержки phpBB Guru продолжит поддержку phpBB 3.2 до 31 декабря 2020 года.
С учетом этого, а также того, что версия 3.2.x больше не будет получать обновлений, за исключением связанных с проблемами безопасности
(только при их наличии и только до 7 ноября 2020 года), рекомендуется обновить конференции до версии 3.3.x.

Bots Install Script + 387 поисковых ботов [Все и сразу]

Здесь авторы могут постить бета-версии своих модификаций для phpBB 3.0.x. Внимание! Не устанавливайте бета-версии модов на работающие форумы!
Правила форума
Местная Конституция | Шаблон запроса | Документация (phpBB3) | Переход на 3.0.6 и выше | FAQ-3 (phpbb3) | Как задавать вопросы | Как устанавливать моды

Ваш вопрос может быть удален без объяснения причин, если на него есть ответы по приведённым ссылкам (а вы рискуете получить предупреждение ;) ).
Аватара пользователя
c61
phpBB 2.0.6
Сообщения: 506
Стаж: 8 лет 5 месяцев
Благодарил (а): 42 раза
Поблагодарили: 251 раз

Re: Bots Install Script + 387 поисковых ботов от Пчелкина

Сообщение c61 »

Пчелкин писал(а):Эт о чем?
Sheer рассказал) Добавлю, что 404 - очень полезная страница ! Рассмотрим её полезность для 387 ботов... ну или хотя бы для первой сотни)

Недавно приделал старую-старую хохму с кнопкой на свою страницу 404, что на свеженьком домашнем сервере (постами выше некто интересовался сайтом, вот свежачок), так после удаления мною кучи тестовых страниц, которые успели проиндексироваться, от неё боты аж затащились, Гугл прям трясется от радости, когда на нее попадает, потому что она не тупиковая - там ведь ссылочка есть куда ему следует идти) А то у всех "not found" да "not found"... И тупик. Боты они ведь тоже пользователи, им кликабельные ссылки подавай ! Прям руки чесались приделать генератор случайных ссылок (ведущих в одно и то же место) и заодно случайного контента (в этом самом месте) - на радость ботам - но пересилил... "Это не наш хоккей ! Нам такой хоккей не нужен !" )

Что-не не нашел на форумах guru следов проведения популярного среди вебмастеров конкурса на страницу 404... Как же гуру без оформления страницы 404 обходятся ? Предлагаю администрации объявить такой конкурс с проведением до 04.04.2014. Критерии для оценки - приятность для пользователей (чтобы не сбежали с сайта, если на нее попали) и полезность в "кормлении" ботов. Одна страничка-участник уже есть. А ?

Кстати, совсем недавно, 04.04, был день вебмастера) Так что всем запоздалые поздравления !
Аватара пользователя
Pazh
Former team member
Сообщения: 2294
Стаж: 11 лет 6 месяцев
Благодарил (а): 42 раза
Поблагодарили: 497 раз

Re: Bots Install Script + 387 поисковых ботов от Пчелкина

Сообщение Pazh »

c61 писал(а):Недавно приделал старую-старую хохму с кнопкой на свою страницу 404
при наведении мыши примерно на 1 сантиметр выше букаф "щите на конф" можно увидеть mailto:c61@.... который сработает

Добавлено спустя 35 минут 45 секунд:
Баг в скрипте:

Код: Выделить всё

'user_style'			=> 1,
заменить на

Код: Выделить всё

'user_style'			=> $config['default_style'],
Кто удалял и ставил стили - стиля с шв=1 может уже не быть или стиль по-умолчанию другой стоит

Добавлено спустя 4 минуты 54 секунды:
кроме того, не плохо бы сделать запись в админский лог о добавлении ботов
Помощь в ЛС/email только за WM или ЮMoney
Аватара пользователя
Пчелкин
phpBB 3.3.0
Сообщения: 10553
Стаж: 11 лет 4 месяца
Откуда: От Москвы 9 часов на Боинге
Благодарил (а): 1512 раз
Поблагодарили: 1315 раз

Re: Bots Install Script + 387 поисковых ботов от Пчелкина

Сообщение Пчелкин »

Pazh писал(а):Баг в скрипте:
исправил...
Аватара пользователя
c61
phpBB 2.0.6
Сообщения: 506
Стаж: 8 лет 5 месяцев
Благодарил (а): 42 раза
Поблагодарили: 251 раз

Re: Bots Install Script + 387 поисковых ботов от Пчелкина

Сообщение c61 »

Pazh писал(а):можно увидеть mailto:c61@.... который сработает
Это специально так селано)
Аватара пользователя
xisp
phpBB 3.0.0 RC7
Сообщения: 1798
Стаж: 8 лет 11 месяцев
Благодарил (а): 152 раза
Поблагодарили: 215 раз
Забанен: Бессрочно

Re: Bots Install Script + 387 поисковых ботов от Пчелкина

Сообщение xisp »

Из своих закромов парочка:
Имя SISTRIX [BOT]- юзерагент SISTRIX Crawler
Имя Sogou [BOT]- юзерагент Sogou web spider
phpBBex
Аватара пользователя
xisp
phpBB 3.0.0 RC7
Сообщения: 1798
Стаж: 8 лет 11 месяцев
Благодарил (а): 152 раза
Поблагодарили: 215 раз
Забанен: Бессрочно

Re: Bots Install Script + 387 поисковых ботов от Пчелкина

Сообщение xisp »

Любят меня китайские боты, почему- то. Хотя на всём форуме 2 иероглифа, да и то японская хирагана))) В общем вот, новенький:
Имя EasouSpider [Bot]- юзерагент EasouSpider
Воспользоваться чудом вражеской мысли:
http://www.easou.com/search/spider.html
phpBBex
Аватара пользователя
xisp
phpBB 3.0.0 RC7
Сообщения: 1798
Стаж: 8 лет 11 месяцев
Благодарил (а): 152 раза
Поблагодарили: 215 раз
Забанен: Бессрочно

Re: Bots Install Script + 387 поисковых ботов от Пчелкина

Сообщение xisp »

Вот ещё один попался, теперь немецкий.
Имя XoviBot, юзерагент XoviBot/
Вот его страничка http://www.xovibot.net/
phpBBex
Аватара пользователя
ВладимирТ
phpBB 2.0.4
Сообщения: 421
Стаж: 10 лет 10 месяцев
Откуда: Москва
Благодарил (а): 52 раза
Поблагодарили: 75 раз

Re: Bots Install Script + 387 поисковых ботов от Пчелкина

Сообщение ВладимирТ »

c61 писал(а):Недавно приделал старую-старую хохму с кнопкой на свою страницу 404
c61 писал(а):Гугл прям трясется от радости, когда на нее попадает, потому что она не тупиковая
Это точно, оформлять 404 страницу надо обязательна, вот моя версия (подсказка: кнопка на черном фоне) - 404 станица :)
На вкус и цвет - разный CSS
Аватара пользователя
c61
phpBB 2.0.6
Сообщения: 506
Стаж: 8 лет 5 месяцев
Благодарил (а): 42 раза
Поблагодарили: 251 раз

Re: Bots Install Script + 387 поисковых ботов [Все и сразу]

Сообщение c61 »

Вот ещё связанная со страницей 404 и ботами информация.

Удалив несколько тем, вложений и т.п., либо изменив стили, либо проведя какие-либо иные работы по изменению конференции, Вы (или пользователи) когда-то, возможно, обнаружите битые ссылки... Или поисковики обнаружат их до Вас )) И тут Вам возможно потребуется инструмент для анализа внутренних (и внешних) ошибок 404 (ссылок "в никуда"), ссылок на удалённые темы, сообщения, вложения, потерянные картинки стилей и др. Для этого лично я использую PHPCrawl, а именно - переделанные примеры или test_interface, настраивая под нужный сайт/конференцию.

Однако, без понимания того, что Вы делаете и как надо проводить настройки, положительный результат Вы не получите ! Проблем обычно две: недостаток времени выполнения скриптов php (что делать - см. Tutorial: Spidering huge websites) и "зацикливание" при наличии специфических скриптов типа выбора из календаря (например, на c61.su это USB UPS CHART; разруливаем при помощи "Non follow matches" в test_interface или addURLFilterRule). Главное, получить список ссылок, при переходе по которым налетели на код 404 или ещё какой Вас интересует. В test_interface даже ничего переделывать не требуется - просто поиском разыскиваем нужный код ответа сервера и анализируем...

Не забудьте дать нужные права боту PHPCrawl или как Вы его сами назовёте...

Если Ваша конференция небольшая и разрешена функция set_time_limit, или Вы можете сами настраивать что хотите на своём сервере, всё довольно просто. Если конференция крупная и проблемы с set_time_limit - придётся повозиться, но результат может вполне оправдать затраты.

P.S. Пожалуйста, не задавайте мне вопросы на темы "как сделать" насчёт PHPCrawl.
P.P.S. Существует также sphider и много похожего софта.
P.P.P.S. Разумеется, найти битые ссылки можно найти и другими способами, лично мне почему-то больше нравится вышеизложенный.

Дополнено 19.10.2014/12:57

Пример скрипта поиска ошибок для сайта c61.su (просто замените $url='c61.su' на свой и поправьте addURLFilterRule):

Код: Выделить всё

<?php

// It may take a whils to crawl a site ...
set_time_limit(36000);

// Inculde the phpcrawl-mainclass
include("libs/PHPCrawler.class.php");

// Extend the class and override the handleDocumentInfo()-method 
class MyCrawler extends PHPCrawler 
{
  public $print_all = true;

  public $lb = "\n";

  public $b_pre = '';
  public $b_end = '';

  public $link_pre = '';
  public $link_succ = '';
  public $link_end = '';

  function handleDocumentInfo($DocInfo) 
  {
    if (!$this->print_all && ((empty($DocInfo->http_status_code)) || ($DocInfo->http_status_code == 200))) {
      echo ' ';
    } else {
      $b__pre = '';
      $b__end = '';
      if ($DocInfo->http_status_code == 404) {
        $b__pre = $this->b_pre;
        $b__end = $this->b_end;
      }
      echo $b__pre;
      // Print the refering URL, URL and the HTTP-status-Code
      $url = $DocInfo->referer_url;
      if (empty($url) ) {
        echo '(NO Referer)';
      } else {
        // Remove sid
        if (preg_match("#[\?\&]sid\=(.*)\&#i",$url.'&',$matches) !== false) {
           $url = str_replace('?sid='.$matches[1].'&','?',$url);
           $url = str_replace('?sid='.$matches[1],'',$url);
           $url = str_replace('&sid='.$matches[1],'',$url);
        }
        echo $this->link_pre.$url.$this->link_succ.(($this->link_pre!='') ? $url : '').$this->link_end;
      }
      echo ' &rarr; ';
      echo $DocInfo->url;
      echo ' ('.$DocInfo->http_status_code.')';
      echo $b__end;
      echo $this->lb;
    
      // Now you should do something with the content of the actual
      // received page or file ($DocInfo->source), we skip it in this example 
    
    }
    @ob_end_flush(); @flush(); @ob_start();
  } 
}

// Now, create a instance of your class, define the behaviour
// of the crawler (see class-reference for more options and details)
// and start the crawling-process.

@ob_start();

$crawler = new MyCrawler();

if (PHP_SAPI != 'cli') {
  $crawler->lb = '<br />';

  $crawler->b_pre = '<b>';
  $crawler->b_end = '</b>';
  
  $crawler->link_pre = '<a href="';
  $crawler->link_succ = '" target="_blank" style="text-decoration: none; color:navy;">';
  $crawler->link_end = '</a>';

  @header( 'Content-type: text/html; charset=utf-8' );
}

// URL to crawl
$url = 'c61.su';

echo 'Start PHPCrawl: search bad server return codes at '.$crawler->b_pre.$url.$crawler->b_end.$crawler->lb.$crawler->lb;

// URL to crawl
$crawler->setURL($url);

// Delay before every request
$crawler->setRequestDelay(0.1);

// Obey robots.txt-files
//$crawler->obeyRobotsTxt(true);

// Timeouts
$crawler->setConnectionTimeout(20);
$crawler->setStreamTimeout(20);

// Follow mode
$crawler->setFollowMode(2);

// Only receive content of files with content-type "text/html"
$crawler->addContentTypeReceiveRule("#text/html#");

// Ignore links to pictures, dont even request pictures
//$crawler->addURLFilterRule("#\.(jpg|jpeg|gif|png|ico|tif)$# i");

// Ignore links to usb ups chart
$crawler->addURLFilterRule("#(usb_ups_chart\.php)# i");

// Ignore links to posting
$crawler->addURLFilterRule("#/posting(.*)\.php# i");

// Ignore links to members
$crawler->addURLFilterRule("#/member(.*)\.php# i");

// Store and send cookie-data like a browser does
$crawler->enableCookieHandling(true);

// Set the traffic-limit to 1 MB (in bytes,
// for testing we dont want to "suck" the whole site)
//$crawler->setTrafficLimit(1024 * 1024);

// Thats enough, now here we go
$crawler->go();

// At the end, after the process is finished, we print a short
// report (see method getProcessReport() for more information)
$report = $crawler->getProcessReport();

echo $crawler->lb.'Summary:'.$crawler->lb;
echo 'Links followed: '.$report->links_followed.$crawler->lb;
echo 'Documents received: '.$report->files_received.$crawler->lb;
echo 'Bytes received: '.$report->bytes_received.' bytes'.$crawler->lb;
echo 'Process runtime: '.$report->process_runtime.' sec'.$crawler->lb; 
echo 'Done.';

?>
Добавлено 19.10.2014/15:49

В PHPCrawl обнаружен баг обработки robots.txt. Файл libs/PHPCrawlerRobotsTxtParser.class.php, найти

Код: Выделить всё

      $non_follow_path_complpete = $normalized_base_url.substr($disallow_pathes[$x], 1); // "http://www.foo.com/bla/"
и заменить на

Код: Выделить всё

      $non_follow_path_complpete = $normalized_base_url.$disallow_pathes[$x]; // "http://www.foo.com/bla/"
Аватара пользователя
wmmen
phpBB 1.2.1
Сообщения: 29
Стаж: 6 лет 7 месяцев
Благодарил (а): 17 раз

Re: Bots Install Script + 387 поисковых ботов [Все и сразу]

Сообщение wmmen »

Еще такой бот :!:
Название бота: Ahrefs[Bot]
Соответствие агенту: AhrefsBot
Добавление этого бота убирает трех гостей из статистики пользователей онлайн
Аватара пользователя
apollion
phpBB 2.0.22
Сообщения: 1382
Стаж: 7 лет 2 месяца
Откуда: Юг Руси
Благодарил (а): 50 раз
Поблагодарили: 99 раз

Re: Bots Install Script + 387 поисковых ботов [Все и сразу]

Сообщение apollion »

wmmen писал(а):Добавление этого бота убирает трех гостей из статистики пользователей онлайн
В смысле?

Это бот сайта ahrefs.com - коллектор бэклинков и пр.
Аватара пользователя
wmmen
phpBB 1.2.1
Сообщения: 29
Стаж: 6 лет 7 месяцев
Благодарил (а): 17 раз

Re: Bots Install Script + 387 поисковых ботов [Все и сразу]

Сообщение wmmen »

Да он. Сейчас сайт мой сканит уже около часа.
Если его отключить, то появляются +три гостя на форуме с этим:
Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)
Image22.PNG
Image22.PNG (1.97 КБ) 1002 просмотра
Аватара пользователя
apollion
phpBB 2.0.22
Сообщения: 1382
Стаж: 7 лет 2 месяца
Откуда: Юг Руси
Благодарил (а): 50 раз
Поблагодарили: 99 раз

Re: Bots Install Script + 387 поисковых ботов [Все и сразу]

Сообщение apollion »

Это нормальный бот. Можно ему не мешать, просто добавить в список ботов.

Мусорных ботов я не в список добавляю, а запрещаю им доступ вообще. Мне от них пользы никакой.
Аватара пользователя
wmmen
phpBB 1.2.1
Сообщения: 29
Стаж: 6 лет 7 месяцев
Благодарил (а): 17 раз

Re: Bots Install Script + 387 поисковых ботов [Все и сразу]

Сообщение wmmen »

apollion писал(а):Мусорных ботов я не в список добавляю, а запрещаю им доступ вообще
Возможно это и правильно.
Если учесть вариант с этим ботом, он одновременно заходит с трех роботов, если его отключить в админке, то к статистике пользователей онлайн он добавляет трех гостей. Лучше все таки добавить его, что бы видеть реальное количество гостей на форуме.
Или запретить в файле robots.txt его?
Аватара пользователя
angst66
phpBB 2.0.22
Сообщения: 1358
Стаж: 9 лет 4 месяца
Благодарил (а): 78 раз
Поблагодарили: 124 раза

Re: Bots Install Script + 387 поисковых ботов [Все и сразу]

Сообщение angst66 »

apollion писал(а):Это нормальный бот. Можно ему не мешать, просто добавить в список ботов.
Добавил его, и тут же он начал пытаться размещать сообщения на форуме. Это нормально?

Вернуться в «Бета-версии модов для phpBB 3.0.x»