Уважаемые пользователи!
C 7 ноября 2020 года phpBB Group прекратила выпуск обновлений и завершила дальнейшее развитие phpBB версии 3.2.
С 1 августа 2024 года phpBB Group прекращает поддержку phpBB 3.2 на официальном сайте.
Сайт официальной русской поддержки phpBB Guru продолжит поддержку phpBB 3.2 до 31 декабря 2024 года.
С учетом этого, настоятельно рекомендуется обновить конференции до версии 3.3.

robots.txt для 3.x

Вопросы без привязки к версии. Установлена авточистка (2 года).
Правила форума
Местная Конституция | Шаблон запроса | Документация (phpBB3) | Переход на 3.0.6 и выше | FAQ | Как задавать вопросы | Как устанавливать расширения

Ваш вопрос может быть удален без объяснения причин, если на него есть ответы по приведённым ссылкам (а вы рискуете получить предупреждение ;) ).
Аватара пользователя
Siava
Поддержка
Поддержка
Сообщения: 5283
Стаж: 19 лет 3 месяца
Откуда: Питер
Благодарил (а): 186 раз
Поблагодарили: 793 раза

Re: robot.txt и версия 3.2

Сообщение Siava »

S4astliff4ik, А.. ну значит закомментированные строки это. Исключенные из обработки.
Еще одно нарушение правил и будете забанены. © Mr. Anderson
Ты очистил кеш? © Sheer
https://siava.ru (phpbb 2.0.x 3.5.x)
S4astliff4ik
phpBB 1.2.1
Сообщения: 27
Стаж: 13 лет 11 месяцев
Благодарил (а): 12 раз

Re: robot.txt и версия 3.2

Сообщение S4astliff4ik »

Скажите, пожалуйста, что-нить нужно добавить или удалить:

User-agent: *
Disallow: /adm
Disallow: /cache
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /ucp.php
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Clean-param: sid /index.php
Clean-param: sid /viewtopic.php
Clean-param: sid /viewforum.php
Host: gac-forum.ru

Отправлено спустя 4 минуты 55 секунд:
В вебмастере Яндекса - проверял - 0 ошибок.
al36rus
phpBB 1.4.2
Сообщения: 68
Стаж: 4 года 3 месяца
Благодарил (а): 25 раз
Поблагодарили: 3 раза
Забанен: Бессрочно

Re: robot.txt и версия 3.2

Сообщение al36rus »

Блин, тема вызывает больше вопросов, чем дает решений.
Выложите, пожалуйста, нормальный файл robots.txt (в частности, рабочий для 3.2.9)
Аватара пользователя
Татьяна5
Поддержка
Поддержка
Сообщения: 12425
Стаж: 12 лет 8 месяцев
Благодарил (а): 166 раз
Поблагодарили: 2477 раз

Re: robot.txt и версия 3.2

Сообщение Татьяна5 »

Зависит от целей
По-хорошему в 3.2 можно обойтись без него
ciiz1
phpBB 2.0.4
Сообщения: 440
Стаж: 6 лет 8 месяцев
Благодарил (а): 100 раз
Поблагодарили: 30 раз

Re: robot.txt и версия 3.2

Сообщение ciiz1 »

Что то я никогда =next и =previous не видел это где? только top.
al36rus
phpBB 1.4.2
Сообщения: 68
Стаж: 4 года 3 месяца
Благодарил (а): 25 раз
Поблагодарили: 3 раза
Забанен: Бессрочно

Re: robot.txt и версия 3.2

Сообщение al36rus »

Татьяна5 писал(а): 24.04.2020 6:12 Зависит от целей
По-хорошему в 3.2 можно обойтись без него
Цели обычные - нормальная индексация в поисковых системах.
Карта сайта генерируется модом шреддера (вроде нормально работает, но для таких разрабов есть отдельный котел в аду за рекламный инклуд в футер).
Осталось решить вопрос с разрешениями для роботов, но если он не нужен - еще проще.
Аватара пользователя
Kuskow
phpBB 1.4.4
Сообщения: 160
Стаж: 7 лет 10 месяцев
Откуда: Караганда
Благодарил (а): 25 раз
Поблагодарили: 15 раз

Re: robot.txt и версия 3.2

Сообщение Kuskow »

Долго думал, экспериментировал, пришёл к выводу, что вот такие строчки не полезны именно для форума:
regina68 писал(а): 31.05.2017 23:23

Код: Выделить всё

Disallow: /viewtopic.php*p=*
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?t=*&p=*
Если форуму как месту обсуждений важно и полезно, чтобы новые обсуждалки поскорей попадали в индексы поисковиков, то как раз индексирование ?p= будет способствовать этому. Некоторые пользователи ходят на форум через Google Chrome и Яндекс.Браузер, и если там специально не отключено "отсылать анонимную информацию...", то эти браузеры сообщают своим ботам о том, по каким страницам ходят люди. И как только видят, что какой-то URL отсутствует в их индексе, сразу же его индексируют, и он появляется в результатах поиска. То есть, вот это сообщение я сейчас отправлю, вам придёт уведомление, вы зайдёте на страницу /viewtopic.php?p=527429#p527429 из Яндекс.Браузера - и уже через пару минут эта страница со свежим сообщением появится в результатах поиска.
Удаление этих строчек из robots.txt не вызовет появления дубляжей, потому что есть CANONICAL. Правда, поначалу (до индексации канонической страницы) в индексе будут присутстовать адреса /viewtopic.php?p=, но это не страшно - впоследствии они будут заменены в индексе на канонические URL.
И всплеска нагрузки на сервер это не может вызвать - ну подумаешь, добавится пара-тройка новых псевдопользователей, прочитывающих на форуме каждое сообщение - разве ж это нагрузка?

Отправлено спустя 18 минут 38 секунд:
Tugus писал(а): 10.01.2019 22:08

Код: Выделить всё

User-agent: *
Disallow: /download
Вот это оказалось вредной штукой. Оно запрещает индексировать аватары, а без них на многих страницах совсем никаких изображений. А поисковики хотят иногда хоть какое-то изображение ставить в результат поиска. Да и в сохранённых страницах надо, чтобы их было видно, иначе совсем криво там получается.
Tugus писал(а): 10.01.2019 22:08

Код: Выделить всё

Disallow: /*?sid=*

Clean-param: sid /forum/index.php
Clean-param: sid /forum/viewforum.php
Clean-param: sid /forum/viewtopic.php
Вот эта конструкция избыточна и бессмысленна. Если sid запрещены к индексации, то и нет смысла чистить их из URL. Вот так, мне кажется, будет интересней, универсальней, эффективней:

Код: Выделить всё

Clean-param: sid
Clean-param: view&hilit /viewtopic.php
Отправлено спустя 37 минут 41 секунду:
S4astliff4ik писал(а): 08.02.2020 14:59 Скажите, пожалуйста, что-нить нужно добавить или удалить
Поскольку на Вашем сайте канонические URL тем имеют вид без указания форума:

Код: Выделить всё

<link rel="canonical" href="http://gac-forum.ru/viewtopic.php?t=119">
То я бы сделал так (красное удалить, синее добавить):

User-agent: *
Host: gac-forum.ru

Disallow: /adm
Disallow: /cache
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /ucp.php
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous


Clean-param: sid /index.php
Clean-param: sid f&view&hilit /viewtopic.php
Clean-param: sid /viewforum.php
Аватара пользователя
Kuskow
phpBB 1.4.4
Сообщения: 160
Стаж: 7 лет 10 месяцев
Откуда: Караганда
Благодарил (а): 25 раз
Поблагодарили: 15 раз

Re: robot.txt и версия 3.2

Сообщение Kuskow »

Вторая часть не обязательна. Если её нет, то sid будет исключаться из всех URL перед индексацией, что нам и нужно, в общем-то. Нам же этот параметр ни в каком случае не нужен. То есть, его нужно исключать, независимо от того, это раздел или тема, или главная страница.
https://yandex.ru/support/webmaster/rob ... param.html
Синтаксис директивы
Clean-param: p0[&p1&p2&..&pn] [path]

Да, это только для Яндекса действует, но хоть так. Google сам уже разбирается, что ему нужно, а что нет. Раньше можно было вручную прописать в интерфейсе Search Console. Теперь это исключили, почему-то https://support.google.com/webmasters/a ... 70658&rd=1
Аватара пользователя
Kuskow
phpBB 1.4.4
Сообщения: 160
Стаж: 7 лет 10 месяцев
Откуда: Караганда
Благодарил (а): 25 раз
Поблагодарили: 15 раз

Re: robots.txt и версия 3.2

Сообщение Kuskow »

ciiz1 писал(а): 11.06.2020 12:22 Так к слову, у меня почему то запрет в "robots.txt" срабатывает, а не "элементом nonindex", делал по вашей подсказке.
Так вот, я много лет и много раз читал фразу
Google писал(а):Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска Google. Если на других сайтах есть ссылки на вашу страницу, содержащие ее описание, то она все равно может быть проиндексирована, даже если роботу Googlebot запрещено ее посещать. Чтобы исключить страницу из результатов поиска, следует использовать другой метод, например защиту паролем или директиву noindex.
И теперь только оказалось, что понимал её неправильно :D

Слово "проиндексирована" для меня - это сканер обошёл страницу, анализатор проанализировал, слова посчитал, в индексы добавил. Отнюдь! Если страница заблокирована в robots.txt, то бот вообще не заходит на эту страницу никогда, а "проиндексирована" для Гугла означает лишь то, что страница попадает в результаты поиска. Если же она не просканирована, и её содержимое не проанализировано, то данные для отображения в поиске берутся из других источников (например, из контекста ссылки, откуда бот узнал осуществовании страницы). Мало того, страница такая может, вообще не существует, и сервер даст на неё ответы 3хх, 4хх, 5хх, но в результатах поиска она будет, всё равно, потому что бот даже не пытался её запросить для просмотра.

Исходя из этого, теперь считаю вредными следующие инструкции в robots.txt и их производные/уточнения (взял из примеров в этой теме):

Код: Выделить всё

Disallow: /*?sid=*
Disallow: /*&hilit=*
Disallow: /*&view=*
Disallow: /index.php*
Disallow: /viewforum.php?f=*&start=0$
Disallow: /viewtopic.php?*&view=print
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php*p=*
Disallow: /viewtopic.php?t=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Disallow: /view*&start=0$
То есть, не стоит закрывать от сканирования вообще любые адреса, связанные с viewtopic, viewforum, index. Всё это страницы с контентом, видимым для всех. На них пользователя разными путями попадают, а значит могут использовать эти адреса в качестве ссылок на других сайтах. И вот если где-то такая ссылка есть, а в robots.txt она закрыта для обхода, то поисковик даже не узнает, что это неканоническая страница, и для неё есть какая-то каноническая, и не сложит это воедино. Или не узнает, что такой страницы больше не существует, если она была удалена или перенесена в закрытый раздел, а в итоге пользователь из поиска попадёт на дулю (фигу).

Вот только во всей этой истории одна бяка портит все отношения - параметр hilit. Потому как попадая на страницу с таким параметром, бот индексирует всю тему с ним, с выделенными словами. Конечно, там тоже указана каноническая страница, но всё равно не очень. Вот как бы так сделать, чтобы параметр hilit нивелировать при обходе ботами?

Отправлено спустя 44 минуты 49 секунд:
Doroty123 писал(а): 14.01.2019 22:22 после перехода форума на версию 3.2.2 в вебмастере яндекса появились сотни дублей главной страницы. Как их правильно закрыть? Что бы сама главная не вылетела ?
Во всех этих дублях должен быть указан адрес канонической страницы, и он должен быть одинаковым. Посмотрите в html должно быть написано что-то такое:

Код: Выделить всё

<link rel="canonical" href="https://site.com/">
Если появились сотни дублей, значит каноническая страница не указана. Закрывать в index.php в robots.txt нежелательно.
Doroty123 писал(а): 14.01.2019 22:22 после перехода форума на версию 3.2.2

Код: Выделить всё

Disallow: /faq.php
В версии 3.2 FAQ находится по другому адресу /help/faq
Аватара пользователя
Kuskow
phpBB 1.4.4
Сообщения: 160
Стаж: 7 лет 10 месяцев
Откуда: Караганда
Благодарил (а): 25 раз
Поблагодарили: 15 раз

Re: robots.txt и версия 3.2

Сообщение Kuskow »

Kuskow писал(а): 21.05.2020 7:28
Tugus писал(а): 10.01.2019 22:08

Код: Выделить всё

Disallow: /*?sid=*

Clean-param: sid /forum/index.php
Clean-param: sid /forum/viewforum.php
Clean-param: sid /forum/viewtopic.php
Вот эта конструкция избыточна и бессмысленна. Если sid запрещены к индексации, то и нет смысла чистить их из URL. Вот так, мне кажется, будет интересней, универсальней, эффективней:

Код: Выделить всё

Clean-param: sid
Clean-param: view&hilit /viewtopic.php
Обнаружил у себя ошибку (упущение). Оказывается, если одна строка Clean-param (с самым длинным префиксом) подошла, то другие не учитываются. А значит sid надо указывать в каждой строке вот так:

Код: Выделить всё

# Не учитывать эти параметры при индексировании Яндексом:
Clean-param: sid&f&e&hilit&view /viewtopic.php  # на страницах тем
Clean-param: sid  # на всех остальных страницах
Заодно добавил туда параметр view. Так вернее получается. Пусть луче Яндекс не дёргается его индексировать из-за исключения параметра, нежели из-за noindex или Disallow. Зато если кто-то случайно оставит где-то такую ссылочку, она прибавится плюсиком к топику.
ciiz1
phpBB 2.0.4
Сообщения: 440
Стаж: 6 лет 8 месяцев
Благодарил (а): 100 раз
Поблагодарили: 30 раз

Re: robots.txt и версия 3.2

Сообщение ciiz1 »

Kuskow писал(а): 15.06.2020 4:54 Clean-param: sid&f&e&hilit&view /viewtopic.php
1. Что то я не понял как эта строчка работает, а что такое &e или view?
2. А порядок следования тоже неважен?

Хорошо яндексу вы подсказали, так google наверное запутается в хвостах.
Что то я сомневаюсь что когда делали логику поисковика задумывали, а давай в robots.txt ведём Clean-param, все как начнут подвязывать к каноническим.
Легче в странице с ссылкой прочитать rel="canonical"
По крайней мере Яндекс объясняет так: Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.
Аватара пользователя
Kuskow
phpBB 1.4.4
Сообщения: 160
Стаж: 7 лет 10 месяцев
Откуда: Караганда
Благодарил (а): 25 раз
Поблагодарили: 15 раз

Re: robots.txt и версия 3.2

Сообщение Kuskow »

Clean-param работает только в Яндексе. Работает так: сначала из ссылки Яндекс для себя убирает (вычёркивает) все указанные в Clean-param параметры (аргументы с их значениями), а затем уже по преобразованной ссылке пытается индексировать страницу в соответствии с другими правилами. Например, если взять конкретно это правило: Clean-param: sid&f&e&hilit&view /viewtopic.php, то перед индексированием адреса будут преобразованы так:

https://www.phpbbguru.net/community/viewtopic.php?p=546584&hilit=Clean
->
https://www.phpbbguru.net/community/viewtopic.php?p=546584
То есть, будет просканирована эта страница (на которой Ваше сообщение), но без подсвечивания на ней найденного слова "Clean", как будто ссылка взята не из результатов поиска.

https://www.phpbbguru.net/community/viewtopic.php?f=42&t=47609&start=30&sid=9b805fee05&view=print
->
https://www.phpbbguru.net/community/viewtopic.php?t=47609&start=30
Эта ссылка вообще не будет сканироваться и индексироваться, поскольку уже проиндексирована третья страница этой темы, вряд ли бот будет обновлять её в индексе, так что это как будто он встретил ссылку на третью страницу этой темы без тех дополнительных параметров.
Аватара пользователя
Kuskow
phpBB 1.4.4
Сообщения: 160
Стаж: 7 лет 10 месяцев
Откуда: Караганда
Благодарил (а): 25 раз
Поблагодарили: 15 раз

Re: robots.txt и версия 3.2

Сообщение Kuskow »

ciiz1 писал(а): 15.06.2020 8:50 Хорошо яндексу вы подсказали, так google наверное запутается в хвостах.
Google не запутается, потому что в каждой странице есть Canonical URL, просто он будет сканировать больше страниц, нежели Яндекс. Но это уже его проблемы. (Шёпотом: я уже втихаря допилил код phpBB, и теперь у меня там для ботов стоит переадресация 301на канонические страницы, так сказать, свой Clean-param для всех ботов)
ciiz1 писал(а): 15.06.2020 8:50 Легче в странице с ссылкой прочитать rel="canonical"
Да, легче, но не для интернет-магазинов, у которых 100500 товаров и на каждый по 100500 ссылок, отличающихся размером, цветом и т.п. Так и написано в Яндексе. Страница одна, а ссылок может быть миллион, и все разные. Пользователи ведь не думают об этом.
ciiz1 писал(а): 15.06.2020 8:50 Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.
Да, именно так я и написал. Яндекс придумал это для себя, в первую очередь, чтобы не плодить кучу серверов для поиска одинаковых страниц.
ciiz1
phpBB 2.0.4
Сообщения: 440
Стаж: 6 лет 8 месяцев
Благодарил (а): 100 раз
Поблагодарили: 30 раз

Re: robots.txt и версия 3.2

Сообщение ciiz1 »

Ну если уж к слову из моих наблюдений, sitemap - делаешь отдельную станицу без ссылок на неё, добавляешь в sitemap, две недели может быть индексация.
Обход по счётчикам, страница появляется на следующее утро, и Canonical.
robots.txt, как будто обходит невзирая на него, а дня через два исключает (можете попробовать новую вновь созданную тему исключить, в robots.txt добавить).
О том что изменился robots.txt яндекс информирует в течении двух дней.

Я поэтому и очень обрадовался "noindex", (я "none" прописал) это же прямая инструкция. В яндексе отображается ошибка 404 (не уверен).

А как на такое смотрите Clean-param: f /viewtopic.php 8-)
Аватара пользователя
Kuskow
phpBB 1.4.4
Сообщения: 160
Стаж: 7 лет 10 месяцев
Откуда: Караганда
Благодарил (а): 25 раз
Поблагодарили: 15 раз

Re: robots.txt и версия 3.2

Сообщение Kuskow »

ciiz1 писал(а): 16.06.2020 21:52 А как на такое смотрите Clean-param: f /viewtopic.php
Я смотрю шире:
Kuskow писал(а): 15.06.2020 4:54

Код: Выделить всё

# Не учитывать эти параметры при индексировании Яндексом:
Clean-param: sid&f&e&hilit&view /viewtopic.php  # на страницах тем
Clean-param: sid  # на всех остальных страницах

Вернуться в «phpBB-пространство»