robots.txt для 3.x

Сообщение **Siava** » 04.02.2020 14:14

S4astliff4ik, А.. ну значит закомментированные строки это. Исключенные из обработки.

S4astliff4ik · Сообщение **S4astliff4ik** » 08.02.2020 14:54

Скажите, пожалуйста, что-нить нужно добавить или удалить:

User-agent: *
Disallow: /adm
Disallow: /cache
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /ucp.php
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Clean-param: sid /index.php
Clean-param: sid /viewtopic.php
Clean-param: sid /viewforum.php
Host: gac-forum.ru

Отправлено спустя 4 минуты 55 секунд:
В вебмастере Яндекса - проверял - 0 ошибок.

al36rus · Сообщение **al36rus** » 24.04.2020 0:11

Блин, тема вызывает больше вопросов, чем дает решений.
Выложите, пожалуйста, нормальный файл robots.txt (в частности, рабочий для 3.2.9)

Сообщение **Татьяна5** » 24.04.2020 6:12

Зависит от целей
По-хорошему в 3.2 можно обойтись без него

ciiz1 · Сообщение **ciiz1** » 24.04.2020 9:48

Что то я никогда =next и =previous не видел это где? только top.

al36rus · Сообщение **al36rus** » 24.04.2020 14:24

Татьяна5 писал(а): 24.04.2020 6:12 Зависит от целей
По-хорошему в 3.2 можно обойтись без него

Цели обычные - нормальная индексация в поисковых системах.
Карта сайта генерируется модом шреддера (вроде нормально работает, но для таких разрабов есть отдельный котел в аду за рекламный инклуд в футер).
Осталось решить вопрос с разрешениями для роботов, но если он не нужен - еще проще.

Kuskow · Сообщение **Kuskow** » 21.05.2020 6:31

Долго думал, экспериментировал, пришёл к выводу, что вот такие строчки не полезны именно для форума:

regina68 писал(а): 31.05.2017 23:23
Код: Выделить всё
Disallow: /viewtopic.php*p=*
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?t=*&p=*

Если форуму как месту обсуждений важно и полезно, чтобы новые обсуждалки поскорей попадали в индексы поисковиков, то как раз индексирование ?p= будет способствовать этому. Некоторые пользователи ходят на форум через Google Chrome и Яндекс.Браузер, и если там специально не отключено "отсылать анонимную информацию...", то эти браузеры сообщают своим ботам о том, по каким страницам ходят люди. И как только видят, что какой-то URL отсутствует в их индексе, сразу же его индексируют, и он появляется в результатах поиска. То есть, вот это сообщение я сейчас отправлю, вам придёт уведомление, вы зайдёте на страницу /viewtopic.php?p=527429#p527429 из Яндекс.Браузера - и уже через пару минут эта страница со свежим сообщением появится в результатах поиска.
Удаление этих строчек из robots.txt не вызовет появления дубляжей, потому что есть CANONICAL. Правда, поначалу (до индексации канонической страницы) в индексе будут присутстовать адреса /viewtopic.php?p=, но это не страшно - впоследствии они будут заменены в индексе на канонические URL.
И всплеска нагрузки на сервер это не может вызвать - ну подумаешь, добавится пара-тройка новых псевдопользователей, прочитывающих на форуме каждое сообщение - разве ж это нагрузка?

Отправлено спустя 18 минут 38 секунд:

Tugus писал(а): 10.01.2019 22:08
Код: Выделить всё
User-agent: *
Disallow: /download

Вот это оказалось вредной штукой. Оно запрещает индексировать аватары, а без них на многих страницах совсем никаких изображений. А поисковики хотят иногда хоть какое-то изображение ставить в результат поиска. Да и в сохранённых страницах надо, чтобы их было видно, иначе совсем криво там получается.

Tugus писал(а): 10.01.2019 22:08
Код: Выделить всё
Disallow: /*?sid=*

Clean-param: sid /forum/index.php
Clean-param: sid /forum/viewforum.php
Clean-param: sid /forum/viewtopic.php

Вот эта конструкция избыточна и бессмысленна. Если sid запрещены к индексации, то и нет смысла чистить их из URL. Вот так, мне кажется, будет интересней, универсальней, эффективней:

Код: Выделить всё

Clean-param: sid
Clean-param: view&hilit /viewtopic.php

Отправлено спустя 37 минут 41 секунду:

S4astliff4ik писал(а): 08.02.2020 14:59 Скажите, пожалуйста, что-нить нужно добавить или удалить

Поскольку на Вашем сайте канонические URL тем имеют вид без указания форума:

Код: Выделить всё

<link rel="canonical" href="http://gac-forum.ru/viewtopic.php?t=119">

То я бы сделал так (красное удалить, синее добавить):

User-agent: *
Host: gac-forum.ru

Disallow: /adm
Disallow: /cache
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /ucp.php
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous

Clean-param: sid /index.php
Clean-param: sid f&view&hilit /viewtopic.php
Clean-param: sid /viewforum.php

Kuskow · Сообщение **Kuskow** » 21.05.2020 11:35

Вторая часть не обязательна. Если её нет, то sid будет исключаться из всех URL перед индексацией, что нам и нужно, в общем-то. Нам же этот параметр ни в каком случае не нужен. То есть, его нужно исключать, независимо от того, это раздел или тема, или главная страница.
https://yandex.ru/support/webmaster/rob ... param.html
Синтаксис директивы
Clean-param: p0[&p1&p2&..&pn] [path]

Да, это только для Яндекса действует, но хоть так. Google сам уже разбирается, что ему нужно, а что нет. Раньше можно было вручную прописать в интерфейсе Search Console. Теперь это исключили, почему-то https://support.google.com/webmasters/a ... 70658&rd=1

Kuskow · Сообщение **Kuskow** » 13.06.2020 5:39

ciiz1 писал(а): 11.06.2020 12:22 Так к слову, у меня почему то запрет в "robots.txt" срабатывает, а не "элементом nonindex", делал по вашей подсказке.

Так вот, я много лет и много раз читал фразу

Google писал(а):Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска Google. Если на других сайтах есть ссылки на вашу страницу, содержащие ее описание, то она все равно может быть проиндексирована, даже если роботу Googlebot запрещено ее посещать. Чтобы исключить страницу из результатов поиска, следует использовать другой метод, например защиту паролем или директиву noindex.

И теперь только оказалось, что понимал её неправильно

Слово "проиндексирована" для меня - это сканер обошёл страницу, анализатор проанализировал, слова посчитал, в индексы добавил. Отнюдь! Если страница заблокирована в robots.txt, то бот вообще не заходит на эту страницу никогда, а "проиндексирована" для Гугла означает лишь то, что страница попадает в результаты поиска. Если же она не просканирована, и её содержимое не проанализировано, то данные для отображения в поиске берутся из других источников (например, из контекста ссылки, откуда бот узнал осуществовании страницы). Мало того, страница такая может, вообще не существует, и сервер даст на неё ответы 3хх, 4хх, 5хх, но в результатах поиска она будет, всё равно, потому что бот даже не пытался её запросить для просмотра.

Исходя из этого, теперь считаю вредными следующие инструкции в robots.txt и их производные/уточнения (взял из примеров в этой теме):

Код: Выделить всё

Disallow: /*?sid=*
Disallow: /*&hilit=*
Disallow: /*&view=*
Disallow: /index.php*
Disallow: /viewforum.php?f=*&start=0$
Disallow: /viewtopic.php?*&view=print
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php*p=*
Disallow: /viewtopic.php?t=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Disallow: /view*&start=0$

То есть, не стоит закрывать от сканирования вообще любые адреса, связанные с viewtopic, viewforum, index. Всё это страницы с контентом, видимым для всех. На них пользователя разными путями попадают, а значит могут использовать эти адреса в качестве ссылок на других сайтах. И вот если где-то такая ссылка есть, а в robots.txt она закрыта для обхода, то поисковик даже не узнает, что это неканоническая страница, и для неё есть какая-то каноническая, и не сложит это воедино. Или не узнает, что такой страницы больше не существует, если она была удалена или перенесена в закрытый раздел, а в итоге пользователь из поиска попадёт на дулю (фигу).

Вот только во всей этой истории одна бяка портит все отношения - параметр hilit. Потому как попадая на страницу с таким параметром, бот индексирует всю тему с ним, с выделенными словами. Конечно, там тоже указана каноническая страница, но всё равно не очень. Вот как бы так сделать, чтобы параметр hilit нивелировать при обходе ботами?

Отправлено спустя 44 минуты 49 секунд:

Doroty123 писал(а): 14.01.2019 22:22 после перехода форума на версию 3.2.2 в вебмастере яндекса появились сотни дублей главной страницы. Как их правильно закрыть? Что бы сама главная не вылетела ?

Во всех этих дублях должен быть указан адрес канонической страницы, и он должен быть одинаковым. Посмотрите в html должно быть написано что-то такое:

Код: Выделить всё

<link rel="canonical" href="https://site.com/">

Если появились сотни дублей, значит каноническая страница не указана. Закрывать в index.php в robots.txt нежелательно.

Doroty123 писал(а): 14.01.2019 22:22 после перехода форума на версию 3.2.2
Код: Выделить всё
Disallow: /faq.php

В версии 3.2 FAQ находится по другому адресу /help/faq

Kuskow · Сообщение **Kuskow** » 15.06.2020 4:54

Kuskow писал(а): 21.05.2020 7:28
Tugus писал(а): 10.01.2019 22:08
Код: Выделить всё
Disallow: /*?sid=*

Clean-param: sid /forum/index.php
Clean-param: sid /forum/viewforum.php
Clean-param: sid /forum/viewtopic.php
Вот эта конструкция избыточна и бессмысленна. Если sid запрещены к индексации, то и нет смысла чистить их из URL. Вот так, мне кажется, будет интересней, универсальней, эффективней:
Код: Выделить всё
Clean-param: sid
Clean-param: view&hilit /viewtopic.php

Обнаружил у себя ошибку (упущение). Оказывается, если одна строка Clean-param (с самым длинным префиксом) подошла, то другие не учитываются. А значит sid надо указывать в каждой строке вот так:

Код: Выделить всё

# Не учитывать эти параметры при индексировании Яндексом:
Clean-param: sid&f&e&hilit&view /viewtopic.php  # на страницах тем
Clean-param: sid  # на всех остальных страницах

Заодно добавил туда параметр view. Так вернее получается. Пусть луче Яндекс не дёргается его индексировать из-за исключения параметра, нежели из-за noindex или Disallow. Зато если кто-то случайно оставит где-то такую ссылочку, она прибавится плюсиком к топику.

ciiz1 · Сообщение **ciiz1** » 15.06.2020 8:50

Kuskow писал(а): 15.06.2020 4:54 Clean-param: sid&f&e&hilit&view /viewtopic.php

1. Что то я не понял как эта строчка работает, а что такое &e или view?
2. А порядок следования тоже неважен?

Хорошо яндексу вы подсказали, так google наверное запутается в хвостах.
Что то я сомневаюсь что когда делали логику поисковика задумывали, а давай в robots.txt ведём Clean-param, все как начнут подвязывать к каноническим.
Легче в странице с ссылкой прочитать rel="canonical"
По крайней мере Яндекс объясняет так: Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Kuskow · Сообщение **Kuskow** » 15.06.2020 9:07

Clean-param работает только в Яндексе. Работает так: сначала из ссылки Яндекс для себя убирает (вычёркивает) все указанные в Clean-param параметры (аргументы с их значениями), а затем уже по преобразованной ссылке пытается индексировать страницу в соответствии с другими правилами. Например, если взять конкретно это правило: Clean-param: sid&f&e&hilit&view /viewtopic.php, то перед индексированием адреса будут преобразованы так:

https://www.phpbbguru.net/community/viewtopic.php?p=546584&hilit=Clean
->
https://www.phpbbguru.net/community/viewtopic.php?p=546584
То есть, будет просканирована эта страница (на которой Ваше сообщение), но без подсвечивания на ней найденного слова "Clean", как будто ссылка взята не из результатов поиска.

https://www.phpbbguru.net/community/viewtopic.php?f=42&t=47609&start=30&sid=9b805fee05&view=print
->
https://www.phpbbguru.net/community/viewtopic.php?t=47609&start=30
Эта ссылка вообще не будет сканироваться и индексироваться, поскольку уже проиндексирована третья страница этой темы, вряд ли бот будет обновлять её в индексе, так что это как будто он встретил ссылку на третью страницу этой темы без тех дополнительных параметров.

Kuskow · Сообщение **Kuskow** » 15.06.2020 15:44

ciiz1 писал(а): 15.06.2020 8:50 Хорошо яндексу вы подсказали, так google наверное запутается в хвостах.

Google не запутается, потому что в каждой странице есть Canonical URL, просто он будет сканировать больше страниц, нежели Яндекс. Но это уже его проблемы. (Шёпотом: я уже втихаря допилил код phpBB, и теперь у меня там для ботов стоит переадресация 301на канонические страницы, так сказать, свой Clean-param для всех ботов)

ciiz1 писал(а): 15.06.2020 8:50 Легче в странице с ссылкой прочитать rel="canonical"

Да, легче, но не для интернет-магазинов, у которых 100500 товаров и на каждый по 100500 ссылок, отличающихся размером, цветом и т.п. Так и написано в Яндексе. Страница одна, а ссылок может быть миллион, и все разные. Пользователи ведь не думают об этом.

ciiz1 писал(а): 15.06.2020 8:50 Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Да, именно так я и написал. Яндекс придумал это для себя, в первую очередь, чтобы не плодить кучу серверов для поиска одинаковых страниц.

ciiz1 · Сообщение **ciiz1** » 16.06.2020 21:52

Ну если уж к слову из моих наблюдений, sitemap - делаешь отдельную станицу без ссылок на неё, добавляешь в sitemap, две недели может быть индексация.
Обход по счётчикам, страница появляется на следующее утро, и Canonical.
robots.txt, как будто обходит невзирая на него, а дня через два исключает (можете попробовать новую вновь созданную тему исключить, в robots.txt добавить).
О том что изменился robots.txt яндекс информирует в течении двух дней.

Я поэтому и очень обрадовался "noindex", (я "none" прописал) это же прямая инструкция. В яндексе отображается ошибка 404 (не уверен).

А как на такое смотрите Clean-param: f /viewtopic.php

Kuskow · Сообщение **Kuskow** » 17.06.2020 4:30

ciiz1 писал(а): 16.06.2020 21:52 А как на такое смотрите Clean-param: f /viewtopic.php

Я смотрю шире:

Kuskow писал(а): 15.06.2020 4:54

Код: Выделить всё

# Не учитывать эти параметры при индексировании Яндексом:
Clean-param: sid&f&e&hilit&view /viewtopic.php  # на страницах тем
Clean-param: sid  # на всех остальных страницах

phpBB Guru - Официальная русская поддержка форума phpBB

robots.txt для 3.x

Re: robot.txt и версия 3.2

Re: robot.txt и версия 3.2

Re: robot.txt и версия 3.2

Re: robot.txt и версия 3.2

Re: robot.txt и версия 3.2

Re: robot.txt и версия 3.2

Re: robot.txt и версия 3.2

Re: robot.txt и версия 3.2

Re: robots.txt и версия 3.2

Re: robots.txt и версия 3.2

Re: robots.txt и версия 3.2

Re: robots.txt и версия 3.2

Re: robots.txt и версия 3.2

Re: robots.txt и версия 3.2

Re: robots.txt и версия 3.2