robots.txt для 3.x
Правила форума
Местная Конституция | Шаблон запроса | Документация (phpBB3) | Переход на 3.0.6 и выше | FAQ | Как задавать вопросы | Как устанавливать расширения
Ваш вопрос может быть удален без объяснения причин, если на него есть ответы по приведённым ссылкам (а вы рискуете получить предупреждение
).
Местная Конституция | Шаблон запроса | Документация (phpBB3) | Переход на 3.0.6 и выше | FAQ | Как задавать вопросы | Как устанавливать расширения
Ваш вопрос может быть удален без объяснения причин, если на него есть ответы по приведённым ссылкам (а вы рискуете получить предупреждение

-
- Поддержка
- Сообщения: 5426
- Стаж: 20 лет 3 месяца
- Откуда: Питер
- Благодарил (а): 177 раз
- Поблагодарили: 749 раз
Re: robot.txt и версия 3.2
S4astliff4ik, А.. ну значит закомментированные строки это. Исключенные из обработки.
Еще одно нарушение правил и будете забанены. © Mr. Anderson
Ты очистил кеш? © Sheer
https://siava.ru (phpbb2.0.x 3.5.x)
Ты очистил кеш? © Sheer
https://siava.ru (phpbb
-
- phpBB 1.2.1
- Сообщения: 27
- Стаж: 15 лет
- Благодарил (а): 11 раз
Re: robot.txt и версия 3.2
Скажите, пожалуйста, что-нить нужно добавить или удалить:
User-agent: *
Disallow: /adm
Disallow: /cache
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /ucp.php
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Clean-param: sid /index.php
Clean-param: sid /viewtopic.php
Clean-param: sid /viewforum.php
Host: gac-forum.ru
Отправлено спустя 4 минуты 55 секунд:
В вебмастере Яндекса - проверял - 0 ошибок.
User-agent: *
Disallow: /adm
Disallow: /cache
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /ucp.php
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Clean-param: sid /index.php
Clean-param: sid /viewtopic.php
Clean-param: sid /viewforum.php
Host: gac-forum.ru
Отправлено спустя 4 минуты 55 секунд:
В вебмастере Яндекса - проверял - 0 ошибок.
-
- phpBB 1.4.2
- Сообщения: 68
- Стаж: 5 лет 3 месяца
- Благодарил (а): 17 раз
- Поблагодарили: 3 раза
- Забанен: Бессрочно
Re: robot.txt и версия 3.2
Блин, тема вызывает больше вопросов, чем дает решений.
Выложите, пожалуйста, нормальный файл robots.txt (в частности, рабочий для 3.2.9)
Выложите, пожалуйста, нормальный файл robots.txt (в частности, рабочий для 3.2.9)
-
- Поддержка
- Сообщения: 12752
- Стаж: 13 лет 8 месяцев
- Благодарил (а): 159 раз
- Поблагодарили: 2276 раз
-
- phpBB 1.4.2
- Сообщения: 68
- Стаж: 5 лет 3 месяца
- Благодарил (а): 17 раз
- Поблагодарили: 3 раза
- Забанен: Бессрочно
Re: robot.txt и версия 3.2
Цели обычные - нормальная индексация в поисковых системах.
Карта сайта генерируется модом шреддера (вроде нормально работает, но для таких разрабов есть отдельный котел в аду за рекламный инклуд в футер).
Осталось решить вопрос с разрешениями для роботов, но если он не нужен - еще проще.
-
- phpBB 1.4.4
- Сообщения: 166
- Стаж: 8 лет 11 месяцев
- Откуда: Караганда
- Благодарил (а): 15 раз
- Поблагодарили: 14 раз
Re: robot.txt и версия 3.2
Долго думал, экспериментировал, пришёл к выводу, что вот такие строчки не полезны именно для форума:
Удаление этих строчек из robots.txt не вызовет появления дубляжей, потому что есть CANONICAL. Правда, поначалу (до индексации канонической страницы) в индексе будут присутстовать адреса /viewtopic.php?p=, но это не страшно - впоследствии они будут заменены в индексе на канонические URL.
И всплеска нагрузки на сервер это не может вызвать - ну подумаешь, добавится пара-тройка новых псевдопользователей, прочитывающих на форуме каждое сообщение - разве ж это нагрузка?
Отправлено спустя 18 минут 38 секунд:
Отправлено спустя 37 минут 41 секунду:
То я бы сделал так (красное удалить, синее добавить):
User-agent: *
Host: gac-forum.ru
Disallow: /adm
Disallow: /cache
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /ucp.php
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Clean-param: sid /index.php
Clean-param: sid f&view&hilit /viewtopic.php
Clean-param: sid /viewforum.php
Если форуму как месту обсуждений важно и полезно, чтобы новые обсуждалки поскорей попадали в индексы поисковиков, то как раз индексирование ?p= будет способствовать этому. Некоторые пользователи ходят на форум через Google Chrome и Яндекс.Браузер, и если там специально не отключено "отсылать анонимную информацию...", то эти браузеры сообщают своим ботам о том, по каким страницам ходят люди. И как только видят, что какой-то URL отсутствует в их индексе, сразу же его индексируют, и он появляется в результатах поиска. То есть, вот это сообщение я сейчас отправлю, вам придёт уведомление, вы зайдёте на страницу /viewtopic.php?p=527429#p527429 из Яндекс.Браузера - и уже через пару минут эта страница со свежим сообщением появится в результатах поиска.regina68 писал(а): 31.05.2017 23:23Код: Выделить всё
Disallow: /viewtopic.php*p=* Disallow: /viewtopic.php?p=* Disallow: /viewtopic.php?t=*&p=*
Удаление этих строчек из robots.txt не вызовет появления дубляжей, потому что есть CANONICAL. Правда, поначалу (до индексации канонической страницы) в индексе будут присутстовать адреса /viewtopic.php?p=, но это не страшно - впоследствии они будут заменены в индексе на канонические URL.
И всплеска нагрузки на сервер это не может вызвать - ну подумаешь, добавится пара-тройка новых псевдопользователей, прочитывающих на форуме каждое сообщение - разве ж это нагрузка?
Отправлено спустя 18 минут 38 секунд:
Вот это оказалось вредной штукой. Оно запрещает индексировать аватары, а без них на многих страницах совсем никаких изображений. А поисковики хотят иногда хоть какое-то изображение ставить в результат поиска. Да и в сохранённых страницах надо, чтобы их было видно, иначе совсем криво там получается.
Вот эта конструкция избыточна и бессмысленна. Если sid запрещены к индексации, то и нет смысла чистить их из URL. Вот так, мне кажется, будет интересней, универсальней, эффективней:Tugus писал(а): 10.01.2019 22:08Код: Выделить всё
Disallow: /*?sid=* Clean-param: sid /forum/index.php Clean-param: sid /forum/viewforum.php Clean-param: sid /forum/viewtopic.php
Код: Выделить всё
Clean-param: sid
Clean-param: view&hilit /viewtopic.php
Поскольку на Вашем сайте канонические URL тем имеют вид без указания форума:
Код: Выделить всё
<link rel="canonical" href="http://gac-forum.ru/viewtopic.php?t=119">
User-agent: *
Host: gac-forum.ru
Disallow: /adm
Disallow: /cache
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /ucp.php
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Clean-param: sid /index.php
Clean-param: sid f&view&hilit /viewtopic.php
Clean-param: sid /viewforum.php
-
- phpBB 1.4.4
- Сообщения: 166
- Стаж: 8 лет 11 месяцев
- Откуда: Караганда
- Благодарил (а): 15 раз
- Поблагодарили: 14 раз
Re: robot.txt и версия 3.2
Вторая часть не обязательна. Если её нет, то sid будет исключаться из всех URL перед индексацией, что нам и нужно, в общем-то. Нам же этот параметр ни в каком случае не нужен. То есть, его нужно исключать, независимо от того, это раздел или тема, или главная страница.
https://yandex.ru/support/webmaster/rob ... param.html
Синтаксис директивы
Clean-param: p0[&p1&p2&..&pn] [path]
Да, это только для Яндекса действует, но хоть так. Google сам уже разбирается, что ему нужно, а что нет. Раньше можно было вручную прописать в интерфейсе Search Console. Теперь это исключили, почему-то https://support.google.com/webmasters/a ... 70658&rd=1
https://yandex.ru/support/webmaster/rob ... param.html
Синтаксис директивы
Clean-param: p0[&p1&p2&..&pn] [path]
Да, это только для Яндекса действует, но хоть так. Google сам уже разбирается, что ему нужно, а что нет. Раньше можно было вручную прописать в интерфейсе Search Console. Теперь это исключили, почему-то https://support.google.com/webmasters/a ... 70658&rd=1
-
- phpBB 1.4.4
- Сообщения: 166
- Стаж: 8 лет 11 месяцев
- Откуда: Караганда
- Благодарил (а): 15 раз
- Поблагодарили: 14 раз
Re: robots.txt и версия 3.2
Так вот, я много лет и много раз читал фразуciiz1 писал(а): 11.06.2020 12:22 Так к слову, у меня почему то запрет в "robots.txt" срабатывает, а не "элементом nonindex", делал по вашей подсказке.
И теперь только оказалось, что понимал её неправильноGoogle писал(а):Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска Google. Если на других сайтах есть ссылки на вашу страницу, содержащие ее описание, то она все равно может быть проиндексирована, даже если роботу Googlebot запрещено ее посещать. Чтобы исключить страницу из результатов поиска, следует использовать другой метод, например защиту паролем или директиву noindex.

Слово "проиндексирована" для меня - это сканер обошёл страницу, анализатор проанализировал, слова посчитал, в индексы добавил. Отнюдь! Если страница заблокирована в robots.txt, то бот вообще не заходит на эту страницу никогда, а "проиндексирована" для Гугла означает лишь то, что страница попадает в результаты поиска. Если же она не просканирована, и её содержимое не проанализировано, то данные для отображения в поиске берутся из других источников (например, из контекста ссылки, откуда бот узнал осуществовании страницы). Мало того, страница такая может, вообще не существует, и сервер даст на неё ответы 3хх, 4хх, 5хх, но в результатах поиска она будет, всё равно, потому что бот даже не пытался её запросить для просмотра.
Исходя из этого, теперь считаю вредными следующие инструкции в robots.txt и их производные/уточнения (взял из примеров в этой теме):
Код: Выделить всё
Disallow: /*?sid=*
Disallow: /*&hilit=*
Disallow: /*&view=*
Disallow: /index.php*
Disallow: /viewforum.php?f=*&start=0$
Disallow: /viewtopic.php?*&view=print
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php*p=*
Disallow: /viewtopic.php?t=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Disallow: /view*&start=0$
Вот только во всей этой истории одна бяка портит все отношения - параметр hilit. Потому как попадая на страницу с таким параметром, бот индексирует всю тему с ним, с выделенными словами. Конечно, там тоже указана каноническая страница, но всё равно не очень. Вот как бы так сделать, чтобы параметр hilit нивелировать при обходе ботами?
Отправлено спустя 44 минуты 49 секунд:
Во всех этих дублях должен быть указан адрес канонической страницы, и он должен быть одинаковым. Посмотрите в html должно быть написано что-то такое:Doroty123 писал(а): 14.01.2019 22:22 после перехода форума на версию 3.2.2 в вебмастере яндекса появились сотни дублей главной страницы. Как их правильно закрыть? Что бы сама главная не вылетела ?
Код: Выделить всё
<link rel="canonical" href="https://site.com/">
В версии 3.2 FAQ находится по другому адресуDoroty123 писал(а): 14.01.2019 22:22 после перехода форума на версию 3.2.2Код: Выделить всё
Disallow: /faq.php
/help/faq
-
- phpBB 1.4.4
- Сообщения: 166
- Стаж: 8 лет 11 месяцев
- Откуда: Караганда
- Благодарил (а): 15 раз
- Поблагодарили: 14 раз
Re: robots.txt и версия 3.2
Обнаружил у себя ошибку (упущение). Оказывается, если одна строка Clean-param (с самым длинным префиксом) подошла, то другие не учитываются. А значит sid надо указывать в каждой строке вот так:Kuskow писал(а): 21.05.2020 7:28Вот эта конструкция избыточна и бессмысленна. Если sid запрещены к индексации, то и нет смысла чистить их из URL. Вот так, мне кажется, будет интересней, универсальней, эффективней:Tugus писал(а): 10.01.2019 22:08Код: Выделить всё
Disallow: /*?sid=* Clean-param: sid /forum/index.php Clean-param: sid /forum/viewforum.php Clean-param: sid /forum/viewtopic.php
Код: Выделить всё
Clean-param: sid Clean-param: view&hilit /viewtopic.php
Код: Выделить всё
# Не учитывать эти параметры при индексировании Яндексом:
Clean-param: sid&f&e&hilit&view /viewtopic.php # на страницах тем
Clean-param: sid # на всех остальных страницах
noindex
или Disallow
. Зато если кто-то случайно оставит где-то такую ссылочку, она прибавится плюсиком к топику.-
- phpBB 2.0.4
- Сообщения: 445
- Стаж: 7 лет 8 месяцев
- Благодарил (а): 92 раза
- Поблагодарили: 27 раз
Re: robots.txt и версия 3.2
1. Что то я не понял как эта строчка работает, а что такое &e или view?
2. А порядок следования тоже неважен?
Хорошо яндексу вы подсказали, так google наверное запутается в хвостах.
Что то я сомневаюсь что когда делали логику поисковика задумывали, а давай в robots.txt ведём Clean-param, все как начнут подвязывать к каноническим.
Легче в странице с ссылкой прочитать rel="canonical"
По крайней мере Яндекс объясняет так: Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.
-
- phpBB 1.4.4
- Сообщения: 166
- Стаж: 8 лет 11 месяцев
- Откуда: Караганда
- Благодарил (а): 15 раз
- Поблагодарили: 14 раз
Re: robots.txt и версия 3.2
Clean-param работает только в Яндексе. Работает так: сначала из ссылки Яндекс для себя убирает (вычёркивает) все указанные в Clean-param параметры (аргументы с их значениями), а затем уже по преобразованной ссылке пытается индексировать страницу в соответствии с другими правилами. Например, если взять конкретно это правило:
->
То есть, будет просканирована эта страница (на которой Ваше сообщение), но без подсвечивания на ней найденного слова "Clean", как будто ссылка взята не из результатов поиска.
->
Эта ссылка вообще не будет сканироваться и индексироваться, поскольку уже проиндексирована третья страница этой темы, вряд ли бот будет обновлять её в индексе, так что это как будто он встретил ссылку на третью страницу этой темы без тех дополнительных параметров.
Clean-param: sid&f&e&hilit&view /viewtopic.php
, то перед индексированием адреса будут преобразованы так:https://www.phpbbguru.net/community/viewtopic.php?p=546584&hilit=Clean
->
https://www.phpbbguru.net/community/viewtopic.php?p=546584
То есть, будет просканирована эта страница (на которой Ваше сообщение), но без подсвечивания на ней найденного слова "Clean", как будто ссылка взята не из результатов поиска.
https://www.phpbbguru.net/community/viewtopic.php?f=42&t=47609&start=30&sid=9b805fee05&view=print
->
https://www.phpbbguru.net/community/viewtopic.php?t=47609&start=30
Эта ссылка вообще не будет сканироваться и индексироваться, поскольку уже проиндексирована третья страница этой темы, вряд ли бот будет обновлять её в индексе, так что это как будто он встретил ссылку на третью страницу этой темы без тех дополнительных параметров.
-
- phpBB 1.4.4
- Сообщения: 166
- Стаж: 8 лет 11 месяцев
- Откуда: Караганда
- Благодарил (а): 15 раз
- Поблагодарили: 14 раз
Re: robots.txt и версия 3.2
Google не запутается, потому что в каждой странице есть Canonical URL, просто он будет сканировать больше страниц, нежели Яндекс. Но это уже его проблемы. (Шёпотом: я уже втихаря допилил код phpBB, и теперь у меня там для ботов стоит переадресация 301на канонические страницы, так сказать, свой Clean-param для всех ботов)ciiz1 писал(а): 15.06.2020 8:50 Хорошо яндексу вы подсказали, так google наверное запутается в хвостах.
Да, легче, но не для интернет-магазинов, у которых 100500 товаров и на каждый по 100500 ссылок, отличающихся размером, цветом и т.п. Так и написано в Яндексе. Страница одна, а ссылок может быть миллион, и все разные. Пользователи ведь не думают об этом.
Да, именно так я и написал. Яндекс придумал это для себя, в первую очередь, чтобы не плодить кучу серверов для поиска одинаковых страниц.ciiz1 писал(а): 15.06.2020 8:50 Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.
-
- phpBB 2.0.4
- Сообщения: 445
- Стаж: 7 лет 8 месяцев
- Благодарил (а): 92 раза
- Поблагодарили: 27 раз
Re: robots.txt и версия 3.2
Ну если уж к слову из моих наблюдений, sitemap - делаешь отдельную станицу без ссылок на неё, добавляешь в sitemap, две недели может быть индексация.
Обход по счётчикам, страница появляется на следующее утро, и Canonical.
robots.txt, как будто обходит невзирая на него, а дня через два исключает (можете попробовать новую вновь созданную тему исключить, в robots.txt добавить).
О том что изменился robots.txt яндекс информирует в течении двух дней.
Я поэтому и очень обрадовался "noindex", (я "none" прописал) это же прямая инструкция. В яндексе отображается ошибка 404 (не уверен).
А как на такое смотрите Clean-param: f /viewtopic.php
Обход по счётчикам, страница появляется на следующее утро, и Canonical.
robots.txt, как будто обходит невзирая на него, а дня через два исключает (можете попробовать новую вновь созданную тему исключить, в robots.txt добавить).
О том что изменился robots.txt яндекс информирует в течении двух дней.
Я поэтому и очень обрадовался "noindex", (я "none" прописал) это же прямая инструкция. В яндексе отображается ошибка 404 (не уверен).
А как на такое смотрите Clean-param: f /viewtopic.php

-
- phpBB 1.4.4
- Сообщения: 166
- Стаж: 8 лет 11 месяцев
- Откуда: Караганда
- Благодарил (а): 15 раз
- Поблагодарили: 14 раз
Re: robots.txt и версия 3.2
Я смотрю шире:
Kuskow писал(а): 15.06.2020 4:54Код: Выделить всё
# Не учитывать эти параметры при индексировании Яндексом: Clean-param: sid&f&e&hilit&view /viewtopic.php # на страницах тем Clean-param: sid # на всех остальных страницах