Кричащий туман SEO Spider нет в Ubuntu 13.10

Я сделал эти нежелательные страницы noindex (используя HTTP-заголовок «X-Robots-Tag: noindex»). Затем я удалил эти страницы с помощью инструмента «Удалить URL-адреса» в консоли поиска.

Эти страницы на некоторое время исчезли из Google, но теперь они вернулись (и я действительно не хочу их там).

Что мне не хватает?

P.S. В настоящее время эти страницы отображаются как «Просрочено» в разделе «Удалить URL-адреса» в консоли поиска.

РЕДАКТИРОВАТЬ: эти страницы не заблокированы в robots.txt

РЕДАКТИРОВАТЬ2: Вот как эти страницы выглядят в «Проверка URL» в консоли поиска Google (однако, вопреки тому, что говорит консоль поиска, эти страницы появляются в результатах поиска Google):

  • 1 Они заблокированы в robots.txt? Если это так, Google не может увидеть директиву noindex, потому что не может их сканировать. Каков пример URL-адреса и каково содержимое вашего файла robots.txt?
  • @StephenOstermiller Я перепроверил, эти страницы не заблокированы в robots.txt.Пара примеров URL-адресов: example.com/buy, example.com//resourses1/libs/loaders.css Содержимое нашего файла robots.txt: User-agent: * Disallow: / demo / Disallow: / support / Disallow: / wp / Disallow: / downloads / Disallow: / uploads / Sitemap: example.com/sitemap.xml
  • 1 Значит, это должно быть что-то еще, я не знаю что. Надеюсь, у кого-то здесь появятся идеи получше.
  • У вас есть sitemap.xml? Эти страницы не должны появляться в sitemap.xml либо, если он у вас есть. Google «запутается», если страница находится в карте сайта и имеет флаг noindex.
  • Что вы имеете в виду под «исчезли из Google на какое-то время, но теперь они вернулись»? Вы говорите, что они появляются в результатах поиска Google. Это для поиска по сайту или для поиска в реальном мире?

На самом деле это очень часто; страницы, удаленные с помощью инструмента Google Search Console, не считаются постоянными. Google даже перечисляет это в Remove URLs раздел инструментов:

Удалить URL

Чтобы удалить контент навсегда, необходимо удалить или обновить исходную страницу. Временно удалите принадлежащие вам URL-адреса из результатов поиска.

Сложная часть того, что вы пытаетесь сделать, - это деиндексировать страницу, уже проиндексированную Google. После того, как Google проиндексирует страницу, он не хочет отпускать ее, даже если вы 404 или 410 страницу, со временем он будет периодически возвращаться и нажимать на нее, просто чтобы увидеть, вернулась ли страница.

Пока у вас есть правильный noindex теги установлены, все будет в порядке. Со временем Google и другие поисковые системы деиндексируют страницу, но главное здесь время. Вы можете объединить noindex теги с GSC Remove URLs инструмент для более быстрого эффекта.

Я бы сделал следующее: robots.txt Tester в консоли поиска Google и проверьте один из URL-адресов, которые вы пытаетесь деиндексировать с Google (например, ваш example.com/buy). Предполагая, что конфликтов нет, двигайтесь дальше, если есть конфликты, устраните их своим robots.txt файл, так как Google должен иметь возможность сканировать страницы, которые вы пытаетесь деиндексировать.

После подтверждения вашего robots.txt хорошо, я бы перешел к тому, чтобы убедиться, что у меня есть один или оба meta (предпочтительно) или header правильно настроен тег на страницах, которые вы хотите деиндексировать:

Использование метатега robots (предпочтительно)

<meta name='robots' content='noindex, nofollow'> 

Использование HTTP-заголовка X-Robots-Tag

X-Robots-Tag: noindex, nofollow 

Более подробную информацию об этом можно найти здесь.

Если все это будет сделано, вы должны в конечном итоге увидеть страницы, навсегда удаленные из индексов поисковой системы.

  • Думаю, ваш ответ сбивает с толку. Единственная проблема - это время. То есть команда «Удалить URL-адреса» была применена немедленно, но индекс не был обновлен как таковой, и если страницы не будут повторно проверены, Google не увидит «noindex» и, таким образом, по-прежнему будет просматривать эти страницы как индексируемые. Пока Google не перепроверит страницы, ничего особенного не произойдет.
  • @AlexisWilke Извините, я не совсем понимаю, что сбивает с толку. Remove URLs всегда применяется немедленно, но только потому, что это применяется к визуальным результатам поиска на страницах, например, на www.google.com, это не означает, что Google все еще не сканирует эти страницы и не увидит "noindex" тег. Remove URLs это больше filter по результатам поиска больше ничего не вернул.
  • Обратите внимание, что 'nofollow' в X-Robots-Tag (или мета), вероятно, бесполезен на этой странице. У вас должно быть rel='nofollow' на других страницах, которые ссылаются на эту страницу (если таковые имеются). В любом случае, в моем первом комментарии я хочу сказать, что вы должны сначала ответить на главный вопрос: «Почему я все еще вижу страницу, помеченную как 'noindex'?» затем продолжайте объяснять различные другие возможные проблемы и решения.
  • Спасибо @devnull, но я уже все это сделал. И, как я объяснил в вопросе, это не сработало. Я все еще вижу эти страницы, хотя я использовал как «Удалить URL-адреса», так и noindex.
  • @Sergey, если все это сделано, вам просто нужно набраться терпения и подождать, страницы со временем отвалятся. К сожалению, Google движется в своем собственном темпе, и в зависимости от страницы может пройти некоторое время, прежде чем вы увидите отраженные изменения. Мне жаль, что я не могу быть более конкретным.

Для вас трудились: Charles Robertson | Хотите связаться с нами?