Copicode 日本語トップ

Search Consoleの「robots.txt によりブロック」とは?

Search ConsoleのURL検査やページのインデックス登録で、robots.txt によるブロックが表示されることがあります。

これは、Googlebotが対象URLをクロールしないように、サイトのrobots.txtで制限されている状態です。公開したいページならブロックを外す必要があります。一方、検索結果に出したくないページなら、robots.txtだけで隠そうとしていないかを見直します。

先に結論

この表示が出たら、次の順番で確認します。

  1. そのURLをGoogle検索に出したいページか判断する
  2. Search ConsoleのURL検査で「クロールを許可?」を見る
  3. https://example.com/robots.txtを直接開く
  4. User-agentDisallowAllowの対象を確認する
  5. 公開したいページなら、ブロックしているルールを外すか狭める
  6. 検索に出したくないページなら、robots.txtではなくnoindexやログイン保護を検討する
  7. 修正後にライブURLテストと数日後の再確認を行う

まず公開したいURLかを分ける

URLの種類判断対応
公開したい記事やサービスページrobots.txtブロックは基本的に外すDisallowを削除、または範囲を狭める
CSS、JS、画像など表示に必要なファイルGoogleのレンダリングに必要なら許可する重要リソースをブロックしていないか確認する
管理画面、テスト環境、会員ページ検索に出したくないなら別対策が必要ログイン保護、Basic認証、noindexを検討する
検索結果に出したくない下書きrobots.txtだけでは不十分noindexを読ませるにはクロール許可も必要
重複や絞り込みURLクロール節約目的ならあり得るcanonical、サイトマップ、内部リンクも整理する

robots.txtで見落としやすい指定

robots.txtは短いファイルでも、指定範囲が広いと公開ページまで止めてしまいます。

指定例意味注意
Disallow: /サイト全体をクロールしない本番に残すと公開ページも止まる
Disallow: /templates/templates配下を止める記事が入っているなら危険
Disallow: /assets/CSSや画像を止めるGoogleが表示を理解しにくくなることがある
User-agent: GooglebotGooglebotだけに指定他のUser-agent指定と混同しない
AllowDisallowの併用一部だけ許可するどのルールが勝つか確認する

noindexとの違い

robots.txtは「クロールしないでください」という指定です。noindexは「検索結果に登録しないでください」という指定です。

Google公式情報では、noindexを認識するにはGoogleがページにアクセスできる必要があると説明されています。つまり、robots.txtでブロックしたままnoindexを入れても、Googleがnoindexを読めないことがあります。

検索結果から消したい時の注意

検索結果に出したくないページをrobots.txtだけで止めるのは、考え方として危険です。他のページからリンクされていれば、URLだけ認識される可能性があります。確実に見せたくない情報は、ログイン保護や削除を優先します。

公開したいページなら確認すること

ロリポップや自作PHPサイトで多い原因

原因見る場所
テスト時のDisallow: /を本番に残したrobots.txt、FTPのアップロード履歴
記事フォルダを丸ごとブロックしているDisallow: /templates/などの行
CSSやJSを止めている/assets//css//js/の指定
古いドメインのrobots.txtを見ているhttp/https、wwwありなし、サブドメイン
noindex目的でrobots.txtを使っているnoindex記事、テスト環境記事、管理ページ

AIへ相談する時のメモ

robots.txtは1行の指定で広範囲へ影響します。AIへ相談する時は、対象URLとrobots.txtの全文をセットで渡します。ログイン情報やSearch Consoleの所有者情報は伏せてください。

Search Consoleでrobots.txtによるブロックが表示されています。

対象URL:

このURLは検索結果に出したいですか:
はい / いいえ / 迷っている

Search Consoleの表示:

URL検査の「クロールを許可?」:

ライブURLテスト結果:

robots.txtのURL:

robots.txtの内容:
(ここに貼る)

サイトマップに含まれているか:

内部リンクで使っているURL:

確認してほしいこと:
1. 対象URLをブロックしている行はどれか
2. 公開したいページなら、どの指定を直すべきか
3. 検索結果に出したくないページなら、robots.txtではなくnoindexやログイン保護が必要か
4. サイトマップや内部リンクに矛盾がないか
5. 修正後にSearch Consoleで何を確認すべきか

公式情報で確認する