Search Consoleの「robots.txt によりブロック」とは?
Search ConsoleのURL検査やページのインデックス登録で、robots.txt によるブロックが表示されることがあります。
これは、Googlebotが対象URLをクロールしないように、サイトのrobots.txtで制限されている状態です。公開したいページならブロックを外す必要があります。一方、検索結果に出したくないページなら、robots.txtだけで隠そうとしていないかを見直します。
先に結論
この表示が出たら、次の順番で確認します。
- そのURLをGoogle検索に出したいページか判断する
- Search ConsoleのURL検査で「クロールを許可?」を見る
https://example.com/robots.txtを直接開くUser-agent、Disallow、Allowの対象を確認する- 公開したいページなら、ブロックしているルールを外すか狭める
- 検索に出したくないページなら、robots.txtではなくnoindexやログイン保護を検討する
- 修正後にライブURLテストと数日後の再確認を行う
まず公開したいURLかを分ける
| URLの種類 | 判断 | 対応 |
|---|---|---|
| 公開したい記事やサービスページ | robots.txtブロックは基本的に外す | Disallowを削除、または範囲を狭める |
| CSS、JS、画像など表示に必要なファイル | Googleのレンダリングに必要なら許可する | 重要リソースをブロックしていないか確認する |
| 管理画面、テスト環境、会員ページ | 検索に出したくないなら別対策が必要 | ログイン保護、Basic認証、noindexを検討する |
| 検索結果に出したくない下書き | robots.txtだけでは不十分 | noindexを読ませるにはクロール許可も必要 |
| 重複や絞り込みURL | クロール節約目的ならあり得る | canonical、サイトマップ、内部リンクも整理する |
robots.txtで見落としやすい指定
robots.txtは短いファイルでも、指定範囲が広いと公開ページまで止めてしまいます。
| 指定例 | 意味 | 注意 |
|---|---|---|
Disallow: / | サイト全体をクロールしない | 本番に残すと公開ページも止まる |
Disallow: /templates/ | templates配下を止める | 記事が入っているなら危険 |
Disallow: /assets/ | CSSや画像を止める | Googleが表示を理解しにくくなることがある |
User-agent: Googlebot | Googlebotだけに指定 | 他のUser-agent指定と混同しない |
AllowとDisallowの併用 | 一部だけ許可する | どのルールが勝つか確認する |
noindexとの違い
robots.txtは「クロールしないでください」という指定です。noindexは「検索結果に登録しないでください」という指定です。
Google公式情報では、noindexを認識するにはGoogleがページにアクセスできる必要があると説明されています。つまり、robots.txtでブロックしたままnoindexを入れても、Googleがnoindexを読めないことがあります。
検索結果から消したい時の注意
検索結果に出したくないページをrobots.txtだけで止めるのは、考え方として危険です。他のページからリンクされていれば、URLだけ認識される可能性があります。確実に見せたくない情報は、ログイン保護や削除を優先します。
公開したいページなら確認すること
- 対象URLが本当に本番URLか
/robots.txtをブラウザで開けるか- 対象URLのパスが
Disallowに当たっていないか - Search ConsoleのURL検査で「クロールを許可?」が「はい」になるか
- ライブURLテストでページ取得が成功するか
- XMLサイトマップに公開したいURLだけが入っているか
- 内部リンクがブロックされたURLではなく正規URLへ向いているか
ロリポップや自作PHPサイトで多い原因
| 原因 | 見る場所 |
|---|---|
テスト時のDisallow: /を本番に残した | robots.txt、FTPのアップロード履歴 |
| 記事フォルダを丸ごとブロックしている | Disallow: /templates/などの行 |
| CSSやJSを止めている | /assets/、/css/、/js/の指定 |
| 古いドメインのrobots.txtを見ている | http/https、wwwありなし、サブドメイン |
| noindex目的でrobots.txtを使っている | noindex記事、テスト環境記事、管理ページ |
AIへ相談する時のメモ
robots.txtは1行の指定で広範囲へ影響します。AIへ相談する時は、対象URLとrobots.txtの全文をセットで渡します。ログイン情報やSearch Consoleの所有者情報は伏せてください。
Search Consoleでrobots.txtによるブロックが表示されています。
対象URL:
このURLは検索結果に出したいですか:
はい / いいえ / 迷っている
Search Consoleの表示:
URL検査の「クロールを許可?」:
ライブURLテスト結果:
robots.txtのURL:
robots.txtの内容:
(ここに貼る)
サイトマップに含まれているか:
内部リンクで使っているURL:
確認してほしいこと:
1. 対象URLをブロックしている行はどれか
2. 公開したいページなら、どの指定を直すべきか
3. 検索結果に出したくないページなら、robots.txtではなくnoindexやログイン保護が必要か
4. サイトマップや内部リンクに矛盾がないか
5. 修正後にSearch Consoleで何を確認すべきか