Search Consoleの401/403は「Googlebotが入れない」状態から切り分ける
Search Consoleで「未承認のリクエスト(401)」「アクセス禁止(403)」が出た時は、ページの内容を直す前に、GooglebotがそのURLへ入れるかを確認します。
404はページが見つからない状態、5xxはサーバー側の失敗ですが、401/403は「ページはあるかもしれないが、アクセスが拒否されている」状態です。公開したい記事なら制限を外し、非公開ページならサイトマップや内部リンクから送らないよう整理します。
先に結論
- 対象URLが公開したいページか、非公開でよいページか決める
- シークレットウィンドウでログインなしに開けるか確認する
- Basic認証、ログイン必須、IP制限、WAF、.htaccessを確認する
- URL検査のライブテストで現在の取得状態を見る
- 公開したいページなら、Googlebotを含む未ログインユーザーが200で取得できる状態にする
- 非公開ページなら、サイトマップと公開導線から外す
- 修正後にURL検査で再確認し、必要ならインデックス登録をリクエストする
401と403の違い
どちらもGooglebotがページを取得できない状態ですが、意味が少し違います。
| 表示・HTTP状態 | 意味 | よくある原因 |
|---|---|---|
| 未承認のリクエスト(401) | 認証が必要で、認証なしではページを見られない | Basic認証、ログイン必須、会員ページ、テスト環境の保護 |
| アクセス禁止(403) | アクセス権限がないとして拒否されている | IP制限、WAF、.htaccessのRequire/deny、サーバー権限、国別制限 |
| robots.txtブロック | クロールをルールで止めている | Disallow の指定 |
| noindex | 取得はできるが検索結果に出さない指示 | meta robots、X-Robots-Tag |
401/403は、robots.txtブロックやnoindexと違い、ページ取得そのものが止まっていることが多いです。
公開したいページか、非公開でよいページか
まず、このURLをGoogle検索に出したいのかを決めます。ここを決めずに制限を外すと、管理画面や会員ページを公開してしまう危険があります。
| URLの種類 | 対応 | 見る場所 |
|---|---|---|
| 公開したい記事・固定ページ | 認証やアクセス制限を外し、200で取得できるようにする | Basic認証、WAF、.htaccess、公開フォルダ |
| テスト環境・下書き | 検索に出さないなら制限は維持し、サイトマップから外す | サイトマップ、内部リンク、canonical |
| 会員専用ページ | 非公開なら401/403でよいが、公開ページから誤リンクしていないか確認する | ナビ、一覧、関連記事、sitemap.php |
| 管理画面・設定ファイル | 検索対象にしない。公開導線を作らない | 内部リンク、robots、アクセスログ |
シークレットウィンドウで確認する
ログイン中のブラウザでは見えるのに、Googlebotには見えないことがあります。最初にシークレットウィンドウや別ブラウザで、未ログイン状態の表示を確認します。
- シークレットウィンドウで対象URLを開く
- ログイン画面へ飛ばされない
- Basic認証のユーザー名・パスワード入力が出ない
- 403 ForbiddenやAccess Deniedが出ない
- 海外IPや特定User-Agentだけ拒否していない
- URL検査のライブテストで「ページの取得」が成功する
よくある原因と直し方
| 原因 | 状態 | 直し方 |
|---|---|---|
| Basic認証 | 公開前の保護が残っている | 公開したいページやディレクトリから認証を外す |
| ログイン必須 | 未ログインでは記事本文が見えない | 公開記事はログインなしで本文を出す。会員限定ならサイトマップから外す |
| IP制限 | 自分の回線だけ見えて、Googlebotは拒否される | 公開ページのIP制限を外す。許可する場合はGooglebotの確認を慎重に行う |
| WAF・セキュリティ設定 | 特定のアクセスを403にしている | WAFログやサーバー設定を見て、公開ページへの過剰ブロックを調整する |
| .htaccess | Deny from all や Require all denied が残っている | 対象ディレクトリのアクセス制限を確認し、公開範囲だけ許可する |
| ファイル・フォルダ権限 | サーバーが読む権限を持てず403になる | サーバー推奨の権限へ戻し、公開ファイルを読み取れる状態にする |
robots.txtやnoindexと混同しない
公開したいページが検索に出ない時、robots.txt、noindex、401/403は似て見えますが、直す場所が違います。
| 状態 | Googlebotの取得 | 直す場所 |
|---|---|---|
| 401/403 | ページに入れない | 認証、アクセス制限、WAF、.htaccess |
| robots.txtブロック | クロールしないよう指示されている | /robots.txt |
| noindex | ページは取得できるが登録しない指示がある | meta robots、X-Robots-Tag |
| 404 | URLが存在しない | URL、公開フォルダ、サイトマップ、内部リンク |
サイトマップと内部リンクから外す判断
非公開のままでよいURLなら、Googleに「登録してほしいURL」として送らないことが大切です。
- 会員ページや管理画面をXMLサイトマップに入れない
- 公開記事の関連記事から非公開ページへリンクしない
- テスト環境URLをcanonicalやOGPに入れない
- 公開予定ページは、認証解除後にサイトマップへ入れる
AIに渡す調査メモ
401/403は、見えている人と見えていない人が分かれやすいトラブルです。ログイン状態、認証、サーバー制限をまとめて渡すと切り分けが早くなります。
Search Consoleで401/403系のブロックが出ています。
対象URL:
Search Consoleの表示:
未承認のリクエスト(401) / アクセス禁止(403) / その他
このURLは公開したいですか:
公開したい / 非公開でよい / 不明
シークレットウィンドウで開いた結果:
200 / 401 / 403 / ログイン画面 / Basic認証 / 未確認
URL検査ライブテスト:
ページの取得:
Basic認証:
あり / なし / 未確認
ログイン必須:
あり / なし / 未確認
IP制限・WAF:
あり / なし / 未確認
.htaccessで関係しそうな記述:
サイトマップに入っていますか:
あり / なし / 未確認
内部リンクしていますか:
あり / なし / 未確認
公開したいページとして制限を外すべきか、非公開ページとしてサイトマップや内部リンクから外すべきかを切り分けてください。