検索エンジンをブロックする方法

ページ名:検索エンジンをブロックする方法

検索エンジンは、スパイダーやボットとも呼ばれるロボットを搭載しており、ウェブページをクロールしてインデックスを作成します。サイトやページが開発中であったり、機密性の高いコンテンツを含んでいたりする場合は、ボットによるクロールやインデックス作成をブロックすることをお勧めします。robots.txtファイルでウェブサイト全体、ページ、リンクをブロックし、<meta> </meta> htmlタグで特定のページやリンクをブロックする方法をご紹介します。特定のボットによるコンテンツへのアクセスをブロックする方法については、こちらをお読みください。

方法1

robots.txtファイルで検索エンジンをブロックする

  1. robots.txtファイルについて理解しましょう。robots.txtファイルとは、検索エンジンのスパイダーに、サイトへのアクセスを許可する内容を知らせる、プレーンまたはASCIIのテキストファイルです。robots.txtファイルに記載されているファイルやフォルダは、検索エンジンスパイダーによるクロールやインデックスができない場合があります。robots.txtファイルが必要になるのは、以下のような場合です:
    • 検索エンジンスパイダーから特定のコンテンツをブロックしたい場合。
    • ライブサイトを開発中で、検索エンジンスパイダーにクロールやインデックスをさせる準備ができていない場合。
    • 評判の良いボットへのアクセスを制限したい。
  2. robots.txtファイルを作成して保存します。ファイルを作成するには、プレーンテキストエディタまたはコードエディタを起動します。ファイルをrobots.txtとして保存する。ファイル名はすべて小文字にすること。
    • "s "を忘れないでください。
    • ファイルを保存する際は、拡張子「'.txt」を選択してください。Wordを使用している場合は、"Plain Text "オプションを選択してください。
  3. robots.txtに完全アクセス禁止を記述する。robots.txtに "full-disallow "と記述することで、評判の良い検索エンジンスパイダーがあなたのサイトをクロールしたりインデックスしたりするのをブロックすることができます。テキストファイルに以下の行を記述する:
      ユーザーエージェント* 不許可/
    • "full-disallow "robots.txtを使用することは強く推奨されません。Bingbotのようなボットがこのファイルを読むと、あなたのサイトをインデックスせず、検索エンジンはあなたのウェブサイトを表示しません。
    • User-agents: これは検索エンジンスパイダー、またはロボットの別名です。
    • *: アスタリスクは、このコードがすべてのユーザーエージェントに適用されることを意味します。
    • 不許可:/: スラッシュは、サイト全体がボットに立ち入り禁止であることを示します。
  4. 条件付きで許可するrobots.txtファイルを書きましょう。すべてのボットをブロックするのではなく、サイトの特定の領域から特定のスパイダーをブロックすることを検討してください。 一般的な条件付き許可コマンドは次のとおりです:
    • 特定のボットをブロックする:User-agentの横のアスタリスクをgooglebot、googlebot-news、googlebot-image、bingbot、teomaに置き換える。
    • ディレクトリとそのコンテンツをブロックする:
      User-agent:* 不許可:/サンプルディレクトリ/
    • ウェブページをブロックする:
      ユーザーエージェント:* 不許可/private_file.html
    • 画像をブロックする:
      User-agent: googlebot-image Disallow:/images_mypicture.jpg
    • すべての画像をブロックする:
      User-agent: googlebot-image 許容しない:/
    • 特定のファイル形式をブロックする:
      ユーザーエージェント* 不許可/p*.gif$
  5. ボットにインデックスとクロールを促す。多くの人は、サイト全体をインデックスさせたいので、検索エンジン・スパイダーをブロックする代わりに歓迎したいと考えています。そのためには、3つの選択肢がある。第一に、robots.txtファイルを作成しない。ロボットがrobots.txtファイルを見つけなければ、サイト全体をクロールし、インデックスし続ける。第二に、空のrobots.txtファイルを作成することができます-ロボットはrobots.txtファイルを見つけ、それが空であることを認識し、あなたのサイトをクロールし、インデックスを続行します。最後に、完全に許可するrobots.txtファイルを記述することができます。 コードを使用してください:
      ユーザーエージェントUser-agent: * Disallow:
    • googlebotのようなボットがこのファイルを読むと、あなたのサイト全体を自由に訪問できるようになります。
    • ユーザーエージェント:これは検索エンジンスパイダー、またはロボットの別名です。
    • *: アスタリスクは、このコードがすべてのユーザーエージェントに適用されることを意味します。
    • 不許可: 空白の不許可コマンドは、すべてのファイルとフォルダにアクセスできることを示します。
  6. txtファイルをドメインのルートに保存します。robots.txtファイルを書き込んだら、変更を保存します。ファイルをサイトのルート・ディレクトリにアップロードします。例えば、ドメインがwww.yourdomain.com の場合、robots.txtファイルはwww.yourdomain.com/robots.txt に置きます。
方法2

メタタグで検索エンジンをブロックする

  1. HTMLのrobotsメタタグを理解する。robots metaタグは、プログラマーがボット(検索エンジンスパイダー)用のパラメータを設定するためのものです。これらのタグは、ボットがサイト全体またはサイトの一部をインデックスしたりクロールしたりするのをブロックするために使用されます。また、これらのタグを使用して、特定の検索エンジンスパイダーによるコンテンツのインデックスをブロックすることもできます。これらのタグはHTMLファイルのhead内に記述します。
    • この方法は、ウェブサイトのルート・ディレクトリにアクセスできないプログラマーがよく使う。
  2. 単一のページからボットをブロックする。すべてのボットがページをインデックスしたり、ページのリンクをたどったりするのをブロックすることができます。このタグは、ライブサイトが開発中の場合によく使われます。サイトが完成したら、このタグを削除することを強くお勧めします。このタグを削除しないと、あなたのページは検索エンジンにインデックスされず、検索もできなくなります。
    • ボットがページをインデックスしたり、リンクをたどったりするのをブロックする可能性があります:
      <meta name="robots" content="noindex, nofollow">を指定してください。
    • すべてのボットのインデックスをブロックすることもできます:
      <meta name="robots" content="noindex"> 以下のようにします。
    • すべてのボットがページのリンクをたどらないようにすることもできます:
      <meta name="robots" content="nofollow"> 以下のようにします。
  3. ボットがページをインデックスすることは許可するが、リンクをたどることは許可しない。ボットがページをインデックスすることを許可すれば、ページはインデックスされます。スパイダーがリンクをたどらないようにすると、この特定のページから他のページへのリンク・パスが壊れてしまいます。 ヘッダーに次のコード行を挿入してください:
      <meta name="robots" content="index, nofollow"> 検索エンジンのスパイダーにリンクをたどらせましょう。
  4. 検索エンジンのスパイダーにリンクをたどらせるが、ページをインデックスさせない。ボットがリンクをたどることを許可すれば、この特定のページから他のページへのリンク・パスはそのまま残ります。 もしボットがページをインデックスすることを制限すれば、あなたのウェブページはインデックスに表示されません。 ヘッダーに次のコード行を挿入してください:
      <meta name="robots" content="noindex、follow">。
  5. 単一の発信リンクをブロックするページ上の単一のリンクを非表示にするには、<a href> </a>リンクタグ内にrelタグを埋め込みます。このタグを使って、ブロックしたい特定のページにつながる他のページのリンクをブロックすることもできます。
      <a href="yourdomain.html" rel="nofollow">ブロックしたページへのリンクを挿入</a>する。
  6. 特定の検索エンジンスパイダーをブロックする。すべてのボットをウェブページからブロックする代わりに、あるボットがページをクロールしたりインデックスしたりするのを防ぎたい場合もあるでしょう。そのためには、metaタグ内の「'robot'」を特定のボット名に置き換えます。 例:googlebot、googlebot-news、googlebot-image、bingbot、teomaなど。
      <meta name="bingbot" content="noindex, nofollow">を指定します。
  7. ボットによるクロールとインデックスを促します。あなたのページが確実にインデックスされ、リンクがたどられるようにしたい場合は、ヘッダーにfollow-allow meta "robot "タグを挿入することができます。 以下のコードを使用してください:
      <meta name="robots" content="インデックス、フォロー">。
この記事は、CC BY-NC-SAの下で公開されている「 How to Block Search Engines 」を改変して作成しました。特に断りのない限り、CC BY-NC-SAの下で利用可能です。

シェアボタン: このページをSNSに投稿するのに便利です。

コメント

返信元返信をやめる

※ 悪質なユーザーの書き込みは制限します。

最新を表示する

NG表示方式

NGID一覧