OpenAI のクローラーによる Web サイトのスクレイピングをブロックする方法

あなたのような読者が MUO をサポートします。当社サイトのリンクを使用して商品を購入すると、アフィリエイト手数料が発生する場合があります。続きを読む。

ChatGPT が現在保持している膨大な情報のおかげでユーザーは ChatGPT を気に入っていますが、Web サイトの所有者については同じことが言えません。

今日のMUOビデオ スクロールしてコンテンツを続けてください

OpenAI の ChatGPT はクローラーを使用して Web サイトをスクレイピングしますが、Web サイト所有者で、OpenAI のクローラーによる Web サイトへのアクセスを望まない場合は、それを防ぐためにできることがいくつかあります。

OpenAI クロールはどのように機能しますか?

あウェブクローラー (スパイダーまたは検索エンジンボットとも呼ばれます) は、インターネットをスキャンして情報を取得する自動プログラムです。次に、検索エンジンがアクセスしやすい方法でその情報を編集します。

Web クローラーは、関連するすべての URL のすべてのページにインデックスを付けます。通常は、検索クエリにより関連性の高い Web サイトに焦点を当てます。たとえば、特定の Windows エラーについてグーグル検索しているとします。検索エンジン内の Web クローラーは、Windows エラーのトピックに関してより信頼できると見なされる Web サイトからのすべての URL をスキャンします。

OpenAI の Web クローラーは GPTBot と呼ばれており、によれば、 OpenAI のドキュメント GPTBot に Web サイトへのアクセスを許可すると、AI モデルをトレーニングしてより安全かつ正確になるだけでなく、AI モデルの機能を拡張するのにも役立ちます。

接続されたデバイスはkies3でサポートされていません

OpenAI による Web サイトのクロールを防ぐ方法

他のほとんどの Web クローラーと同様に、GPTBot は Web サイトの内容を変更することで Web サイトへのアクセスをブロックできます。 ロボット.txt プロトコル (ロボット排除プロトコルとも呼ばれます)。この .txt ファイルは Web サイトのサーバー上でホストされ、Web クローラーやその他の自動プログラムが Web サイト上でどのように動作するかを制御します。

以下にその概要を示します。 ロボット.txt ファイルでできること:

電話番号を所有している人を見つける方法

GPTBot による Web サイトへのアクセスを完全にブロックできます。
URL の特定のページのみが GPTBot からアクセスされるのをブロックできます。
GPTBot に、どのリンクをたどることができ、どのリンクをたどることができないかを伝えることができます。

Web サイト上で GPTBot が実行できることを制御する方法は次のとおりです。

GPTBot による Web サイトへのアクセスを完全にブロックする

robot.txt ファイルをセットアップするをクリックし、テキスト編集ツールを使用して編集します。
GPTBot をサイトに追加します。 ロボット.txt 次のように：

 User-agent: GPTBot 
Disallow: /

GPTBot による特定のページのみのアクセスをブロックする

をセットアップします。 ロボット.txt ファイルを作成し、好みのテキスト編集ツールで編集します。
GPTBot をサイトに追加します。 ロボット.txt 次のように：

 User-agent: GPTBot 
Allow: /directory-1/ 
Disallow: /directory-2/

ただし、変更する場合は、 ロボット.txt ファイルは遡及的な解決策ではないため、GPTBot が Web サイトからすでに収集した情報は回復できません。

OpenAI により、ウェブサイト所有者はクロールをオプトアウトできるようになります

クローラーが AI モデルのトレーニングに使用されて以来、Web サイト所有者はデータをプライベートに保つ方法を探してきました。

AI モデルが基本的にユーザーの仕事を盗んでいるのではないかと懸念する人もいます。Web サイトへのアクセスが減少したのは、ユーザーが Web サイトにアクセスしなくても情報を入手できるようになったせいだとさえ考えられます。

つまり、AI チャットボットによる Web サイトのスキャンを完全にブロックするかどうかは、完全にあなたの選択です。