GoogleBot Crawlingが長年にわたってどのように変化したかについてGoogle

GoogleのGary Illyesは、検索エンジンクローラーが長年にわたってどのように変化したかを説明しました。これは、GoogleのMartin SplittとGary Illyesとのレコードポッドキャストからの最新の検索で登場しました。

彼はまた、GoogleBotはまだHTTP3をサポートしていないが、最終的にはより効率的であるため、最終的にはそうなると述べた。

以下を含むいくつかの方法で変更されました

(1)HTTPヘッダー前後のヘッダーは変更でした

(2)robots.txtプロトコル(それは超古いものですが)

(3)スパマーや詐欺師を扱う

(4)AIが現在より多くのものをどのように消費しているか(ちょっと)。

これは23:23マークにポッドキャストに登場しました。ここに埋め込みがあります。

https://www.youtube.com/watch?v=iggguggonz1e

マーティン・スプリットはゲイリーに尋ねた。

ゲイリーは答えた:

はい、振る舞います。彼らがどのようにクロールするか、おそらくそれほど変わることはありません。まあ、私たちが持っていた時代、HTTP /1.1、またはおそらく彼らは/0.9でrawいなかったと思います。しかし、とにかく、最近ではH2/H3があります。つまり、現時点ではH3をサポートしていませんが、最終的には、なぜそうしないのでしょうか?また、ストリームをストリーミングできるため、より効率的にクロールすることができます。つまり、1つの接続を開き、接続の束を開くのではなく、その1つの接続で複数のことをするだけです。したがって、HTTPクライアントがボンネットの下で働く方法のように、それは変わりますが、技術的には実際には変わりません。

それから彼は付け加えた:

そして、異なる企業がクローラーのポリシーをどのように設定したか、それはもちろん大きく異なります。たとえば、インターネットエンジニアリングタスクフォースなど、IETFでの議論に関与している場合、Crawlerの行動について、一部の出版社は、Crawler XまたはCrawler BまたはCrawler Yが彼らが良くないと考えていたことをしていることを不平を言っていることがわかります。ポリシーはクローラーオペレーター間で異なる場合がありますが、一般的に、行儀の良いクローラーは、一般的にロボット.txt.txtまたはロボット除外プロトコルを称えようとすると思います。また、マルウェアスキャナーやプライバシースキャナーなどの敵対的なクローラーと呼ばれるものもあります。そして、彼らは彼らが隠したいことをしているので、おそらく彼らのために別の種類のポリシーが必要になるでしょう。悪意のある理由ではありませんが、マルウェアディストリビューターがマルウェアスキャナーが入っていることを知っていれば、おそらくマルウェアを隠そうとするからです。私は別の例を考えようとしていましたが、できません。ともかく。うん。他に何がありますか?

彼は後で追加しました:

うん。つまり、それは私たちが去年やっていたことの一つですよね?たとえば、インターネット上のフットプリントを減らしようとしていました。もちろん、新製品が発売されているか、さまざまな理由でフェッチする新しいAI製品が発売されていることが役立ちません。そして、基本的に、あなたが作成した各リクエストから7バイトを保存しました。そして、この新しい製品は8回を追加します。インターネットは、クローラーからの負荷を処理できます。私はしっかりと信じています – これは物議を醸すものであり、私はこのためにインターネットで叫ぶでしょう – しかし、それはリソースを食べているのはクロールではありません。インデックス作成と潜在的にサービスを提供している、またはあなたが取得したデータを処理しているときにデータを使用していることは、それが高価でリソース集中的なものです。ええ、私はもっとトラブルに巻き込まれる前にそこで停止します。

つまり、あまり変わっていませんが、これを聞くことはそれほど悪くはありませんでした(ゲイリーを見て)。

Lizziの画像クレジット