IT/Web/マーケティング用語辞典

更新:2019年12月22日

くろーる

クロール / クローリング

プログラムが自動的にインターネット上のWebページや画像などのファイルを巡回し、それらの情報を収集すること

英字

POINTクロール / クローリングとは

クロールとは、プログラムが自動的にインターネット上のWebページや画像などのファイルを巡回し、それらの情報を収集することです。

クロールの目的は様々ありますが、一般的に使われている目的は、検索エンジンが世界中のWebページを検索結果に表示するためです。検索エンジンはクロールして得たWebページの情報を独自のアルゴリズムに従って分析し、データベースに取り込みます。そして検索された検索キーワードからユーザーの目的に一番近いと思われるページを上から順に検索結果に表示しているのです。
つまり、あるWebページが検索結果に表示されるには、まずそのページがクロールされないといけないということです。

クローリングの仕組み

クローラーはWebサイト内のHTMLファイルやPHPファイルなどを読み取り、情報を解析します。解析することで新しいリンクやファイルが発見され、そのリンク先をたどり、情報を「解析」することでまた新しいリンクを発見します。この情報を「解析」することを「パージン(解析)」と呼びます。この情報を解析するプログラムのことを「パーサー」と呼びます。

クローラーがファイルを読み取り(解析)、リンクを発見し、そのリンク先をたどり収集した情報を解析することでまた新しいリンクを発見する。この一連の流れがクローリングの仕組みです。

クローリングを促す方法

クローリングをされたいサイトがある場合、まずGoogleにそのことを知らせる必要があります。XMLサイトマップをGoogleに提供して知らせる方法があります。

「sitemap.xml」をGoogle search console 経由でGoogleに提供する方法です。
XMLサイトマップとは、サイト全体のページ構成をリスト形式で記述したもので、簡単に言うと「サイト全体の見取り図」のことです。主にWebサイト内の各ページのURLや優先度、更新日、更新頻度などが記述されています。
「sitemap.xml」を作成し、Googleサーチコンソールにファイルをアップロードします。
Google search consoleにログインし、画面左側のタブにある「クロール」>「サイトマップ」をクリックします。そして右上にある「サイトマップの追加/テスト」をクリックします。入力欄にXML形式で入力し「サイトマップを送信」を押せば完了です。

クローラーとは

クローラーとは、クロールを行うプログラムのことです。クローラーは、インターネット上のWebページやファイルを自動的に巡回し、それらの情報を収集します。
クローラーは「ロボット」や「スパイダー」とも呼ばれ、検索エンジンごとに様々な種類があります。Googleのクローラーは「Googlebot」、Yahoo!のクローラーは「Yahoo Slurp」と呼ばれています。

クローラーにはいくつかの種類があります。
代表的なものだと、Googleの「Googlebot」が挙げられます。ほかにも、Bingの「bingbot」や中国の検索エンジンである百度の「Baiduspider」、韓国の検索エンジンであるNAVERの「Yetibot」などがあります。

インデックスとは

SEOにおけるインデックスとは、クローラーが収集した情報を分析して検索エンジンのデータベースに取り込むことです。検索エンジンは、あるキーワードで検索されると、その検索したユーザーの目的に一番近いと思われるページをインデックスされているデータベースの中から探し出し、検索結果に表示します。

つまり、ページが検索結果に表示されるには、そのページがクロールされた後、インデックスされる必要があるということです。

クローラビリティを高める必要性

クローラビリティとは、クローラーにとってのページの巡回のしやすさ、情報の収集のしやすさのことです。SEOにおいてクローラビリティを高めることはとても重要です。

クローラビリティが低いと、いくら頑張ってサイトを作成しても、そのサイトをクローラーが巡回せず、インデックスされないため検索結果に表示されないといったことが起こります。また、クローラーが巡回しに来ても情報が収集しにくいため、正しくサイトの内容がインデックスされず、検索順位が低くなってしまうことも起こりえます。

クローラビリティを高めるには

クローラビリティを高めるためには、クローラーがページを見やすいように、サイトの構造を適切に整えることが必要です。

具体的なクローラビリティを高める方法として、ページへのリンクの作成や整理、Webサイトにあるページの構成をわかりやすく一覧にしたサイトマップを作成するといった方法があります。

「クロール / クローリング」を調べた人はこの用語も調べています

クロール / クローリングの使用例

「新しいページを公開したから、クロールを促そう」

新しいページを公開した場合、クロールを促すことで、すぐにインデックスしてもらうことができます。クロールを促さなくても適切にサイトマップやリンクを設置している場合、一定時間経てばクロールされます。

「このページにはリンクがないからクロールされにくいんじゃない」

クローラーはWebサイト上のリンクを発見してクロールしていきます。リンクがどこからもないサイトはクローラーがページを発見しにくくなるため、内部リンクを適切に設置するしたり外部からリンクが貼られたりするとクロールされやすくなります。

クロール / クローリングに関係した気になる話題

ページがクロールされているか確認する方法

Googleにページがクロールされインデックスされているかを確かめる方法を紹介します。

「info:〇〇」(〇〇はページのURL)と入力して検索エンジンで検索します。インデックスされていれば検索結果に該当ページが表示されます。
また、「site:〇〇」で検索すると検索結果の左上にサイト内のインデックスされているページの大まかな数が表示されます。
Googleサーチコンソールを使うとサイトのインデックス状況を正確に調べることができます。

ページをインデックスさせない方法

編集中のページやテストページなどユーザーに見せる準備が整っていないページを公開したとき、インデックスされてしまうと、サイトの評価が下がってしまったり、そのページが検索結果に表示されてユーザーに見られてしまうこともあります。

クロールされたくないページは「noindex」というmetaタグをつけることで、クローラーにインデックスしないように伝えることができます。

クローリングとスクレイピングの違い

クローリングと似た技術にスクレイピングがあります。
スクレイピングとは、Webサイトからデータを取得し、そのデータを加工して新たな情報を生成することだと言われています。クローリングとスクレイピングはインターネット上の情報を取得するという意味では共通していますが、スクレイピングは情報を加工する工程があります。


クロール / クローリングに関連する記事

この記事がお役に立ちましたら、"いいね!"をお願いします
minweb辞書のIT用語をお届けします