どうやらspiderとcrawlerは別物らしい
ブログ記事を収集しようと思って色々調べていたら
こんな記事を見つける.
どうやらスパイダとクローラは別物らしい.
Search engines consist of five discrete software components:
- Spider : a robotic browser like program that downloads webpages.
- Crawler : a wandering spider that automatically follows links found on pages.
- Indexer : a blender like program that dissects webpages that are downloaded by spiders.
- The Database : a warehouse of the pages downloaded and processed.
- Search Engine Results Engine : digs search results out of the database
検索エンジンの5プログラム
- スパイダー:ウェブページをダウンロード
- クローラ:ページのリンクを追跡
- インデクサ:ダウンロードしたページを調合して索引付け
- データベース:ダウンロードし処理したページの倉庫
- リザルトエンジン:データベースから探し検索結果を出す
(検索エンジンの5つのプログラム - スパイダーとクローラって別物?より抜粋)
どうでもいいけどデータが欲しい...