Return to Video

Udacity CS 101 Unit 1-2: Web Crawler

  • 0:00 - 0:02
    [セバスチャン スラン]検索エンジンの構築方法についてどう考えますか?
  • 0:02 - 0:03
    以前構築したんでしょう?
  • 0:03 - 0:06
    [セルゲイ ・ ブリン - Google共同創設者]そうだよ。検索エンジンを構築する上で
  • 0:06 - 0:08
    最も重要なのは
  • 0:08 - 0:12
    始めに十分なコーパス(大量の言語データ)を用意することだと思う
  • 0:12 - 0:19
    我々の場合 いまより遥かに小規模だった world wide web を使った
  • 0:19 - 0:21
    でも当時は最先端で新鮮だった
  • 0:21 - 0:23
    予想もしなかったことがいろいろあったよ
  • 0:23 - 0:26
    [デビッド ・ エバンス]というわけで最初の3ユニットの目標はコーパスの構築です
  • 0:27 - 0:30
    ウェブ上を漁って 検索エンジン用のコーパスを構築したいのです
  • 0:30 - 0:32
    それをするのがウェブクローラです
  • 0:32 - 0:36
    ウェブクローラとは ウェブ上のコンテンツを収集するプログラムです
  • 0:36 - 0:40
    ブラウザーで閲覧するウェブページといえば、このようなものを思いつくでしょう
  • 0:40 - 0:43
    ウェブページの例としてudacityのサイトをあげることにします
  • 0:43 - 0:47
    サイトには画像・テキスト等 大量のコンテンツがあります
  • 0:47 - 0:51
    これらは全て あなたがページを要求するとあなたのブラウザにやって来ます
  • 0:51 - 0:53
    重要なのはリンクです
  • 0:53 - 0:57
    リンクとは、他のページに移動するものです
  • 0:57 - 1:00
    なので私達は よくある質問へのリンクや
  • 1:00 - 1:02
    CS101のページへのリンクを設けています。
  • 1:02 - 1:04
    ページには他にもいくつかリンクがあります。
  • 1:04 - 1:07
    リンクは下線付きで表示されるかもしれないし
  • 1:07 - 1:09
    ブラウザーの設定によってはされないかもしれません
  • 1:09 - 1:11
    しかしリンクの重要な点は
  • 1:11 - 1:13
    他のウェブページへのポインタとなるということです
  • 1:13 - 1:16
    そしてその他のウェブページにもリンクがあるので
  • 1:16 - 1:19
    このページにも別のリンクがあることになります
  • 1:19 - 1:23
    私の名前があるので、多分私のホームページへ行けるでしょう
  • 1:23 - 1:26
    私達のウェブクローラで見つけられるページは全て
  • 1:26 - 1:29
    リンクを辿ることによって発見されます
  • 1:29 - 1:31
    なのでクローラはウェブ上の全てのページを見つけるわけではないが
  • 1:31 - 1:33
    開始地点(シード)となるページが良ければ
  • 1:33 - 1:35
    多くのページを見つけられるでしょう。
  • 1:35 - 1:37
    クローラが行うのは あるページから開始し
  • 1:37 - 1:41
    そのページの全てのリンクを発見し 他のページへ辿ります
  • 1:41 - 1:45
    その他のページ上でまたリンクを辿り
  • 1:45 - 1:48
    更に別のページを見つけます。これらのページ上にはさらに多くのリンクがあるでしょう
  • 1:48 - 1:51
    最終的にウェブ上にある大量のページを収集するのです
  • 1:51 - 1:54
    これがウェブクローラを構築するにあたってしたいことです
  • 1:54 - 1:56
    ある開始地点(シード)ページから
  • 1:56 - 1:59
    ページ上のリンクを抽出し
  • 1:59 - 2:01
    リンクを辿って他のページ群へ行き
  • 2:01 - 2:03
    そのページ群のリンクを収集
  • 2:03 - 2:05
    またリンクを辿って、全部集めたい。
  • 2:05 - 2:07
    やることが多いように思えますが
  • 2:07 - 2:09
    最初のクラスで全部やるつもりはありません
  • 2:09 - 2:12
    この最初のユニットで扱うのは リンクの抽出だけです。
  • 2:12 - 2:14
    まずはテキスト群に注目します
  • 2:14 - 2:17
    その中にはURLを持ったリンクがあるでしょう
  • 2:17 - 2:19
    そのURLを見つけたいのです
  • 2:19 - 2:21
    そうすればの次のページを要求できます。
  • 2:21 - 2:23
    第2ユニットでの目標は
  • 2:23 - 2:25
    抽出を続行できるようにすることです
  • 2:25 - 2:28
    あるページに大量のリンクがあったら、それらを全て見つけたいですよね
  • 2:28 - 2:30
    これがユニット2でやることです
  • 2:30 - 2:32
    全てのリンクを抽出するために、抽出作業を続ける方法を見つけるのです
  • 2:32 - 2:36
    ユニット3では 1つのページから他のページへ飛びます
  • 2:36 - 2:40
    なのでユニット2が終わる頃には、あるページ上の全てのリンクをプリント(表示)できるようになります
  • 2:40 - 2:44
    ユニット3では、探索を続行するために、これら全てのリンクを収集し
  • 2:44 - 2:47
    最終的にクローラの助けで大量のページを収集したいのです
  • 2:47 - 2:50
    なのでユニット3の終わりまでに、私たちはウェブクローラを構築します
  • 2:50 - 2:52
    コーパスを構築する方法もあります。
  • 2:52 - 2:57
    残りの3つのユニットでは 実際にクエリに応答する方法を見ていきます。
  • 2:57 - 3:01
    なのでユニット4 では 上手い応答のさせ方について理解します
  • 3:01 - 3:08
    キーワードを検索した際に そのキーワードが現れるページのリストを
  • 3:08 - 3:10
    応答として得たいのです。
  • 3:10 - 3:15
    ユニット5でその方法を理解します。コーパスが大規模なら 合わせて大きくなります
  • 3:15 - 3:19
    ユニット6でやりたいのは 単にリストを見つけることではありません
  • 3:19 - 3:21
    最高のリストを見つけたいのです
  • 3:21 - 3:24
    よってキーワードが出現する全てのページをランク付けする方法を考えます
  • 3:24 - 3:27
    というわけで少し先の見通しを説明しました
  • 3:27 - 3:30
    ただユニット1で行うのは
  • 3:30 - 3:32
    ページからのリンク抽出方法を理解することだけです
  • 3:32 - 3:35
    私達が最終的に組み立てる検索エンジンは
  • 3:35 - 3:37
    実際に機能するものになるでしょう
  • 3:37 - 3:40
    Googleのような検索エンジンと同様の主要要素を備えるでしょう
  • 3:40 - 3:43
    たしかにGoogleほど強力にはならないでしょう
  • 3:43 - 3:44
    シンプルにしたいからです
  • 3:44 - 3:46
    コードを少し書くつもりです
  • 3:46 - 3:48
    私達の本来の目的は
  • 3:48 - 3:50
    検索エンジンの構築ではなく
  • 3:50 - 3:52
    検索エンジン構築を目標に進む過程で
  • 3:52 - 3:55
    コンピューター科学について学び
  • 3:55 - 3:56
    プログラミングについて学んでいくことなのです
  • 3:56 - 3:58
    そうすることで私達が学習することは
  • 3:58 -
    多くの問題を解決することを可能にしてくれるでしょう
Title:
Udacity CS 101 Unit 1-2: Web Crawler
Description:

Professor David Evans gives an overview of the unit in CS 101.

more » « less
Video Language:
English
Duration:
04:03
Yingming Huang edited Japanese subtitles for 01-02 Web Crawler
Gundega edited Japanese subtitles for 01-02 Web Crawler
Haruki Kobayashi added a translation

Japanese subtitles

Revisions