Udacity CS 101 Unit 1-2: Web Crawler

0:00 - 0:02

[セバスチャンスラン]検索エンジンの構築方法についてどう考えますか？
0:02 - 0:03

以前構築したんでしょう？
0:03 - 0:06

[セルゲイ・ブリン - Google共同創設者]そうだよ。検索エンジンを構築する上で
0:06 - 0:08

最も重要なのは
0:08 - 0:12

始めに十分なコーパス（大量の言語データ）を用意することだと思う
0:12 - 0:19

我々の場合　いまより遥かに小規模だった world wide web を使った
0:19 - 0:21

でも当時は最先端で新鮮だった
0:21 - 0:23

予想もしなかったことがいろいろあったよ
0:23 - 0:26

[デビッド・エバンス]というわけで最初の3ユニットの目標はコーパスの構築です
0:27 - 0:30

ウェブ上を漁って　検索エンジン用のコーパスを構築したいのです
0:30 - 0:32

それをするのがウェブクローラです
0:32 - 0:36

ウェブクローラとは　ウェブ上のコンテンツを収集するプログラムです
0:36 - 0:40

ブラウザーで閲覧するウェブページといえば、このようなものを思いつくでしょう
0:40 - 0:43

ウェブページの例としてudacityのサイトをあげることにします
0:43 - 0:47

サイトには画像・テキスト等　大量のコンテンツがあります
0:47 - 0:51

これらは全て　あなたがページを要求するとあなたのブラウザにやって来ます
0:51 - 0:53

重要なのはリンクです
0:53 - 0:57

リンクとは、他のページに移動するものです
0:57 - 1:00

なので私達は　よくある質問へのリンクや
1:00 - 1:02

CS101のページへのリンクを設けています。
1:02 - 1:04

ページには他にもいくつかリンクがあります。
1:04 - 1:07

リンクは下線付きで表示されるかもしれないし
1:07 - 1:09

ブラウザーの設定によってはされないかもしれません
1:09 - 1:11

しかしリンクの重要な点は
1:11 - 1:13

他のウェブページへのポインタとなるということです
1:13 - 1:16

そしてその他のウェブページにもリンクがあるので
1:16 - 1:19

このページにも別のリンクがあることになります
1:19 - 1:23

私の名前があるので、多分私のホームページへ行けるでしょう
1:23 - 1:26

私達のウェブクローラで見つけられるページは全て
1:26 - 1:29

リンクを辿ることによって発見されます
1:29 - 1:31

なのでクローラはウェブ上の全てのページを見つけるわけではないが
1:31 - 1:33

開始地点（シード）となるページが良ければ
1:33 - 1:35

多くのページを見つけられるでしょう。
1:35 - 1:37

クローラが行うのは　あるページから開始し
1:37 - 1:41

そのページの全てのリンクを発見し　他のページへ辿ります
1:41 - 1:45

その他のページ上でまたリンクを辿り
1:45 - 1:48

更に別のページを見つけます。これらのページ上にはさらに多くのリンクがあるでしょう
1:48 - 1:51

最終的にウェブ上にある大量のページを収集するのです
1:51 - 1:54

これがウェブクローラを構築するにあたってしたいことです
1:54 - 1:56

ある開始地点（シード）ページから
1:56 - 1:59

ページ上のリンクを抽出し
1:59 - 2:01

リンクを辿って他のページ群へ行き
2:01 - 2:03

そのページ群のリンクを収集
2:03 - 2:05

またリンクを辿って、全部集めたい。
2:05 - 2:07

やることが多いように思えますが
2:07 - 2:09

最初のクラスで全部やるつもりはありません
2:09 - 2:12

この最初のユニットで扱うのは　リンクの抽出だけです。
2:12 - 2:14

まずはテキスト群に注目します
2:14 - 2:17

その中にはURLを持ったリンクがあるでしょう
2:17 - 2:19

そのURLを見つけたいのです
2:19 - 2:21

そうすればの次のページを要求できます。
2:21 - 2:23

第2ユニットでの目標は
2:23 - 2:25

抽出を続行できるようにすることです
2:25 - 2:28

あるページに大量のリンクがあったら、それらを全て見つけたいですよね
2:28 - 2:30

これがユニット2でやることです
2:30 - 2:32

全てのリンクを抽出するために、抽出作業を続ける方法を見つけるのです
2:32 - 2:36

ユニット3では　1つのページから他のページへ飛びます
2:36 - 2:40

なのでユニット2が終わる頃には、あるページ上の全てのリンクをプリント（表示）できるようになります
2:40 - 2:44

ユニット3では、探索を続行するために、これら全てのリンクを収集し
2:44 - 2:47

最終的にクローラの助けで大量のページを収集したいのです
2:47 - 2:50

なのでユニット3の終わりまでに、私たちはウェブクローラを構築します
2:50 - 2:52

コーパスを構築する方法もあります。
2:52 - 2:57

残りの3つのユニットでは　実際にクエリに応答する方法を見ていきます。
2:57 - 3:01

なのでユニット4 では　上手い応答のさせ方について理解します
3:01 - 3:08

キーワードを検索した際に　そのキーワードが現れるページのリストを
3:08 - 3:10

応答として得たいのです。
3:10 - 3:15

ユニット5でその方法を理解します。コーパスが大規模なら　合わせて大きくなります
3:15 - 3:19

ユニット6でやりたいのは　単にリストを見つけることではありません
3:19 - 3:21

最高のリストを見つけたいのです
3:21 - 3:24

よってキーワードが出現する全てのページをランク付けする方法を考えます
3:24 - 3:27

というわけで少し先の見通しを説明しました
3:27 - 3:30

ただユニット1で行うのは
3:30 - 3:32

ページからのリンク抽出方法を理解することだけです
3:32 - 3:35

私達が最終的に組み立てる検索エンジンは
3:35 - 3:37

実際に機能するものになるでしょう
3:37 - 3:40

Googleのような検索エンジンと同様の主要要素を備えるでしょう
3:40 - 3:43

たしかにGoogleほど強力にはならないでしょう
3:43 - 3:44

シンプルにしたいからです
3:44 - 3:46

コードを少し書くつもりです
3:46 - 3:48

私達の本来の目的は
3:48 - 3:50

検索エンジンの構築ではなく
3:50 - 3:52

検索エンジン構築を目標に進む過程で
3:52 - 3:55

コンピューター科学について学び
3:55 - 3:56

プログラミングについて学んでいくことなのです
3:56 - 3:58

そうすることで私達が学習することは
3:58 -

多くの問題を解決することを可能にしてくれるでしょう

Title:: Udacity CS 101 Unit 1-2: Web Crawler
Description:: Professor David Evans gives an overview of the unit in CS 101.

more » « less
Video Language:: English
Duration:: 04:03

	Yingming Huang edited Japanese subtitles for 01-02 Web Crawler
	Gundega edited Japanese subtitles for 01-02 Web Crawler
	Haruki Kobayashi added a translation

Japanese subtitles

Revisions

Revision 3 Edited (legacy editor)

Yingming Huang

Udacity CS 101 Unit 1-2: Web Crawler

Revisions

Our website uses cookies

Operating cookies (Required)