1
00:00:00,630 --> 00:00:04,030
欢迎来到CS101课程。我是戴维.埃文斯。我将指导你完成这门课程。

2
00:00:04,030 --> 00:00:07,047
这门课程将为你介绍计算的基本概念

3
00:00:07,047 --> 00:00:09,563
以及教你读写你自己的计算机程序

4
00:00:09,563 --> 00:00:13,063
这些都将在创建一个搜索引擎的任务中完成。

5
00:00:13,063 --> 00:00:16,363
相信诸位都至少使用过搜索引擎。

6
00:00:16,363 --> 00:00:19,562
该课程的前3个单元便是创建一个网络爬虫。

7
00:00:19,562 --> 00:00:22,129
网络爬虫能从网络上收集信息，以为我们的搜索引擎所用。

8
00:00:22,129 --> 00:00:24,663
并借此获得一个关于计算的大概念。

9
00:00:24,663 --> 00:00:29,680
在第一单元，我们从解析网页的第一个链接开始。

10
00:00:29,680 --> 00:00:32,730
网络爬虫为我们的搜索引擎寻找网页，

11
00:00:32,730 --> 00:00:37,797
从一个“种子”页面开始，并跟踪该页面上的链接来发现其他页面。

12
00:00:37,797 --> 00:00:43,930
这些链接引向一些新的网页，这些新的网页上又有链接，引向其他网页。

13
00:00:43,930 --> 00:00:46,507
当我跟踪这些链接，我们可以发现越来越多的网页。

14
00:00:46,507 --> 00:00:50,232
我们为我们的搜索引擎创建这些数据的集合。

15
00:00:50,479 --> 00:00:54,712
一个网页其实就是一段来自网络的文本，在你的浏览器中显示。

16
00:00:54,712 --> 00:00:56,580
我们将在第四单元中讲述这是个怎样的过程。

17
00:00:56,580 --> 00:00:59,563
但现在，最需要你了解的事情是

18
00:00:59,563 --> 00:01:02,497
一个链接其实只是网页中一个特殊的文本类型。

19
00:01:02,497 --> 00:01:07,347
当你在浏览器中点击了一个链接，它会将你引向一个新的页面。

20
00:01:07,347 --> 00:01:09,496
然后，你可以继续跟随这些链接

21
00:01:09,496 --> 00:01:14,213
这个单元我们要做的是写一段程序去解析获取网页上的第一个链接。

22
00:01:14,213 --> 00:01:18,213
在后面的单元中，我们会向你展示如何去解析获取所有链接，并集合这些数据为我们的搜索引擎所用。