Udacity CS 101 Unit 1-2: Web Crawler

Not Synced

[David Evans]所以课程前三单元的目标就是创建语料库
Not Synced

[Sebastian Thrun]你对创建搜索引擎有什么体会呢
Not Synced

[Sergey Brin - Google公司创建者]是的。如果你想创建一个搜索引擎
Not Synced

不是创建一个搜索引擎
Not Synced

也可能没有，这取决于浏览器的设置
Not Synced

从一个好的种子网页开始
Not Synced

从一个种子网页开始
Not Synced

从创建搜索引擎中学到的知识
Not Synced

从网页中取出一个链接
Not Synced

以找到其他网页。那些网页中有更多链接
Not Synced

但那时候的万维网也比今天的要新鲜和令人兴奋
Not Synced

作为推动学习计算机科学
Not Synced

你曾经创建过一个搜索引擎，是吗？
Not Synced

其中有各种出乎意料的事情
Not Synced

其中有很多内容，有一些图像，有一些文本
Not Synced

列表中的每个网页都含有需要查询的关键字
Not Synced

剩下的三个单元中我们将看看如何响应查询
Not Synced

取出其中的链接
Not Synced

和推动学习编程的车轮
Not Synced

因为第一单元要做的只是
Not Synced

好像有很多事情要做
Not Synced

如果网页中有很多链接，则需要找出所有链接
Not Synced

它将拥有像Google那样的搜索引擎所拥有的主要部件
Not Synced

将是功能完整的搜索引擎
Not Synced

将让我们能够解决很多其他问题
Not Synced

就可以找到很多网页
Not Synced

就有一种创建语料库的途径了
Not Synced

已经扯得太远了
Not Synced

当然它不会像Google那样强大
Not Synced

我们从一串文本开始
Not Synced

我们使用udacity网站作为网页的例子
Not Synced

我们只想写少量代码
Not Synced

我们想要更简单一些
Not Synced

我们要找出最好的一个网页
Not Synced

我们要找出那个URL
Not Synced

我们要看看如何为含有关键字的网页评分
Not Synced

我们那时候使用万维网，那时候的万维网比今天的要小得多
Not Synced

我认为最重要的是
Not Synced

找出其中的所有链接，跟踪它们以找到其他网页
Not Synced

抓取网页是网页爬虫的工作
Not Synced

搜索一个关键字的时候，需要一个网页列表作为响应
Not Synced

收集那些网页中的链接
Not Synced

文本中有带URL的链接
Not Synced

最终我们会有网络中很多网页的集合
Not Synced

有一个到CS101页面的链接
Not Synced

没有必要找出网络中的每个网页
Not Synced

然后继续跟踪其他网页中的链接
Not Synced

爬虫要做的就是从一个网页开始
Not Synced

直到网页爬虫收集了很多、很多网页
Not Synced

第一单元要做的仅仅只是取出一个链接
Not Synced

第一次上课不会完成所有事情
Not Synced

第三单元将收集所有链接，这样就可以继续抓取
Not Synced

第三单元将超越一个网页
Not Synced

第三单元结束的时候，我们就已经创建了一个网页爬虫
Not Synced

第二单元的目标是
Not Synced

第二单元结束的时候我们就可以打印一个网页中的所有链接了
Not Synced

第二单元要做的就是
Not Synced

第五单元我们将讨论如何在大语料库的情况下扩展这种方法
Not Synced

第六单元要做的不仅仅是找出一个网页列表
Not Synced

第四单元中，我们将计算如何给出好的响应
Not Synced

继续查找
Not Synced

网页爬虫是从网页中提取内容的程序
Not Synced

网页爬虫能够找到的网页
Not Synced

网页爬虫要做的就是
Not Synced

考虑一个在浏览器中看到的，这样的网页
Not Synced

而其他网页也可能含有链接
Not Synced

而是将创建搜索引擎
Not Synced

要从一个很好的语料库开始
Not Synced

要记住的是，我们的真正目标
Not Synced

要通过抓取网页来为我们的搜索引擎创建语料库
Not Synced

解决如何继续处理，取出所有链接的问题
Not Synced

请求网页的时候，这些内容都会到达浏览器
Not Synced

课程结束时候我们创建的搜索引擎
Not Synced

跟踪它们，收集所有链接
Not Synced

跟踪这些链接到达其他网页
Not Synced

还有其他一些链接
Not Synced

这个网页上有另一个链接
Not Synced

这个链接可能是我的名字，指向我的主页
Not Synced

这样才能请求下一个网页
Not Synced

这里有一个到常见问题的链接
Not Synced

都是通过跟踪链接得到的
Not Synced

重要的是
Not Synced

重要的是：网页含有链接
Not Synced

链接在浏览器中显示的时候带有下划线
Not Synced

链接指向其他网页
Not Synced

链接是指向其他网页的指针

Title:: Udacity CS 101 Unit 1-2: Web Crawler
Description:: Professor David Evans gives an overview of the unit in CS 101.

more » « less
Video Language:: English
Duration:: 04:03

	yaozijian110 edited Chinese, Simplified subtitles for 01-02 Web Crawler
	yaozijian110 edited Chinese, Simplified subtitles for 01-02 Web Crawler
	yaozijian110 added a translation

Chinese, Simplified subtitles

Incomplete

Revisions

Revision 3

yaozijian110

Udacity CS 101 Unit 1-2: Web Crawler

Revisions

Our website uses cookies

Operating cookies (Required)