Return to Video

Udacity CS 101 Unit 1-2: Web Crawler

  • Not Synced
    [David Evans]所以课程前三单元的目标就是创建语料库
  • Not Synced
    [Sebastian Thrun]你对创建搜索引擎有什么体会呢
  • Not Synced
    [Sergey Brin - Google公司创建者]是的。如果你想创建一个搜索引擎
  • Not Synced
    不是创建一个搜索引擎
  • Not Synced
    也可能没有,这取决于浏览器的设置
  • Not Synced
    从一个好的种子网页开始
  • Not Synced
    从一个种子网页开始
  • Not Synced
    从创建搜索引擎中学到的知识
  • Not Synced
    从网页中取出一个链接
  • Not Synced
    以找到其他网页。那些网页中有更多链接
  • Not Synced
    但那时候的万维网也比今天的要新鲜和令人兴奋
  • Not Synced
    作为推动学习计算机科学
  • Not Synced
    你曾经创建过一个搜索引擎,是吗?
  • Not Synced
    其中有各种出乎意料的事情
  • Not Synced
    其中有很多内容,有一些图像,有一些文本
  • Not Synced
    列表中的每个网页都含有需要查询的关键字
  • Not Synced
    剩下的三个单元中我们将看看如何响应查询
  • Not Synced
    取出其中的链接
  • Not Synced
    和推动学习编程的车轮
  • Not Synced
    因为第一单元要做的只是
  • Not Synced
    好像有很多事情要做
  • Not Synced
    如果网页中有很多链接,则需要找出所有链接
  • Not Synced
    它将拥有像Google那样的搜索引擎所拥有的主要部件
  • Not Synced
    将是功能完整的搜索引擎
  • Not Synced
    将让我们能够解决很多其他问题
  • Not Synced
    就可以找到很多网页
  • Not Synced
    就有一种创建语料库的途径了
  • Not Synced
    已经扯得太远了
  • Not Synced
    当然它不会像Google那样强大
  • Not Synced
    我们从一串文本开始
  • Not Synced
    我们使用udacity网站作为网页的例子
  • Not Synced
    我们只想写少量代码
  • Not Synced
    我们想要更简单一些
  • Not Synced
    我们要找出最好的一个网页
  • Not Synced
    我们要找出那个URL
  • Not Synced
    我们要看看如何为含有关键字的网页评分
  • Not Synced
    我们那时候使用万维网,那时候的万维网比今天的要小得多
  • Not Synced
    我认为最重要的是
  • Not Synced
    找出其中的所有链接,跟踪它们以找到其他网页
  • Not Synced
    抓取网页是网页爬虫的工作
  • Not Synced
    搜索一个关键字的时候,需要一个网页列表作为响应
  • Not Synced
    收集那些网页中的链接
  • Not Synced
    文本中有带URL的链接
  • Not Synced
    最终我们会有网络中很多网页的集合
  • Not Synced
    有一个到CS101页面的链接
  • Not Synced
    没有必要找出网络中的每个网页
  • Not Synced
    然后继续跟踪其他网页中的链接
  • Not Synced
    爬虫要做的就是从一个网页开始
  • Not Synced
    直到网页爬虫收集了很多、很多网页
  • Not Synced
    第一单元要做的仅仅只是取出一个链接
  • Not Synced
    第一次上课不会完成所有事情
  • Not Synced
    第三单元将收集所有链接,这样就可以继续抓取
  • Not Synced
    第三单元将超越一个网页
  • Not Synced
    第三单元结束的时候,我们就已经创建了一个网页爬虫
  • Not Synced
    第二单元的目标是
  • Not Synced
    第二单元结束的时候我们就可以打印一个网页中的所有链接了
  • Not Synced
    第二单元要做的就是
  • Not Synced
    第五单元我们将讨论如何在大语料库的情况下扩展这种方法
  • Not Synced
    第六单元要做的不仅仅是找出一个网页列表
  • Not Synced
    第四单元中,我们将计算如何给出好的响应
  • Not Synced
    继续查找
  • Not Synced
    网页爬虫是从网页中提取内容的程序
  • Not Synced
    网页爬虫能够找到的网页
  • Not Synced
    网页爬虫要做的就是
  • Not Synced
    考虑一个在浏览器中看到的,这样的网页
  • Not Synced
    而其他网页也可能含有链接
  • Not Synced
    而是将创建搜索引擎
  • Not Synced
    要从一个很好的语料库开始
  • Not Synced
    要记住的是,我们的真正目标
  • Not Synced
    要通过抓取网页来为我们的搜索引擎创建语料库
  • Not Synced
    解决如何继续处理,取出所有链接的问题
  • Not Synced
    请求网页的时候,这些内容都会到达浏览器
  • Not Synced
    课程结束时候我们创建的搜索引擎
  • Not Synced
    跟踪它们,收集所有链接
  • Not Synced
    跟踪这些链接到达其他网页
  • Not Synced
    还有其他一些链接
  • Not Synced
    这个网页上有另一个链接
  • Not Synced
    这个链接可能是我的名字,指向我的主页
  • Not Synced
    这样才能请求下一个网页
  • Not Synced
    这里有一个到常见问题的链接
  • Not Synced
    都是通过跟踪链接得到的
  • Not Synced
    重要的是
  • Not Synced
    重要的是:网页含有链接
  • Not Synced
    链接在浏览器中显示的时候带有下划线
  • Not Synced
    链接指向其他网页
  • Not Synced
    链接是指向其他网页的指针
Title:
Udacity CS 101 Unit 1-2: Web Crawler
Description:

Professor David Evans gives an overview of the unit in CS 101.

more » « less
Video Language:
English
Duration:
04:03
yaozijian110 edited Chinese, Simplified subtitles for 01-02 Web Crawler
yaozijian110 edited Chinese, Simplified subtitles for 01-02 Web Crawler
yaozijian110 added a translation

Chinese, Simplified subtitles

Incomplete

Revisions