Return to Video

Udacity CS 101 Unit 1-2: Web thu thập

  • 0:00 - 0:02
    [Sebastian Thrun]Vì thế những gì anh đảm nhiệm là làm thế nào xây dựng một công cụ tìm kiếm.
  • 0:02 - 0:03
    Anh xây dựng một công cụ tìm kiếm trước đây đúng không ?
  • 0:03 - 0:06
    [Sergey Brin - Đồng sáng lập hãng Google] . Vâng , tôi nghĩ điều quan trọng
  • 0:06 - 0:08
    nếu bạn xây dựng một công cụ tìm kiếm
  • 0:08 - 0:12
    là có một kho ngữ liệu bắt đầu ở ngoài
  • 0:12 - 0:19
    Trong trường hợp của chúng tôi thời gian đó sử dụng world wide web lúc đó chắc chắn quy mô nó nhỏ hơn hôm nay
  • 0:19 - 0:21
    nhưng cũng rất mới và thú vị.
  • 0:21 - 0:23
    Có tất cả những sự xắp xếp không mong đợi ở đó.
  • 0:23 - 0:26
    [David Evans] Vì thế mục tiêu của 3 unit đầu tiên là làm kho ngữ liệu đó.
  • 0:27 - 0:30
    Và chúng ta muốn xây dựng kho ngữ liệu cho công cụ tìm kiếm của chúng ta
  • 0:30 - 0:32
    bằng cách thu thập cac trang web, chúng ta gọi là web thu thập
  • 0:32 - 0:36
    thu thập web là gì ?nó là chương trình thu thập nội dung từ web
  • 0:36 - 0:40
    Nếu bạn nghĩ đến một trang web trong trình duyệt, bạn có một trang giống thế này
  • 0:40 - 0:43
    và chúng ta sử dụng Udacity như một trang ví dụ.
  • 0:43 - 0:47
    nó có nhiều nội dung , có một số ảnh ,có một số văn bản
  • 0:47 - 0:51
    Tất cả những thứ này đến trình duyệt của bạn khi bạn yêu cầu trang web.
  • 0:51 - 0:53
    Điều quan trọng là nó có những cái links.
  • 0:53 - 0:57
    Một link là gì ? là cái gì mà nó đi đến một trang khác
  • 0:57 - 1:00
    vì thế chúng ta có một link những câu hỏi thường xuyên
  • 1:00 - 1:02
    Chúng ta có một link đến trang CS 101.
  • 1:02 - 1:04
    Có một số link khác trong trang này.
  • 1:04 - 1:07
    Và link đó xuất hiện trong trình duyệt của bạn với lằn gạch dưới.
  • 1:07 - 1:09
    nếu không có thì tùy thuộc trình duyệt của bạn bố trí.
  • 1:09 - 1:11
    Nhưng điều quan trọng nó là
  • 1:11 - 1:13
    một điểm chỉ đến một trang web khác
  • 1:13 - 1:16
    và những trang web đó có thể cũng có những đường link
  • 1:16 - 1:19
    Vì thế chúng ta có link khác trong trang này
  • 1:19 - 1:23
    có thể nó là tên của của tôi. Bạn có thể theo trang nhà của tôi
  • 1:23 - 1:26
    Và tất cả những trang web chúng ta có thể tìm thấy với web thu thập của chúng ta.
  • 1:26 - 1:29
    Được tìm thấy nhờ những link theo sau nó.
  • 1:29 - 1:31
    Vì thế thật không cần thiết để tìm kiếm mỗi trang trên web.
  • 1:31 - 1:33
    Nếu chúng ta bắt đầu với một trang ban đầu tốt
  • 1:33 - 1:35
    Qua đó ta có thể tìm thấy nhiều trang.
  • 1:35 - 1:37
    và những gì webcrawler làm là bắt đầu với một trang
  • 1:37 - 1:41
    tìm ra tất cả những link trên trang đó, theo sau chúng để tìm ra những trang khác.
  • 1:41 - 1:45
    Và sau đó trên những trang khác đó, nó sẽ theo sau những link trên trang đó
  • 1:45 - 1:48
    để tìm ra những trang khác nữa, và sẽ có nhiều link hơn trên những trang đó
  • 1:48 - 1:51
    và cuối cùng chúng ta có một bộ sưu tập nhiều trang trên web.
  • 1:51 - 1:54
    Vì thế đó là những gì chúng ta cần làm để xây dựng webcrawler
  • 1:54 - 1:56
    Chúng ta muốn tìm một số cách để bắt đầu từ một trang ban đầu
  • 1:56 - 1:59
    Rút ra tất cả những link trên trang đó
  • 1:59 - 2:01
    Theo sau những link đó đến những trang khác.
  • 2:01 - 2:03
    Sau đó thu thập những link trên những trang khác đó.
  • 2:03 - 2:05
    Theo sau chúng thu thập tất cả cái đó.
  • 2:05 - 2:07
    Vì thế nghe có vẻ nhiều việc để làm,
  • 2:07 - 2:09
    chúng ta sẽ không làm tất cả những cái đó.
  • 2:09 - 2:12
    Những gì chúng ta cần làm trong unit đầu này là rút ra một link.
  • 2:12 - 2:14
    Vì thế chúng sẽ bắt đầu với một cụm văn bản
  • 2:14 - 2:17
    Nó sẽ có một link trong nó với một Url.
  • 2:17 - 2:19
    Nhữn gì chúng ta muốn làm là tìm ra Url đó.
  • 2:19 - 2:21
    Vì thế chúng ta có thể yêu cầu trang kế tiếp.
  • 2:21 - 2:23
    Mục tiêu của unit 2 là tiếp tục.
  • 2:23 - 2:25
    là tiếp tục
  • 2:25 - 2:28
    Nếu có nhiều link trên một trang , chúng ta muốn có thể tìm ra tất cả chúng
  • 2:28 - 2:30
    và đó là những gì chúng ta làm trong unit 2.
  • 2:30 - 2:32
    Là chỉ ra cách rút ra tất cả các link đó
  • 2:32 - 2:36
    Trong unit 3 chúng ta sẽ đi vượt xa hơn chỉ một trang,
  • 2:36 - 2:40
    vì thế đến cuối unit 2 chúng ta có thể in ra tất cả đường link trong một trang.
  • 2:40 - 2:44
    Cho unit 3 chúng ta muốn thu thập tất cả những link vì thế có thể giữ tiếp tuc
  • 2:44 - 2:47
    theo sau đến cuối cùng web thu thập của chúng ta thu thập được nhiều, nhiều trang.
  • 2:47 - 2:50
    Vì thế đến cuối unit 3 chúng ta xây dựng được web thu thập
  • 2:50 - 2:52
    Chúng ta sẽ có một cách xây dựng kho ngữ liệu
  • 2:52 - 2:57
    3 unit còn lại sẽ nhìn ra cách phản hồi những câu hỏi yêu cầu.
  • 2:57 - 3:01
    vì thế unit 4 sẽ chỉ ra cách cho một phản hồi tốt.
  • 3:01 - 3:08
    Nếu chúng ta tìm kiếm một từ khóa. Chúng ta muốn trả ra một danh sách trang web
  • 3:08 - 3:10
    mà ở đó từ khóa xuất hiện.
  • 3:10 - 3:15
    và chúng ta sẽ chỉ ra trong unit 5 1 cách để làm điều đó, điều đó nặng cân, nếu chúng ta có một kho ngữ liệu lớn
  • 3:15 - 3:19
    Trong unit 6 những gì chúng ta làm là ,không chỉ muốn tìm ra một list
  • 3:19 - 3:21
    mà là tìm ra một trang tốt nhất.
  • 3:21 - 3:24
    vì thế chúng ta sẽ tính ra xếp hạng tất cả các trang mà ở đó từ khóa xuất hiện.
  • 3:24 - 3:27
    Chúng ta có một cái trước mắt bây giờ
  • 3:27 - 3:30
    sẽ làm cho unit 1
  • 3:30 - 3:32
    là chỉ ra cách rút trích link từ trang web.
  • 3:32 - 3:35
    Và công cụ tìm kiếm chúng ta xây dựng cuối unit này
  • 3:35 - 3:37
    là một chức năng của công cụ tìm kiếm
  • 3:37 - 3:40
    Chúng ta sẽ có những thành phần chính mà một công cụ tìm kiếm giống như Google có.
  • 3:40 - 3:43
    Chắc chắn không có đủ quyền năng như Google
  • 3:43 - 3:44
    Chúng ta muốn giữ những điều đơn giản
  • 3:44 - 3:46
    .Chúng ta muốn có một số lượng mã nhỏ để viết.
  • 3:46 - 3:48
    và chúng ta nên nhớ mục đích thật sự của chúng ta
  • 3:48 - 3:50
    không nhiều như xây dựng công cụ tìm kiếm.
  • 3:50 - 3:52
    nhưng sử dụng xây dựng công cụ tìm kiếm như một phương tiện
  • 3:52 - 3:55
    để học về khoa học máy tính.
  • 3:55 - 3:56
    Và học về lập trình
  • 3:56 - 3:58
    những điều chúng ta học bằng cách làm cái này
  • 3:58 -
    sẽ cho phép chúng ta giải quyết nhiều, thật nhiều những vấn đề khác.
Title:
Udacity CS 101 Unit 1-2: Web thu thập
Description:

Professor David Evans cho lời giới thiệu tổng quát về CS 101.

more » « less
Video Language:
English
Duration:
04:03
Gundega edited Vietnamese subtitles for 01-02 Web Crawler
vitieubao edited Vietnamese subtitles for 01-02 Web Crawler
vitieubao edited Vietnamese subtitles for 01-02 Web Crawler
vitieubao edited Vietnamese subtitles for 01-02 Web Crawler
vitieubao edited Vietnamese subtitles for 01-02 Web Crawler
vitieubao edited Vietnamese subtitles for 01-02 Web Crawler
vitieubao edited Vietnamese subtitles for 01-02 Web Crawler
vitieubao added a translation

Vietnamese subtitles

Revisions