-
[Sebastian Thrun]Vì thế những gì anh đảm nhiệm là làm thế nào xây dựng một công cụ tìm kiếm.
-
Anh xây dựng một công cụ tìm kiếm trước đây đúng không ?
-
[Sergey Brin - Đồng sáng lập hãng Google] . Vâng , tôi nghĩ điều quan trọng
-
nếu bạn xây dựng một công cụ tìm kiếm
-
là có một kho ngữ liệu bắt đầu ở ngoài
-
Trong trường hợp của chúng tôi thời gian đó sử dụng world wide web lúc đó chắc chắn quy mô nó nhỏ hơn hôm nay
-
nhưng cũng rất mới và thú vị.
-
Có tất cả những sự xắp xếp không mong đợi ở đó.
-
[David Evans] Vì thế mục tiêu của 3 unit đầu tiên là làm kho ngữ liệu đó.
-
Và chúng ta muốn xây dựng kho ngữ liệu cho công cụ tìm kiếm của chúng ta
-
bằng cách thu thập cac trang web, chúng ta gọi là web thu thập
-
thu thập web là gì ?nó là chương trình thu thập nội dung từ web
-
Nếu bạn nghĩ đến một trang web trong trình duyệt, bạn có một trang giống thế này
-
và chúng ta sử dụng Udacity như một trang ví dụ.
-
nó có nhiều nội dung , có một số ảnh ,có một số văn bản
-
Tất cả những thứ này đến trình duyệt của bạn khi bạn yêu cầu trang web.
-
Điều quan trọng là nó có những cái links.
-
Một link là gì ? là cái gì mà nó đi đến một trang khác
-
vì thế chúng ta có một link những câu hỏi thường xuyên
-
Chúng ta có một link đến trang CS 101.
-
Có một số link khác trong trang này.
-
Và link đó xuất hiện trong trình duyệt của bạn với lằn gạch dưới.
-
nếu không có thì tùy thuộc trình duyệt của bạn bố trí.
-
Nhưng điều quan trọng nó là
-
một điểm chỉ đến một trang web khác
-
và những trang web đó có thể cũng có những đường link
-
Vì thế chúng ta có link khác trong trang này
-
có thể nó là tên của của tôi. Bạn có thể theo trang nhà của tôi
-
Và tất cả những trang web chúng ta có thể tìm thấy với web thu thập của chúng ta.
-
Được tìm thấy nhờ những link theo sau nó.
-
Vì thế thật không cần thiết để tìm kiếm mỗi trang trên web.
-
Nếu chúng ta bắt đầu với một trang ban đầu tốt
-
Qua đó ta có thể tìm thấy nhiều trang.
-
và những gì webcrawler làm là bắt đầu với một trang
-
tìm ra tất cả những link trên trang đó, theo sau chúng để tìm ra những trang khác.
-
Và sau đó trên những trang khác đó, nó sẽ theo sau những link trên trang đó
-
để tìm ra những trang khác nữa, và sẽ có nhiều link hơn trên những trang đó
-
và cuối cùng chúng ta có một bộ sưu tập nhiều trang trên web.
-
Vì thế đó là những gì chúng ta cần làm để xây dựng webcrawler
-
Chúng ta muốn tìm một số cách để bắt đầu từ một trang ban đầu
-
Rút ra tất cả những link trên trang đó
-
Theo sau những link đó đến những trang khác.
-
Sau đó thu thập những link trên những trang khác đó.
-
Theo sau chúng thu thập tất cả cái đó.
-
Vì thế nghe có vẻ nhiều việc để làm,
-
chúng ta sẽ không làm tất cả những cái đó.
-
Những gì chúng ta cần làm trong unit đầu này là rút ra một link.
-
Vì thế chúng sẽ bắt đầu với một cụm văn bản
-
Nó sẽ có một link trong nó với một Url.
-
Nhữn gì chúng ta muốn làm là tìm ra Url đó.
-
Vì thế chúng ta có thể yêu cầu trang kế tiếp.
-
Mục tiêu của unit 2 là tiếp tục.
-
là tiếp tục
-
Nếu có nhiều link trên một trang , chúng ta muốn có thể tìm ra tất cả chúng
-
và đó là những gì chúng ta làm trong unit 2.
-
Là chỉ ra cách rút ra tất cả các link đó
-
Trong unit 3 chúng ta sẽ đi vượt xa hơn chỉ một trang,
-
vì thế đến cuối unit 2 chúng ta có thể in ra tất cả đường link trong một trang.
-
Cho unit 3 chúng ta muốn thu thập tất cả những link vì thế có thể giữ tiếp tuc
-
theo sau đến cuối cùng web thu thập của chúng ta thu thập được nhiều, nhiều trang.
-
Vì thế đến cuối unit 3 chúng ta xây dựng được web thu thập
-
Chúng ta sẽ có một cách xây dựng kho ngữ liệu
-
3 unit còn lại sẽ nhìn ra cách phản hồi những câu hỏi yêu cầu.
-
vì thế unit 4 sẽ chỉ ra cách cho một phản hồi tốt.
-
Nếu chúng ta tìm kiếm một từ khóa. Chúng ta muốn trả ra một danh sách trang web
-
mà ở đó từ khóa xuất hiện.
-
và chúng ta sẽ chỉ ra trong unit 5 1 cách để làm điều đó, điều đó nặng cân, nếu chúng ta có một kho ngữ liệu lớn
-
Trong unit 6 những gì chúng ta làm là ,không chỉ muốn tìm ra một list
-
mà là tìm ra một trang tốt nhất.
-
vì thế chúng ta sẽ tính ra xếp hạng tất cả các trang mà ở đó từ khóa xuất hiện.
-
Chúng ta có một cái trước mắt bây giờ
-
sẽ làm cho unit 1
-
là chỉ ra cách rút trích link từ trang web.
-
Và công cụ tìm kiếm chúng ta xây dựng cuối unit này
-
là một chức năng của công cụ tìm kiếm
-
Chúng ta sẽ có những thành phần chính mà một công cụ tìm kiếm giống như Google có.
-
Chắc chắn không có đủ quyền năng như Google
-
Chúng ta muốn giữ những điều đơn giản
-
.Chúng ta muốn có một số lượng mã nhỏ để viết.
-
và chúng ta nên nhớ mục đích thật sự của chúng ta
-
không nhiều như xây dựng công cụ tìm kiếm.
-
nhưng sử dụng xây dựng công cụ tìm kiếm như một phương tiện
-
để học về khoa học máy tính.
-
Và học về lập trình
-
những điều chúng ta học bằng cách làm cái này
-
sẽ cho phép chúng ta giải quyết nhiều, thật nhiều những vấn đề khác.