1.02 Web Crawler

0:00 - 0:02

[Sebastian Thrun] Więc jakie jest Twoje podejście to tworzenia wyszukiwarki,
0:02 - 0:03

zbudowałeś jedną, prawda?
0:03 - 0:06

[Sergey Brin] - współzałożyciel Google] Tak. Myślę, że najważniejszą rzeczą
0:06 - 0:08

jeśli zamierzasz zbudować wyszukiwarkę
0:08 - 0:12

jest to, że musi ona mieć na początku dobry korpus.
0:12 - 0:19

W naszym przypadku użyliśmy sieci internetowej, która w tamtym czasie była o wiele mniejsza niż jest dzisiaj.
0:19 - 0:21

Było to także coś nowego i bardzo ekscytującego.
0:21 - 0:23

Natrafiliśmy na wiele nieoczekiwanych rzeczy.
0:23 - 0:26

[David Evans] Celem trzech pierwszych rozdziałów jest właśnie stworzenie tego korpusu.
0:27 - 0:30

Chcemy go zbudować
0:30 - 0:32

poprzez przeszukiwanie sieci i to jest to co robi "web crawler".
0:32 - 0:36

"Web crawler" to program, który pobiera informacje z sieci.
0:36 - 0:40

Jeśli pomyślisz o stronie, którą widzisz w swojej przeglądarce, otrzymujesz coś takiego.
0:40 - 0:43

Użyjemy strony Udacity jako przykładu.
0:43 - 0:47

Posiada dużo informacji, ma kilka obrazków oraz trochę tekstu.
0:47 - 0:51

Wszystko to pojawia się w Twojej przeglądarce, gdy wchodzisz na stronę.
0:51 - 0:53

Ważną rzeczą jest to, że ma linki.
0:53 - 0:57

Link jest to coś co prowadzi do innej strony.
0:57 - 1:00

Mamy, więc link do najczęściej zadawanych pytań,
1:00 - 1:02

mamy link do strony głównej kursu.
1:02 - 1:04

Jest jeszcze kilka linków na stronie.
1:04 - 1:07

Taki link może pojawić się z podkreśleniem
1:07 - 1:09

lub nie, zależy jakie są ustawienia Twojej przeglądarki.
1:09 - 1:11

Ważną rzeczą jest to co robi.
1:11 - 1:13

Jest to wskaźnik do innej strony.
1:13 - 1:16

Te inne strony również mogą mieć linki,
1:16 - 1:19

więc mamy kolejny na tej stronie.
1:19 - 1:23

Może prowadzi do mojej strony.
1:23 - 1:26

Wszystkie te strony, które możemy znaleźć za pomocą "web crawler'a"
1:26 - 1:29

są znajdywane poprzez te linki.
1:29 - 1:31

Niekoniecznie znajdzie wszystkie strony w sieci
1:31 - 1:33

Jeśli zaczniemy z dobrego źródła
1:33 - 1:35

znajdziemy ich wiele.
1:35 - 1:37

Zadaniem "crawlera" jest rozpocząć z jedną stroną,
1:37 - 1:41

znaleźć wszystkie linki na niej, przejść przez nie, by odnaleźć inne strony,
1:41 - 1:45

a potem na tych stronach przejść po linkach,
1:45 - 1:48

aby znaleźć inne strony, gdzie będzie jeszcze więcej linków.
1:48 - 1:51

W końcu będziemy mieli kolekcję wielu stron w sieci.
1:51 - 1:54

Takie jest nasze zadanie, stworzyć "web crawlera".
1:54 - 1:56

Chcemy znaleźć jakiś sposób, by zacząć ze źródła,
1:56 - 1:59

wyciągnąć linki na tej stronie,
1:59 - 2:01

przejść po nich do innych stron,
2:01 - 2:03

potem zebrać linki na tych stronach,
2:03 - 2:05

przejść po nich, itd.
2:05 - 2:07

Sporo roboty.
2:07 - 2:09

Nie będziemy robić wszystkiego już teraz.
2:09 - 2:12

Podczas pierwszego rozdziału tylko wyciągniemy link z strony.
2:12 - 2:14

Zaczniemy z kawałkiem tekstu.
2:14 - 2:17

Będzie posiadać link z adresem URL.
2:17 - 2:19

Chcemy znaleźć ten adres,
2:19 - 2:21

aby przejść do następnej strony.
2:21 - 2:23

Celem drugiego rozdziału
2:23 - 2:25

będzie podążanie za linkami.
2:25 - 2:28

Jeśli będzie wiele linków na jednej stronie, chcemy znaleźć je wszystkie.
2:28 - 2:30

W rozdziale drugim zajmiemy się
2:30 - 2:32

jak wyciągnąć wszystkie linki.
2:32 - 2:36

W rozdziale trzecim będziemy chcieli przejść dalej niż jedna strona.
2:36 - 2:40

Pod koniec rozdziału drugiego będziemy mogli wyświetlić wszystkie linki na stronie.
2:40 - 2:44

W rozdziale trzecim chcemy zebrać te linki, przejść po nich dalej,
2:44 - 2:47

aż w końcu nasz "crawler" zbierze wiele, wiele stron.
2:47 - 2:50

Pod koniec rozdziału trzeciego zbudujemy "web crawlera".
2:50 - 2:52

Będziemy mieć sposób na zbudowanie korpusu.
2:52 - 2:57

Trzy pozostałe rozdziały będą opierać się na tym jak odpowiadać na zapytania.
2:57 - 3:01

W rozdziale czwartym zajmiemy się jak dać dobrą odpowiedź.
3:01 - 3:08

Jeśli wyszukujesz frazy, chcesz otrzymać odpowiedź, która jest listą stron,
3:08 - 3:10

gdzie ta fraza się pojawia.
3:10 - 3:15

W rozdziale piątym zajmiemy się jak to zrobić
3:15 - 3:19

Potem w rozdziale szóstym nie będziemy chcieli znaleźć tylko listy stron,
3:19 - 3:21

lecz najlepszą stronę.
3:21 - 3:24

Wymyślimy jak oceniać wszystkie strony, na których fraza się znajduje.
3:24 - 3:27

Wychodzimy teraz trochę poza nasz plan,
3:27 - 3:30

ponieważ jedyne co zrobimy w rozdziale pierwszym
3:30 - 3:32

to wymyślić jak wyciągnąć link ze strony.
3:32 - 3:35

Wyszukiwarka jaką zbudujemy pod koniec
3:35 - 3:37

będzie funkcjonalna.
3:37 - 3:40

Będzie posiadać główne komponenty, które ma Google.
3:40 - 3:43

Z pewnością nie będzie tak potężna jak Google,
3:43 - 3:44

ale chcemy stworzyć coś prostego.
3:44 - 3:46

Chcemy mieć do napisania jak najmniejszą ilość kodu.
3:46 - 3:48

Musimy pamiętać także o naszym celu,
3:48 - 3:50

czyli nie tylko zbudowaniu wyszukiwarki,
3:50 - 3:52

a użyciu jej jako maszyny
3:52 - 3:55

do nauczenia się informatyki
3:55 - 3:56

oraz programowania,
3:56 - 3:58

więc rzeczy których się nauczymy przy tym
3:58 -

pozwolą nam rozwiązać wiele innych problemów.

Title:: 1.02 Web Crawler
Description:: Profesor David Evans w skrócie wyjaśnia plan zajęć CS 101.

more » « less
Video Language:: English
Duration:: 04:03

	Piotr Fert edited Polish subtitles for 01-02 Web Crawler
	Piotr Fert added a translation

Polish subtitles

Revisions

Revision 2

Piotr Fert

1.02 Web Crawler

Revisions

Our website uses cookies

Operating cookies (Required)