Return to Video

1.02 Web Crawler

  • 0:00 - 0:02
    [Sebastian Thrun] Więc jakie jest Twoje podejście to tworzenia wyszukiwarki,
  • 0:02 - 0:03
    zbudowałeś jedną, prawda?
  • 0:03 - 0:06
    [Sergey Brin] - współzałożyciel Google] Tak. Myślę, że najważniejszą rzeczą
  • 0:06 - 0:08
    jeśli zamierzasz zbudować wyszukiwarkę
  • 0:08 - 0:12
    jest to, że musi ona mieć na początku dobry korpus.
  • 0:12 - 0:19
    W naszym przypadku użyliśmy sieci internetowej, która w tamtym czasie była o wiele mniejsza niż jest dzisiaj.
  • 0:19 - 0:21
    Było to także coś nowego i bardzo ekscytującego.
  • 0:21 - 0:23
    Natrafiliśmy na wiele nieoczekiwanych rzeczy.
  • 0:23 - 0:26
    [David Evans] Celem trzech pierwszych rozdziałów jest właśnie stworzenie tego korpusu.
  • 0:27 - 0:30
    Chcemy go zbudować
  • 0:30 - 0:32
    poprzez przeszukiwanie sieci i to jest to co robi "web crawler".
  • 0:32 - 0:36
    "Web crawler" to program, który pobiera informacje z sieci.
  • 0:36 - 0:40
    Jeśli pomyślisz o stronie, którą widzisz w swojej przeglądarce, otrzymujesz coś takiego.
  • 0:40 - 0:43
    Użyjemy strony Udacity jako przykładu.
  • 0:43 - 0:47
    Posiada dużo informacji, ma kilka obrazków oraz trochę tekstu.
  • 0:47 - 0:51
    Wszystko to pojawia się w Twojej przeglądarce, gdy wchodzisz na stronę.
  • 0:51 - 0:53
    Ważną rzeczą jest to, że ma linki.
  • 0:53 - 0:57
    Link jest to coś co prowadzi do innej strony.
  • 0:57 - 1:00
    Mamy, więc link do najczęściej zadawanych pytań,
  • 1:00 - 1:02
    mamy link do strony głównej kursu.
  • 1:02 - 1:04
    Jest jeszcze kilka linków na stronie.
  • 1:04 - 1:07
    Taki link może pojawić się z podkreśleniem
  • 1:07 - 1:09
    lub nie, zależy jakie są ustawienia Twojej przeglądarki.
  • 1:09 - 1:11
    Ważną rzeczą jest to co robi.
  • 1:11 - 1:13
    Jest to wskaźnik do innej strony.
  • 1:13 - 1:16
    Te inne strony również mogą mieć linki,
  • 1:16 - 1:19
    więc mamy kolejny na tej stronie.
  • 1:19 - 1:23
    Może prowadzi do mojej strony.
  • 1:23 - 1:26
    Wszystkie te strony, które możemy znaleźć za pomocą "web crawler'a"
  • 1:26 - 1:29
    są znajdywane poprzez te linki.
  • 1:29 - 1:31
    Niekoniecznie znajdzie wszystkie strony w sieci
  • 1:31 - 1:33
    Jeśli zaczniemy z dobrego źródła
  • 1:33 - 1:35
    znajdziemy ich wiele.
  • 1:35 - 1:37
    Zadaniem "crawlera" jest rozpocząć z jedną stroną,
  • 1:37 - 1:41
    znaleźć wszystkie linki na niej, przejść przez nie, by odnaleźć inne strony,
  • 1:41 - 1:45
    a potem na tych stronach przejść po linkach,
  • 1:45 - 1:48
    aby znaleźć inne strony, gdzie będzie jeszcze więcej linków.
  • 1:48 - 1:51
    W końcu będziemy mieli kolekcję wielu stron w sieci.
  • 1:51 - 1:54
    Takie jest nasze zadanie, stworzyć "web crawlera".
  • 1:54 - 1:56
    Chcemy znaleźć jakiś sposób, by zacząć ze źródła,
  • 1:56 - 1:59
    wyciągnąć linki na tej stronie,
  • 1:59 - 2:01
    przejść po nich do innych stron,
  • 2:01 - 2:03
    potem zebrać linki na tych stronach,
  • 2:03 - 2:05
    przejść po nich, itd.
  • 2:05 - 2:07
    Sporo roboty.
  • 2:07 - 2:09
    Nie będziemy robić wszystkiego już teraz.
  • 2:09 - 2:12
    Podczas pierwszego rozdziału tylko wyciągniemy link z strony.
  • 2:12 - 2:14
    Zaczniemy z kawałkiem tekstu.
  • 2:14 - 2:17
    Będzie posiadać link z adresem URL.
  • 2:17 - 2:19
    Chcemy znaleźć ten adres,
  • 2:19 - 2:21
    aby przejść do następnej strony.
  • 2:21 - 2:23
    Celem drugiego rozdziału
  • 2:23 - 2:25
    będzie podążanie za linkami.
  • 2:25 - 2:28
    Jeśli będzie wiele linków na jednej stronie, chcemy znaleźć je wszystkie.
  • 2:28 - 2:30
    W rozdziale drugim zajmiemy się
  • 2:30 - 2:32
    jak wyciągnąć wszystkie linki.
  • 2:32 - 2:36
    W rozdziale trzecim będziemy chcieli przejść dalej niż jedna strona.
  • 2:36 - 2:40
    Pod koniec rozdziału drugiego będziemy mogli wyświetlić wszystkie linki na stronie.
  • 2:40 - 2:44
    W rozdziale trzecim chcemy zebrać te linki, przejść po nich dalej,
  • 2:44 - 2:47
    aż w końcu nasz "crawler" zbierze wiele, wiele stron.
  • 2:47 - 2:50
    Pod koniec rozdziału trzeciego zbudujemy "web crawlera".
  • 2:50 - 2:52
    Będziemy mieć sposób na zbudowanie korpusu.
  • 2:52 - 2:57
    Trzy pozostałe rozdziały będą opierać się na tym jak odpowiadać na zapytania.
  • 2:57 - 3:01
    W rozdziale czwartym zajmiemy się jak dać dobrą odpowiedź.
  • 3:01 - 3:08
    Jeśli wyszukujesz frazy, chcesz otrzymać odpowiedź, która jest listą stron,
  • 3:08 - 3:10
    gdzie ta fraza się pojawia.
  • 3:10 - 3:15
    W rozdziale piątym zajmiemy się jak to zrobić
  • 3:15 - 3:19
    Potem w rozdziale szóstym nie będziemy chcieli znaleźć tylko listy stron,
  • 3:19 - 3:21
    lecz najlepszą stronę.
  • 3:21 - 3:24
    Wymyślimy jak oceniać wszystkie strony, na których fraza się znajduje.
  • 3:24 - 3:27
    Wychodzimy teraz trochę poza nasz plan,
  • 3:27 - 3:30
    ponieważ jedyne co zrobimy w rozdziale pierwszym
  • 3:30 - 3:32
    to wymyślić jak wyciągnąć link ze strony.
  • 3:32 - 3:35
    Wyszukiwarka jaką zbudujemy pod koniec
  • 3:35 - 3:37
    będzie funkcjonalna.
  • 3:37 - 3:40
    Będzie posiadać główne komponenty, które ma Google.
  • 3:40 - 3:43
    Z pewnością nie będzie tak potężna jak Google,
  • 3:43 - 3:44
    ale chcemy stworzyć coś prostego.
  • 3:44 - 3:46
    Chcemy mieć do napisania jak najmniejszą ilość kodu.
  • 3:46 - 3:48
    Musimy pamiętać także o naszym celu,
  • 3:48 - 3:50
    czyli nie tylko zbudowaniu wyszukiwarki,
  • 3:50 - 3:52
    a użyciu jej jako maszyny
  • 3:52 - 3:55
    do nauczenia się informatyki
  • 3:55 - 3:56
    oraz programowania,
  • 3:56 - 3:58
    więc rzeczy których się nauczymy przy tym
  • 3:58 -
    pozwolą nam rozwiązać wiele innych problemów.
Title:
1.02 Web Crawler
Description:

Profesor David Evans w skrócie wyjaśnia plan zajęć CS 101.

more » « less
Video Language:
English
Duration:
04:03
Piotr Fert edited Polish subtitles for 01-02 Web Crawler
Piotr Fert added a translation

Polish subtitles

Revisions