Return to Video

Udacity CS 101 Unit 1-2: Web Crawler

  • 0:00 - 0:02
    [Sebastian Thrun] Wat is jouw insteek over het bouwen van een zoekmachine,
  • 0:02 - 0:03
    je hebt er al eerder een gemaakt, of niet?
  • 0:03 - 0:06
    [Sergey Brin - Mede-oprichter, Google] Ja. Ik denk dat het belangrijkste is
  • 0:06 - 0:08
    als je een zoekmachine gaat bouwen
  • 0:08 - 0:12
    om een heel goede 'corpus' te hebben.
  • 0:12 - 0:19
    In ons geval gebruikten we het internet, wat toen zeker kleiner was dan het nu is.
  • 0:19 - 0:21
    Maar het was ook erg nieuw en spannend.
  • 0:21 - 0:23
    Er waren allerlei onverwachte dingen.
  • 0:23 - 0:26
    [David Evans] Het doel voor de eerste drie units van dit vak is om dat corpus te bouwen.
  • 0:27 - 0:30
    En we willen het corpus bouwen voor onze zoekmachine
  • 0:30 - 0:32
    door het web te 'crawlen', en dat is wat een web crawler doet.
  • 0:32 - 0:36
    Een web crawler is een programma dat inhoud van het internet verzamelt.
  • 0:36 - 0:40
    Denk aan een pagina die je in je browser ziet, een pagina als deze.
  • 0:40 - 0:43
    We gebruiken Udacity als een voorbeeldpagina.
  • 0:43 - 0:47
    Het heeft veel inhoud, een paar plaatjes, het heeft wat tekst.
  • 0:47 - 0:51
    Dit alles komt in je browser als je de pagina opvraagt.
  • 0:51 - 0:53
    Wat belangrijk is, is dat het links heeft.
  • 0:53 - 0:57
    Een link is iets dat naar een andere pagina leidt.
  • 0:57 - 1:00
    Zo hebben we een link naar de veelgestelde vragen,
  • 1:00 - 1:02
    we hebben een link naar de CS 101 pagina.
  • 1:02 - 1:04
    Er staan nog wat links op de pagina.
  • 1:04 - 1:07
    Deze link kan je misschien zien in je browser met een underscore,
  • 1:07 - 1:09
    maar misschien ook niet, afhankelijk van je browserinstellingen.
  • 1:09 - 1:11
    Maar het belangrijkste wat het doet,
  • 1:11 - 1:13
    is dat het naar een andere webpagina leidt.
  • 1:13 - 1:16
    En die andere webpagina's kunnen ook links hebben
  • 1:16 - 1:19
    dus hebben we nog een link op deze pagina.
  • 1:19 - 1:23
    Misschien is het mijn naam, die je kan volgen naar mijn homepage.
  • 1:23 - 1:26
    En alle pagina's die we vinden met onze web crawler
  • 1:26 - 1:29
    worden gevonden door de links te volgen.
  • 1:29 - 1:31
    Dus het is niet zeker dat het alle pagina's op het internet vindt.
  • 1:31 - 1:33
    Maar als we met een goede 'seed page' beginnen
  • 1:33 - 1:35
    zullen er wel veel vinden.
  • 1:35 - 1:37
    En wat de crawler gaat doen is beginnen met één pagina,
  • 1:37 - 1:41
    alle links op die pagina zoeken, deze volgen om andere pagina's te vinden
  • 1:41 - 1:45
    en dan op die andere pagina's zal het de links op die pagina's volgen
  • 1:45 - 1:48
    om weer andere pagina's te zoeken en op die pagina's zullen nog weer veel meer links staan.
  • 1:48 - 1:51
    En uiteindelijk zullen we een verzameling van vele webpagina's hebben.
  • 1:51 - 1:54
    Dsu dat is wat we willen doen om een web crawler te bouwen.
  • 1:54 - 1:56
    We willen een manier vinden om te beginnen vanuit één seed pagina
  • 1:56 - 1:59
    de links uit die pagina halen
  • 1:59 - 2:01
    die links volgen naar andere pagina's,
  • 2:01 - 2:03
    the links verzamelen op die andere pagina's,
  • 2:03 - 2:05
    ze volgen, en dat allemaal verzamelen.
  • 2:05 - 2:07
    Dus dat klinkt als een hoop werk.
  • 2:07 - 2:09
    Dat gaan we niet allemaal doen tijdens deze eerste les.
  • 2:09 - 2:12
    Wat we in deze eerste unit gaan doen, is alleen een link ophalen.
  • 2:12 - 2:14
    Dus we gaan beginnen met wat tekst.
  • 2:14 - 2:17
    Er komt een link in met een URL.
  • 2:17 - 2:19
    Wat we willen vinden is die URL,
  • 2:19 - 2:21
    zodat we de volgende pagina kunnen opvragen.
  • 2:21 - 2:23
    Het doel voor de tweede unit
  • 2:23 - 2:25
    is ervoor te zorgen dat we door kunnen blijven gaan.
  • 2:25 - 2:28
    als er veel links op één pagina staan, dan wil je ze allemaal kunnen vinden.
  • 2:28 - 2:30
    Dus dat is wat we gaan doen in unit 2,
  • 2:30 - 2:32
    erachter komen hoe we door kunnen blijven gaan om alle links op te halen.
  • 2:32 - 2:36
    In unit drie willen we verder gaan dan slechts één pagina.
  • 2:36 - 2:40
    Dus aan het eind van unit twee kunnen we alle links van één pagina uitprinten.
  • 2:40 - 2:44
    Voor unit drie willen we al die links verzamelen, zodat we door kunnen blijven gaan,
  • 2:44 - 2:47
    en onze crawler kunnen volgen om heel erg veel pagina's te verzamelen.
  • 2:47 - 2:50
    Dus aan het einde van unit drie zullen we een web crawler hebben gebouwd.
  • 2:50 - 2:52
    We zullen een manier hebben om onze corpus te bouwen.
  • 2:52 - 2:57
    Daarna zullen we in de overige drie units kijken naar hoe we daadwerkelijk moeten reageren op zoekopdrachten.
  • 2:57 - 3:01
    In unit vier zullen we erachter komen hoe we een goede reactie kunnen geven.
  • 3:01 - 3:08
    Want als je op een woord zoekt, wil je een reactie krijgen die een lijst is van alle pagina's,
  • 3:08 - 3:10
    waar dat woord voorkomt.
  • 3:10 - 3:15
    En in unit vijf zullen we erachter komen hoe we die lijst kunnen beperken, als we een grote corpus hebben.
  • 3:15 - 3:19
    En dan in unit zes, wat we dan willen doen is, nou ja, we willen niet alleen een lijst vinden,
  • 3:19 - 3:21
    we willen de beste vinden.
  • 3:21 - 3:24
    Dus zullen we er achter komen hoe we alle gevonden pagina's een ranking kunnen geven.
  • 3:24 - 3:27
    Maar we lopen nu een beetje vooruit op onszelf,
  • 3:27 - 3:30
    omdat het enige wat we in unit één gaan doen,
  • 3:30 - 3:32
    er achter komen is hoe we een link van de pagina kunnen ophalen.
  • 3:32 - 3:35
    En de zoekmachine die we gebouwd zullen hebben aan het einde
  • 3:35 - 3:37
    zal een werkende zoekmachine zijn.
  • 3:37 - 3:40
    Het zal de hoofdbestanddelen hebben die een zoekmachine als Google heeft.
  • 3:40 - 3:43
    Het zal zeker niet zo krachtig zijn als Google is,
  • 3:43 - 3:44
    we willen het simple houden.
  • 3:44 - 3:46
    We willen een kleine hoeveelheid code moeten schrijven.
  • 3:46 - 3:48
    En we moeten onthouden dat ons echte doel
  • 3:48 - 3:50
    niet zozeer is om een zoekmachine te bouwen,
  • 3:50 - 3:52
    als wel om het doel van het bouwen van een zoekmachine als een middel te gebruiken
  • 3:52 - 3:55
    om over computer wetenschappen te leren
  • 3:55 - 3:56
    en om te leren over programmeren
  • 3:56 - 3:58
    dus wat we leren door dit te doen
  • 3:58 -
    zal ons in staat stellen om heel veel andere problemen op te lossen.
Title:
Udacity CS 101 Unit 1-2: Web Crawler
Description:

Professor David Evans geeft een overzicht van deze unit en van CS 101.

more » « less
Video Language:
English
Duration:
04:03
Gundega edited Dutch subtitles for 01-02 Web Crawler
popovitsj edited Dutch subtitles for 01-02 Web Crawler
popovitsj added a translation

Dutch subtitles

Revisions