Udacity CS 101 Unit 1-2: Web Crawler

0:00 - 0:02

[Sebastian Thrun] Wat is jouw insteek over het bouwen van een zoekmachine,
0:02 - 0:03

je hebt er al eerder een gemaakt, of niet?
0:03 - 0:06

[Sergey Brin - Mede-oprichter, Google] Ja. Ik denk dat het belangrijkste is
0:06 - 0:08

als je een zoekmachine gaat bouwen
0:08 - 0:12

om een heel goede 'corpus' te hebben.
0:12 - 0:19

In ons geval gebruikten we het internet, wat toen zeker kleiner was dan het nu is.
0:19 - 0:21

Maar het was ook erg nieuw en spannend.
0:21 - 0:23

Er waren allerlei onverwachte dingen.
0:23 - 0:26

[David Evans] Het doel voor de eerste drie units van dit vak is om dat corpus te bouwen.
0:27 - 0:30

En we willen het corpus bouwen voor onze zoekmachine
0:30 - 0:32

door het web te 'crawlen', en dat is wat een web crawler doet.
0:32 - 0:36

Een web crawler is een programma dat inhoud van het internet verzamelt.
0:36 - 0:40

Denk aan een pagina die je in je browser ziet, een pagina als deze.
0:40 - 0:43

We gebruiken Udacity als een voorbeeldpagina.
0:43 - 0:47

Het heeft veel inhoud, een paar plaatjes, het heeft wat tekst.
0:47 - 0:51

Dit alles komt in je browser als je de pagina opvraagt.
0:51 - 0:53

Wat belangrijk is, is dat het links heeft.
0:53 - 0:57

Een link is iets dat naar een andere pagina leidt.
0:57 - 1:00

Zo hebben we een link naar de veelgestelde vragen,
1:00 - 1:02

we hebben een link naar de CS 101 pagina.
1:02 - 1:04

Er staan nog wat links op de pagina.
1:04 - 1:07

Deze link kan je misschien zien in je browser met een underscore,
1:07 - 1:09

maar misschien ook niet, afhankelijk van je browserinstellingen.
1:09 - 1:11

Maar het belangrijkste wat het doet,
1:11 - 1:13

is dat het naar een andere webpagina leidt.
1:13 - 1:16

En die andere webpagina's kunnen ook links hebben
1:16 - 1:19

dus hebben we nog een link op deze pagina.
1:19 - 1:23

Misschien is het mijn naam, die je kan volgen naar mijn homepage.
1:23 - 1:26

En alle pagina's die we vinden met onze web crawler
1:26 - 1:29

worden gevonden door de links te volgen.
1:29 - 1:31

Dus het is niet zeker dat het alle pagina's op het internet vindt.
1:31 - 1:33

Maar als we met een goede 'seed page' beginnen
1:33 - 1:35

zullen er wel veel vinden.
1:35 - 1:37

En wat de crawler gaat doen is beginnen met één pagina,
1:37 - 1:41

alle links op die pagina zoeken, deze volgen om andere pagina's te vinden
1:41 - 1:45

en dan op die andere pagina's zal het de links op die pagina's volgen
1:45 - 1:48

om weer andere pagina's te zoeken en op die pagina's zullen nog weer veel meer links staan.
1:48 - 1:51

En uiteindelijk zullen we een verzameling van vele webpagina's hebben.
1:51 - 1:54

Dsu dat is wat we willen doen om een web crawler te bouwen.
1:54 - 1:56

We willen een manier vinden om te beginnen vanuit één seed pagina
1:56 - 1:59

de links uit die pagina halen
1:59 - 2:01

die links volgen naar andere pagina's,
2:01 - 2:03

the links verzamelen op die andere pagina's,
2:03 - 2:05

ze volgen, en dat allemaal verzamelen.
2:05 - 2:07

Dus dat klinkt als een hoop werk.
2:07 - 2:09

Dat gaan we niet allemaal doen tijdens deze eerste les.
2:09 - 2:12

Wat we in deze eerste unit gaan doen, is alleen een link ophalen.
2:12 - 2:14

Dus we gaan beginnen met wat tekst.
2:14 - 2:17

Er komt een link in met een URL.
2:17 - 2:19

Wat we willen vinden is die URL,
2:19 - 2:21

zodat we de volgende pagina kunnen opvragen.
2:21 - 2:23

Het doel voor de tweede unit
2:23 - 2:25

is ervoor te zorgen dat we door kunnen blijven gaan.
2:25 - 2:28

als er veel links op één pagina staan, dan wil je ze allemaal kunnen vinden.
2:28 - 2:30

Dus dat is wat we gaan doen in unit 2,
2:30 - 2:32

erachter komen hoe we door kunnen blijven gaan om alle links op te halen.
2:32 - 2:36

In unit drie willen we verder gaan dan slechts één pagina.
2:36 - 2:40

Dus aan het eind van unit twee kunnen we alle links van één pagina uitprinten.
2:40 - 2:44

Voor unit drie willen we al die links verzamelen, zodat we door kunnen blijven gaan,
2:44 - 2:47

en onze crawler kunnen volgen om heel erg veel pagina's te verzamelen.
2:47 - 2:50

Dus aan het einde van unit drie zullen we een web crawler hebben gebouwd.
2:50 - 2:52

We zullen een manier hebben om onze corpus te bouwen.
2:52 - 2:57

Daarna zullen we in de overige drie units kijken naar hoe we daadwerkelijk moeten reageren op zoekopdrachten.
2:57 - 3:01

In unit vier zullen we erachter komen hoe we een goede reactie kunnen geven.
3:01 - 3:08

Want als je op een woord zoekt, wil je een reactie krijgen die een lijst is van alle pagina's,
3:08 - 3:10

waar dat woord voorkomt.
3:10 - 3:15

En in unit vijf zullen we erachter komen hoe we die lijst kunnen beperken, als we een grote corpus hebben.
3:15 - 3:19

En dan in unit zes, wat we dan willen doen is, nou ja, we willen niet alleen een lijst vinden,
3:19 - 3:21

we willen de beste vinden.
3:21 - 3:24

Dus zullen we er achter komen hoe we alle gevonden pagina's een ranking kunnen geven.
3:24 - 3:27

Maar we lopen nu een beetje vooruit op onszelf,
3:27 - 3:30

omdat het enige wat we in unit één gaan doen,
3:30 - 3:32

er achter komen is hoe we een link van de pagina kunnen ophalen.
3:32 - 3:35

En de zoekmachine die we gebouwd zullen hebben aan het einde
3:35 - 3:37

zal een werkende zoekmachine zijn.
3:37 - 3:40

Het zal de hoofdbestanddelen hebben die een zoekmachine als Google heeft.
3:40 - 3:43

Het zal zeker niet zo krachtig zijn als Google is,
3:43 - 3:44

we willen het simple houden.
3:44 - 3:46

We willen een kleine hoeveelheid code moeten schrijven.
3:46 - 3:48

En we moeten onthouden dat ons echte doel
3:48 - 3:50

niet zozeer is om een zoekmachine te bouwen,
3:50 - 3:52

als wel om het doel van het bouwen van een zoekmachine als een middel te gebruiken
3:52 - 3:55

om over computer wetenschappen te leren
3:55 - 3:56

en om te leren over programmeren
3:56 - 3:58

dus wat we leren door dit te doen
3:58 -

zal ons in staat stellen om heel veel andere problemen op te lossen.

Title:: Udacity CS 101 Unit 1-2: Web Crawler
Description:: Professor David Evans geeft een overzicht van deze unit en van CS 101.

more » « less
Video Language:: English
Duration:: 04:03

	Gundega edited Dutch subtitles for 01-02 Web Crawler
	popovitsj edited Dutch subtitles for 01-02 Web Crawler
	popovitsj added a translation

Dutch subtitles

Revisions

Revision 3

Gundega

Udacity CS 101 Unit 1-2: Web Crawler

Revisions

Our website uses cookies

Operating cookies (Required)