-
[Sebastian Thrun] Wat is jouw insteek over het bouwen van een zoekmachine,
-
je hebt er al eerder een gemaakt, of niet?
-
[Sergey Brin - Mede-oprichter, Google] Ja. Ik denk dat het belangrijkste is
-
als je een zoekmachine gaat bouwen
-
om een heel goede 'corpus' te hebben.
-
In ons geval gebruikten we het internet, wat toen zeker kleiner was dan het nu is.
-
Maar het was ook erg nieuw en spannend.
-
Er waren allerlei onverwachte dingen.
-
[David Evans] Het doel voor de eerste drie units van dit vak is om dat corpus te bouwen.
-
En we willen het corpus bouwen voor onze zoekmachine
-
door het web te 'crawlen', en dat is wat een web crawler doet.
-
Een web crawler is een programma dat inhoud van het internet verzamelt.
-
Denk aan een pagina die je in je browser ziet, een pagina als deze.
-
We gebruiken Udacity als een voorbeeldpagina.
-
Het heeft veel inhoud, een paar plaatjes, het heeft wat tekst.
-
Dit alles komt in je browser als je de pagina opvraagt.
-
Wat belangrijk is, is dat het links heeft.
-
Een link is iets dat naar een andere pagina leidt.
-
Zo hebben we een link naar de veelgestelde vragen,
-
we hebben een link naar de CS 101 pagina.
-
Er staan nog wat links op de pagina.
-
Deze link kan je misschien zien in je browser met een underscore,
-
maar misschien ook niet, afhankelijk van je browserinstellingen.
-
Maar het belangrijkste wat het doet,
-
is dat het naar een andere webpagina leidt.
-
En die andere webpagina's kunnen ook links hebben
-
dus hebben we nog een link op deze pagina.
-
Misschien is het mijn naam, die je kan volgen naar mijn homepage.
-
En alle pagina's die we vinden met onze web crawler
-
worden gevonden door de links te volgen.
-
Dus het is niet zeker dat het alle pagina's op het internet vindt.
-
Maar als we met een goede 'seed page' beginnen
-
zullen er wel veel vinden.
-
En wat de crawler gaat doen is beginnen met één pagina,
-
alle links op die pagina zoeken, deze volgen om andere pagina's te vinden
-
en dan op die andere pagina's zal het de links op die pagina's volgen
-
om weer andere pagina's te zoeken en op die pagina's zullen nog weer veel meer links staan.
-
En uiteindelijk zullen we een verzameling van vele webpagina's hebben.
-
Dsu dat is wat we willen doen om een web crawler te bouwen.
-
We willen een manier vinden om te beginnen vanuit één seed pagina
-
de links uit die pagina halen
-
die links volgen naar andere pagina's,
-
the links verzamelen op die andere pagina's,
-
ze volgen, en dat allemaal verzamelen.
-
Dus dat klinkt als een hoop werk.
-
Dat gaan we niet allemaal doen tijdens deze eerste les.
-
Wat we in deze eerste unit gaan doen, is alleen een link ophalen.
-
Dus we gaan beginnen met wat tekst.
-
Er komt een link in met een URL.
-
Wat we willen vinden is die URL,
-
zodat we de volgende pagina kunnen opvragen.
-
Het doel voor de tweede unit
-
is ervoor te zorgen dat we door kunnen blijven gaan.
-
als er veel links op één pagina staan, dan wil je ze allemaal kunnen vinden.
-
Dus dat is wat we gaan doen in unit 2,
-
erachter komen hoe we door kunnen blijven gaan om alle links op te halen.
-
In unit drie willen we verder gaan dan slechts één pagina.
-
Dus aan het eind van unit twee kunnen we alle links van één pagina uitprinten.
-
Voor unit drie willen we al die links verzamelen, zodat we door kunnen blijven gaan,
-
en onze crawler kunnen volgen om heel erg veel pagina's te verzamelen.
-
Dus aan het einde van unit drie zullen we een web crawler hebben gebouwd.
-
We zullen een manier hebben om onze corpus te bouwen.
-
Daarna zullen we in de overige drie units kijken naar hoe we daadwerkelijk moeten reageren op zoekopdrachten.
-
In unit vier zullen we erachter komen hoe we een goede reactie kunnen geven.
-
Want als je op een woord zoekt, wil je een reactie krijgen die een lijst is van alle pagina's,
-
waar dat woord voorkomt.
-
En in unit vijf zullen we erachter komen hoe we die lijst kunnen beperken, als we een grote corpus hebben.
-
En dan in unit zes, wat we dan willen doen is, nou ja, we willen niet alleen een lijst vinden,
-
we willen de beste vinden.
-
Dus zullen we er achter komen hoe we alle gevonden pagina's een ranking kunnen geven.
-
Maar we lopen nu een beetje vooruit op onszelf,
-
omdat het enige wat we in unit één gaan doen,
-
er achter komen is hoe we een link van de pagina kunnen ophalen.
-
En de zoekmachine die we gebouwd zullen hebben aan het einde
-
zal een werkende zoekmachine zijn.
-
Het zal de hoofdbestanddelen hebben die een zoekmachine als Google heeft.
-
Het zal zeker niet zo krachtig zijn als Google is,
-
we willen het simple houden.
-
We willen een kleine hoeveelheid code moeten schrijven.
-
En we moeten onthouden dat ons echte doel
-
niet zozeer is om een zoekmachine te bouwen,
-
als wel om het doel van het bouwen van een zoekmachine als een middel te gebruiken
-
om over computer wetenschappen te leren
-
en om te leren over programmeren
-
dus wat we leren door dit te doen
-
zal ons in staat stellen om heel veel andere problemen op te lossen.