[Sebastian Thrun] Wat is jouw insteek over het bouwen van een zoekmachine,

je hebt er al eerder een gemaakt, of niet?

[Sergey Brin - Mede-oprichter, Google] Ja. Ik denk dat het belangrijkste is

als je een zoekmachine gaat bouwen

om een heel goede 'corpus' te hebben.

In ons geval gebruikten we het internet, wat toen zeker kleiner was dan het nu is.

Maar het was ook erg nieuw en spannend.

Er waren allerlei onverwachte dingen.

[David Evans] Het doel voor de eerste drie units van dit vak is om dat corpus te bouwen.

En we willen het corpus bouwen voor onze zoekmachine

door het web te 'crawlen', en dat is wat een web crawler doet.

Een web crawler is een programma dat inhoud van het internet verzamelt.

Denk aan een pagina die je in je browser ziet, een pagina als deze.

We gebruiken Udacity als een voorbeeldpagina.

Het heeft veel inhoud, een paar plaatjes, het heeft wat tekst.

Dit alles komt in je browser als je de pagina opvraagt.

Wat belangrijk is, is dat het links heeft.

Een link is iets dat naar een andere pagina leidt.

Zo hebben we een link naar de veelgestelde vragen,

we hebben een link naar de CS 101 pagina.

Er staan nog wat links op de pagina.

Deze link kan je misschien zien in je browser met een underscore,

maar misschien ook niet, afhankelijk van je browserinstellingen.

Maar het belangrijkste wat het doet,

is dat het naar een andere webpagina leidt.

En die andere webpagina's kunnen ook links hebben

dus hebben we nog een link op deze pagina.

Misschien is het mijn naam, die je kan volgen naar mijn homepage.

En alle pagina's die we vinden met onze web crawler

worden gevonden door de links te volgen.

Dus het is niet zeker dat het alle pagina's op het internet vindt.

Maar als we met een goede 'seed page' beginnen

zullen er wel veel vinden.

En wat de crawler gaat doen is beginnen met één pagina,

alle links op die pagina zoeken, deze volgen om andere pagina's te vinden

en dan op die andere pagina's zal het de links op die pagina's volgen

om weer andere pagina's te zoeken en op die pagina's zullen nog weer veel meer links staan.

En uiteindelijk zullen we een verzameling van vele webpagina's hebben.

Dsu dat is wat we willen doen om een web crawler te bouwen.

We willen een manier vinden om te beginnen vanuit één seed pagina

de links uit die pagina halen

die links volgen naar andere pagina's,

the links verzamelen op die andere pagina's,

ze volgen, en dat allemaal verzamelen.

Dus dat klinkt als een hoop werk.

Dat gaan we niet allemaal doen tijdens deze eerste les.

Wat we in deze eerste unit gaan doen, is alleen een link ophalen.

Dus we gaan beginnen met wat tekst.

Er komt een link in met een URL.

Wat we willen vinden is die URL,

zodat we de volgende pagina kunnen opvragen.

Het doel voor de tweede unit

is ervoor te zorgen dat we door kunnen blijven gaan.

als er veel links op één pagina staan, dan wil je ze allemaal kunnen vinden.

Dus dat is wat we gaan doen in unit 2,

erachter komen hoe we door kunnen blijven gaan om alle links op te halen.

In unit drie willen we verder gaan dan slechts één pagina.

Dus aan het eind van unit twee kunnen we alle links van één pagina uitprinten.

Voor unit drie willen we al die links verzamelen, zodat we door kunnen blijven gaan,

en onze crawler kunnen volgen om heel erg veel pagina's te verzamelen.

Dus aan het einde van unit drie zullen we een web crawler hebben gebouwd.

We zullen een manier hebben om onze corpus te bouwen.

Daarna zullen we in de overige drie units kijken naar hoe we daadwerkelijk moeten reageren op zoekopdrachten.

In unit vier zullen we erachter komen hoe we een goede reactie kunnen geven.

Want als je op een woord zoekt, wil je een reactie krijgen die een lijst is van alle pagina's,

waar dat woord voorkomt.

En in unit vijf zullen we erachter komen hoe we die lijst kunnen beperken, als we een grote corpus hebben.

En dan in unit zes, wat we dan willen doen is, nou ja, we willen niet alleen een lijst vinden,

we willen de beste vinden.

Dus zullen we er achter komen hoe we alle gevonden pagina's een ranking kunnen geven.

Maar we lopen nu een beetje vooruit op onszelf,

omdat het enige wat we in unit één gaan doen,

er achter komen is hoe we een link van de pagina kunnen ophalen.

En de zoekmachine die we gebouwd zullen hebben aan het einde

zal een werkende zoekmachine zijn.

Het zal de hoofdbestanddelen hebben die een zoekmachine als Google heeft.

Het zal zeker niet zo krachtig zijn als Google is,

we willen het simple houden.

We willen een kleine hoeveelheid code moeten schrijven.

En we moeten onthouden dat ons echte doel

niet zozeer is om een zoekmachine te bouwen,

als wel om het doel van het bouwen van een zoekmachine als een middel te gebruiken

om over computer wetenschappen te leren

en om te leren over programmeren

dus wat we leren door dit te doen

zal ons in staat stellen om heel veel andere problemen op te lossen.