Udacity CS 101 Unit 1-2: Web Crawler

0:00 - 0:02

[Sebastian Thrun] Donc, quel est ton point de vue sur la façon de construire un moteur de recherche,
0:02 - 0:03

tu en as déjà construit un, n'est-ce pas?
0:03 - 0:06

[Sergey Brin - Co-Fondateur, Google]Oui, je pense que la chose la plus importante
0:06 - 0:08

si tu es sur le point de construire un moteur de recherche
0:08 - 0:12

est d'avoir un très bon corpus comme base pour commencer.
0:12 - 0:19

Dans notre cas, nous avons utilisé Internet, lequel était certainement plus petit qu'il ne l'est aujourd'hui.
0:19 - 0:21

Mais il était également tout nouveau et excitant.
0:21 - 0:23

Il y avait toutes sortes de surprises.
0:23 - 0:26

[David Evans] Donc, le but des trois premières unités du cours est de construire ce corpus.
0:27 - 0:30

Et nous voulons construire ce corpus pour notre moteur de recherche
0:30 - 0:32

en analysant le web et c'est ce que fait un web crawler.
0:32 - 0:36

Un web crawler est un programme qui collecte du contenu depuis le web.
0:36 - 0:40

Si tu penses à une page web que tu affiches dans ton explorateur, tu as une page comme ceci.
0:40 - 0:43

Et nous utiliserons le site de Udacity comme exemple d'une page web.
0:43 - 0:47

Elle contient beaucoup de contenu, elle contient des images, du texte.
0:47 - 0:51

Tout cela arrive dans ton explorateur lorsque tu demandes à voir une page.
0:51 - 0:53

Elle contient une chose importante qui s'appelle "liens".
0:53 - 0:57

Un lien est quelque chose qui va vers une autre page.
0:57 - 1:00

Par exemple, nous avons un lien qui va vers les questions fréquemment posées (FAQ),
1:00 - 1:02

nous avons un lien vers la page CS 101.
1:02 - 1:04

Il y a d'autres liens sur la page.
1:04 - 1:07

Et ce lien pourrait être affiché souligné dans ton explorateur,
1:07 - 1:09

ou non, cela depend de comment ton explorateur est paramétré.
1:09 - 1:11

Mais la chose importante qu'il fait,
1:11 - 1:13

est que c'est un pointeur vers une autre page web.
1:13 - 1:16

Et ces autres pages web pourraient également contenir d'autres liens.
1:16 - 1:19

donc nous avons un autre lien sur cette page-ci.
1:19 - 1:23

Peut-être que c'est vers mon nom, et tu peux le suivre pour atteindre ma page principale.
1:23 - 1:26

Et toutes les pages que nous pouvons trouver avec notre web crawler
1:26 - 1:29

sont en fait trouvées en suivant les liens.
1:29 - 1:31

Il ne trouvera pas nécessairement toutes les pages présentes sur le web
1:31 - 1:33

Cependant, si nous commençons avec une bonne page comme base (seed page)
1:33 - 1:35

nous trouverons beaucoup d'autres pages.
1:35 - 1:37

Et ce que le web crawler va faire est de commencer avec une page,
1:37 - 1:41

trouver tous les liens sur cette page, suivre chaque lien pour trouver d'autres pages
1:41 - 1:45

et sur chacune de ces autres pages, il suivra les liens qu'elles contiennent
1:45 - 1:48

pour trouver d'autres pages et il y aura beaucoup plus de liens sur ces pages-là.
1:48 - 1:51

Finalement, nous obtiendrons une collection de beaucoup de pages du web.
1:51 - 1:54

Donc, ce que nous voulons faire est de construire un web crawler.
1:54 - 1:56

Nous voulons trouver un moyen de commencer avec une page de base,
1:56 - 1:59

extraire les liens de cette page,
1:59 - 2:01

suivre ces liens vers d'autres pages,
2:01 - 2:03

ensuite récupérer les liens présents sur ces autres pages,
2:03 - 2:05

les suivre, récupérer tout ça.
2:05 - 2:07

Cela semble énorme à faire.
2:07 - 2:09

Nous ne ferons pas tout cela dans ce premier cours.
2:09 - 2:12

Ce que nous allons faire durant cette première unité est uniquement d'extraire un lien.
2:12 - 2:14

Donc, nous allons commencer avec un [tas de] texte
2:14 - 2:17

Ce texte contiendra un lien avec une URL
2:17 - 2:19

Ce que nous voulons trouver est cette URL
2:19 - 2:21

afin de pouvoir demander la page suivante.
2:21 - 2:23

Le but de la seconde unité
2:23 - 2:25

est d'être capable de continuer.
2:25 - 2:28

S'il y a beaucoup de liens sur une page, tu veux être capable de tous les trouver.
2:28 - 2:30

Donc, ce que nous ferons durant l'unité 2
2:30 - 2:32

est de trouver un moyen de continuer à extraire touts ces liens-là.
2:32 - 2:36

Durant l'unité 3, nous irons au-délà d'une page.
2:36 - 2:40

Donc, à la fin de l'unité 2, nous pourrons afficher tous les liens d'une page.
2:40 - 2:44

Pour l'unité 3, nous voulons récupérer tous ces liens afin de pouvoir continuer,
2:44 - 2:47

et arriver à faire en sorte que notre crawler récupère beaucoup, beaucoup de pages.
2:47 - 2:50

Donc, a la fin de l'unité 3, nous aurons construit un web crawler.
2:50 - 2:52

Nous aurons un moyen pour construire notre corpus.
2:52 - 2:57

Ensuite, durant les trois unités restantes, nous regarderons comment répondre à des requêtes.
2:57 - 3:01

Donc, durant l'unité 4, nous trouverons un moyen de fournir une bonne réponse.
3:01 - 3:08

Par exemple, si tu cherches un mot-clé, tu veux obtenir une réponse qui soit une liste de toutes les pages
3:08 - 3:10

où ce mot-clé apparait.
3:10 - 3:15

Et, durant l'unité 5, nous trouverons un moyen de le faire de manière à ce que cela puisse évoluer même avec un large corpus.
3:15 - 3:19

Et ensuite, durant l'unité 6, ce que nous voulons faire, nous ne voulons pas simplement trouver une liste,
3:19 - 3:21

nous voulons trouver la meilleure.
3:21 - 3:24

Donc, nous trouverons un moyen de classer toutes les pages où le mot-clé apparait.
3:24 - 3:27

Nous sommes un peu en avance maintenant
3:27 - 3:30

parce que, tout ce que nous allons faire durant l'unité 1,
3:30 - 3:32

c'est de trouver un moyen d'extraire un lien d'une page.
3:32 - 3:35

Et le moteur de recherche que nous allons contruire à la fin de ceci
3:35 - 3:37

sera un moteur de recherche fonctionnel.
3:37 - 3:40

Il aura les fonctionnalités principales d'un moteur de recherche comme Google.
3:40 - 3:43

Il ne sera certainement pas aussi puissant que Google,
3:43 - 3:44

nous voulons garder les choses simple.
3:44 - 3:46

Nous voulons avoir une petite partie de code à écrire.
3:46 - 3:48

Et nous devrions nous souvenir que notre but réel
3:48 - 3:50

n'est pas tellement de construire un moteur de recherche,
3:50 - 3:52

mais plutôt d'utiliser le but de contruire un moteur de recherche comme véhicule
3:52 - 3:55

pour en apprendre plus sur le domaine de l'informatique
3:55 - 3:56

ainsi que sur la programmation
3:56 - 3:58

afin que ce que nous apprenons en faisant ceci
3:58 -

nous permette de résoudre beaucoup d'autres problèmes.

Title:: Udacity CS 101 Unit 1-2: Web Crawler
Description:: Professeur David Evans fournit une vue d'ensemble de chacune des unités du cours CS 101.

more » « less
Video Language:: English
Duration:: 04:03

	Gundega edited French subtitles for 01-02 Web Crawler
	elise.lilou edited French subtitles for 01-02 Web Crawler
	elise.lilou added a translation

French subtitles

Revisions

Revision 3

Gundega

Udacity CS 101 Unit 1-2: Web Crawler

Revisions

Our website uses cookies

Operating cookies (Required)