Return to Video

Udacity CS 101 Unit 1-2: Web Crawler

  • 0:00 - 0:02
    [Sebastian Thrun] Donc, quel est ton point de vue sur la façon de construire un moteur de recherche,
  • 0:02 - 0:03
    tu en as déjà construit un, n'est-ce pas?
  • 0:03 - 0:06
    [Sergey Brin - Co-Fondateur, Google]Oui, je pense que la chose la plus importante
  • 0:06 - 0:08
    si tu es sur le point de construire un moteur de recherche
  • 0:08 - 0:12
    est d'avoir un très bon corpus comme base pour commencer.
  • 0:12 - 0:19
    Dans notre cas, nous avons utilisé Internet, lequel était certainement plus petit qu'il ne l'est aujourd'hui.
  • 0:19 - 0:21
    Mais il était également tout nouveau et excitant.
  • 0:21 - 0:23
    Il y avait toutes sortes de surprises.
  • 0:23 - 0:26
    [David Evans] Donc, le but des trois premières unités du cours est de construire ce corpus.
  • 0:27 - 0:30
    Et nous voulons construire ce corpus pour notre moteur de recherche
  • 0:30 - 0:32
    en analysant le web et c'est ce que fait un web crawler.
  • 0:32 - 0:36
    Un web crawler est un programme qui collecte du contenu depuis le web.
  • 0:36 - 0:40
    Si tu penses à une page web que tu affiches dans ton explorateur, tu as une page comme ceci.
  • 0:40 - 0:43
    Et nous utiliserons le site de Udacity comme exemple d'une page web.
  • 0:43 - 0:47
    Elle contient beaucoup de contenu, elle contient des images, du texte.
  • 0:47 - 0:51
    Tout cela arrive dans ton explorateur lorsque tu demandes à voir une page.
  • 0:51 - 0:53
    Elle contient une chose importante qui s'appelle "liens".
  • 0:53 - 0:57
    Un lien est quelque chose qui va vers une autre page.
  • 0:57 - 1:00
    Par exemple, nous avons un lien qui va vers les questions fréquemment posées (FAQ),
  • 1:00 - 1:02
    nous avons un lien vers la page CS 101.
  • 1:02 - 1:04
    Il y a d'autres liens sur la page.
  • 1:04 - 1:07
    Et ce lien pourrait être affiché souligné dans ton explorateur,
  • 1:07 - 1:09
    ou non, cela depend de comment ton explorateur est paramétré.
  • 1:09 - 1:11
    Mais la chose importante qu'il fait,
  • 1:11 - 1:13
    est que c'est un pointeur vers une autre page web.
  • 1:13 - 1:16
    Et ces autres pages web pourraient également contenir d'autres liens.
  • 1:16 - 1:19
    donc nous avons un autre lien sur cette page-ci.
  • 1:19 - 1:23
    Peut-être que c'est vers mon nom, et tu peux le suivre pour atteindre ma page principale.
  • 1:23 - 1:26
    Et toutes les pages que nous pouvons trouver avec notre web crawler
  • 1:26 - 1:29
    sont en fait trouvées en suivant les liens.
  • 1:29 - 1:31
    Il ne trouvera pas nécessairement toutes les pages présentes sur le web
  • 1:31 - 1:33
    Cependant, si nous commençons avec une bonne page comme base (seed page)
  • 1:33 - 1:35
    nous trouverons beaucoup d'autres pages.
  • 1:35 - 1:37
    Et ce que le web crawler va faire est de commencer avec une page,
  • 1:37 - 1:41
    trouver tous les liens sur cette page, suivre chaque lien pour trouver d'autres pages
  • 1:41 - 1:45
    et sur chacune de ces autres pages, il suivra les liens qu'elles contiennent
  • 1:45 - 1:48
    pour trouver d'autres pages et il y aura beaucoup plus de liens sur ces pages-là.
  • 1:48 - 1:51
    Finalement, nous obtiendrons une collection de beaucoup de pages du web.
  • 1:51 - 1:54
    Donc, ce que nous voulons faire est de construire un web crawler.
  • 1:54 - 1:56
    Nous voulons trouver un moyen de commencer avec une page de base,
  • 1:56 - 1:59
    extraire les liens de cette page,
  • 1:59 - 2:01
    suivre ces liens vers d'autres pages,
  • 2:01 - 2:03
    ensuite récupérer les liens présents sur ces autres pages,
  • 2:03 - 2:05
    les suivre, récupérer tout ça.
  • 2:05 - 2:07
    Cela semble énorme à faire.
  • 2:07 - 2:09
    Nous ne ferons pas tout cela dans ce premier cours.
  • 2:09 - 2:12
    Ce que nous allons faire durant cette première unité est uniquement d'extraire un lien.
  • 2:12 - 2:14
    Donc, nous allons commencer avec un [tas de] texte
  • 2:14 - 2:17
    Ce texte contiendra un lien avec une URL
  • 2:17 - 2:19
    Ce que nous voulons trouver est cette URL
  • 2:19 - 2:21
    afin de pouvoir demander la page suivante.
  • 2:21 - 2:23
    Le but de la seconde unité
  • 2:23 - 2:25
    est d'être capable de continuer.
  • 2:25 - 2:28
    S'il y a beaucoup de liens sur une page, tu veux être capable de tous les trouver.
  • 2:28 - 2:30
    Donc, ce que nous ferons durant l'unité 2
  • 2:30 - 2:32
    est de trouver un moyen de continuer à extraire touts ces liens-là.
  • 2:32 - 2:36
    Durant l'unité 3, nous irons au-délà d'une page.
  • 2:36 - 2:40
    Donc, à la fin de l'unité 2, nous pourrons afficher tous les liens d'une page.
  • 2:40 - 2:44
    Pour l'unité 3, nous voulons récupérer tous ces liens afin de pouvoir continuer,
  • 2:44 - 2:47
    et arriver à faire en sorte que notre crawler récupère beaucoup, beaucoup de pages.
  • 2:47 - 2:50
    Donc, a la fin de l'unité 3, nous aurons construit un web crawler.
  • 2:50 - 2:52
    Nous aurons un moyen pour construire notre corpus.
  • 2:52 - 2:57
    Ensuite, durant les trois unités restantes, nous regarderons comment répondre à des requêtes.
  • 2:57 - 3:01
    Donc, durant l'unité 4, nous trouverons un moyen de fournir une bonne réponse.
  • 3:01 - 3:08
    Par exemple, si tu cherches un mot-clé, tu veux obtenir une réponse qui soit une liste de toutes les pages
  • 3:08 - 3:10
    où ce mot-clé apparait.
  • 3:10 - 3:15
    Et, durant l'unité 5, nous trouverons un moyen de le faire de manière à ce que cela puisse évoluer même avec un large corpus.
  • 3:15 - 3:19
    Et ensuite, durant l'unité 6, ce que nous voulons faire, nous ne voulons pas simplement trouver une liste,
  • 3:19 - 3:21
    nous voulons trouver la meilleure.
  • 3:21 - 3:24
    Donc, nous trouverons un moyen de classer toutes les pages où le mot-clé apparait.
  • 3:24 - 3:27
    Nous sommes un peu en avance maintenant
  • 3:27 - 3:30
    parce que, tout ce que nous allons faire durant l'unité 1,
  • 3:30 - 3:32
    c'est de trouver un moyen d'extraire un lien d'une page.
  • 3:32 - 3:35
    Et le moteur de recherche que nous allons contruire à la fin de ceci
  • 3:35 - 3:37
    sera un moteur de recherche fonctionnel.
  • 3:37 - 3:40
    Il aura les fonctionnalités principales d'un moteur de recherche comme Google.
  • 3:40 - 3:43
    Il ne sera certainement pas aussi puissant que Google,
  • 3:43 - 3:44
    nous voulons garder les choses simple.
  • 3:44 - 3:46
    Nous voulons avoir une petite partie de code à écrire.
  • 3:46 - 3:48
    Et nous devrions nous souvenir que notre but réel
  • 3:48 - 3:50
    n'est pas tellement de construire un moteur de recherche,
  • 3:50 - 3:52
    mais plutôt d'utiliser le but de contruire un moteur de recherche comme véhicule
  • 3:52 - 3:55
    pour en apprendre plus sur le domaine de l'informatique
  • 3:55 - 3:56
    ainsi que sur la programmation
  • 3:56 - 3:58
    afin que ce que nous apprenons en faisant ceci
  • 3:58 -
    nous permette de résoudre beaucoup d'autres problèmes.
Title:
Udacity CS 101 Unit 1-2: Web Crawler
Description:

Professeur David Evans fournit une vue d'ensemble de chacune des unités du cours CS 101.

more » « less
Video Language:
English
Duration:
04:03
Gundega edited French subtitles for 01-02 Web Crawler
elise.lilou edited French subtitles for 01-02 Web Crawler
elise.lilou added a translation

French subtitles

Revisions