Return to Video

Udacity CS 101 Unità 1-2: Web Crawler

  • 0:00 - 0:02
    [Sebastian Thrun] Qual è la tua opinione su come si realizza un motore di ricerca,
  • 0:02 - 0:03
    tu ne hai già realizzato uno, vero ?
  • 0:03 - 0:06
    [Sergey Brin, Co-fondatore di Google] Si. Io credo che la cosa più importante,
  • 0:06 - 0:08
    se stai pensando di realizzare un motore di ricerca,
  • 0:08 - 0:12
    è avere una buona base di informazioni da cui partire.
  • 0:12 - 0:19
    Nel nostro caso abbiamo usato il world wide web, che al momento era certamente più piccolo di quanto lo sia oggi.
  • 0:19 - 0:21
    Era una cosa nuova e molto stimolante,
  • 0:21 - 0:23
    con molte parti ancora inesplorate.
  • 0:23 - 0:26
    [David Evans] L'obiettivo delle prime tre unità del corso è di costruire la base di informazioni
  • 0:27 - 0:30
    In particolare, vogliamo costruire una base di informazioni per il nostro motore di ricerca
  • 0:30 - 0:32
    analizzando il web, che è esattamente quello che fa un web crawler.
  • 0:32 - 0:36
    Un web crawler è un programma che colleziona i contenuti estratti dal web.
  • 0:36 - 0:40
    Prova a pensare ad una pagina web nel tuo browser, sarà una pagina tipo questa.
  • 0:40 - 0:43
    Usiamo il sito web di Udacity come esempio di pagina web.
  • 0:43 - 0:47
    E' una pagina piena di contenuti, con molte immagini e del testo.
  • 0:47 - 0:51
    Tutto questo appare nel tuo browser quando richiedi di visualizzare la pagina.
  • 0:51 - 0:53
    La cosa importante di una pagina sono i collegamenti ipertestuali.
  • 0:53 - 0:57
    Un collegamento ipertestuale è qualcosa che ci indirizza verso un'altra pagina.
  • 0:57 - 1:00
    Abbiamo, quindi, un collegamento alle domande più frequenti,
  • 1:00 - 1:02
    un collegamento alla pagina di CS 101,
  • 1:02 - 1:04
    più altri collegamenti verso altre pagine web.
  • 1:04 - 1:07
    Un collegamento può comparire, nel browser, come testo sottolineato
  • 1:07 - 1:09
    ma potrebbe anche comparire in altri modi, dipende dalle impostazioni del tuo browser.
  • 1:09 - 1:11
    Ma la cosa importante che un collegamento permette di fare
  • 1:11 - 1:13
    è di puntare verso altre pagine web
  • 1:13 - 1:16
    che, a loro volta, possono contenere altri collegamenti
  • 1:16 - 1:19
    e quindi abbiamo un altro collegamento verso questa pagina
  • 1:19 - 1:23
    Potrebbe essere il mio nome che ci indirizza alla mia home page,
  • 1:23 - 1:26
    Tutte le pagine che noi riusciamo a trovare con il nostro web crawler
  • 1:26 - 1:29
    sono ottenute seguendo i collegamenti
  • 1:29 - 1:31
    così non sarà necessario esplorare ogni pagina sul web.
  • 1:31 - 1:33
    Se si inizia da una buona pagina di partenza
  • 1:33 - 1:35
    troveremo molte pagine.
  • 1:35 - 1:37
    Ciò che un web crawler dovrà fare è partire da una pagina,
  • 1:37 - 1:41
    recuperare tutti i collegamenti all'interno di questa pagina, seguire i collegamenti per trovare altre pagine
  • 1:41 - 1:45
    e, su queste altre pagine, seguire i collegamenti presenti su queste pagine
  • 1:45 - 1:48
    per trovare ancora altre pagine, ci saranno molti altri collegamenti su queste pagine.
  • 1:48 - 1:51
    Ed infine, avremo una collezione di molte pagine presenti nel web.
  • 1:51 - 1:54
    Questo è quello che dovremmo fare per realizzare un web crawler.
  • 1:54 - 1:56
    In qualche modo noi dovremmo iniziare da una pagina di partenza,
  • 1:56 - 1:59
    estrarre i collegamenti dalla pagina,
  • 1:59 - 2:01
    seguire tutti i collegamenti individuati verso altre pagine,
  • 2:01 - 2:03
    collezionare i collegamenti di queste nuove pagine,
  • 2:03 - 2:05
    seguirli e collezionare tutti i collegamenti di tutte le pagine esplorate.
  • 2:05 - 2:07
    Sembra che ci sia molto da fare.
  • 2:07 - 2:09
    Non faremo tutta la procedura nella prima unità,
  • 2:09 - 2:12
    ma ciò su cui ci concentreremo nella prima unità sarà l'estrazione di un collegamento
  • 2:12 - 2:14
    Quindi, iniziamo con del testo
  • 2:14 - 2:17
    che ha un collegamento al suo interno specificato tramite un URL
  • 2:17 - 2:19
    Vogliamo cercare l'URL all'interno del testo
  • 2:19 - 2:21
    in modo da poter fare una richiesta per la pagina successiva
  • 2:21 - 2:23
    L'obiettivo per la seconda unità
  • 2:23 - 2:25
    è di essere in grado di continuare la ricerca,
  • 2:25 - 2:28
    se ci sono molti collegamenti in una pagina, dovremmo estrarli tutti.
  • 2:28 - 2:30
    Questo è ciò che faremo nella seconda unità,
  • 2:30 - 2:32
    cercare di capire come proseguire con la procedura per estrarre tutti i collegamenti
  • 2:32 - 2:36
    Nella terza unità, andremo oltre l'analisi della singola pagina.
  • 2:36 - 2:40
    Quindi, al termine della seconda unità, riusciremo a visualizzare tutti i collegamenti presenti in una pagina e
  • 2:40 - 2:44
    nella terza unità, collezioneremo tutti i collegamenti in modo da reiterare la procedura
  • 2:44 - 2:47
    e garantire che il nostro web crawler riesca a raccogliere molte pagine.
  • 2:47 - 2:50
    Quindi, al termine della terza unità, avremo costruito il web crawler.
  • 2:50 - 2:52
    Ci saranno molti modi per costruire la nostra base di informazioni
  • 2:52 - 2:57
    e quindi, per le restanti tre unità, analizzeremo come rispondere alle interrogazioni sulla base di informazioni
  • 2:57 - 3:01
    Nella quarta unità, capiremo come ottenere una buona risposta
  • 3:01 - 3:08
    in modo che se cerchi una parola chiave, tu possa ricevere in risposta la lista completa di tutte le pagine
  • 3:08 - 3:10
    in cui quella parola chiave compare.
  • 3:10 - 3:15
    E nella quinta unità vedremo un modo per poterlo fare, che sia estendibile nel caso di base di informazioni di grandi dimensioni.
  • 3:15 - 3:19
    E successivamente, nella sesta unità , quello che faremo sarà non solo trovare un elenco delle pagine,
  • 3:19 - 3:21
    ma ottenere come risultato la pagina migliore.
  • 3:21 - 3:24
    Quindi, cercheremo di capire come pesare le pagine in cui compare la parola chiave.
  • 3:24 - 3:27
    Bene, stiamo andando un pò oltre adesso,
  • 3:27 - 3:30
    perché tutto ciò che dobbiamo fare per la prima unità
  • 3:30 - 3:32
    è cercare di capire come estrarre un collegamento dalla pagina.
  • 3:32 - 3:35
    E il motore di ricerca che costruiremo alla fine del corso
  • 3:35 - 3:37
    sarà un motore di ricerca di tipo funzionale.
  • 3:37 - 3:40
    Avrà le componenti principali di cui dispone un motore di ricerca come Google.
  • 3:40 - 3:43
    Certamente non sarà potente come Google
  • 3:43 - 3:44
    dato che vogliamo mantenere le cose semplici e
  • 3:44 - 3:46
    avere una piccola quantità di codice da scrivere.
  • 3:46 - 3:48
    Non dobbiamo dimenticarci che il nostro vero scopo
  • 3:48 - 3:50
    non è tanto quello di costruire un motore di ricerca
  • 3:50 - 3:52
    ma di usare l'obiettivo di costruire un motore di ricerca come veicolo
  • 3:52 - 3:55
    per conoscere l'informatica
  • 3:55 - 3:56
    e approfondire il tema della programmazione.
  • 3:56 - 3:58
    E quindi, le cose che impareremo facendo tutto questo
  • 3:58 -
    ci torneranno utili per risolvere molti altri tipi di problemi.
Title:
Udacity CS 101 Unità 1-2: Web Crawler
Description:

Il Prof. David Evans offre una panoramica sulla prima unità del corso CS 101.

more » « less
Video Language:
English
Duration:
04:03
Gundega edited Italian subtitles for 01-02 Web Crawler
pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler
pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler
pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler
pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler
pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler
pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler
pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler
Show all

Italian subtitles

Revisions