Udacity CS 101 Unità 1-2: Web Crawler

0:00 - 0:02

[Sebastian Thrun] Qual è la tua opinione su come si realizza un motore di ricerca,
0:02 - 0:03

tu ne hai già realizzato uno, vero ?
0:03 - 0:06

[Sergey Brin, Co-fondatore di Google] Si. Io credo che la cosa più importante,
0:06 - 0:08

se stai pensando di realizzare un motore di ricerca,
0:08 - 0:12

è avere una buona base di informazioni da cui partire.
0:12 - 0:19

Nel nostro caso abbiamo usato il world wide web, che al momento era certamente più piccolo di quanto lo sia oggi.
0:19 - 0:21

Era una cosa nuova e molto stimolante,
0:21 - 0:23

con molte parti ancora inesplorate.
0:23 - 0:26

[David Evans] L'obiettivo delle prime tre unità del corso è di costruire la base di informazioni
0:27 - 0:30

In particolare, vogliamo costruire una base di informazioni per il nostro motore di ricerca
0:30 - 0:32

analizzando il web, che è esattamente quello che fa un web crawler.
0:32 - 0:36

Un web crawler è un programma che colleziona i contenuti estratti dal web.
0:36 - 0:40

Prova a pensare ad una pagina web nel tuo browser, sarà una pagina tipo questa.
0:40 - 0:43

Usiamo il sito web di Udacity come esempio di pagina web.
0:43 - 0:47

E' una pagina piena di contenuti, con molte immagini e del testo.
0:47 - 0:51

Tutto questo appare nel tuo browser quando richiedi di visualizzare la pagina.
0:51 - 0:53

La cosa importante di una pagina sono i collegamenti ipertestuali.
0:53 - 0:57

Un collegamento ipertestuale è qualcosa che ci indirizza verso un'altra pagina.
0:57 - 1:00

Abbiamo, quindi, un collegamento alle domande più frequenti,
1:00 - 1:02

un collegamento alla pagina di CS 101,
1:02 - 1:04

più altri collegamenti verso altre pagine web.
1:04 - 1:07

Un collegamento può comparire, nel browser, come testo sottolineato
1:07 - 1:09

ma potrebbe anche comparire in altri modi, dipende dalle impostazioni del tuo browser.
1:09 - 1:11

Ma la cosa importante che un collegamento permette di fare
1:11 - 1:13

è di puntare verso altre pagine web
1:13 - 1:16

che, a loro volta, possono contenere altri collegamenti
1:16 - 1:19

e quindi abbiamo un altro collegamento verso questa pagina
1:19 - 1:23

Potrebbe essere il mio nome che ci indirizza alla mia home page,
1:23 - 1:26

Tutte le pagine che noi riusciamo a trovare con il nostro web crawler
1:26 - 1:29

sono ottenute seguendo i collegamenti
1:29 - 1:31

così non sarà necessario esplorare ogni pagina sul web.
1:31 - 1:33

Se si inizia da una buona pagina di partenza
1:33 - 1:35

troveremo molte pagine.
1:35 - 1:37

Ciò che un web crawler dovrà fare è partire da una pagina,
1:37 - 1:41

recuperare tutti i collegamenti all'interno di questa pagina, seguire i collegamenti per trovare altre pagine
1:41 - 1:45

e, su queste altre pagine, seguire i collegamenti presenti su queste pagine
1:45 - 1:48

per trovare ancora altre pagine, ci saranno molti altri collegamenti su queste pagine.
1:48 - 1:51

Ed infine, avremo una collezione di molte pagine presenti nel web.
1:51 - 1:54

Questo è quello che dovremmo fare per realizzare un web crawler.
1:54 - 1:56

In qualche modo noi dovremmo iniziare da una pagina di partenza,
1:56 - 1:59

estrarre i collegamenti dalla pagina,
1:59 - 2:01

seguire tutti i collegamenti individuati verso altre pagine,
2:01 - 2:03

collezionare i collegamenti di queste nuove pagine,
2:03 - 2:05

seguirli e collezionare tutti i collegamenti di tutte le pagine esplorate.
2:05 - 2:07

Sembra che ci sia molto da fare.
2:07 - 2:09

Non faremo tutta la procedura nella prima unità,
2:09 - 2:12

ma ciò su cui ci concentreremo nella prima unità sarà l'estrazione di un collegamento
2:12 - 2:14

Quindi, iniziamo con del testo
2:14 - 2:17

che ha un collegamento al suo interno specificato tramite un URL
2:17 - 2:19

Vogliamo cercare l'URL all'interno del testo
2:19 - 2:21

in modo da poter fare una richiesta per la pagina successiva
2:21 - 2:23

L'obiettivo per la seconda unità
2:23 - 2:25

è di essere in grado di continuare la ricerca,
2:25 - 2:28

se ci sono molti collegamenti in una pagina, dovremmo estrarli tutti.
2:28 - 2:30

Questo è ciò che faremo nella seconda unità,
2:30 - 2:32

cercare di capire come proseguire con la procedura per estrarre tutti i collegamenti
2:32 - 2:36

Nella terza unità, andremo oltre l'analisi della singola pagina.
2:36 - 2:40

Quindi, al termine della seconda unità, riusciremo a visualizzare tutti i collegamenti presenti in una pagina e
2:40 - 2:44

nella terza unità, collezioneremo tutti i collegamenti in modo da reiterare la procedura
2:44 - 2:47

e garantire che il nostro web crawler riesca a raccogliere molte pagine.
2:47 - 2:50

Quindi, al termine della terza unità, avremo costruito il web crawler.
2:50 - 2:52

Ci saranno molti modi per costruire la nostra base di informazioni
2:52 - 2:57

e quindi, per le restanti tre unità, analizzeremo come rispondere alle interrogazioni sulla base di informazioni
2:57 - 3:01

Nella quarta unità, capiremo come ottenere una buona risposta
3:01 - 3:08

in modo che se cerchi una parola chiave, tu possa ricevere in risposta la lista completa di tutte le pagine
3:08 - 3:10

in cui quella parola chiave compare.
3:10 - 3:15

E nella quinta unità vedremo un modo per poterlo fare, che sia estendibile nel caso di base di informazioni di grandi dimensioni.
3:15 - 3:19

E successivamente, nella sesta unità , quello che faremo sarà non solo trovare un elenco delle pagine,
3:19 - 3:21

ma ottenere come risultato la pagina migliore.
3:21 - 3:24

Quindi, cercheremo di capire come pesare le pagine in cui compare la parola chiave.
3:24 - 3:27

Bene, stiamo andando un pò oltre adesso,
3:27 - 3:30

perché tutto ciò che dobbiamo fare per la prima unità
3:30 - 3:32

è cercare di capire come estrarre un collegamento dalla pagina.
3:32 - 3:35

E il motore di ricerca che costruiremo alla fine del corso
3:35 - 3:37

sarà un motore di ricerca di tipo funzionale.
3:37 - 3:40

Avrà le componenti principali di cui dispone un motore di ricerca come Google.
3:40 - 3:43

Certamente non sarà potente come Google
3:43 - 3:44

dato che vogliamo mantenere le cose semplici e
3:44 - 3:46

avere una piccola quantità di codice da scrivere.
3:46 - 3:48

Non dobbiamo dimenticarci che il nostro vero scopo
3:48 - 3:50

non è tanto quello di costruire un motore di ricerca
3:50 - 3:52

ma di usare l'obiettivo di costruire un motore di ricerca come veicolo
3:52 - 3:55

per conoscere l'informatica
3:55 - 3:56

e approfondire il tema della programmazione.
3:56 - 3:58

E quindi, le cose che impareremo facendo tutto questo
3:58 -

ci torneranno utili per risolvere molti altri tipi di problemi.

Title:: Udacity CS 101 Unità 1-2: Web Crawler
Description:: Il Prof. David Evans offre una panoramica sulla prima unità del corso CS 101.

more » « less
Video Language:: English
Duration:: 04:03

	Gundega edited Italian subtitles for 01-02 Web Crawler
	pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler
	pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler
	pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler
	pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler
	pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler
	pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler
	pasquale.moliterni edited Italian subtitles for 01-02 Web Crawler

Show all

Italian subtitles

Revisions

Revision 12

Gundega

Udacity CS 101 Unità 1-2: Web Crawler

Revisions

Our website uses cookies

Operating cookies (Required)