Udacity CS 101 Unidade 1-2: Web Crawler

0:00 - 0:02

[Sebastian Thrun] Então, qual é a tua opinião sobre a construção de um motor de busca,
0:02 - 0:03

já criaste um, certo?
0:03 - 0:06

[Sergey Brin - co-fundador, Google] Sim. Eu acho que a coisa mais importante
0:06 - 0:08

se fores construir um motor de busca
0:08 - 0:12

é começar com um corpus (material) extremamente bom.
0:12 - 0:19

No nosso caso, usámos a world wide web (WWW), que na época era significativamente menor do que é hoje.
0:19 - 0:21

Mas também era muito nova e excitante.
0:21 - 0:23

Havia todo o tipo de coisas inesperadas lá.
0:23 - 0:26

[David Evans] O objectivo para as três primeiras aulas do curso é construir esse corpus.
0:27 - 0:30

E queremos construir o corpus de nosso motor de busca
0:30 - 0:32

rastreando a web e é isso o que um "web crawler" faz.
0:32 - 0:36

Um "web crawler" é um programa que colhe o conteúdo da web.
0:36 - 0:40

Se pensares numa página web que vês no teu navegador, tens uma página como esta.
0:40 - 0:43

E vamos usar o sítio da Udacity como página web exemplificativa.
0:43 - 0:47

Tem muito conteúdo, tem algumas imagens, tem algum texto.
0:47 - 0:51

Tudo isto entra no teu navegador quando solicitas a página.
0:51 - 0:53

O importante é que tem ligações (links).
0:53 - 0:57

E uma ligação é algo que te leva para outra página.
0:57 - 1:00

Portanto, temos uma ligação para as perguntas frequentes,
1:00 - 1:02

temos uma ligação para a página do CS 101.
1:02 - 1:04

Existem outras ligações na página.
1:04 - 1:07

E essa ligação pode aparecer no teu navegador sublinhada,
1:07 - 1:09

ou não, dependendo das preferências que escolheste para o navegador.
1:09 - 1:11

Mas o importante,
1:11 - 1:13

é que a ligação aponta para uma outra página web.
1:13 - 1:16

E essas outras páginas, poderão também ter ligações,
1:16 - 1:19

portanto, temos outra ligação nesta página.
1:19 - 1:23

Talvez seja para o meu nome, poderás visitar a minha página.
1:23 - 1:26

E todas as páginas que podemos encontrar com o nosso web crawler
1:26 - 1:29

são encontradas seguindo as ligações.
1:29 - 1:31

Não encontraremos necessariamente todas as páginas na web.
1:31 - 1:33

Se começarmos com uma boa página-semente,
1:33 - 1:35

iremos encontrar muitas outras páginas.
1:35 - 1:37

E o que o crawler vai fazer é, a partir de uma única página,
1:37 - 1:41

encontrar todas as ligações dessa página, segui-las para encontrar outras páginas
1:41 - 1:45

e, em seguida, nessas outras páginas seguirá as respectivas ligações
1:45 - 1:48

para encontrar outras páginas e haverão muitas mais ligações nessas páginas.
1:48 - 1:51

E eventualmente vamos ter uma colecção de muitas páginas da web.
1:51 - 1:54

Portanto é isso que queremos fazer para construir um web crawler.
1:54 - 1:56

Queremos encontrar uma maneira de começar por uma página-semente,
1:56 - 1:59

extrair as ligações dessa página,
1:59 - 2:01

seguir as ligações para outras páginas,
2:01 - 2:03

em seguida recolher as ligações nessas outras páginas,
2:03 - 2:05

segui-las, recolher isto tudo.
2:05 - 2:07

Parece muita coisa para fazer.
2:07 - 2:09

Não iremos cobrir tudo isto nesta primeira aula.
2:09 - 2:12

O que vamos fazer, nesta primeira aula, é extrair apenas uma ligação.
2:12 - 2:14

Por isso vamos começar com um monte de texto.
2:14 - 2:17

Nele vai existir uma ligação com uma URL.
2:17 - 2:19

O que nós queremos encontrar é essa URL,
2:19 - 2:21

de forma a podermos seguir para a próxima página.
2:21 - 2:23

O objectivo para a segunda aula,
2:23 - 2:25

é ser capaz de continuar este processo.
2:25 - 2:28

Se houver muitas ligações numa página, quererás ser capaz de encontrá-las todas.
2:28 - 2:30

E é isso que vamos fazer na aula 2,
2:30 - 2:32

descobrir como continuar para extrair todas essas ligações.
2:32 - 2:36

Bem, na terceira aula, queremos ir além de uma única página.
2:36 - 2:40

Assim, até o final da aula dois poderemos apresentar todas as ligações duma página.
2:40 - 2:44

Na aula 3 queremos colher todas essas ligações, para que possamos continuar,
2:44 - 2:47

fazendo com que o nosso crawler colha muitas, muitas páginas.
2:47 - 2:50

Assim, no final da aula três teremos construido um web crawler.
2:50 - 2:52

Teremos uma forma de construir o nosso corpus.
2:52 - 2:57

Em seguida, nas restantes três aulas veremos como responder realmente a consultas.
2:57 - 3:01

Assim na aula quatro, iremos descobrir como dar uma boa resposta.
3:01 - 3:08

Se pesquisares um termo no motor, vais querer como resposta uma lista com as páginas
3:08 - 3:10

onde esse termo aparece.
3:10 - 3:15

Iremos descobrir na aula cinco como fazer isso, de forma adaptável, se tivermos um corpus grande.
3:15 - 3:19

E, em seguida, na aula seis o que queremos fazer é não apenas obter uma lista,
3:19 - 3:21

mas sim encontrar a melhor página.
3:21 - 3:24

Portanto iremos descobrir como classificar todas as páginas onde o termo aparece.
3:24 - 3:27

Mas, estamos a pôr a carroça à frente dos bois,
3:27 - 3:30

porque o que vamos fazer na aula um,
3:30 - 3:32

é apenas descobrir como extrair uma ligação da página.
3:32 - 3:35

E o motor de busca que vamos construir no fim
3:35 - 3:37

será um motor de busca funcional.
3:37 - 3:40

Terá os principais componentes que um motor de busca como o Google possui.
3:40 - 3:43

Certamente não será tão poderoso como o Google,
3:43 - 3:44

queremos manter as coisas simples.
3:44 - 3:46

Queremos escrever apenas um pequeno número de linhas de código.
3:46 - 3:48

E devemos lembrar-nos que nosso real objectivo
3:48 - 3:50

não é tanto construir um motor de busca,
3:50 - 3:52

mas sim usar a construção do motor como um veículo
3:52 - 3:55

para aprender matéria de ciências informáticas
3:55 - 3:56

e aprender programação,
3:56 - 3:58

assim, o que aprendermos fazendo isto,
3:58 -

permitir-nos-á resolver um montão de outros problemas.

Title:: Udacity CS 101 Unidade 1-2: Web Crawler
Description:: O Professor David Evans apresenta um panorama global das aulas do curso CS 101.

more » « less
Video Language:: English
Duration:: 04:03

	Gundega edited Portuguese subtitles for 01-02 Web Crawler
	jasa edited Portuguese subtitles for 01-02 Web Crawler
	sulphur edited Portuguese subtitles for 01-02 Web Crawler
	sulphur added a translation

Portuguese subtitles

Revisions

Revision 4

Gundega

Udacity CS 101 Unidade 1-2: Web Crawler

Revisions

Our website uses cookies

Operating cookies (Required)