Return to Video

Udacity CS 101 Unidade 1-2: Web Crawler

  • 0:00 - 0:02
    [Sebastian Thrun] Então, qual é a tua opinião sobre a construção de um motor de busca,
  • 0:02 - 0:03
    já criaste um, certo?
  • 0:03 - 0:06
    [Sergey Brin - co-fundador, Google] Sim. Eu acho que a coisa mais importante
  • 0:06 - 0:08
    se fores construir um motor de busca
  • 0:08 - 0:12
    é começar com um corpus (material) extremamente bom.
  • 0:12 - 0:19
    No nosso caso, usámos a world wide web (WWW), que na época era significativamente menor do que é hoje.
  • 0:19 - 0:21
    Mas também era muito nova e excitante.
  • 0:21 - 0:23
    Havia todo o tipo de coisas inesperadas lá.
  • 0:23 - 0:26
    [David Evans] O objectivo para as três primeiras aulas do curso é construir esse corpus.
  • 0:27 - 0:30
    E queremos construir o corpus de nosso motor de busca
  • 0:30 - 0:32
    rastreando a web e é isso o que um "web crawler" faz.
  • 0:32 - 0:36
    Um "web crawler" é um programa que colhe o conteúdo da web.
  • 0:36 - 0:40
    Se pensares numa página web que vês no teu navegador, tens uma página como esta.
  • 0:40 - 0:43
    E vamos usar o sítio da Udacity como página web exemplificativa.
  • 0:43 - 0:47
    Tem muito conteúdo, tem algumas imagens, tem algum texto.
  • 0:47 - 0:51
    Tudo isto entra no teu navegador quando solicitas a página.
  • 0:51 - 0:53
    O importante é que tem ligações (links).
  • 0:53 - 0:57
    E uma ligação é algo que te leva para outra página.
  • 0:57 - 1:00
    Portanto, temos uma ligação para as perguntas frequentes,
  • 1:00 - 1:02
    temos uma ligação para a página do CS 101.
  • 1:02 - 1:04
    Existem outras ligações na página.
  • 1:04 - 1:07
    E essa ligação pode aparecer no teu navegador sublinhada,
  • 1:07 - 1:09
    ou não, dependendo das preferências que escolheste para o navegador.
  • 1:09 - 1:11
    Mas o importante,
  • 1:11 - 1:13
    é que a ligação aponta para uma outra página web.
  • 1:13 - 1:16
    E essas outras páginas, poderão também ter ligações,
  • 1:16 - 1:19
    portanto, temos outra ligação nesta página.
  • 1:19 - 1:23
    Talvez seja para o meu nome, poderás visitar a minha página.
  • 1:23 - 1:26
    E todas as páginas que podemos encontrar com o nosso web crawler
  • 1:26 - 1:29
    são encontradas seguindo as ligações.
  • 1:29 - 1:31
    Não encontraremos necessariamente todas as páginas na web.
  • 1:31 - 1:33
    Se começarmos com uma boa página-semente,
  • 1:33 - 1:35
    iremos encontrar muitas outras páginas.
  • 1:35 - 1:37
    E o que o crawler vai fazer é, a partir de uma única página,
  • 1:37 - 1:41
    encontrar todas as ligações dessa página, segui-las para encontrar outras páginas
  • 1:41 - 1:45
    e, em seguida, nessas outras páginas seguirá as respectivas ligações
  • 1:45 - 1:48
    para encontrar outras páginas e haverão muitas mais ligações nessas páginas.
  • 1:48 - 1:51
    E eventualmente vamos ter uma colecção de muitas páginas da web.
  • 1:51 - 1:54
    Portanto é isso que queremos fazer para construir um web crawler.
  • 1:54 - 1:56
    Queremos encontrar uma maneira de começar por uma página-semente,
  • 1:56 - 1:59
    extrair as ligações dessa página,
  • 1:59 - 2:01
    seguir as ligações para outras páginas,
  • 2:01 - 2:03
    em seguida recolher as ligações nessas outras páginas,
  • 2:03 - 2:05
    segui-las, recolher isto tudo.
  • 2:05 - 2:07
    Parece muita coisa para fazer.
  • 2:07 - 2:09
    Não iremos cobrir tudo isto nesta primeira aula.
  • 2:09 - 2:12
    O que vamos fazer, nesta primeira aula, é extrair apenas uma ligação.
  • 2:12 - 2:14
    Por isso vamos começar com um monte de texto.
  • 2:14 - 2:17
    Nele vai existir uma ligação com uma URL.
  • 2:17 - 2:19
    O que nós queremos encontrar é essa URL,
  • 2:19 - 2:21
    de forma a podermos seguir para a próxima página.
  • 2:21 - 2:23
    O objectivo para a segunda aula,
  • 2:23 - 2:25
    é ser capaz de continuar este processo.
  • 2:25 - 2:28
    Se houver muitas ligações numa página, quererás ser capaz de encontrá-las todas.
  • 2:28 - 2:30
    E é isso que vamos fazer na aula 2,
  • 2:30 - 2:32
    descobrir como continuar para extrair todas essas ligações.
  • 2:32 - 2:36
    Bem, na terceira aula, queremos ir além de uma única página.
  • 2:36 - 2:40
    Assim, até o final da aula dois poderemos apresentar todas as ligações duma página.
  • 2:40 - 2:44
    Na aula 3 queremos colher todas essas ligações, para que possamos continuar,
  • 2:44 - 2:47
    fazendo com que o nosso crawler colha muitas, muitas páginas.
  • 2:47 - 2:50
    Assim, no final da aula três teremos construido um web crawler.
  • 2:50 - 2:52
    Teremos uma forma de construir o nosso corpus.
  • 2:52 - 2:57
    Em seguida, nas restantes três aulas veremos como responder realmente a consultas.
  • 2:57 - 3:01
    Assim na aula quatro, iremos descobrir como dar uma boa resposta.
  • 3:01 - 3:08
    Se pesquisares um termo no motor, vais querer como resposta uma lista com as páginas
  • 3:08 - 3:10
    onde esse termo aparece.
  • 3:10 - 3:15
    Iremos descobrir na aula cinco como fazer isso, de forma adaptável, se tivermos um corpus grande.
  • 3:15 - 3:19
    E, em seguida, na aula seis o que queremos fazer é não apenas obter uma lista,
  • 3:19 - 3:21
    mas sim encontrar a melhor página.
  • 3:21 - 3:24
    Portanto iremos descobrir como classificar todas as páginas onde o termo aparece.
  • 3:24 - 3:27
    Mas, estamos a pôr a carroça à frente dos bois,
  • 3:27 - 3:30
    porque o que vamos fazer na aula um,
  • 3:30 - 3:32
    é apenas descobrir como extrair uma ligação da página.
  • 3:32 - 3:35
    E o motor de busca que vamos construir no fim
  • 3:35 - 3:37
    será um motor de busca funcional.
  • 3:37 - 3:40
    Terá os principais componentes que um motor de busca como o Google possui.
  • 3:40 - 3:43
    Certamente não será tão poderoso como o Google,
  • 3:43 - 3:44
    queremos manter as coisas simples.
  • 3:44 - 3:46
    Queremos escrever apenas um pequeno número de linhas de código.
  • 3:46 - 3:48
    E devemos lembrar-nos que nosso real objectivo
  • 3:48 - 3:50
    não é tanto construir um motor de busca,
  • 3:50 - 3:52
    mas sim usar a construção do motor como um veículo
  • 3:52 - 3:55
    para aprender matéria de ciências informáticas
  • 3:55 - 3:56
    e aprender programação,
  • 3:56 - 3:58
    assim, o que aprendermos fazendo isto,
  • 3:58 -
    permitir-nos-á resolver um montão de outros problemas.
Title:
Udacity CS 101 Unidade 1-2: Web Crawler
Description:

O Professor David Evans apresenta um panorama global das aulas do curso CS 101.

more » « less
Video Language:
English
Duration:
04:03
Gundega edited Portuguese subtitles for 01-02 Web Crawler
jasa edited Portuguese subtitles for 01-02 Web Crawler
sulphur edited Portuguese subtitles for 01-02 Web Crawler
sulphur added a translation

Portuguese subtitles

Revisions