Return to Video

Udacity CS 101 Unidade 1-2: Web Crawler

  • Not Synced
    A coisa importante que ele tem são os links.
  • Not Synced
    A meta para a segunda unidade
  • Not Synced
    Ao final da unidade 3 teremos contruído um web crawler.
  • Not Synced
    Descobriremos na unidade 5 uma forma de fazer isso, dimensionando, caso tenhamos um grande corpus.
  • Not Synced
    E esse link pode ser exibido no seu navegador com um sublinhado,
  • Not Synced
    E o motor de busca que construiremos até o final,
  • Not Synced
    E o que o rastreador vai fazer é começar com uma página,
  • Not Synced
    E o que um link é? É algo que aponta para outra página.
  • Not Synced
    E queremos construir o corpus para o nosso motor de busca
  • Not Synced
    E, finalmente vamos ter uma coleção de várias páginas da web.
  • Not Synced
    Ele certamente não será poderoso como Google,
  • Not Synced
    Ele terá os principais componentes que um motor de busca como o Google possui.
  • Not Synced
    Então isso parece um monte de coisa pra fazer.
  • Not Synced
    Então nós temos um link para as perguntas frequentes (FAQ),
  • Not Synced
    Então é isso que nós queremos fazer para construir um web crawler.
  • Not Synced
    Então, compreenderemos como classificar todas as páginas que a palavra chave aparece.
  • Not Synced
    Então, estamos nos adiantando um pouco,
  • Not Synced
    Então, nas três unidades restantes veremos como responder às solicitações.
  • Not Synced
    Então, não necessariamante encontraremos cada página da web
  • Not Synced
    Então, perto do fim da Unidade 2 podemos imprimir todos os links de uma página.
  • Not Synced
    Então, se você pesquisar por uma palavra chave, você precisa de uma resposta com a lista de paginas
  • Not Synced
    Então, vamos começar com um monte de texto.
  • Not Synced
    Havia todo o tipo de coisa inesperada lá.
  • Not Synced
    Há alguns outros links na página.
  • Not Synced
    Já ma unidade 6, nós não queremos apenas encontrar uma lista,
  • Not Synced
    Mas era algo muito novo e excitante.
  • Not Synced
    Mas o importante é o que ele faz,
  • Not Synced
    Na Unidade 3, queremos ir mais além de uma página.
  • Not Synced
    Na unidade 4, descobriremos como dar uma boa resposta.
  • Not Synced
    No nosso caso, usamos a web (www), que na época certamente era menor do que é hoje.
  • Not Synced
    Nós não trataremos de tudo isto na primeira aula.
  • Not Synced
    Nós teremos um pouco de código a escrever
  • Not Synced
    Nós usaremos o site da Udacity como exemplo.
  • Not Synced
    Nós vamos ter uma forma de construir o nosso corpus.
  • Not Synced
    O que queremos é encontrar essa URL,
  • Not Synced
    O que um web crawler é? é um programa que coleta conteúdos da web.
  • Not Synced
    O que vamos fazer na primeira unidade, é só extrair um link.
  • Not Synced
    Para unidade 3 queremos coletar todos esses links, então podemos continuar,
  • Not Synced
    Queremos encontrar uma maneira de começar a partir de uma página semente (inicial),
  • Not Synced
    Se começarmos com uma boa página semente (inicial)
  • Not Synced
    Se você pensar em uma página web que você vê no seu navegador, você tem uma página como esta.
  • Not Synced
    Talvez com o meu nome e você pode seguir para a minha home page.
  • Not Synced
    Tem muito conteúdo, tem algumas imagens, tem algum texto.
  • Not Synced
    Todas as páginas que nós podemos procurar com nosso web crawler
  • Not Synced
    Tudo isso surge no seu navegador quando você solicitar a página.
  • Not Synced
    Vai ter um link nele com uma URL.
  • Not Synced
    [David Evans] Então a meta para as três primeiras unidades do curso é construir esse corpus.
  • Not Synced
    [Sebastian Thrun] Então, qual é sua opinião sobre como construir um motor de busca,
  • Not Synced
    [Sergey Brin - Co-Fundador, Google] Sim. Acho que a coisa mais importante
  • Not Synced
    e então nestas outras páginas ele seguirá os links destas páginas
  • Not Synced
    e estas outras páginas web talvez tenham links também
  • Not Synced
    e nós devemos nos lembrar do nosso real objetivo,
  • Not Synced
    e sobre programação.
  • Not Synced
    entender como continuar a extrair todos estes links.
  • Not Synced
    então coletar os links destas outras páginas,
  • Not Synced
    então nós temos outro link nesta página.
  • Not Synced
    então podemos solicitar a próxima página.
  • Not Synced
    então, o que aprenderemos fazendo isto
  • Not Synced
    extrair os links desta página,
  • Not Synced
    já que precisamos mante-lo simples.
  • Not Synced
    já que tudo que vamos fazer na unidade 1,
  • Not Synced
    mas usar esta contrução como veiculo
  • Not Synced
    nos permitirá resolver muitos e muitos outros problemas.
  • Not Synced
    nós queremos encontrar a melhor.
  • Not Synced
    ou não, dependendo de como seu navegador está definido.
  • Not Synced
    para aprender sobre ciência da computação
  • Not Synced
    para encontrar outras páginas e haverão muito mais links sobre essas páginas.
  • Not Synced
    procurar todos os links desta página, seguindo-os para encontrar outras páginas
  • Not Synced
    que a palavra chave aparece.
  • Not Synced
    que não é contruir um motor de busca,
  • Not Synced
    que é apontar para outra página web.
  • Not Synced
    rastreando a web e é isso que um web crawler faz.
  • Not Synced
    se há muitos links em uma página, você vai querer encontrar todos eles.
  • Not Synced
    se você estiver indo construir um motor de busca
  • Not Synced
    segui-las e coletar tudo.
  • Not Synced
    seguindo o nosso rastreador na coleta de muitas e muitas páginas.
  • Not Synced
    seguir os links para outras páginas,
  • Not Synced
    será totalmente funcional.
  • Not Synced
    são encontradas seguindo os links.
  • Not Synced
    temos um link para a página CS 101.
  • Not Synced
    vamos encontrar muitas páginas.
  • Not Synced
    você construiu um antes, certo?
  • Not Synced
    É isso o que faremos na Unidade 2,
  • Not Synced
    é compreender como extrair um link da página.
  • Not Synced
    é ser capaz de continuar.
  • Not Synced
    é ter um bom "corpus" para começar.
Title:
Udacity CS 101 Unidade 1-2: Web Crawler
Description:

O Professor David Evans dá uma visão geral das unidades do CS 101.

more » « less
Video Language:
English
Duration:
04:03
roger.gales edited Portuguese, Brazilian subtitles for 01-02 Web Crawler
roger.gales added a translation

Portuguese, Brazilian subtitles

Incomplete

Revisions