Return to Video

Udacity CS 101 Unidad 1-2: Rastreador Web

  • 0:00 - 0:02
    [Sebastian Thrun] Entonces, ¿cuál es tu visión de cómo construir un motor de búsqueda?
  • 0:02 - 0:03
    has construido uno antes, ¿verdad?
  • 0:03 - 0:06
    [Sergey Brin - co-fundador, Google] Sí. Creo que lo más importante,
  • 0:06 - 0:08
    si vas a construir un buscador,
  • 0:08 - 0:12
    es tener un corpus realmente bueno para comenzar.
  • 0:12 - 0:19
    En nuestro caso, utilizamos la World Wide Web, que a su tiempo era sin duda más pequeño de lo que es hoy.
  • 0:19 - 0:21
    Pero también era muy nuevo y excitante.
  • 0:21 - 0:23
    Hubo todo tipo de cosas inesperadas allí.
  • 0:23 - 0:26
    [David Evans] Entonces, la meta para las tres primeras unidades del curso es construir ese corpus.
  • 0:27 - 0:30
    Y queremos construir el corpus de nuestro buscador
  • 0:30 - 0:32
    rastreando la web y es lo que hace un rastreador de web.
  • 0:32 - 0:36
    Lo que un rastreador de web es, es un programa que recopila el contenido de la web.
  • 0:36 - 0:40
    Si piensas en una página web que ves en tu explorador, tienes una página como esta.
  • 0:40 - 0:43
    Y utilizaremos el sitio de udacity como ejemplo de página web.
  • 0:43 - 0:47
    Tiene un montón de contenido, tiene algunas imágenes, tiene algo de texto.
  • 0:47 - 0:51
    Todo esto entra en el navegador cuando tu solicitas la página.
  • 0:51 - 0:53
    Lo importante que tiene es enlaces.
  • 0:53 - 0:57
    Y lo que un enlace es, es algo que va a otra página.
  • 0:57 - 1:00
    Así que tenemos un enlace a las preguntas frecuentes,
  • 1:00 - 1:02
    tenemos un vínculo a la página de CS 101.
  • 1:02 - 1:04
    Hay algún otro enlace en la página.
  • 1:04 - 1:07
    Y ese enlace puede aparecer subrayado en tu navegador ,
  • 1:07 - 1:09
    o no, dependiendo de cómo tu navegador está configurado.
  • 1:09 - 1:11
    Pero lo mas importante que hace,
  • 1:11 - 1:13
    es apuntar a alguna otra página web.
  • 1:13 - 1:16
    Y esas otras páginas también pueden tener enlaces,
  • 1:16 - 1:19
    así que tenemos otro enlace en esta página.
  • 1:19 - 1:23
    Tal vez es mi nombre, puedes seguir a mi página de inicio.
  • 1:23 - 1:26
    Y todas las páginas que podemos encontrar con nuestro rastreador web
  • 1:26 - 1:29
    se encuentran siguiendo los enlaces.
  • 1:29 - 1:31
    Por lo que no necesariamente encontrará todas las páginas en la web
  • 1:31 - 1:33
    Sin embargo, si empezamos con una buena página inicial
  • 1:33 - 1:35
    encontraremos montones de páginas.
  • 1:35 - 1:37
    Y lo que el Rastreador va a hacer es empezar con una página,
  • 1:37 - 1:41
    encontrar todos los enlaces en esa página, seguirlos para encontrar otras páginas
  • 1:41 - 1:45
    y, a continuación, en esas otras páginas seguirá los vínculos en esas páginas
  • 1:45 - 1:48
    para encontrar otras páginas y habrá muchos más vínculos en esas páginas.
  • 1:48 - 1:51
    Y finalmente tendremos una colección de muchas páginas en la web.
  • 1:51 - 1:54
    Así que eso es lo que queremos hacer para construir un rastreador web.
  • 1:54 - 1:56
    Queremos encontrar alguna manera para empezar por una página inicial.
  • 1:56 - 1:59
    extraer los enlaces en esa página,
  • 1:59 - 2:01
    Seguir los vínculos a otras páginas,
  • 2:01 - 2:03
    luego recoger los enlaces en esas otras páginas,
  • 2:03 - 2:05
    seguirlos, recoger todo eso.
  • 2:05 - 2:07
    Así que eso suena como mucho por hacer.
  • 2:07 - 2:09
    No lo vamos a hacer todo eso esta primera clase.
  • 2:09 - 2:12
    Lo que vamos a hacer en esta primera unidad, es simplemente extraer un vínculo.
  • 2:12 - 2:14
    Así que vamos a empezar con una porción de texto.
  • 2:14 - 2:17
    Va a tener un vínculo en ella con una dirección URL.
  • 2:17 - 2:19
    Lo que queremos encontrar es esa URL,
  • 2:19 - 2:21
    por lo tanto podemos solicitar la página siguiente.
  • 2:21 - 2:23
    El objetivo de la segunda unidad
  • 2:23 - 2:25
    es ser capaz de seguir adelante.
  • 2:25 - 2:28
    Si hay muchos enlaces en una página, querrás poder encontrarlos todos.
  • 2:28 - 2:30
    y lo que haremos en la unidad 2,
  • 2:30 - 2:32
    es averiguar cómo seguir adelante para extraer todos esos enlaces.
  • 2:32 - 2:36
    En la unidad tres, bueno, queremos ir más allá de una sola página.
  • 2:36 - 2:40
    Así que al final de la unidad dos podremos imprimir todos los enlaces en una página.
  • 2:40 - 2:44
    Unidad 3 queremos reunir todos esos vínculos, para poder seguir adelante,
  • 2:44 - 2:47
    siguiendo nuestro rastreador para recopilar muchas, muchas páginas.
  • 2:47 - 2:50
    Por lo que al final de la unidad tres habremos construido un rastreador de web.
  • 2:50 - 2:52
    Tendremos un modo de construir nuestro corpus.
  • 2:52 - 2:57
    A continuación, las otras tres unidades verán la forma de responder efectivamente a las consultas.
  • 2:57 - 3:01
    Así que en la unidad cuatro comprenderemos la manera de dar una buena respuesta.
  • 3:01 - 3:08
    Si buscas una cierta palabra clave, quieres obtener una respuesta que es una lista de las páginas
  • 3:08 - 3:10
    donde aparece esa palabra clave.
  • 3:10 - 3:15
    Y descubriremos, en la unidad cinco, una manera de hacerlo, que escala, si tenemos un gran corpus.
  • 3:15 - 3:19
    Y a continuación, en la unidad seis lo que queremos hacer es, bueno, no queremos solo encontrar una lista
  • 3:19 - 3:21
    queremos encontrar la mejor.
  • 3:21 - 3:24
    Así que descubriremos cómo clasificar todas las páginas donde aparece esa palabra clave.
  • 3:24 - 3:27
    Así que nos estamos adelantando ahora,
  • 3:27 - 3:30
    porque todo lo que vamos a hacer en la unidad uno
  • 3:30 - 3:32
    es averiguar cómo extraer un vínculo de la página.
  • 3:32 - 3:35
    Y el motor de búsqueda que nosotros construiremos al final de esto
  • 3:35 - 3:37
    será un motor de búsqueda funcional.
  • 3:37 - 3:40
    Contará con los principales componentes que tiene un motor de búsqueda como Google.
  • 3:40 - 3:43
    Sin duda no será tan poderoso como Google será,
  • 3:43 - 3:44
    queremos mantener las cosas simples.
  • 3:44 - 3:46
    Queremos tener una pequeña cantidad de código para escribir.
  • 3:46 - 3:48
    Y debemos recordar que nuestro verdadero objetivo
  • 3:48 - 3:50
    no es tanto construir un motor de búsqueda
  • 3:50 - 3:52
    sino utilizar la meta de construir un motor de búsqueda como vehículo
  • 3:52 - 3:55
    para aprender sobre ciencia de la computación
  • 3:55 - 3:56
    y aprender acerca de programación
  • 3:56 - 3:58
    por lo que las cosas que aprendamos haciendo esto
  • 3:58 -
    nos permitirán resolver gran cantidad de distintos problemas .
Title:
Udacity CS 101 Unidad 1-2: Rastreador Web
Description:

El profesor David Evans presenta una visión general de la unidad en CS 101.

more » « less
Video Language:
English
Duration:
04:03
Gundega edited Spanish subtitles for 01-02 Web Crawler
IVO_ edited Spanish subtitles for 01-02 Web Crawler
NexusMarit edited Spanish subtitles for 01-02 Web Crawler
jimgb added a translation

Spanish subtitles

Revisions