-
[Sebastian Thrun] Entonces, ¿cuál es tu visión de cómo construir un motor de búsqueda?
-
has construido uno antes, ¿verdad?
-
[Sergey Brin - co-fundador, Google] Sí. Creo que lo más importante,
-
si vas a construir un buscador,
-
es tener un corpus realmente bueno para comenzar.
-
En nuestro caso, utilizamos la World Wide Web, que a su tiempo era sin duda más pequeño de lo que es hoy.
-
Pero también era muy nuevo y excitante.
-
Hubo todo tipo de cosas inesperadas allí.
-
[David Evans] Entonces, la meta para las tres primeras unidades del curso es construir ese corpus.
-
Y queremos construir el corpus de nuestro buscador
-
rastreando la web y es lo que hace un rastreador de web.
-
Lo que un rastreador de web es, es un programa que recopila el contenido de la web.
-
Si piensas en una página web que ves en tu explorador, tienes una página como esta.
-
Y utilizaremos el sitio de udacity como ejemplo de página web.
-
Tiene un montón de contenido, tiene algunas imágenes, tiene algo de texto.
-
Todo esto entra en el navegador cuando tu solicitas la página.
-
Lo importante que tiene es enlaces.
-
Y lo que un enlace es, es algo que va a otra página.
-
Así que tenemos un enlace a las preguntas frecuentes,
-
tenemos un vínculo a la página de CS 101.
-
Hay algún otro enlace en la página.
-
Y ese enlace puede aparecer subrayado en tu navegador ,
-
o no, dependiendo de cómo tu navegador está configurado.
-
Pero lo mas importante que hace,
-
es apuntar a alguna otra página web.
-
Y esas otras páginas también pueden tener enlaces,
-
así que tenemos otro enlace en esta página.
-
Tal vez es mi nombre, puedes seguir a mi página de inicio.
-
Y todas las páginas que podemos encontrar con nuestro rastreador web
-
se encuentran siguiendo los enlaces.
-
Por lo que no necesariamente encontrará todas las páginas en la web
-
Sin embargo, si empezamos con una buena página inicial
-
encontraremos montones de páginas.
-
Y lo que el Rastreador va a hacer es empezar con una página,
-
encontrar todos los enlaces en esa página, seguirlos para encontrar otras páginas
-
y, a continuación, en esas otras páginas seguirá los vínculos en esas páginas
-
para encontrar otras páginas y habrá muchos más vínculos en esas páginas.
-
Y finalmente tendremos una colección de muchas páginas en la web.
-
Así que eso es lo que queremos hacer para construir un rastreador web.
-
Queremos encontrar alguna manera para empezar por una página inicial.
-
extraer los enlaces en esa página,
-
Seguir los vínculos a otras páginas,
-
luego recoger los enlaces en esas otras páginas,
-
seguirlos, recoger todo eso.
-
Así que eso suena como mucho por hacer.
-
No lo vamos a hacer todo eso esta primera clase.
-
Lo que vamos a hacer en esta primera unidad, es simplemente extraer un vínculo.
-
Así que vamos a empezar con una porción de texto.
-
Va a tener un vínculo en ella con una dirección URL.
-
Lo que queremos encontrar es esa URL,
-
por lo tanto podemos solicitar la página siguiente.
-
El objetivo de la segunda unidad
-
es ser capaz de seguir adelante.
-
Si hay muchos enlaces en una página, querrás poder encontrarlos todos.
-
y lo que haremos en la unidad 2,
-
es averiguar cómo seguir adelante para extraer todos esos enlaces.
-
En la unidad tres, bueno, queremos ir más allá de una sola página.
-
Así que al final de la unidad dos podremos imprimir todos los enlaces en una página.
-
Unidad 3 queremos reunir todos esos vínculos, para poder seguir adelante,
-
siguiendo nuestro rastreador para recopilar muchas, muchas páginas.
-
Por lo que al final de la unidad tres habremos construido un rastreador de web.
-
Tendremos un modo de construir nuestro corpus.
-
A continuación, las otras tres unidades verán la forma de responder efectivamente a las consultas.
-
Así que en la unidad cuatro comprenderemos la manera de dar una buena respuesta.
-
Si buscas una cierta palabra clave, quieres obtener una respuesta que es una lista de las páginas
-
donde aparece esa palabra clave.
-
Y descubriremos, en la unidad cinco, una manera de hacerlo, que escala, si tenemos un gran corpus.
-
Y a continuación, en la unidad seis lo que queremos hacer es, bueno, no queremos solo encontrar una lista
-
queremos encontrar la mejor.
-
Así que descubriremos cómo clasificar todas las páginas donde aparece esa palabra clave.
-
Así que nos estamos adelantando ahora,
-
porque todo lo que vamos a hacer en la unidad uno
-
es averiguar cómo extraer un vínculo de la página.
-
Y el motor de búsqueda que nosotros construiremos al final de esto
-
será un motor de búsqueda funcional.
-
Contará con los principales componentes que tiene un motor de búsqueda como Google.
-
Sin duda no será tan poderoso como Google será,
-
queremos mantener las cosas simples.
-
Queremos tener una pequeña cantidad de código para escribir.
-
Y debemos recordar que nuestro verdadero objetivo
-
no es tanto construir un motor de búsqueda
-
sino utilizar la meta de construir un motor de búsqueda como vehículo
-
para aprender sobre ciencia de la computación
-
y aprender acerca de programación
-
por lo que las cosas que aprendamos haciendo esto
-
nos permitirán resolver gran cantidad de distintos problemas .