Return to Video

Udacity CS 101 Unit 1-2: Сетевой паук

  • 0:00 - 0:02
    [Себастьян Тран] Как ты думаешь, как написать поисковую машину
  • 0:02 - 0:03
    ты ведь создал уже одну раньше, так ведь?
  • 0:03 - 0:06
    [Сергей Брин, сооснователь Google] Да, я думаю, что самая важная вещь,
  • 0:06 - 0:08
    если ты собираешся создать поисковую машину,
  • 0:08 - 0:12
    это иметь хорошую базу с которой начнёшь
  • 0:12 - 0:19
    В нашем случае мы использовали всемирную паутину, которая в то время была, конечно, меньше, чем сегодня
  • 0:19 - 0:21
    Но она была также новой и захватывающей
  • 0:21 - 0:23
    Были всякие неожиданные вещи.
  • 0:23 - 0:26
    [David Evans] Итак, цель наших трех первых разделов курса в создании этой базы
  • 0:27 - 0:30
    И мы собираемся создать базу для нашего поисковой машины
  • 0:30 - 0:32
    сканируя сеть, это то, что делает сетевой "паук".
  • 0:32 - 0:36
    Сетевой паук - это программа, которая собирает содержание сети.
  • 0:36 - 0:40
    Если представить веб-страницу которую ты видишь в браузере, у тебя есть страница наподобие этой.
  • 0:40 - 0:43
    Рассмотрим сайт udacity как пример веб-страницы
  • 0:43 - 0:47
    На ней много информации, в виде картинок, в виде текта
  • 0:47 - 0:51
    Все это получает твой браузер, когда запрашивает страницу
  • 0:51 - 0:53
    Важная вещь это ссылки
  • 0:53 - 0:57
    Ссылка это что-то, что ссылается на другую страницу
  • 0:57 - 1:00
    Так у нас есть ссылка на часто задаваемые вопросы
  • 1:00 - 1:02
    есть ссылка на страницу CS101
  • 1:02 - 1:04
    И ещё несколько остальных ссылок
  • 1:04 - 1:07
    И эта ссылка может быть показана в браузере с подчёркиванием
  • 1:07 - 1:09
    или нет, в зависимости от настроек браузера
  • 1:09 - 1:11
    Но важная вещь это то,
  • 1:11 - 1:13
    что они указывают на какие-то другие страницы
  • 1:13 - 1:16
    И эти страницы могут тоже содеражить ссылки
  • 1:16 - 1:19
    так у нас есть другая ссылка на эту страницу
  • 1:19 - 1:23
    Может быть с моим именем, ты можешь попасть на мою домашную страницу
  • 1:23 - 1:26
    И все страницы, которые мы можем найти нашим пауком
  • 1:26 - 1:29
    находятся по переходу по ссылкам.
  • 1:29 - 1:31
    Так, что нам не нужно искать каждую страницу в сети
  • 1:31 - 1:33
    Если мы начнем с хорошей начальной страницы
  • 1:33 - 1:35
    мы найдем множество страниц.
  • 1:35 - 1:37
    И всё что паук будет делать, это начинать с одной страницы,
  • 1:37 - 1:41
    находить на ней все ссылки и переходить по ним, находя другие страницы
  • 1:41 - 1:45
    и затем на других страницах он перейдет по следующим ссылкам
  • 1:45 - 1:48
    обнаруживая другие страницы и на этих страницах будет ещё больше ссылок
  • 1:48 - 1:51
    И в конце концов у нас будет коллекция множества страниц в сети.
  • 1:51 - 1:54
    Вот что мы хотим делать, создавая веб паука.
  • 1:54 - 1:56
    Мы собираемся каким-либо образом начать с первоначальной страницы
  • 1:56 - 1:59
    выделить ссылки на ней,
  • 1:59 - 2:01
    перейти по этим ссылкам на другие страницы,
  • 2:01 - 2:03
    затем собрать ссылки с этих других страниц,
  • 2:03 - 2:05
    переходя по ним, собирая всё содеражние
  • 2:05 - 2:07
    Похоже чтобы реализовать это, нужно много работы
  • 2:07 - 2:09
    Мы не собираемся делать это всё в первом разделе
  • 2:09 - 2:12
    Всё что мы собираемся сделать в первом разделе, просто выделить ссылку.
  • 2:12 - 2:14
    Итак, мы начнем с отрывка текста.
  • 2:14 - 2:17
    Он будет иметь ссылки с URL.
  • 2:17 - 2:19
    Всё что мы хотим найти это этот URL,
  • 2:19 - 2:21
    так чтобы мы могли запросить следующую страницу.
  • 2:21 - 2:23
    Цель второго раздела
  • 2:23 - 2:25
    возможность продолжить дальше,
  • 2:25 - 2:28
    если на странице много ссылок, ты захочешь найти их все.
  • 2:28 - 2:30
    Это то, чем мы займемся во втором разделе,
  • 2:30 - 2:32
    выяснить, как продолжить, чтобы выделить все эти ссылки
  • 2:32 - 2:36
    В третьем разделе, мы хотим выйти за рамки только одной страницы.
  • 2:36 - 2:40
    Так что к концу раздела 2 мы сможем вывести все ссылки с одной страницы
  • 2:40 - 2:44
    Для третьего раздела нам нужно собрать всё эти ссылки, так что мы можем продолжить,
  • 2:44 - 2:47
    чтобы в конечном итоге, наш паук собрал много страниц.
  • 2:47 - 2:50
    Так что к концу третьего раздела мы доделаем веб паука.
  • 2:50 - 2:52
    У нас будет возможность сделать базу.
  • 2:52 - 2:57
    Тогда в оставшихся трёх разделах взглянем на то, как отвечать на запросы.
  • 2:57 - 3:01
    Таким образом в четвертом разделе подумаем над тем как получить хороший отклик.
  • 3:01 - 3:08
    Если ты ищешь какое-либо слово, ты хочешь получить в ответ список страниц,
  • 3:08 - 3:10
    где встречается это слово.
  • 3:10 - 3:15
    И в 5 разделе мы найдём способ сделать это, если у нас очень большая база.
  • 3:15 - 3:19
    Затем в шестом разделе, что мы хотим сделать, это не просто найти список страниц,
  • 3:19 - 3:21
    мы хотим найти наиболее подходящую.
  • 3:21 - 3:24
    Мы подумаем над тем, как расставить страницы, где это слово встречается.
  • 3:24 - 3:27
    Но мы сейчас немного забежали вперед,
  • 3:27 - 3:30
    потому что всё что мы собираемся сделать в первом разделе,
  • 3:30 - 3:32
    это выяснить как извлечь ссылку со страницы.
  • 3:32 - 3:35
    И поисковая машина, которую мы создадим в конце
  • 3:35 - 3:37
    будет вполне действующей поисковой машиной.
  • 3:37 - 3:40
    Она будет содержать такие же главные компоненты, как и у поисковой машину Google.
  • 3:40 - 3:43
    Она определенно не будет такой же мощной, как Google,
  • 3:43 - 3:44
    мы не хотим всё сильно усложнять.
  • 3:44 - 3:46
    Нам нужно будет написать не так много кода.
  • 3:46 - 3:48
    Мы хотим напомнить, что наша настоящая цель
  • 3:48 - 3:50
    не сколько написать поисковую машину,
  • 3:50 - 3:52
    а сколько воспользоваться необходимостью
  • 3:52 - 3:55
    написания поисковой машины для того,
  • 3:55 - 3:56
    чтобы изучить информатику и программирование
  • 3:56 - 3:58
    так, что вещи, которые мы изучим, делая поисковую машину
  • 3:58 -
    позволят нам в дальнейшем решить много других проблем.
Title:
Udacity CS 101 Unit 1-2: Сетевой паук
Description:

Профессор Девид Эванс делает обзор разделов в CS101.

more » « less
Video Language:
English
Duration:
04:03
Gundega edited Russian subtitles for 01-02 Web Crawler
Альф edited Russian subtitles for 01-02 Web Crawler
Альф edited Russian subtitles for 01-02 Web Crawler
Альф edited Russian subtitles for 01-02 Web Crawler
Альф added a translation

Russian subtitles

Revisions