Return to Video

Korekcja błędów w pisowni.

  • 0:02 - 0:07
    Dziś porozmawiamy o korekcji błędów. Wiele aplikacji z niej korzysta
  • 0:07 - 0:12
    Na przykład: edytory tekstu, prawie każdy, obecnie stosowany edytor
  • 0:12 - 0:17
    zaznaczy błędnie wpisane słowo, znajdzie jego poprawną wersje
  • 0:17 - 0:22
    i automatycznie zamieni je na prawidłowe. Współczesne wyszukiwarki
  • 0:22 - 0:28
    nie tylko zaznaczą błędny wyraz, ale także zwrócą wynik wyszukiwania,
  • 0:28 - 0:35
    taki jaki by był dla prawidłowo napisanego wyrazu.
  • 0:35 - 0:41
    Obecnie telefony komórkowe także automatycznie znajdują niepoprawne wyrazy.
  • 0:41 - 0:47
    Wpiszmy np.: słowo l-a-y-r, zostanie ono zastąpione automatycznie albo sasugerowana zostanie
  • 0:47 - 0:52
    poprawna forma. Możemy rozróżnić cały katalog problemów w obrębnie korekcji tekstu.
  • 0:52 - 0:57
    Jednym jest znalezienie błędu, a drugim poprawa niepoprawnego wyrazu.
  • 0:57 - 1:01
    Możemy tutaj mówić o różnych rodzajach korekcji. Można
  • 1:01 - 1:06
    automatycznie poprawić błąd, jeśli jesteśmy pewni, że znamy poprawną wersje
  • 1:06 - 1:11
    nieprawidłowego słowa. H-T-E jest bardzo częstym błędem i
  • 1:11 - 1:15
    wiele edytorów automatycznie poprawia H-T-E. Możemy zasugerować tylko jedną
  • 1:15 - 1:19
    korekcje, jeśli jest ona bardzo prawdopodobna, albo możemy zasugerować
  • 1:19 - 1:24
    całą listę korekcji i umożliwić użytkownikowi wybranie prawidłowej. Rozróżniamy dwie
  • 1:24 - 1:31
    różne klasy błędów. Błędy w wyników których powstałe słowo nie jest
  • 1:31 - 1:37
    poprawnym słowem danego języka. Tak więc słowo g-r-a-f-f-e - błąd dla słowa giraffe
  • 1:37 - 1:44
    nie jest słowem języka angielskiego. Z drugiej strony istnieją błędy w wyniku których powstaje
  • 1:44 - 1:50
    słowo, które występuje w języku angielskim.
  • 1:50 - 1:55
    Takie błędy są trudniejsze do wykrycia. Możemy zatem podzielić błędy
  • 1:55 - 2:00
    na błędy typograficzne. Np.: napisaliśmy
  • 2:00 - 2:06
    t-h-r-e-e a chcieliśmy napisać t-h-e-r-e. Oraz na błędy poznawcze. Użytkownik chciał
  • 2:06 - 2:12
    napisać słowo p-i-e-c-e, zastąpil je natomiast homofonem
  • 2:12 - 2:16
    tego słowa. Albo t-o-o i t-w-o. W obu przypadkach
  • 2:16 - 2:22
    błąd prowadzi do powstania poprawnego słowa języka angielskiego. Znając zatem różnice pomiędzy nimi
  • 2:22 - 2:27
    możemy znaleźć lepszy sposób na poprawe obu tych typów błędów.
  • 2:27 - 2:34
    Jak częste są błędy w pisowni? Zależy to od zadania. W przypadku wyszukiwarek, błędy
  • 2:34 - 2:39
    są bardzo częste. Praktycznie jedno na cztery słowa
  • 2:39 - 2:44
    mają szanse być niepoprawne. Jednak w przypadku błędów powstałych przy korzystaniu z telefonów komórkowych
  • 2:44 - 2:49
    jest o wiele trudniej określić dokładną ich liczbę. Zostało przeprowadzone sporo badań
  • 2:49 - 2:53
    i większość z nich polegało na przepisywaniu bez kasowania tekstu przez użytkowników.
  • 2:53 - 2:58
    Przepisywali oni tekst i określano jak dobrze to zrobili. Co prawda nie jest to to samo co zrobił by normalny
  • 2:58 - 3:03
    użytkownik telefonu piszący wiadomość, jednak jeśli poprosisz
  • 3:03 - 3:07
    użytkowników o przepisanie tekstu bez użycia przycisku backspace,
  • 3:07 - 3:11
    w 13% słów zrobią oni błąd. Wynika zatem z tego,
  • 3:11 - 3:16
    że wiele słów poprawiają oni klawiszem backspace. Jeśli
  • 3:16 - 3:21
    pozwolisz im poprawiać wpisywane słowa
  • 3:21 - 3:26
    poprawią oni samodzielnie jakieś 7% błędnie wpisanych słów.
  • 3:26 - 3:31
    Pozostanie jednak nadal około 2% słów niepoprawnych.
  • 3:31 - 3:36
    Podobnie jest w przypadku użytkowników przepisujących tekst na zwykłej klawiaturze.
  • 3:36 - 3:41
    Więć błędy stanowią ok 2% wprowadzanych przez użytkowników słów. I prawdopodobnie większa
  • 3:41 - 3:46
    liczba dla słów wpisywanych w wyszukiwarkach i jeszcze większa dla piszących sms-y.
  • 3:46 - 3:51
    W jaki sposów wykrywamy błędy nie tworzące poprawnych słów?
  • 3:51 - 3:56
    Tradycyjną metodą jest użycie dużego słownika. Każde słowo, które
  • 3:56 - 4:01
    się w nim nie znajduje - jest błędne. Im większy słownik, tym
  • 4:01 - 4:05
    lepiej ta metoda działa. W celu poprawy tych słów, generujemy liste poprawnych
  • 4:05 - 4:09
    słów podobnych do tego niepoprawnego. I wybieramy to,
  • 4:09 - 4:13
    które najbardziej nam pasuje. Mówie tutaj o modelu probalistyczny noisy-channel.
  • 4:13 - 4:17
    Ma to także związek z metodą shortest
  • 4:17 - 4:21
    weighted error distance method. Znajdujemy więc słowa, które nie znajdują się w
  • 4:21 - 4:25
    słowniku. Dla każdego generujemy liste słów-kandydatów, czyli słów poprawnych,
  • 4:25 - 4:29
    podobnych do błędnego słowa
  • 4:29 - 4:33
    i wybieramy najlepsze z nich. Tak naprawde w prawdziwych korektorach, robimy nawet więcej:
  • 4:33 - 4:38
    Dla każdego słowa generujemy liste kandydatów, ale robimy to
  • 4:38 - 4:42
    dla każdego słowa w zdaniu, nie tylko dla słowa, którego nie mamy w słowniku.
  • 4:42 - 4:46
    W prawdziwych korektorach tekstu nie używamy słowników
  • 4:46 - 4:50
    ponieważ błędne słowo może występować w słowniku.
  • 4:50 - 4:54
    Więc dla każdego słowa generujemy liste kandydatów. Możemy ją stworzyć w oparciu o
  • 4:54 - 4:58
    podobną wymowę, podobną pisownie
  • 4:58 - 5:03
    i zależy to od algorytmu z którego korzystamy. Jest niezmiernie ważne, aby badane słowo
  • 5:03 - 5:07
    znajdywało się wśród kandydatów do poprawy, ponieważ badane słowo może
  • 5:07 - 5:12
    być błędnie zapisanym innym poprawnym słowem albo może być poprawne.
  • 5:12 - 5:16
    W rzeczywistości większość słow jest poprawna. Należy więc
  • 5:16 - 5:20
    badane słowo dodać do listy kandydatów. I najczęściej właśnie je wybierzemy jako najlepsze.
  • 5:20 - 5:26
    Więc jak jak dobieramy słowa-kandydaty? Możemy użyć modelu noisy channel,
  • 5:26 - 5:32
    możemy użyć klasyfikatora
  • 5:32 - 5:38
    Omówimy więc następnie różne metody znajdywania błędów i ich korekcji.
Title:
Korekcja błędów w pisowni.
Video Language:
English
jamrymi added a translation

Polish subtitles

Revisions