Korekcja błędów w pisowni.

0:02 - 0:07

Dziś porozmawiamy o korekcji błędów. Wiele aplikacji z niej korzysta
0:07 - 0:12

Na przykład: edytory tekstu, prawie każdy, obecnie stosowany edytor
0:12 - 0:17

zaznaczy błędnie wpisane słowo, znajdzie jego poprawną wersje
0:17 - 0:22

i automatycznie zamieni je na prawidłowe. Współczesne wyszukiwarki
0:22 - 0:28

nie tylko zaznaczą błędny wyraz, ale także zwrócą wynik wyszukiwania,
0:28 - 0:35

taki jaki by był dla prawidłowo napisanego wyrazu.
0:35 - 0:41

Obecnie telefony komórkowe także automatycznie znajdują niepoprawne wyrazy.
0:41 - 0:47

Wpiszmy np.: słowo l-a-y-r, zostanie ono zastąpione automatycznie albo sasugerowana zostanie
0:47 - 0:52

poprawna forma. Możemy rozróżnić cały katalog problemów w obrębnie korekcji tekstu.
0:52 - 0:57

Jednym jest znalezienie błędu, a drugim poprawa niepoprawnego wyrazu.
0:57 - 1:01

Możemy tutaj mówić o różnych rodzajach korekcji. Można
1:01 - 1:06

automatycznie poprawić błąd, jeśli jesteśmy pewni, że znamy poprawną wersje
1:06 - 1:11

nieprawidłowego słowa. H-T-E jest bardzo częstym błędem i
1:11 - 1:15

wiele edytorów automatycznie poprawia H-T-E. Możemy zasugerować tylko jedną
1:15 - 1:19

korekcje, jeśli jest ona bardzo prawdopodobna, albo możemy zasugerować
1:19 - 1:24

całą listę korekcji i umożliwić użytkownikowi wybranie prawidłowej. Rozróżniamy dwie
1:24 - 1:31

różne klasy błędów. Błędy w wyników których powstałe słowo nie jest
1:31 - 1:37

poprawnym słowem danego języka. Tak więc słowo g-r-a-f-f-e - błąd dla słowa giraffe
1:37 - 1:44

nie jest słowem języka angielskiego. Z drugiej strony istnieją błędy w wyniku których powstaje
1:44 - 1:50

słowo, które występuje w języku angielskim.
1:50 - 1:55

Takie błędy są trudniejsze do wykrycia. Możemy zatem podzielić błędy
1:55 - 2:00

na błędy typograficzne. Np.: napisaliśmy
2:00 - 2:06

t-h-r-e-e a chcieliśmy napisać t-h-e-r-e. Oraz na błędy poznawcze. Użytkownik chciał
2:06 - 2:12

napisać słowo p-i-e-c-e, zastąpil je natomiast homofonem
2:12 - 2:16

tego słowa. Albo t-o-o i t-w-o. W obu przypadkach
2:16 - 2:22

błąd prowadzi do powstania poprawnego słowa języka angielskiego. Znając zatem różnice pomiędzy nimi
2:22 - 2:27

możemy znaleźć lepszy sposób na poprawe obu tych typów błędów.
2:27 - 2:34

Jak częste są błędy w pisowni? Zależy to od zadania. W przypadku wyszukiwarek, błędy
2:34 - 2:39

są bardzo częste. Praktycznie jedno na cztery słowa
2:39 - 2:44

mają szanse być niepoprawne. Jednak w przypadku błędów powstałych przy korzystaniu z telefonów komórkowych
2:44 - 2:49

jest o wiele trudniej określić dokładną ich liczbę. Zostało przeprowadzone sporo badań
2:49 - 2:53

i większość z nich polegało na przepisywaniu bez kasowania tekstu przez użytkowników.
2:53 - 2:58

Przepisywali oni tekst i określano jak dobrze to zrobili. Co prawda nie jest to to samo co zrobił by normalny
2:58 - 3:03

użytkownik telefonu piszący wiadomość, jednak jeśli poprosisz
3:03 - 3:07

użytkowników o przepisanie tekstu bez użycia przycisku backspace,
3:07 - 3:11

w 13% słów zrobią oni błąd. Wynika zatem z tego,
3:11 - 3:16

że wiele słów poprawiają oni klawiszem backspace. Jeśli
3:16 - 3:21

pozwolisz im poprawiać wpisywane słowa
3:21 - 3:26

poprawią oni samodzielnie jakieś 7% błędnie wpisanych słów.
3:26 - 3:31

Pozostanie jednak nadal około 2% słów niepoprawnych.
3:31 - 3:36

Podobnie jest w przypadku użytkowników przepisujących tekst na zwykłej klawiaturze.
3:36 - 3:41

Więć błędy stanowią ok 2% wprowadzanych przez użytkowników słów. I prawdopodobnie większa
3:41 - 3:46

liczba dla słów wpisywanych w wyszukiwarkach i jeszcze większa dla piszących sms-y.
3:46 - 3:51

W jaki sposów wykrywamy błędy nie tworzące poprawnych słów?
3:51 - 3:56

Tradycyjną metodą jest użycie dużego słownika. Każde słowo, które
3:56 - 4:01

się w nim nie znajduje - jest błędne. Im większy słownik, tym
4:01 - 4:05

lepiej ta metoda działa. W celu poprawy tych słów, generujemy liste poprawnych
4:05 - 4:09

słów podobnych do tego niepoprawnego. I wybieramy to,
4:09 - 4:13

które najbardziej nam pasuje. Mówie tutaj o modelu probalistyczny noisy-channel.
4:13 - 4:17

Ma to także związek z metodą shortest
4:17 - 4:21

weighted error distance method. Znajdujemy więc słowa, które nie znajdują się w
4:21 - 4:25

słowniku. Dla każdego generujemy liste słów-kandydatów, czyli słów poprawnych,
4:25 - 4:29

podobnych do błędnego słowa
4:29 - 4:33

i wybieramy najlepsze z nich. Tak naprawde w prawdziwych korektorach, robimy nawet więcej:
4:33 - 4:38

Dla każdego słowa generujemy liste kandydatów, ale robimy to
4:38 - 4:42

dla każdego słowa w zdaniu, nie tylko dla słowa, którego nie mamy w słowniku.
4:42 - 4:46

W prawdziwych korektorach tekstu nie używamy słowników
4:46 - 4:50

ponieważ błędne słowo może występować w słowniku.
4:50 - 4:54

Więc dla każdego słowa generujemy liste kandydatów. Możemy ją stworzyć w oparciu o
4:54 - 4:58

podobną wymowę, podobną pisownie
4:58 - 5:03

i zależy to od algorytmu z którego korzystamy. Jest niezmiernie ważne, aby badane słowo
5:03 - 5:07

znajdywało się wśród kandydatów do poprawy, ponieważ badane słowo może
5:07 - 5:12

być błędnie zapisanym innym poprawnym słowem albo może być poprawne.
5:12 - 5:16

W rzeczywistości większość słow jest poprawna. Należy więc
5:16 - 5:20

badane słowo dodać do listy kandydatów. I najczęściej właśnie je wybierzemy jako najlepsze.
5:20 - 5:26

Więc jak jak dobieramy słowa-kandydaty? Możemy użyć modelu noisy channel,
5:26 - 5:32

możemy użyć klasyfikatora
5:32 - 5:38

Omówimy więc następnie różne metody znajdywania błędów i ich korekcji.

Title:: Korekcja błędów w pisowni.
Video Language:: English

jamrymi added a translation

Polish subtitles

Revisions

Revision 1

jamrymi

Korekcja błędów w pisowni.

Revisions

Our website uses cookies

Operating cookies (Required)