The Spelling Correction Task

0:02 - 0:07

Hôm nay chúng ta sẽ nói về chính tả
sửa. Rất nhiều ứng dụng làm cho sử dụng
0:07 - 0:12

sửa sai chính tả. Ví dụ, từ
chế biến, gần như bất cứ từ hiện đại
0:12 - 0:17

xử lý sẽ mất một từ sai chính tả như
thành phần với một A và cung cấp cho bạn
0:17 - 0:22

gợi ý như thành phần với một E và
tự động thay thế cho bạn. Hiện đại
0:22 - 0:28

cụ tìm kiếm sẽ không chỉ có một cờ
lỗi. Vì vậy, ngôn ngữ viết mà không au,
0:28 - 0:35

ở đây. Nhưng, cho bạn, kết quả, như nếu
bạn đã đánh vần các từ đúng. Và,
0:35 - 0:41

điện thoại hiện đại thêm sẽ
tự động tìm các từ sai chính tả. Ở đây,
0:41 - 0:47

Tôi gõ layr, và nó thay thế nó
tự động, hoặc cho thấy một sự thay thế,
0:47 - 0:52

với cuối. Chúng ta có thể phân biệt được một số
nhiệm vụ riêng biệt và sửa lỗi chính tả.
0:52 - 0:57

Một là phát hiện các lỗi chính nó.
Và sau đó trình sửa chữa các lỗi một lần
0:57 - 1:01

bạn đã tìm thấy nó. Và chúng ta có thể suy nghĩ về
các loại khác nhau của các điều chỉnh. Chúng ta có lẽ
1:01 - 1:06

tự động sửa lỗi nếu chúng ta đang
tích cực mà các lỗi mà chúng ta biết được
1:06 - 1:11

câu trả lời đúng cho các lỗi. Vì vậy, HTE là một
lỗi chính tả rất phổ biến cho các, và như vậy
1:11 - 1:15

nhiều vi xử lý từ tự động đúng
H-TE. Chúng tôi có thể đề nghị một đơn
1:15 - 1:19

chỉnh nếu chúng tôi, chỉ có một rất
có khả năng sửa chữa, hoặc chúng tôi có thể đề nghị một
1:19 - 1:24

toàn bộ danh sách các chỉnh sửa và cho phép người dùng
chọn từ trong số đó. Chúng ta phân biệt hai
1:24 - 1:31

lớp khác nhau của lỗi chính tả. Non
lỗi từ những sai sót trong đó, những gì
1:31 - 1:37

sử dụng các loại không phải là một từ tiếng Anh nào.
Vì vậy, graffe một lỗi chính tả hãy nói cho
1:37 - 1:44

hươu cao cổ không phải là một từ tiếng Anh nào. By
Ngược lại, lỗi từ thực tế. Những sai sót trong
1:44 - 1:50

mà sau đó các kết quả. [Âm thanh]
lỗi chính tả thực sự là một từ tiếng Anh
1:50 - 1:55

và làm cho họ hơi khó
phát hiện. Và chúng ta có thể chia tay từ thực tế
1:55 - 2:00

lỗi vào những người thực sự được sản xuất bởi
quá trình in ấn. Những đã có nghĩa là
2:00 - 2:06

gõ ba. Và gõ [không nghe được] hãy
2:06 - 2:12

có nghĩa là để gõ một từ như [không nghe] và
thay vì gõ một chữ đồng âm của một, của
2:12 - 2:16

từ, hoặc \ u201ct-oo \ u201d thay vì
[nghe được] Và trong cả hai trường hợp những gì, những gì
2:16 - 2:22

sản xuất là một từ thực tế của Anh, nhưng bằng cách
mô hình hóa sự khác biệt giữa các
2:22 - 2:27

loại lỗi, chúng ta có thể đi lên với
những cách tốt hơn về cách sửa chữa chúng cả. Làm sao
2:27 - 2:34

chung là lỗi chính tả? Phụ thuộc rất nhiều
vào công việc. Vì vậy, trong các truy vấn web, lỗi chính tả
2:34 - 2:39

lỗi rất phổ biến. Vì vậy,
thực tế một trong bốn từ trong một web
2:39 - 2:44

truy vấn có khả năng bị viết sai chính tả. Nhưng trong
tác vụ xử lý web trên điện thoại nó nhiều
2:44 - 2:49

khó khăn hơn để có được một số lượng chính xác. Vì vậy,
có được một số nghiên cứu và hầu hết
2:49 - 2:53

của những nghiên cứu này được thực hiện bằng cách gõ lại. Bạn
cung cấp cho người sử dụng một đoạn văn để gõ và sau đó
2:53 - 2:58

bạn đo lường như thế nào họ, họ gõ nó.
Và, tất nhiên, đó không phải là hoàn toàn giống nhau
2:58 - 3:03

sử dụng của văn bản một cách tự nhiên thông điệp hoặc
đánh máy. Tuy nhiên nếu bạn yêu cầu người dùng
3:03 - 3:07

nhập lại và bạn không để cho họ sử dụng các
phím backspace, họ làm cho khoảng mười ba
3:07 - 3:11

phần trăm của các từ, mười ba phần trăm của
các từ này là do lỗi. Vì vậy, chỉ ra rằng
3:11 - 3:16

nếu, mà rất nhiều từ. Họ sửa
mình với backspace. Nếu bạn cho phép
3:16 - 3:21

họ đúng, bây giờ chúng tôi đang cố gắng để
thử nghiệm trên, trên apda điện thoại phong cách
3:21 - 3:26

trang web, tổ chức, chúng tôi sẽ điều chỉnh khoảng
3:26 - 3:31

Họ vẫn sẽ để lại khoảng hai phần trăm của
các từ chưa được sửa chữa, về tổ chức.
3:31 - 3:36

Và, con số tương tự về những người làm
việc gõ lại trên một bàn phím thông thường. Vì vậy, các
3:36 - 3:41

số khoảng hai phần trăm, nơi mọi người
gõ. Và có lẽ một số cao hơn nhiều
3:41 - 3:46

cho các truy vấn web và có thể cao hơn nhiều
số cho người nhắn tin. Là những loại
3:46 - 3:51

lỗi chính tả, lỗi chính tả [nghe được] mà
chúng ta thấy. Làm thế nào để chúng tôi phát hiện lỗi chính tả từ phi
3:51 - 3:56

lỗi. Cách truyền thống là chỉ sử dụng
một từ điển lớn. Bất kỳ từ không trong
3:56 - 4:01

từ điển là một lỗi. Và, lớn hơn
từ điển, nó quay ra thì càng tốt
4:01 - 4:05

công trình này. Để sửa chữa những không từ
lỗi chính tả, chúng ta tạo ra một tập hợp các
4:05 - 4:09

ứng viên đó là những lời nói thực đó là
tương tự như lỗi. Và sau đó chúng tôi chọn
4:09 - 4:13

nào là tốt nhất. Và chúng ta sẽ nói
về các mô hình xác suất nhiễu kênh
4:13 - 4:17

làm thế nào để làm điều đó. Và nó cũng liên quan
đến một phương pháp gọi là ngắn nhất
4:17 - 4:21

trọng [nghe được] đường huyền thoại. Vì vậy, chúng tôi
tìm thấy những từ không có trong các
4:21 - 4:25

điển. Đối với mỗi người, chúng ta tạo ra một
tập hợp các ứng cử viên. Những người sẽ được
4:25 - 4:29

từ thực tế tương tự, chúng ta sẽ nói
về những gì các phương tiện tương tự, để lỗi
4:29 - 4:33

và sau đó chúng ta sẽ chọn một trong những tốt nhất. Đối với thực tế lỗi chính tả từ, thuật toán là
4:33 - 4:38

khá tương tự. Một lần nữa, cho mỗi từ, chúng tôi
tạo ra một bộ ứng cử viên. Nhưng bây giờ chúng tôi làm
4:38 - 4:42

này cho mỗi từ trong một câu, không
chỉ là những từ mà không phải là trong một số
4:42 - 4:46

điển. Vì vậy, từ thực tế lỗi chính tả
chỉnh, chúng tôi không sử dụng một từ điển
4:46 - 4:50

vì tất nhiên các lỗi trong một
từ điển. Vì vậy, đó sẽ không giúp đỡ. Vì vậy, để
4:50 - 4:54

mỗi từ, chúng tôi tạo ra một bộ ứng cử viên.
Vì vậy, chúng ta có thể tìm thấy những từ ứng cử viên
4:54 - 4:58

phát âm tương tự, chúng ta có thể tìm thấy
từ ứng cử viên có cách viết tương tự,
4:58 - 5:03

và phụ thuộc vào các thuật toán, chính xác.
Và đó là rất quan trọng mà chúng tôi đang gonna
5:03 - 5:07

bao gồm từ vựng, trong các ứng cử viên
bộ, bởi vì mỗi từ có thể là một
5:07 - 5:12

lỗi chính tả của một số từ sản khác, hoặc nó
có thể là từ chính xác. Trong thực tế, hầu hết các
5:12 - 5:16

lời là có lẽ đúng. Vì vậy, đối với mỗi
bộ ứng cử viên của từng lỗi có thể,
5:16 - 5:20

chúng ta sẽ bao gồm những từ riêng của mình. Và
hầu hết thời gian, trên thực tế, chúng tôi đang gonna
5:20 - 5:26

chọn đó. Và một lần nữa, làm thế nào chúng ta chọn những
từ ngữ chúng ta có thể sử dụng các kênh nhiễu
5:26 - 5:32

model. Chúng tôi có thể sử dụng một bộ phân loại, chúng ta sẽ
nói về chuyện đó vì vậy chúng tôi sẽ thảo luận về
5:32 - 5:38

phương pháp khác nhau để phát hiện các
sai sót và sửa chữa sai sót trong kế tiếp

Title:: The Spelling Correction Task
Video Language:: English

Tau Nguyen edited Vietnamese subtitles for The Spelling Correction Task

Vietnamese subtitles

Incomplete

Revisions

Revision 1 Edited

Tau Nguyen

The Spelling Correction Task

Revisions

Our website uses cookies

Operating cookies (Required)