Return to Video

The Spelling Correction Task

  • 0:02 - 0:07
    Hôm nay chúng ta sẽ nói về chính tả
    sửa. Rất nhiều ứng dụng làm cho sử dụng
  • 0:07 - 0:12
    sửa sai chính tả. Ví dụ, từ
    chế biến, gần như bất cứ từ hiện đại
  • 0:12 - 0:17
    xử lý sẽ mất một từ sai chính tả như
    thành phần với một A và cung cấp cho bạn
  • 0:17 - 0:22
    gợi ý như thành phần với một E và
    tự động thay thế cho bạn. Hiện đại
  • 0:22 - 0:28
    cụ tìm kiếm sẽ không chỉ có một cờ
    lỗi. Vì vậy, ngôn ngữ viết mà không au,
  • 0:28 - 0:35
    ở đây. Nhưng, cho bạn, kết quả, như nếu
    bạn đã đánh vần các từ đúng. Và,
  • 0:35 - 0:41
    điện thoại hiện đại thêm sẽ
    tự động tìm các từ sai chính tả. Ở đây,
  • 0:41 - 0:47
    Tôi gõ layr, và nó thay thế nó
    tự động, hoặc cho thấy một sự thay thế,
  • 0:47 - 0:52
    với cuối. Chúng ta có thể phân biệt được một số
    nhiệm vụ riêng biệt và sửa lỗi chính tả.
  • 0:52 - 0:57
    Một là phát hiện các lỗi chính nó.
    Và sau đó trình sửa chữa các lỗi một lần
  • 0:57 - 1:01
    bạn đã tìm thấy nó. Và chúng ta có thể suy nghĩ về
    các loại khác nhau của các điều chỉnh. Chúng ta có lẽ
  • 1:01 - 1:06
    tự động sửa lỗi nếu chúng ta đang
    tích cực mà các lỗi mà chúng ta biết được
  • 1:06 - 1:11
    câu trả lời đúng cho các lỗi. Vì vậy, HTE là một
    lỗi chính tả rất phổ biến cho các, và như vậy
  • 1:11 - 1:15
    nhiều vi xử lý từ tự động đúng
    H-TE. Chúng tôi có thể đề nghị một đơn
  • 1:15 - 1:19
    chỉnh nếu chúng tôi, chỉ có một rất
    có khả năng sửa chữa, hoặc chúng tôi có thể đề nghị một
  • 1:19 - 1:24
    toàn bộ danh sách các chỉnh sửa và cho phép người dùng
    chọn từ trong số đó. Chúng ta phân biệt hai
  • 1:24 - 1:31
    lớp khác nhau của lỗi chính tả. Non
    lỗi từ những sai sót trong đó, những gì
  • 1:31 - 1:37
    sử dụng các loại không phải là một từ tiếng Anh nào.
    Vì vậy, graffe một lỗi chính tả hãy nói cho
  • 1:37 - 1:44
    hươu cao cổ không phải là một từ tiếng Anh nào. By
    Ngược lại, lỗi từ thực tế. Những sai sót trong
  • 1:44 - 1:50
    mà sau đó các kết quả. [Âm thanh]
    lỗi chính tả thực sự là một từ tiếng Anh
  • 1:50 - 1:55
    và làm cho họ hơi khó
    phát hiện. Và chúng ta có thể chia tay từ thực tế
  • 1:55 - 2:00
    lỗi vào những người thực sự được sản xuất bởi
    quá trình in ấn. Những đã có nghĩa là
  • 2:00 - 2:06
    gõ ba. Và gõ [không nghe được] hãy
  • 2:06 - 2:12
    có nghĩa là để gõ một từ như [không nghe] và
    thay vì gõ một chữ đồng âm của một, của
  • 2:12 - 2:16
    từ, hoặc \ u201ct-oo \ u201d thay vì
    [nghe được] Và trong cả hai trường hợp những gì, những gì
  • 2:16 - 2:22
    sản xuất là một từ thực tế của Anh, nhưng bằng cách
    mô hình hóa sự khác biệt giữa các
  • 2:22 - 2:27
    loại lỗi, chúng ta có thể đi lên với
    những cách tốt hơn về cách sửa chữa chúng cả. Làm sao
  • 2:27 - 2:34
    chung là lỗi chính tả? Phụ thuộc rất nhiều
    vào công việc. Vì vậy, trong các truy vấn web, lỗi chính tả
  • 2:34 - 2:39
    lỗi rất phổ biến. Vì vậy,
    thực tế một trong bốn từ trong một web
  • 2:39 - 2:44
    truy vấn có khả năng bị viết sai chính tả. Nhưng trong
    tác vụ xử lý web trên điện thoại nó nhiều
  • 2:44 - 2:49
    khó khăn hơn để có được một số lượng chính xác. Vì vậy,
    có được một số nghiên cứu và hầu hết
  • 2:49 - 2:53
    của những nghiên cứu này được thực hiện bằng cách gõ lại. Bạn
    cung cấp cho người sử dụng một đoạn văn để gõ và sau đó
  • 2:53 - 2:58
    bạn đo lường như thế nào họ, họ gõ nó.
    Và, tất nhiên, đó không phải là hoàn toàn giống nhau
  • 2:58 - 3:03
    sử dụng của văn bản một cách tự nhiên thông điệp hoặc
    đánh máy. Tuy nhiên nếu bạn yêu cầu người dùng
  • 3:03 - 3:07
    nhập lại và bạn không để cho họ sử dụng các
    phím backspace, họ làm cho khoảng mười ba
  • 3:07 - 3:11
    phần trăm của các từ, mười ba phần trăm của
    các từ này là do lỗi. Vì vậy, chỉ ra rằng
  • 3:11 - 3:16
    nếu, mà rất nhiều từ. Họ sửa
    mình với backspace. Nếu bạn cho phép
  • 3:16 - 3:21
    họ đúng, bây giờ chúng tôi đang cố gắng để
    thử nghiệm trên, trên apda điện thoại phong cách
  • 3:21 - 3:26
    trang web, tổ chức, chúng tôi sẽ điều chỉnh khoảng
  • 3:26 - 3:31
    Họ vẫn sẽ để lại khoảng hai phần trăm của
    các từ chưa được sửa chữa, về tổ chức.
  • 3:31 - 3:36
    Và, con số tương tự về những người làm
    việc gõ lại trên một bàn phím thông thường. Vì vậy, các
  • 3:36 - 3:41
    số khoảng hai phần trăm, nơi mọi người
    gõ. Và có lẽ một số cao hơn nhiều
  • 3:41 - 3:46
    cho các truy vấn web và có thể cao hơn nhiều
    số cho người nhắn tin. Là những loại
  • 3:46 - 3:51
    lỗi chính tả, lỗi chính tả [nghe được] mà
    chúng ta thấy. Làm thế nào để chúng tôi phát hiện lỗi chính tả từ phi
  • 3:51 - 3:56
    lỗi. Cách truyền thống là chỉ sử dụng
    một từ điển lớn. Bất kỳ từ không trong
  • 3:56 - 4:01
    từ điển là một lỗi. Và, lớn hơn
    từ điển, nó quay ra thì càng tốt
  • 4:01 - 4:05
    công trình này. Để sửa chữa những không từ
    lỗi chính tả, chúng ta tạo ra một tập hợp các
  • 4:05 - 4:09
    ứng viên đó là những lời nói thực đó là
    tương tự như lỗi. Và sau đó chúng tôi chọn
  • 4:09 - 4:13
    nào là tốt nhất. Và chúng ta sẽ nói
    về các mô hình xác suất nhiễu kênh
  • 4:13 - 4:17
    làm thế nào để làm điều đó. Và nó cũng liên quan
    đến một phương pháp gọi là ngắn nhất
  • 4:17 - 4:21
    trọng [nghe được] đường huyền thoại. Vì vậy, chúng tôi
    tìm thấy những từ không có trong các
  • 4:21 - 4:25
    điển. Đối với mỗi người, chúng ta tạo ra một
    tập hợp các ứng cử viên. Những người sẽ được
  • 4:25 - 4:29
    từ thực tế tương tự, chúng ta sẽ nói
    về những gì các phương tiện tương tự, để lỗi
  • 4:29 - 4:33
    và sau đó chúng ta sẽ chọn một trong những tốt nhất. Đối với thực tế lỗi chính tả từ, thuật toán là
  • 4:33 - 4:38
    khá tương tự. Một lần nữa, cho mỗi từ, chúng tôi
    tạo ra một bộ ứng cử viên. Nhưng bây giờ chúng tôi làm
  • 4:38 - 4:42
    này cho mỗi từ trong một câu, không
    chỉ là những từ mà không phải là trong một số
  • 4:42 - 4:46
    điển. Vì vậy, từ thực tế lỗi chính tả
    chỉnh, chúng tôi không sử dụng một từ điển
  • 4:46 - 4:50
    vì tất nhiên các lỗi trong một
    từ điển. Vì vậy, đó sẽ không giúp đỡ. Vì vậy, để
  • 4:50 - 4:54
    mỗi từ, chúng tôi tạo ra một bộ ứng cử viên.
    Vì vậy, chúng ta có thể tìm thấy những từ ứng cử viên
  • 4:54 - 4:58
    phát âm tương tự, chúng ta có thể tìm thấy
    từ ứng cử viên có cách viết tương tự,
  • 4:58 - 5:03
    và phụ thuộc vào các thuật toán, chính xác.
    Và đó là rất quan trọng mà chúng tôi đang gonna
  • 5:03 - 5:07
    bao gồm từ vựng, trong các ứng cử viên
    bộ, bởi vì mỗi từ có thể là một
  • 5:07 - 5:12
    lỗi chính tả của một số từ sản khác, hoặc nó
    có thể là từ chính xác. Trong thực tế, hầu hết các
  • 5:12 - 5:16
    lời là có lẽ đúng. Vì vậy, đối với mỗi
    bộ ứng cử viên của từng lỗi có thể,
  • 5:16 - 5:20
    chúng ta sẽ bao gồm những từ riêng của mình. Và
    hầu hết thời gian, trên thực tế, chúng tôi đang gonna
  • 5:20 - 5:26
    chọn đó. Và một lần nữa, làm thế nào chúng ta chọn những
    từ ngữ chúng ta có thể sử dụng các kênh nhiễu
  • 5:26 - 5:32
    model. Chúng tôi có thể sử dụng một bộ phân loại, chúng ta sẽ
    nói về chuyện đó vì vậy chúng tôi sẽ thảo luận về
  • 5:32 - 5:38
    phương pháp khác nhau để phát hiện các
    sai sót và sửa chữa sai sót trong kế tiếp
Title:
The Spelling Correction Task
Video Language:
English

Vietnamese subtitles

Incomplete

Revisions