Return to Video

Einführung in N-Gramm-Modelle (8:41)

  • 0:00 - 0:04
    Heute möchten wir euch eine Einführung in das Thema der Sprachmodellierung geben, eines der wichtigsten
  • 0:04 - 0:08
    Themen bei der Verarbeitung natürlicher Sprache. Das Ziel der Sprachmodellierung
  • 0:08 - 0:12
    ist es, einem Satz eine Wahrscheinlichkeit zuzuordnen. Aber warum würden wir einem Satz ein Wahrscheinlichkeit zuordnen wollen?
  • 0:12 - 0:17
    Dies kommt bei allen möglichen Anwendungen vor: Bei der maschinellen Übersetzung,
  • 0:17 - 0:21
    beispielsweise, möchten wir in der Lage sein, zwischen guten und schlechten Übersetzungen
  • 0:21 - 0:26
    anhand ihrer Übersetzungen zu unterscheiden. "High winds tonite" könnte eine bessere
  • 0:26 - 0:30
    Übersetzung als "large winds tonite" sein, da "high" und "wind" im Englischen besser zusammen passen.
  • 0:30 - 0:35
    Bei der Rechtschreibkorrektur sehen wir eine Formulierung wie "fünfzehn Minuette von meinem Haus (entfernt)". Das wird wohl
  • 0:35 - 0:40
    eher eine Falschschreibung von "Minuten" sein. Ein Hinweis, der uns zu entscheiden ermöglicht,
  • 0:40 - 0:45
    dass "fünfzehn Minuten von" eine viel wahrscheinlichere Wortgruppe als "fünfzehn Minuette von" ist.
  • 0:45 - 0:51
    Und bei der Spracherkennung ist eine Wortgruppe wie "I saw a Van" (Ich sah einen Van), viel wahrscheinlicher als
  • 0:51 - 0:56
    eine Phrase, die phonetisch ähnlich klingt, wie "eyes awe of an".
  • 0:56 - 1:00
    Es ist viel weniger wahrscheinlich, dass diese Wörter in dieser Reihenfolge auftreten. Und es stellt sich heraus,
  • 1:00 - 1:04
    dass Sprachmodellierung auch bei der Textzusammenfassung, dem Question Answering, eigentlich überall eine Rolle spielt.
  • 1:04 - 1:08
    Das Ziel eines Sprachmodells ist es, die Wahrscheinlichkeit von einem Satz
  • 1:08 - 1:14
    oder einer Folge von Wörtern zu berechnen. Für eine Sequenz von Wörtern w1 bis wn
  • 1:14 - 1:19
    berechnen wie deren Wahrscheinlichkeit P(W), und wir benutzen ein großes W
  • 1:19 - 1:26
    um die Sequenz w1 bis wn zu bezeichnen. Dies ist verwandt mit der Aufgabe,
  • 1:26 - 1:32
    die Wahrscheinlichkeit eines bevorstehenden Wortes zu berechnen, also P(w5) bei gegebenem w1 bis w4. Dies steht
  • 1:32 - 1:37
    in einer engen Verbindung zu der Aufgabe, P(w1, w2, w3, w4, w5) zu berechnen. Ein Modell, das eines dieser beiden Dinge berechnet,
  • 1:37 - 1:43
    entweder P(W) - wobei groß W, eine Zeichenfolge bezeichnet - die gemeinsame Wahrscheinlichkeit der gesamten
  • 1:43 - 1:50
    Zeichenfolge, oder die bedingte Wahrscheinlichkeit, dass das letzte Wort bei den gegebenen vorhergehenden Worte auftritt,
  • 1:50 - 1:55
    ein solches Model nenne wir ein Sprachmodell. Jetzt könnte es besser sein, dies
  • 1:55 - 1:59
    eine 'Grammatik' zu nennen. Ich meine, im Prinzip sagt uns dies etwas darüber,
  • 1:59 - 2:03
    wie gut diese Worte zusammen passen. Und wir verwenden normalerweise eine Wortgrammatik dafür,
  • 2:03 - 2:07
    aber es stellt sich heraus, dass das Wort Sprachmodell - oft sehen wir dafür die Abkürzung LM -
  • 2:07 - 2:12
    der Standard ist, und daher halten wir uns daran. Also, wie berechnen wir diese gemeinsame Wahrscheinlichkeit?
  • 2:12 - 2:17
    Sagen wir, wir wollen die Wahrscheinlichkeit, der Formulierung, "das Wasser ist so transparent, dass",
  • 2:17 - 2:22
    diesem kleinen Teil eines Satzes. Und die Intuition, wie die
  • 2:22 - 2:26
    Sprachmodellierung funktioniert, ist dass Sie sich auf die Kettenregel der Wahrscheinlichkeit verlassen.
  • 2:26 - 2:32
    Und nur um Sie an die Kettenregel der Wahrscheinlichkeitsrechnung zu erinnern: Denken wir
  • 2:32 - 2:37
    an die Definition der bedingten Wahrscheinlichkeit, also P von A gegeben B
  • 2:37 - 2:48
    gleich P von A, B geteilt durch P von B. Und wir können dies umschreiben, so dass P von A
  • 2:48 - 2:57
    gegeben B mal P von B gleich P von A, B oder andersherum
  • 2:57 - 3:05
    P von A, B entspricht P von A gegeben B - versicher dich, dass es gegeben ist - mal P von B.
  • 3:05 - 3:13
    Und können wird dies weiter verallgemeinern für mehr Variablen, also die gemeinsame Wahrscheinlichkeit
  • 3:13 - 3:20
    für eine ganze Sequenz A, B, C, D ist die Wahrscheinlichkeit von A mal die Wahrscheinlichkeit von B gegeben A
  • 3:20 - 3:23
    [usw.] Also das ist die Kettenregel.
  • 3:23 - 3:28
    In einer allgemeineren Form der Kettenregel wie wir sie hier haben, also der gemeinsamen Wahrscheinlichkeit
  • 3:28 - 3:32
    von einer beliebigen Sequenz von Variablen, ist dies die Wahrscheinlichkeit der ersten mal die
  • 3:32 - 3:36
    zweite bedingt durch die erste mal die dritte bedingt durch die erste und zweite usw.
  • 3:36 - 3:40
    ersten beiden, bis der letzte konditioniert auf die ersten n minus eins.
  • 3:40 - 3:45
    Okay, die Kettenregel. Die Kettenregel kann angewendet werden, um die gemeinsame Wahrscheinlichkeit von Wörtern
  • 3:45 - 3:49
    in einem Satz zu berechnen. Also angenommen, wir haben unseren Satz, "its water is so transparent".
  • 3:49 - 3:53
    Nach der Kettenregel ist die Wahrscheinlichkeit dieser Sequenz
  • 3:53 - 3:59
    die Wahrscheinlichkeit von "its" mal die Wahrscheinlichkeit von "water" gegeben "its" mal die Wahrscheinlichkeit
  • 3:59 - 4:03
    von "is" gegeben "its water" mal die Wahrscheinlichkeit von "so" gegeben "its water is" und
  • 4:03 - 4:08
    schließlich mal die Wahrscheinlichkeit von "transparent" gegeben "its water is so".
  • 4:08 - 4:13
    Oder formeller ausgedrückt, ist die gemeinsame Wahrscheinlichkeit einer Folge von Wörtern das
  • 4:13 - 4:18
    Produkt über alle i der Wahrscheinlichkeit jedes Worts gegeben den Teil des Satz bis zu diesem Wort.
  • 4:18 - 4:24
    Wie können wir diese Wahrscheinlichkeiten schätzen? Könnten wir einfach zählen und
  • 4:24 - 4:29
    teilen? Wir berechnen oft Wahrscheinlichkeiten durch zählen und teilen. Also, was die Wahrscheinlichkeit
  • 4:29 - 4:34
    von "the" angesichts "its water is so transparent that" angeht, könnten wir einfach zählen, wie viele Male
  • 4:34 - 4:39
    "its water is so transparent that the" auftritt, und das durch die Anzahl der Vorkommnisse von
  • 4:39 - 4:44
    "its water is so transparent that" teilen, also dies durch dies teilen, und, und so eine Wahrscheinlichkeit erhalten.
  • 4:44 - 4:49
    Wir können das nicht tun. Und der Grund, warum wir es nicht tun können, ist dass es einfach
  • 4:49 - 4:54
    viel zu viele mögliche Sätze gibt, um diese jemals schätzen zu können. Es ist unmöglich, genug Daten
  • 4:54 - 5:00
    zu bekommen, um die Anzahl aller möglichen Sätze des Englischen sehen zu können.
  • 5:00 - 5:05
    Was wir stattdessen tun, ist, dass wir eine vereinfachende Annahme - genannt die Markov-Annahme - geltend machen,
  • 5:05 - 5:10
    die nach Andrei Markow benannt wurde. Und der Markov-Annahme zufolge schätzen wir die
  • 5:10 - 5:15
    Wahrscheinlichkeit von "the" gegeben "its water is so transparent that", indem wir stattdessen nur
  • 5:15 - 5:20
    die Wahrscheinlichkeit des Wortes "the" berechnen, gegeben das Wort "that", also dem letzten Wort
  • 5:20 - 5:25
    "that" in der Sequenz. Oder vielleicht berechnen wir die Wahrscheinlichkeit von "the" gegeben
  • 5:25 - 5:29
    "its water is so transparent that" nur anhand der letzten beiden Worte also "the" gegeben
  • 5:29 - 5:33
    "transparent that". Das ist die Markov-Annahme. Lassen Sie uns nur das vorhergehende
  • 5:33 - 5:38
    oder vielleicht ein paar vorhergehende Worte anschauen, statt des gesamten Kontextes.
  • 5:38 - 5:44
    Formeller besagt die Markov-Annahme, dass die Wahrscheinlichkeit für eine Folge von Wörtern dem
  • 5:44 - 5:49
    Produkt der bedingten Wahrscheinlichkeiten für jedes Wort entspricht,
  • 5:49 - 5:54
    gegeben eine Sequenz der letzten paar vorhergegangene Wörter dieses Wortes. Mit anderen Worten, in dem Produkt
  • 5:54 - 6:00
    alle Wahrscheinlichkeiten die wir miteinander nach der Kettenregel multiplizieren, schätzen wir die
  • 6:00 - 6:05
    Wahrscheinlichkeit der wi, gegeben die gesamte vorhergehende Sequenz von eins bis i minus eins, durch eine einfacher
  • 6:05 - 6:12
    zu berechnende Wahrscheinlichkeit wi, für die nur die letzten paar Worte gegeben sind. Der einfachste Fall eines
  • 6:12 - 6:17
    Markov-Modells ist das Unigramm-Modell. Im Unigramm-Modell schätzen wir einfach
  • 6:17 - 6:21
    die Wahrscheinlichkeit für eine ganze Sequenz von Wörtern durch das Produkt von Wahrscheinlichkeiten
  • 6:21 - 6:25
    einzelner Wörter, die Unigramme, und wenn wir Sätze erzeugen würden, indem wir Wörter nach dem Zufallsprinzip auswählen würden,
  • 6:25 - 6:30
    dann können Sie sehen dass es wie ein Wortsalat aussehen würde. Hier also einige automatisch
  • 6:30 - 6:34
    generierte Sätze, generiert von Dan Klein, und Sie können sehen, das Wort "futures", das Wort "an",
  • 6:34 - 6:39
    das Wort "of", das Wort "futures", das sieht überhaupt nicht wie ein Satz aus. Es ist nur eine zufällige
  • 6:39 - 6:43
    Folge von Wörtern, "thrift, did, eighty, said". Das ist die Eigenschaft eines Unigramm-Models.
  • 6:43 - 6:47
    Worte sind in diesem Modell unabhängig. Etwas intelligenter ist ein
  • 6:47 - 6:52
    Bigramm-Model, bei dem jedes Wort durch ein einzelnes vorhergehendes Wort bedingt wird. Also noch einmal, wir
  • 6:52 - 6:57
    schätzen die Wahrscheinlichkeit eines Wortes, dass auf eine gegebene Sequenz vom Anfang bis zum vorherigen Wort folgt,
  • 6:57 - 7:02
    nur indem wir das vorherige Wort betrachten. Wenn wir dies nun also verwenden, um zufällige Sätze
  • 7:02 - 7:07
    aus einem Bigramm-Modell zu generieren, dann sehen die Sätze schon ein wenig mehr aus wie
  • 7:07 - 7:11
    Englisch. Klar, etwas ist daran noch falsch. "outside", "new", "car",
  • 7:11 - 7:16
    nun, "new car" sieht ganz gut aus. "car parking" ist ziemlich gut. "parking lot" (Parkplatz). Aber zusammen,
  • 7:16 - 7:21
    "outside new car parking lot of the agreement reached", das ist kein Englisch.
  • 7:21 - 7:26
    Selbst mit dem Bigramm-Modell vereinfachen wir also, durch den Verzicht auf die Angleichung, die das Englische hat,
  • 7:26 - 7:31
    die Fähigkeit dieses W zu modellieren, das um was in einer Sprache geht.
  • 7:31 - 7:36
    Jetzt können wir das N-Gramm-Modell zu Trigrammen, erweitern, also 3-Gramme, oder 4-Gramme und 5-Gramme.
  • 7:36 - 7:41
    Aber im Allgemeinen ist es deutlich, dass N-Gramm Modellierung ein unzureichendes Modell der Sprache ist.
  • 7:41 - 7:46
    Und der Grund ist, dass Sprache Abhängigkeiten über lange Entfernungen aufweist.
  • 7:46 - 7:52
    Also wenn ich, zum Beispiel,etwas vorhersagen will - "Der Computer, den ich gerade abgestellt hatte im
  • 7:52 - 7:57
    Geräteraum im fünften Stock, ...", und ich hätte das nächste Wort nicht gesehen und ich möchte sagen,
  • 7:57 - 8:01
    was die Wahrscheinlichkeit des nächsten Wortes ist, und ich hätte dies nur abhängig von dem
  • 8:01 - 8:06
    vorherige Wort "Stock" gemacht, dann wäre ich wohl kaum auf "stürzte ab" gekommen. Aber tatsächlich ist "stürzte ab"
  • 8:06 - 8:11
    das wichtigste Verb des Satzes und Computer ist das Subjekt, den Kopf der Subjekt-Nominalphrase.
  • 8:11 - 8:15
    Also, wenn wir gewusst hätten, dass "Computer" das Subjekt war, wären wir viel eher auf "stürzte ab" gekommen.
  • 8:15 - 8:20
    Solche weit gespannten Abhängigkeiten bedeuten, dass wir bei
  • 8:20 - 8:24
    wirklich guten Modellen, die englische Wörter vorhersagen, viele Informationen
  • 8:24 - 8:28
    über längere Entfernungen hinweg berücksichtigen müssen. Aber es stellt sich heraus, dass wir in der Praxis
  • 8:28 - 8:33
    oft mit diesen N-Gramm-Modellen auskommen, weil die lokalen Informationen, vor allem
  • 8:33 - 8:37
    wenn wir Trigramme und 4-Gramme erreichen, einschränkend genug sein werden,
  • 8:37 - 8:40
    dass in den meisten Fällen unsere Probleme damit gelöst werden können.
Title:
Einführung in N-Gramm-Modelle (8:41)
Description:

Changed w_i for wᵢ

more » « less
Video Language:
English

German subtitles

Revisions