Avatar

Efficiency of new anti spam feature (Technics)

by Auge ⌂, Monday, February 11, 2019, 18:26 (1906 days ago) @ Micha

Hello

Ham will be different, spam will be the same. A dataset with spam as addendum for the existing training data is at least for me imaginable.


Die Idee hinter dem Filter ist, dass die Einträge bewertet werden. ALLE Einträge, die zuvor als Trainingsdaten verwendet wurde, sind die Grundgesamtheit für die individuelle Bewertung (Stichprobe). Nun wird jedes Wort im Text bewertet, bezogen auf diese Grundgesamtheit. Kam dieses Wort also mehr in SPAM oder mehr in HAM Nachrichten vor. Hier ergibt sich also eine Quote z.B. 70 % HAM / 30 % SPAM. Nun wird jedes Wort nach diesem Schema bewertet und die Wahrscheinlichkeiten akkumuliert und daraus die Wahrscheinlichkeit für das gesamte Posting berechnet, dass es HAM oder SPAM = (100 % - HAM) % ist.

Soweit, so klar.

Du betrachtest es nur aus Sicht von SPAM Nachrichten. Aber ohne sinnvolle (lies: Foren- oder Content-spezifische) HAM-Nachrichten, funktioniert es nicht und verschlechtert die Trefferquote. Du musst von der Gesamtheit aus SPAM und HAM-Nachrichten ausgehen.

Genau deshalb schrieb ich doch, wie oben stehen gelassen, von Spam-Daten als "addendum for the existing training data", also Ergänzung zu den vorhandenen Trainingsdaten. Mir ist schon klar, dass sich der Ham zwischen den Foren unterscheidet. Der Spam tut das üblicherweise nicht.

Wenn Du nur Addieren gelernt hast, kannst Du nicht Multiplizieren ….

Wenn man es genau nimmt, kann ich genau das. Aber das sind mathematische Spitzfindigkeiten. :-)

Wenn Du aus einer fremden Datenbank HAM-Trainingsdaten übernimmst, die in Deinem Forum praktisch nie vorkommen, hast Du keinen Vorteil aber in jedem Fall einen Nachteil. Die einzige Ausnahme sind themenverwandte Foren aber das würde ich mal als Sonderfall abtun.

Das will ich doch aber garnicht.

Tschö, Auge

--
Trenne niemals Müll, denn er hat nur eine Silbe!


Complete thread:

 RSS Feed of thread