Efficiency of new anti spam feature (Technics)
Hello,
Ich mach das mal auf deutsch, weil es für mich dann einfacher ist zu erklären:
No, but at least messages in English can be ham or spam in this, the project forum.
Ja, und? Die Sprache ist doch nicht entscheidend für den Filter sondern die Wörter.
Ham will be different, spam will be the same. A dataset with spam as addendum for the existing training data is at least for me imaginable.
Die Idee hinter dem Filter ist, dass die Einträge bewertet werden. ALLE Einträge, die zuvor als Trainingsdaten verwendet wurde, sind die Grundgesamtheit für die individuelle Bewertung (Stichprobe). Nun wird jedes Wort im Text bewertet, bezogen auf diese Grundgesamtheit. Kam dieses Wort also mehr in SPAM oder mehr in HAM Nachrichten vor. Hier ergibt sich also eine Quote z.B. 70 % HAM / 30 % SPAM. Nun wird jedes Wort nach diesem Schema bewertet und die Wahrscheinlichkeiten akkumuliert und daraus die Wahrscheinlichkeit für das gesamte Posting berechnet, dass es HAM oder SPAM = (100 % - HAM) % ist.
Ein Forum ist üblicherweise themenbezogen. Bestimmte "Fachbegriffe", "Modeworte" usw. tauschen also tendenziell nur dort auf. Wenn diese Worte nicht in der Trainingsdatenbank enthalten sind, kann der Filter diese nicht bewerten, sodass er sich auf die verbliebenen Füllwörter wie "Hallo", "Tschüss" usw. beschränken muss bei der Bewertung. Wenn diese Standardworte aber auch in SPAM-Nachrichten vorkommen, wird der Filter HAM Einträge potenziell eher falsch einstufen. Die falschen bzw. unpassende Trainingsdaten führen also i.A. zu einer Verschlechterung als zu einer Verbesserung.
Du betrachtest es nur aus Sicht von SPAM Nachrichten. Aber ohne sinnvolle (lies: Foren- oder Content-spezifische) HAM-Nachrichten, funktioniert es nicht und verschlechtert die Trefferquote. Du musst von der Gesamtheit aus SPAM und HAM-Nachrichten ausgehen. Wenn Du nur Addieren gelernt hast, kannst Du nicht Multiplizieren - Du hast falsch trainiert.
Wenn Du aus einer fremden Datenbank HAM-Trainingsdaten übernimmst, die in Deinem Forum praktisch nie vorkommen, hast Du keinen Vorteil aber in jedem Fall einen Nachteil. Die einzige Ausnahme sind themenverwandte Foren aber das würde ich mal als Sonderfall abtun.
Du kannst es gern versuchen aber ich sehe keinen Mehrwert.
/Micha
--
applied-geodesy.org - OpenSource Least-Squares Adjustment Software for Geodetic Sciences