Efficiency of new anti spam feature (Technics)
Hallo,
Genau deshalb schrieb ich doch, wie oben stehen gelassen, von Spam-Daten als "addendum for the existing training data", also Ergänzung zu den vorhandenen Trainingsdaten. Mir ist schon klar, dass sich der Ham zwischen den Foren unterscheidet. Der Spam tut das üblicherweise nicht.
Aber auch das ist ein Trugschluß Hierdurch erhöhst Du ja gerade z.B. für Füllwörter wie "Hallo" die Wahrscheinlichkeit, dass es danach als SPAM klassifiziert wird. Ich weiß nicht, wie ich es erklären soll aber Ergänzung heißt in diesem Kontext i.A. Verschlechterung.
Bleiben wir mal nur bei dem Wort "Hallo". Angenommen, bisher kam dieses Wort in Deinem Forum nur 10 mal vor. Und jedes Mal war es HAM und wurde korrekt klassifiziert. Nun spielst Du aus einer Datenbank nur die SPAM Trainingsdaten ein. Das Wort "Hallo" kam dort natürlich auch in SPAM Nachrichten vor. Da Du nur die SPAM Daten verwendest, besitzt "Hallo" neben den vorherigen 10 zu 0 nun ggf. 10 zu 10000 (HAM zu SPAM). Ein Wort, was vorher potenziell zu HAM zählte, wird schlagartig (und fälschlicherweise) zu SPAM, weil die Trainingsdaten ungünstig sind.
/Micha
--
applied-geodesy.org - OpenSource Least-Squares Adjustment Software for Geodetic Sciences