نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشجوی دکتری، مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه اراک، اراک، ایران
2 دانشیار، مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه اراک، اراک، ایران
چکیده
یکی از راههای تشخیص هرزنامه دستهبندی ایمیلها به دو دسته هرزنامه و غیر هرزنامه است. کارایی بالای روشهای یادگیری ماشین در مسائل گوناگون باعث توسعه وسیع آنها در دستهبندی متون گردیده است. مکانیزم دستهبندهای مبتنی بر یادگیری ماشین که بر اساس محتوای ایمیلها اقدام به دستهبندی آنها مینمایند با استفاده از بردار ویژگی صورت میگیرد که به دلیل حجم بالای ایمیلها به کار بردن یک الگوریتم کاهش ویژگی کارا نقش مهمی دارد. برخلاف روشهای پیشین که فقط ویژگیهای برتر را انتخاب و مابقی ویژگیهای انتخاب نشده را نادیده میگیرند، در روش پیشنهادی در این مقاله سعی شده است از ویژگیهای انتخاب نشده نیز استفاده گردد. روش کار بدین صورت است که پس از اعمال یک انتخاب ویژگی اولیه، ویژگیهای انتخاب نشده مرحله اول را خوشهبندی و هر خوشه را به یک ویژگی جدید نگاشت مینماید و بردار ویژگی نهایی شامل ویژگیهای انتخاب شده و ویژگیهای نگاشت شده از هر خوشه خواهد بود. در تحقیق حاضر با اعمال دو روش انتخاب ویژگی اولیه و همچنین دو تابع نگاشت ویژگیهای خوشه، جمعاً چهار روش ارائه گردید و نتایج با استفاده از دو پایگاه داده PU2 و PU3 مورد تجزیه و تحلیل قرار گرفت. نتایج حاصل از تجزیهوتحلیل صورت گرفته نشان داد که روش مبتنی بر انتخاب ویژگی اولیه DF و تابع نگاشت پیشرفته دارای بالاترین کارایی در بین کلیه روشهای پیشنهادی است. همچنین روشهای پیشنهادی نسبت به انتخاب ویژگی اولیه (بدون خوشهبندی) دارای کارایی بهتری است.
کلیدواژهها
عنوان مقاله [English]
A Clustering Based Feature Selection Method in Spam Detection
نویسندگان [English]
1 Ph.D. Candidate, Computrt Department, Faculty of Engineering, Arak University, Arak, Iran
2 Associate Prof., Computer Department, Faculty of Engineering, Arak University, Arak, Iran
چکیده [English]
One of the ways to detect spam is classifying emails into two categories: spam and non-spam. The high efficiency of machine learning methods in various fields has developed them in text clasification problems. The mechanism of machine learning-based classifiers that classify emails according to their content is based on a set of features, where due to the high volume of emails, using an efficient feature reduction algorithm plays an important role. Unlike the previous methods which select only the superior features and ignore the rest of the unselected features, in the proposed method of this article we try to use unselected features as well. The method is that after applying an initial feature selection, the unselected features are clustered and then each cluster is mapped to a new feature and the final feature vector forms from the selected ones and those mapped from the clusters. In this study, by applying two methods of selecting the initial feature and also two mapping functions, four methods were presented and analyzed using two datasets PU2 and PU3. The results of the analysis showed that the method based on feature selection DF and the advanced mapping function has the highest efficiency among all the proposed methods. Also, the proposed methods are more efficient than base feature selection methods (without clustering).
کلیدواژهها [English]