成人或色情内容垃圾邮件是社交媒体上日益严重的问题。《国际商业智能和数据挖掘杂志》的最新研究讨论了如何快速检测和及时删除此类内容。
印度新德里Jamia Nagar的Jamia Millia Islamia(中央大学)的Deepali Dhaka、Surbhi Kakar和Monica Mehrotra解释了如果能够有效、快速地过滤淫秽垃圾邮件内容,如何改善一般用户体验和年轻人使用社交媒体的体验。机器学习工具通常是检测特定类型内容的前进方向,团队已经证明,XGboost这样的工具可以检测成人垃圾邮件内容,准确率超过90%。这是该团队测试和调整的六种分类算法中最有效的一种,用于检测Twitter上的色情垃圾邮件。
因此,每100个被标记为成人垃圾邮件的更新中,只有不到10个是误报。该团队的方法只需要分析少量特征、价值体系、词的熵、词汇多样性和词嵌入,就可以从最知名的社交媒体平台之一Twitter的一般更新流中提取成人垃圾邮件更新。
积极检测的本质是,一般来说,平台的日常用户在不同的上下文中讨论各种各样的话题,并以一种可以称为有机的方式进行写作和分享。相反,在这种情况下,垃圾邮件发送者和色情垃圾邮件发送者倾向于采用固定甚至完全自动化的方法进行更新,正如人们所预期的那样,主题的多样性有限,词典也非常有限。垃圾邮件的这些和其他特征使得算法能够识别它们。