目前使用机器学习对恶意域名识别分类的尝试主要基于监督学习。但问题在于有高质量标签的数据很少,而且根据观察的角度不同,恶意域名的分类方式也多种多样。

若基于无监督学习来做聚类,结果准确度不高,且很难评估聚类效果。

而半监督学习,作为一种在有标签数据+无标签数据混合成的训练数据中使用的机器学习算法,在无标签数据比有标签数据多得多的场景下有较好的表现效果。

奇安信技术研究院研究员何直泽从事网络安全相关工作多年,主要关注恶意域名识别,他直播分享了“DNS 数据中的恶意域名”,点击这里观看视频。