苏贵洋!等+一种基于内容的信息过滤改进模型统\"
.L/)
络内容安全为出发点!为用户去除可能造成危害的信息!或阻断其进一步的传输!称为安全过滤\"
随着社会对保证网络内容安全越来越急迫的要求!安全过滤的技术研究与实践理应得到更多的关注\"本文首先分析了安全过滤和用户过滤的异同!并对目前的安全过滤技术进行了总结分析#进而针对现有技术的不足!提出了一个基于内容安全过滤的模型!并通过大量的试验证实了其具有良好的实用价值\"
用户过滤系,1-在用户界面的设计和实现上!
统通常采用友好的界面使用户能够更便捷有效地表达兴趣!以及采用各种可视化手段来协助用户自行进行信息相关度的判断#而安全过滤系统通常不需要提供此类界面\"
,2-及时和方便的用户反馈在用户过滤中受到相当多的重视!用户群的社会合作过滤,3455674869也是用户过滤的研究重点#而安全过-:;<=>;5:=8;?@
$安全过滤和用户过滤
受控信息在网络上的不当流通!危害到计算机系统安全以及受控信息安全的信息流通!统称为%有害信息&!它们都是安全过滤所应该过滤的信息\"消除这些信息造成危害最好的方法就是阻断它们的传播\"但由于网络分布式的特点及其海量的数据!用人工的方法显然是难以完成的\"所以!对有害信息的自动过滤是这类问题的最终解决方法\"已有信息过滤的研究中!其侧重点更多的属于用户过滤\"
安全过滤和用户过滤所使用的技术和方法有着很多相同之处\"它们都是从待处理的原始信息中分辨出要过滤的特定信息!并进行相应的处理\"在实现方法上!它们都可以借鉴和使用自动检索’自动分类’自动标引等信息自动处理的方法和技术\"用户过滤的常规结构通常包括过滤特征描述’数据特征表
示和过滤过程三部分()*
\"
在过滤内容以及具体实现方面!安全过滤和用户过滤并不是泾渭分明的\"安全过滤的系统结构同样具有以上三大模块\"
安全过滤与用户兴趣过滤相比!除了具有上述相似之外!还有+
,)-用户过滤的特征描述针对的是用户长期的
信息需求()*
!但即使是用户长期的兴趣!这种需求也是在不断地转移和变化#安全过滤中有害信息的特征表达与之相比则是相当固定的!在相当长的时期内!会有增加!但基本上不会发生变化\"
,.-用户过滤侧重信息的主题内容!
而安全过滤则较为侧重信息中细节部分\"所以安全过滤所要过滤的信息单元要比用户过滤小\"
,/-用户过滤通常为防止丢失具有潜在价值的信息!而不删除信息#安全过滤则一般会直接删除过滤出的信息!因此安全过滤系统要求更高的准确度\",0-用户过滤系统的设计目标是提供用户辅助的信息发现!以及协助加快浏览!是辅助性的系统#内容安全过滤系统的设计目标是尽可能准确地过滤万方数据掉不良信息!避免用户浏览相关信息!是自主性的系
滤基本无需用户反馈和群体合作\"
,A-用户过滤的测试工作主要依靠用户来判断!主观性强!且由于用户兴趣的转移!会引起评估准确度误差#安全过滤的评估则相对客观\",B-在评价指标上!用户过滤应用最为普遍的是准确率和召回率!安全过滤的评价指标同样可以采用这两个指标\"
由于安全过滤与用户过滤有着以上的异同!安全过滤的技术实现可以在参考用户过滤技术的基础上得以发展\"
C不良信息过滤系统及过滤技术
现有的信息过滤可分为服务器端的过滤和客户端的过滤!如图)所示\"
图)安全过滤的分类
>;@\")DE=F56GG;H;F6:;4?4HG6H=H;5:=8;?@
服务器端的过滤系统可以综合使用搜索技术’个人评价’监视和数据库更新等方法!采用高速的机器!取得良好的性能\"但是!服务器端的过滤方式欠灵活!对用户的个性化需求不能满足!它在管理和维护支持上的花费较高!而且还会降低网络的效率\"
客户端过滤常用的方法是关键词过滤!这些软件对从互联网上下载的文章进行关键词匹配!如果存在关键词列表中的词或者一些词的组合!则过滤掉#这些软件还都可以针对网址进行过滤\"针对服务器端的过滤系统而言!客户端软件过滤可以给用户更大的灵活性,自定义关键词和IJK列表-!但是客户端过滤的速度性能和关键词数据库更
,e-,
上海交通大学学报
第-f卷
新都不能得到较好的保证!
虽然过滤的地点不同\"所过滤的内容也有些不同\"但在目前过滤系统的实现方法上并没有太多不同\"这些实现方法有#
$%&建立不良网站的’()或者*+列表数据库\"当用户访问这些站点时给予阻断!建立绿色网站只允许用户访问这些站点!该方法称’()数据库\"为’(过滤!$&)*+
通过浏览器的安全$,&建立网站的分级标注\"设置选项实现过滤!
J基于内容的安全过滤
J!3基于内容的安全过滤模型
H%I
借鉴K本文提出LMNOP提出的信息检索模型\"了一个基于内容的安全过滤模型\"如图,所示!其中特征抽取.特征精选.邻近类别分类和分级或标注/个模块是该安全过滤模型中全新和独有的内容!
$-&对文本内容.文档的元数据.检索词.’()
等进行关键词简单匹配或者布尔逻辑运算\"对满足匹配条件的网页或者网站进行过滤!该方法可统称为关键词过滤!
$/&基于内容的过滤\"
应用人工智能技术\"判断信息是否属于不良或不宜信息!
在实际应用中\"前-种方法应用范围最广!表%对这些方法进行了简单的比较!’()过滤方法的缺陷表现在两方面#0’()列表的更新无法跟上网络上不良网站的增加和变化速度12用户可以轻易地通过代理.镜像等获取到网站上的内容!关键词过滤的主要缺陷在于其错误率过高\"导致封锁范围扩大化!分级标注过滤除了面临与’()过滤类似的问题\"还存在蓄意错误标注\"误导读者的可能!内容过滤的最大问题在于其运行速度慢以及技术实现的难度较大!多数现有的系统混合应用了各种方法\"来改善单一方法的局限性!
表3目前常用的过滤方法比较
456!37:5;<=8>8?@ABC98>D=BE?G9B@A8E=技术路线速度灵活性技术防欺因特网难度骗性覆盖’().*+过滤快差易差窄关键词过滤快中易中广人工分级标志快中易差窄基于内容过滤
慢
好
难
好
广
但随着网络的不断发展\"尤其是各种新型分布
式系统.协议.技术的发展H,\"-I
\"
对信息来源进行封堵的方法不再能起到良好的效果!新的信息流通机制\"例如+,+
\"使得信息的流通失去了很多可利用的辅助信息\"如作者名.信息链接.出处等\"这种情况下\"对于不良信息的过滤只能基于信息的自身内容进行!所以\"基于内容的过滤将成为万方数据\"也必然成为安全
过滤发展的趋势和方向!
图,基于内容的安全过滤模型
QOR!,STLUVPWLPWXYZL[ZY\\L\\OMWL]OPR^V[LM
假设过滤系统处理的全部信息用全集_表示\"不良信息用集合‘表示\"那么不被过滤的信息就是
‘的补集a‘!在应用人工智能的各种学习或者分类算法来识别这两类信息时\"只有‘可建立足够大样
本集来表示\"而a‘却很难\"所以在实际研究中定义了b近似信息c来替代!近似信息是与不良信息的某些外在特征近似\"但在性质上却截然不同的信息!例如\"色情文本的近似文本有与之文体相同的小说.散文等描述性文本\"和与之使用类似词汇的性知识.医学类文本等!这样在设计和开发过滤系统过程中\"可以有针对性地识别近似信息和不良信息\"从而达到把不良信息从其他信息中过滤出来的目的!J!d试验及分析
试验针对模型中全新模块b邻近类别分类c设计\"进行了色情文本的过滤\"目的是考察邻近类别分
类模块对系统精度提高的作用!图-所示为具体实
现的流程图!在目前常用的特征字串匹配基础$图-
左侧&上\"加入了b邻近类别分类模块c$图-右侧&!在该模块中\"对通过特征词匹配得到的初步过滤文本$疑似文本&继续进行智能分类\"从而在不降低系统查全率\"以及基本不降低系统过滤速度的前提下\"
提高过滤的准确率!
试验从中文不良文本的信息过滤出发\"选择了
不良信息中最为普遍的色情文本过滤为研究对象\"
第?=期
苏贵洋;等7一种基于内容的信息过滤改进模型
=使用了东北大学中文信息处理实验室@AABB’224开放的词性标注程序;选择了最%CCC%).4./*-+DE
常用的名词6形容词6副词等?=种词性作为特征项进行选择%使用词进行文本表示;由于词的数量颇多;使得向量维数偏大;所以本文只统计包含在词典中的词%在文本特征表达中;特征的加权方法也有很词的特征加权中选用了最简单的布尔加权;其他使
图!基于邻近类别分类的色情文本过滤%!&\"#$’()(#$’*+,#)$-./00-./00#1#-/2#+)*/0(3
4+,)2(521#.2(,#)$
多种%为了方便进行分类准确率的比较;本文在字6用了相对频率加权%
分类器可以采用的分类算法很多;目前最为流
8P:
可以说这些算法各有特色%在这些分类MNO等;
算法中;本文选择了FGG和H/I(0算法进行对比
8>:8J:K:L:行的有7决策树8神经网络866FGG6H/I(06
同时选择与之使用类似词汇的性知识6医学类文本作对比过滤试验%
文本中可用于特征表示的特征有7词6词性6标点符号6特殊字符6段落6篇章等%中文文本还可以用字为特征进行特征表示%文献8中指出7如何表示9:一个文本;以及文本特征向量的表达方式对文本分类的准确性的影响比选择一个更好的学习算法重要得多%因此;在性知识文本与色情文本的邻近类别分类试验中;本文分别试验了字6词6词性和标点符号等不同的文本特征表示方法%
试验用的样本是在互联网上搜集整理的色情和性知识样本;由人工建立;共包含9<篇色情样本;<<篇性6医学知识样本;全部为汉语纯文本格式%=><<
在色情样本集中;从中自动抽取并经过人工挑选常见的色情词汇;并做成一个的色情词典%
由于汉字数目众多;在用字进行文本特征表达的实验中;本文只对二级汉字中所包含的汉字进行处理%在以标点符号为特征项的实验中;程序选择了然后加上平均句长共???种常用标点符号;=项为文本提取特征项%以词性为特征项的训练和测试中;
试验%
在色情和性知识两类文本中;各随机选用?J<<
篇作为训练样本;各选择K分类?<篇作为测试样本%
算法采用FGG和贝叶斯算法;并分别使用字6词6词性以及标点符号等特征来表示文本;进行邻近类别分类试验%对比试验结果如表=所示%
在FGG和H文本表示使用的特/I(0算法中;征项越少;其运算速度越快%字6词6标点符号等特征项都易于抽取;而词性则需要较为复杂的运算才能获得;其速度有所减慢%所以;以标点符号为特征项由于词作为特征项表达文本时存在数据稀疏的问题;因此本文采用了在关键词中进行筛选;提取少量关键词的方法来进行文本表达;降低文本的向量维数;从而提高运算速度%其中关键词筛选的依据是词
的分类速度是最快的;其分类效果也算不错%另外;
在文本中出现的绝对频率;对此;本文分别进行了L关键词6?>关键词6=<关键词和?<<关键词的试验;试验结果如表!所示%
表Q邻近类别分类试验准确率结果
%QRRSTUVWVXYUTZ[XWY\\]S^^\\]S^^X_X\\S‘XZWVabV[XcVW‘b[X\\X^XZW[V^d]‘^
词@?>关键词EFGG
性知识色情总计
P>%<<%H/I(0LP%<<%FGGP<%<<%
%<
字
H/I(0LK%<<%
FGGJJ%词性
H/I(0JK%标点符号等其他FGGP?%%
H/I(0LP%
e
表f关键词数量多少与分类准确率
%fgRSTabV[XcVW‘S][V^d]‘^Z_‘UVhVijZ[k^ScZdW‘SWk\\]S^^X_X\\S‘XZWl^b[V\\X^XZW
L关键词FGG
色情性知识总计
PK%?PJ%9
H/I(0?<<%?>关键词FGG?<<%%H/I(0?<<%=<关键词FGGPJ%>P>%LPJ%=H/I(0?<<%?<<关键词FGGPP%!P>%?PK%=H/I(0KP%JLL%e万方数据PJ%K
%,!2
上海交通大学学报
第!$卷
由表!可见\"提高关键词数目\"试验效果并非与主题词数目成线性关系\"即并非主题词越多效果越这表明文章往往可以通过部分主题词来较好地好\"
表达文章的信息\"过多的主题词反而出现信息的重其中使用$关键词进行文本特征复导致不好分类#表达时\"文本平均分类速度达到%篇’与应用标#&\"(点符号进行文本特征表达的分类速度基本相当#
最后\"本文应用以上分类试验的结果构造了分类器\"并在实际的互联网过滤系统中进行了试验#关键词匹配模块使用的特征描述词典是由人工建立可行的\"同时具有良好的实用价值#
作者的下一步研究将主要集中在设计具有可移使之可以在不同类别植性的特征抽取和精选算法\"的不良信息过滤系统中使用#参考文献=
>-?9\"E#K<@ABC8DFGHIJ9CHGFL:IBGCHB@I=IT>?#HGFL:IBGCF>%?eLG\"D#EOO(f:F的\"共精选词汇&$个\"一旦文本中包含!个或!个以上词典中的词\"该文本即被认定为疑似文本#应用该词典对以上分类试验的色情样本进行特征匹配#试验表明\"该词典!个词汇在样本中的覆盖率达到))#*+\"即有))#*+的样本中包含有!个及以上的词#这说明应用此词典进行关键词匹配可以保证系统的高召回率#在实际过滤试验中\"暴露了关键词匹配的低精度问题#对特征匹配模块匹配出的$,,,
篇网络疑似文本进行人工分类\"其中只有-&.$篇文本属于色情文本\"系统精度只有%%+/其余的文本有!,+的为医学知识0以性知识为主1\"另有2$+的其他文本0娱乐体育新闻类-*+3女性美容美体类%&+1#
将4邻近类别分类5模块加入试验系统后\"再次对这$,,,篇疑似文本进行自动分类#其中色情文本被正确分类的有-**%篇#即随着4邻近类别分类5模块的加入\"过滤系统的精度由原来的%%+提高到$2+\"而系统的召回率仅下降了.+#试验说明了邻近类别分类模块对系统精度提高的作用是显著的#基于安全过滤的高精度要求\"该模块在实际应用中起到了良好的效果#
6结
语
基于内容的安全过滤是不良信息自动过滤系统研究和发展的方向\"本文在比较了用户过滤与安全过滤的异同\"总结了现有安全过滤系统采用的过滤技术的不足后\"提出了一个基于内容的安全过滤模型#通过选择不良信息中最为普遍的色情文本过滤为研究对象\"分别利用字3词3标点符号和词性等其他特征\"结合经典的788和9:;<(方法进行了色情文本的邻近类别过滤试验\"取得了较好的效果#试验结果证明了基于邻近类别分类的过滤模型是非常
万方数据SGCIe?#jkV[aalZYm^V_noWpV^ZXWVYqZ^[ka]abrmVkZ]‘W^>E?#g:CfF:CSB(OSG\"E:@BHGFCB:=gGSB\"%,,%#)2d-,!#>!?J:@NL:Ct\"usiBCe\"EF:CGFv#wsi@Bs(=:FGis(I
\"I:Lhe?#jkV[V_]‘a)]‘xnyz{|na[XkZ]onoWpVO^ZXW>E?#}(#C#?\"%,,,#.)d&%#>2?t@:N:MD?#{yyy{Y]arrZmaY]no^]aW^\"-)))\"-202122d.2#>.?#:CM##$\"h@<:FCBCMHFGLRsL:CNe?#{Y&’]‘bYY{Y]bUcn{({)UVY*_akaY[aVY)a^a\\k[‘\\Ylqa+arVpWaY]ZY{Y_VkW\\]ZVY)a]kZa+\\r0n{({),-61>E?#Ee~ge=>(#C#?\"-))2#-!d%%#
>*?ER<<(#esIGS@:((=:i:;<(B:CS@:((BHBS:IBGC(;(Ie?#jkV[2Z_]‘{Y]UVY_VYc\\[‘ZYa3a\\kYZYm>E?#g:Ct:ICB:=tGFM:C7:sHL:CC\"-)$$#.2d*2#>&?ehI(BGCFs@<(:CNNe?#jkV[aalZYm^V_]‘aUVY_akaY[aVYbX]VW\\]al3a\\kYZYm\\YlqZ^[V+ako>E?#Et~\"~ge=>(#C#?\"-))$#*%d*$#>$?JBQGFA:hhFG:SRIGIGhBS(hGIIBCM>e?#jkV[aalZYm^V_]‘a2VXk]‘bYYX\\rnoWpV^ZXWVYqV[XWaY]bY\\ro^Z^\\Yl{Y_VkW\\]ZVY)a]kZa+\\r0nqb{),-51>E?#v:(
6)?!RGF(IL:SRBC<(=@<:FCBCMQBIRL:C;F<@e?#yXkVpa\\YUVY_akaY[aVYc\\[‘ZYa3a\\kYZYm0yUc31>E?#}GFILsCN\"7