document.write(""); document.write("
本站网友 匿名
2014-08-30 21:44:59 发表
楼下的正在用事实验证标题呢,哈
 
支持[5反对[5]
"); document.write("
本站网友 匿名
2014-08-25 22:36:56 发表
原文由 dodo 于 2014-08-25 22:28:01 发表:


熵的事我稍微知道,不知道除了物理学家还有别人可以测量。哈哈。
垃圾评论都是一阵一阵的,那些字符看起来都是一样的,八位,英文字母和数字组合,但隔几天就出来几种。所以屏蔽起来倒是不难。
我好久不设置都忘记应该怎么改这个字节数了,我看看去。

谢谢。。

呵呵,理论上熵很难测量,尤其是开放系统的熵...

所以,我们下室索男一般只approximate...

 
支持[3反对[3]
"); document.write("
本站网友 匿名
2014-08-25 22:34:08 发表

没关系...

这应该是你的改动还没有反映到程序的所有地方...可能字数限制这条规则在程序的缓存里面(尤其当这条规则会用在每个页面,放缓存里面可以提高计算速度)...但是一般来说应该所有的数据都会有个有效期的,这个有效期过了以后,服务器会重新从硬盘上读你刚才改动过的数据

当然按理说,应该存在一个手动的类似于"立即应用"(apply immediately或者enforce application)之类的工具让你的改动立即生效...不过没关系,祖国正深更半夜的应该说长话的人不多了...
 
支持[2反对[2]
"); document.write("
本站网友 匿名
2014-08-25 22:32:47 发表
原文由 dodo 于 2014-08-25 22:08:21 发表:
sorry,是2000字节。

垃圾评论有字符filter,但很多都是一些random的无效字符,可能是机器发的,一下子上千个...

没关系...

这应该是你的改动还没有反映到程序的所有地方...可能字数限制这条规则在程序的缓存里面(尤其当这条规则会用在每个页面,放缓存里面可以提高计算速度)...但是一般来说应该所有的数据都会有个有效期的,这个有效期过了以后,服务器会重新从硬盘上读你刚才改动过的数据
 
支持[6反对[3]
"); document.write("
本站网友 dodo
2014-08-25 22:28:01 发表


我的意思是randomness本身作为一个filter...

比如如果发过来的数据,你可以测量一下这些数据的熵(entropy),如果熵特别大,那么说明这些数据特别随机...因为一般的自然语言的熵还是相对来说比较小的...我目前不知道中文的熵大概在什么范围,应该可以查得到...



熵的事我稍微知道,不知道除了物理学家还有别人可以测量。哈哈。
垃圾评论都是一阵一阵的,那些字符看起来都是一样的,八位,英文字母和数字组合,但隔几天就出来几种。所以屏蔽起来倒是不难。
我好久不设置都忘记应该怎么改这个字节数了,我看看去。

谢谢。。
 
支持[3反对[4]
"); document.write("
本站网友 匿名
2014-08-25 22:25:24 发表
原文由 dodo 于 2014-08-25 22:19:19 发表:
我试试看。
结果是还是500:)
我再改改,可能改的不对。研究研究。
这位老师真是好人,送小红花。@>--->------

我不是老师...就一下室索男...

接前面500字节限制没说完的
--
具体怎么去测熵,一个简单的近似是把数据pipe过一个压缩算法(比如gzip,或者zopfli),再把压缩比作为熵的近似.如果数据不怎么能压缩,那么说明数据的随机度很大.但是如果,比所说能够压缩到原来的1/2或者更小,那么说明随机度较小.对于随机度比较小的数据那么就可以用你的filter来对特定字符过滤了
 
支持[3反对[3]
"); document.write("
本站网友 匿名
2014-08-25 22:20:40 发表


那就把random本身作为一个feature来filter...

另外如果不是中文的spam,你可以把filter设置成如果落到某个字节range外面的数量超过一定的比例,那么这个也可以作为一个feature....


我的意思是randomness本身作为一个filter...

比如如果发过来的数据,你可以测量一下这些数据的熵(entropy),如果熵特别大,那么说明这些数据特别随机...因为一般的自然语言的熵还是相对来说比较小的...我目前不知道中文的熵大概在什么范围,应该可以查得到...

 
支持[2反对[3]
"); document.write("
本站网友 dodo
2014-08-25 22:19:19 发表
我试试看。
结果是还是500:)
我再改改,可能改的不对。研究研究。
这位老师真是好人,送小红花。@>--->------
 
支持[3反对[1]
"); document.write("
本站网友 匿名
2014-08-25 22:13:27 发表
原文由 dodo 于 2014-08-25 22:08:21 发表:
sorry,是2000字节。

垃圾评论有字符filter,但很多都是一些random的无效字符,可能是机器发的,一下子上千个...


那就把random本身作为一个feature来filter...

另外如果不是中文的spam,你可以把filter设置成如果落到某个字节range外面的数量超过一定的比例,那么这个也可以作为一个feature....
 
支持[2反对[2]
"); document.write("
本站网友 dodo
2014-08-25 22:08:21 发表
sorry,是2000字节。

垃圾评论有字符filter,但很多都是一些random的无效字符,可能是机器发的,一下子上千个...
 
支持[3反对[2]
"); document.write("");