本站网友 匿名 |
2014-08-30 21:44:59 发表 |
楼下的正在用事实验证标题呢,哈 |
|
|
本站网友 匿名 |
2014-08-25 22:36:56 发表 |
原文由 dodo 于 2014-08-25 22:28:01 发表:
熵的事我稍微知道,不知道除了物理学家还有别人可以测量。哈哈。
垃圾评论都是一阵一阵的,那些字符看起来都是一样的,八位,英文字母和数字组合,但隔几天就出来几种。所以屏蔽起来倒是不难。
我好久不设置都忘记应该怎么改这个字节数了,我看看去。
谢谢。。 |
呵呵,理论上熵很难测量,尤其是开放系统的熵...
所以,我们下室索男一般只approximate...
|
|
|
本站网友 匿名 |
2014-08-25 22:34:08 发表 |
没关系...
这应该是你的改动还没有反映到程序的所有地方...可能字数限制这条规则在程序的缓存里面(尤其当这条规则会用在每个页面,放缓存里面可以提高计算速度)...但是一般来说应该所有的数据都会有个有效期的,这个有效期过了以后,服务器会重新从硬盘上读你刚才改动过的数据 |
当然按理说,应该存在一个手动的类似于"立即应用"(apply immediately或者enforce application)之类的工具让你的改动立即生效...不过没关系,祖国正深更半夜的应该说长话的人不多了... |
|
|
本站网友 匿名 |
2014-08-25 22:32:47 发表 |
原文由 dodo 于 2014-08-25 22:08:21 发表: sorry,是2000字节。
垃圾评论有字符filter,但很多都是一些random的无效字符,可能是机器发的,一下子上千个... |
没关系...
这应该是你的改动还没有反映到程序的所有地方...可能字数限制这条规则在程序的缓存里面(尤其当这条规则会用在每个页面,放缓存里面可以提高计算速度)...但是一般来说应该所有的数据都会有个有效期的,这个有效期过了以后,服务器会重新从硬盘上读你刚才改动过的数据 |
|
|
本站网友 dodo |
2014-08-25 22:28:01 发表 |
我的意思是randomness本身作为一个filter...
比如如果发过来的数据,你可以测量一下这些数据的熵(entropy),如果熵特别大,那么说明这些数据特别随机...因为一般的自然语言的熵还是相对来说比较小的...我目前不知道中文的熵大概在什么范围,应该可以查得到...
|
熵的事我稍微知道,不知道除了物理学家还有别人可以测量。哈哈。
垃圾评论都是一阵一阵的,那些字符看起来都是一样的,八位,英文字母和数字组合,但隔几天就出来几种。所以屏蔽起来倒是不难。
我好久不设置都忘记应该怎么改这个字节数了,我看看去。
谢谢。。 |
|
|
本站网友 匿名 |
2014-08-25 22:25:24 发表 |
原文由 dodo 于 2014-08-25 22:19:19 发表: 我试试看。
结果是还是500:)
我再改改,可能改的不对。研究研究。
这位老师真是好人,送小红花。@>--->------ |
我不是老师...就一下室索男...
接前面500字节限制没说完的
--
具体怎么去测熵,一个简单的近似是把数据pipe过一个压缩算法(比如gzip,或者zopfli),再把压缩比作为熵的近似.如果数据不怎么能压缩,那么说明数据的随机度很大.但是如果,比所说能够压缩到原来的1/2或者更小,那么说明随机度较小.对于随机度比较小的数据那么就可以用你的filter来对特定字符过滤了 |
|
|
本站网友 匿名 |
2014-08-25 22:20:40 发表 |
那就把random本身作为一个feature来filter...
另外如果不是中文的spam,你可以把filter设置成如果落到某个字节range外面的数量超过一定的比例,那么这个也可以作为一个feature.... |
我的意思是randomness本身作为一个filter...
比如如果发过来的数据,你可以测量一下这些数据的熵(entropy),如果熵特别大,那么说明这些数据特别随机...因为一般的自然语言的熵还是相对来说比较小的...我目前不知道中文的熵大概在什么范围,应该可以查得到...
|
|
|
本站网友 dodo |
2014-08-25 22:19:19 发表 |
我试试看。
结果是还是500:)
我再改改,可能改的不对。研究研究。
这位老师真是好人,送小红花。@>--->------ |
|
|
本站网友 匿名 |
2014-08-25 22:13:27 发表 |
原文由 dodo 于 2014-08-25 22:08:21 发表: sorry,是2000字节。
垃圾评论有字符filter,但很多都是一些random的无效字符,可能是机器发的,一下子上千个... |
那就把random本身作为一个feature来filter...
另外如果不是中文的spam,你可以把filter设置成如果落到某个字节range外面的数量超过一定的比例,那么这个也可以作为一个feature.... |
|
|
本站网友 dodo |
2014-08-25 22:08:21 发表 |
sorry,是2000字节。
垃圾评论有字符filter,但很多都是一些random的无效字符,可能是机器发的,一下子上千个... |
|
|
本站网友 匿名 |
2014-08-25 22:06:16 发表 |
原文由 dodo 于 2014-08-25 22:02:04 发表: 之前设置的是1000字符,你说只能写333,刚才改成2000。
|
我刚才试了下,还是500字节...你有没有flush database呀...要不然变动的数据还在缓存里面... |
|
|
本站网友 dodo |
2014-08-25 22:02:04 发表 |
之前设置的是1000字符,你说只能写333,刚才改成2000。
|
|
|
本站网友 匿名 |
2014-08-25 21:39:02 发表 |
[quote]60842[/quote]
谢谢dodo...
1000个汉字符用utf-8来表示,是3000字节(byte)...
1000个字节(byte)可以表示333个utf-8的汉字符...
表搞混了...
另外,对于spam或许可以考虑设计一个专门的filter来过滤,但不知版主对此有没了解否?
|
|
|
本站网友 dodo |
2014-08-25 21:21:19 发表 |
那我改改,到1000字符。
这样限制是因为之前垃圾评论太多了。。。 |
|
|
本站网友 匿名 |
2014-08-25 16:27:43 发表 |
天才个屁,你恐怕屁也不懂就是善于污染空气的垃圾舆论专家而已。 |
|
|
本站网友 抱怨-1 |
2014-08-25 15:19:11 发表 |
(1/4)
此帖分4节,请管理员按照1->2->3->4的顺序阅读.谢谢
不好意思,抱怨个和本站相关的技术问题...
本站将一个评论的字数限制设为500*字节*.而本站用utf-8网页编码.也就是说一个中文字或标点会占3个字节.这样一篇评论如果用中文写算上标点最多只能写500/3=166个符号(不能整除,意味着还有2个字节被浪费了).也就是说相当于2个推特的长度.
|
|
|
本站网友 抱怨-2 |
2014-08-25 15:17:11 发表 |
这个限制可能太强了.稍微有点意义的发言都要分成几段来说,且不说像个post-whore,但是确实发较长评论要比发很短评论需要付出更大的代价(不考虑写留言的代价只考虑点击发送这个过程).反过来无异于在鼓励大家说些推特式的话.推特的设计结构便于传播某个事件性的描述,而基于人的思考分析性描述往往会较长(比如wsj或者nyt上面的文章往往短篇幅内无法写完). |
|
|
本站网友 抱怨-3 |
2014-08-25 15:15:15 发表 |
所以从这个分析来看,本站的评论系统似乎更加鼓励大家发表对事件性的描述而非大家的分析和思考.或许真是因为这样,本站一篇文章下面谩骂似的评论比例常常大于非谩骂似的评论比例.如果这个是网站管理员的设计初衷,也可厚非;但是如果不是,那么评论的500*字节*限制确实是太强了 |
|
|
本站网友 抱怨-44 |
2014-08-25 15:14:41 发表 |
(4/4)
很感谢泡网提供了一个让大家就实事发表自己观点的半匿名平台,匿名发言是freedom of speech的最基本的保证.在此希望泡网会越办越好,读者会从这里得到更多的有用信息. |
|
|
本站网友 匿名 |
2014-08-25 14:38:46 发表 |
进入这个链接连接 (我用了谷歌的短链接服务,域名解析时或需访问谷歌的服务器)
goo.gl/79zt3H
有个关于本主题类似讨论.可以点最上面"Why I'll Never Tell My Son He's Smart" 阅读主文章.
英文阅读较生疏的站友,可以用
goo.gl/OG4cR7
该页面内输入要翻译的网页去得到些大意.但是千万不要完全依赖自动翻译.中英文间自动翻译离完备差得很远. |
|
|
22 1 2 下一页 尾页
网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述 |