[在线测试] UTF-8版 GBK版
此次分词的编写着实花费了本人极多的业余时间,好好放松休息一下。待有时间后再慢慢整理
有兴趣的帮忙测试看看,目前准确率应该在 91~96% 之间,甚至更高,已经无心再提高了,目前效率还行,纯C方式下估计一分钟可以切到1千万甚至更多字节.
PHP模块里大概要再慢30%
精华
提供下载吗
楼主是开源中文搜索里程碑式的人了。
何不做成CLI,便可在任意语言中调用了
嘿嘿,得到代码了。
强的,就是会把电邮、网址之类的拆成单词...
支持支持!
值的先深吸一口气,再用力顶的帖子.
支持!
海贼王第四集
海贼王第4集
SCWS 第4版
这样的句子切的还有问题呀
海贼王应该是没有收录吧.
第xx应该识别一下.
什么时候提供下载呀.
另外你是在unix下做的,我用的ubutu 7.04 server 下载了也不一定能用呀!
这个是不错的东西, 可以分析分析, phpbb3的做法是一个汉字算一个单词, 这样准确率不高!
QUOTE:
原帖由 achun.shx 于 2007-6-5 10:18 发表
海贼王第四集
海贼王第4集
SCWS 第4版
这样的句子切的还有问题呀
海贼王应该是没有收录吧.
第xx应该识别一下.
什么时候提供下载呀.
另外你是在unix下做的,我用的ubutu 7.04 server 下载了也不一定能用呀!
这个因为词典整理得不够,所以这样了.目前已经能自动识别海贼王第四集
海贼王第4集
SCWS 第4版
这样的句子切的还有问题呀
海贼王应该是没有收录吧.
第xx应该识别一下.
什么时候提供下载呀.
另外你是在unix下做的,我用的ubutu 7.04 server 下载了也不一定能用呀!
已经发布 pre 版提供下载,纯C代码.有兴趣的去下.
在 http://www.hightman.cn/ 头条
必顶
==========
PS:32位跟64机的结果好像不一样啊。郁闷~ TAG标签 : 出来 中文 简体 后续 下载 海贼王 应该 这样 识别 支持
个人空间
