分词后续, SCWS(简体中文分词)第4版出来了 :-)

[来源:网上转载 (http://bbs.chinaunix.net) | 作者:网友() | 时间:2007-06-24 | 浏览:人次 ]

[最新消息] SCWS第4版已经开发接近完成,在算法与写法上都有相当大的改进,支持自定义规则的人名等专名自动识别,同时支持特殊词汇(如:C++ C# Q币 T恤等等),也支持UTF-8/GBK。目前使用纯C于*Unix*系统下开发,已成功移植成为 php4 的一个扩展模块(scws),分词效率相当不错,比纯PHP脚本版(算法一样)要快80~120倍。
[在线测试] UTF-8版 GBK版

此次分词的编写着实花费了本人极多的业余时间,好好放松休息一下。待有时间后再慢慢整理

有兴趣的帮忙测试看看,目前准确率应该在 91~96% 之间,甚至更高,已经无心再提高了,目前效率还行,纯C方式下估计一分钟可以切到1千万甚至更多字节.

PHP模块里大概要再慢30%




精华

提供下载吗

楼主是开源中文搜索里程碑式的人了。

何不做成CLI,便可在任意语言中调用了

嘿嘿,得到代码了。




强的,就是会把电邮、网址之类的拆成单词...

支持支持!


值的先深吸一口气,再用力顶的帖子.
支持!


海贼王第四集
海贼王第4集
SCWS 第4版
这样的句子切的还有问题呀
海贼王应该是没有收录吧.
第xx应该识别一下.
什么时候提供下载呀.
另外你是在unix下做的,我用的ubutu 7.04 server 下载了也不一定能用呀!


这个是不错的东西, 可以分析分析, phpbb3的做法是一个汉字算一个单词, 这样准确率不高!




QUOTE:
原帖由 achun.shx 于 2007-6-5 10:18 发表
海贼王第四集
海贼王第4集
SCWS 第4版
这样的句子切的还有问题呀
海贼王应该是没有收录吧.
第xx应该识别一下.
什么时候提供下载呀.
另外你是在unix下做的,我用的ubutu 7.04 server 下载了也不一定能用呀!
这个因为词典整理得不够,所以这样了.目前已经能自动识别


已经发布 pre 版提供下载,纯C代码.有兴趣的去下.
在 http://www.hightman.cn/  头条


必顶

==========
PS:32位跟64机的结果好像不一样啊。郁闷~ TAG标签 : 出来 中文 简体 后续 下载 海贼王 应该 这样 识别 支持

最新评论 共有0位网友发表了评论

评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。查看所有评论
用户名:(注册)
密码:
验证码:
匿名发表

网站地图友情连接交流论坛网站投稿广告服务联系我们留言本站长统计
Some rights reserved: www.chmhome.com, 鄂ICP备07010232号 E-mail:chinakafei@live.com,QQ:552766
中国咖啡技术网(Chmhome):国外编程技术书籍,中文编程手册,经典编程文章,交流技术,技术软件下载,计算机论文,毕业论文.