中文分词 xsplit 0.0.2 alpha 发布 (已经失效)
xsplit 0.0.2 alpha – 20090123 [已经失效]
此版本仅在linux下测试过,并且不建议用于正常的使用环境,只作测试目的
[说明]
xsplit是一个中文分词的PHP的扩展,在分词效果和效率上做了一定的处理。
它被设计成一个轻量的,能满足大部分普通分词需要的软件。
这个版本只是测试版本,很多分词的特性还不具备,比如人名、地名的智能识别等,所以不要要求太高,
希望能得到更多的建议,作为日后改进的基础。
[下载]
xsplit.tar.gz (已经失效)PHP扩展形式的软件包
xdict.tar.gz (已经失效)词典
[安装]
安装方法与一般的PHP扩展安装方法一样,这里简单说一下(仅限linux):
1.下载一个完整的PHP源码包,解压。
2.将xsplit.tar.gz解压后得到的目录放到PHP源码中的ext目录下。
3.$cd xsplit 进入xsplit的PHP扩展目录
4.$phpize (如果提示没有此命令,说明你还没有安装PHP或者phpize没有在系统默认路径下)
5.$./configure (是在xsplit扩展目录下,而不是PHP源码目录)
6.$make
7.$make install (如果此步没有把生成的xsplit.so文件放到PHP的扩展库里,请手动修改)
8.下载词典文件xdict.tar.gz,解压后放到一个目录里,这里假设路径为/home/xdict
至此,扩展编译安装完毕,下一步修改php.ini
1.添加 extension=xsplit.so 到php.ini,启用xsplit模块。
2.添加一个ini配置选项 xsplit.dict_file=”/home/xdict” ,用于指定词典路径。
重启一下web服务,应该就可以使用了。
使用phpinfo()查看信息如下

[使用方法]
此次发布的扩展里只包含一个函数
array xsplit_utf8 ( string $text )
其中,$text为要切分的文本,切分后的词语作为一个数组返回。
目前此函数只支持utf8编码,并且没有对$text的编码格式做检查,请酌情处理.
或者查看扩展源码包里的xsplit.php
[其他事项]
1.如果修改了php.ini中的字典路径,重启web服务才能生效。
2.ini_set对于路径的修改无效。
[分词样例]
我刚刚开始山地自行车运动的时候,我更愿意选用零件尽可能少尽可能简单的自行车
我 _ 刚刚 _ 开始 _ 山地 _ 自行车运动 _ 的 _ 时候 _ , _ 我 _ 更 _ 愿意 _ 选用 _ 零件 _ 尽可能 _ 少 _ 尽可能 _ 简单 _ 的 _ 自行车 _
王府饭店的设施和服务是一流的
王府 _ 饭店 _ 的 _ 设施 _ 和 _ 服务 _ 是 _ 一流 _ 的
提高人民生活水平
提高 _ 人民 _ 生活 _ 水平
在这些企业中国有企业有十个
在 _ 这些 _ 企业 _ 中 _ 国有企业 _ 有 _ 十 _ 个
研究生命起源
研究 _ 生命 _ 起源
研究生教育
研究生 _ 教育
Leave a Reply