Differences between revisions 2 and 4 (spanning 2 versions)
Revision 2 as of 2007-01-10 13:03:42
Size: 255
Editor: wangzhen
Comment:
Revision 4 as of 2007-01-10 13:54:27
Size: 1461
Editor: wangzhen
Comment:
Deletions are marked like this. Additions are marked like this.
Line 3: Line 3:
 http://www.nlp.org.cn/project/project.php?proj_id=6
 .
http://www.nlp.org.cn/project/project.php?proj_id=6
Line 5: Line 6:

PyIctclas是通过简单修改ICTCLAS后,在windows和linux下编译成python的扩展模块。使用boost_python。

= 使用示例 =
#!/usr/bin/env python
#coding=utf-8
source="PyIctclas是通过简单修改ICTCLAS后,在windows和linux下编译成python的扩展模块。"
import PyIctclas
ictclas=PyIctclas.CIctclas("./")
#词典文件必须都放在data文件夹下,初始化CIctclas必须传递一个路径
#CIctclas里组合路径的时候是简单的连接两个字符串,所以这个参数必須是"/"结尾.
#例如参数值是"./",连接后就是"./data/coreDict.dct"
source=unicode(source,'utf-8').encode('gb2312')
#ICTCLAS只能处理gb2312的字符串,所以必须先转换为gb2312后才能处理
if ictclas.IsOK(): #如果返回False,说明在设置的路径内没有找到词典文件
result=ictclas.Process(source)
result=unicode(result,'gb2312').encode('utf-8')
print result
else:
print '找不到data文件'
输出结果:
PyIctclas 是 通过 简单 修改 ICTCLAS 后 , 在 windows 和 linux 下 编 译 成 python 的 扩展 模块 。
每个词之间有两个半角空格.
= 下载说明 =
= 编译说明 =
= 返馈 =

简介

计算所汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)

作者:中国科学院计算技术研究所副研究员张华平博士

PyIctclas是通过简单修改ICTCLAS后,在windows和linux下编译成python的扩展模块。使用boost_python。

使用示例

#!/usr/bin/env python #coding=utf-8 source="PyIctclas是通过简单修改ICTCLAS后,在windows和linux下编译成python的扩展模块。" import PyIctclas ictclas=PyIctclas.CIctclas("./") #词典文件必须都放在data文件夹下,初始化CIctclas必须传递一个路径 #CIctclas里组合路径的时候是简单的连接两个字符串,所以这个参数必須是"/"结尾. #例如参数值是"./",连接后就是"./data/coreDict.dct" source=unicode(source,'utf-8').encode('gb2312') #ICTCLAS只能处理gb2312的字符串,所以必须先转换为gb2312后才能处理 if ictclas.IsOK(): #如果返回False,说明在设置的路径内没有找到词典文件 result=ictclas.Process(source) result=unicode(result,'gb2312').encode('utf-8') print result else: print '找不到data文件' 输出结果: PyIctclas 是 通过 简单 修改 ICTCLAS 后 , 在 windows 和 linux 下 编 译 成 python 的 扩展 模块 。 每个词之间有两个半角空格.

下载说明

编译说明

返馈

PyIctclas (last edited 2009-12-25 07:16:18 by localhost)