Size: 255
Comment:
|
Size: 2041
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 2: | Line 2: |
''' 计算所汉语词法分析系统ICTCLAS'''(Institute of Computing Technology, Chinese Lexical Analysis System) http://www.nlp.org.cn/project/project.php?proj_id=6 |
''' 计算所汉语词法分析系统ICTCLAS'''(Institute of Computing Technology, Chinese Lexical Analysis System) . http://www.nlp.org.cn/project/project.php?proj_id=6 |
Line 6: | Line 6: |
PyIctclas是通过简单修改ICTCLAS后,在windows和linux下编译成python的扩展模块。使用boost_python。 = 使用示例 = {{{ #!/usr/bin/env python #coding=utf-8 source="PyIctclas是通过简单修改ICTCLAS后,在windows和linux下编译成python的扩展模块。" import PyIctclas ictclas=PyIctclas.CIctclas("./") #词典文件必须都放在data文件夹下,初始化CIctclas必须传递一个路径 #CIctclas里组合路径的时候是简单的连接两个字符串,所以这个参数必須是"/"结尾. #例如参数值是"./",连接后就是"./data/coreDict.dct" source=unicode(source,'utf-8').encode('gb2312') #ICTCLAS只能处理gb2312的字符串,所以必须先转换为gb2312后才能处理 if ictclas.IsOK(): #如果返回False,说明在设置的路径内没有找到词典文件 result=ictclas.Process(source) result=unicode(result,'gb2312').encode('utf-8') print result else: print '找不到data文件' 输出结果: PyIctclas 是 通过 简单 修改 ICTCLAS 后 , 在 windows 和 linux 下 编 译 成 python 的 扩展 模块 。 每个词之间用两个半角空格分隔。 }}} = 下载 = == data文件 == http://torry.letme.cn/mediafiles/PyIctclas_All/data.rar http://torry.letme.cn/mediafiles/PyIctclas_All/data.zip http://torry.letme.cn/mediafiles/PyIctclas_All/data.tar.bz2 说明:程序所必需的文件,解压后,所有词典文件,要放在一个“data"文件夹下,这个文件夹名字是固定的。 == Windows == http://torry.letme.cn/mediafiles/PyIctclas_All/PyIctclas_win32.zip 在python2.4下测试通过,其它环境可能不行,其它环境请下载源码自行编译 == linux == == 源代码 == = 编译说明 = = 返馈 = |
简介
计算所汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)
作者:中国科学院计算技术研究所副研究员张华平博士
PyIctclas是通过简单修改ICTCLAS后,在windows和linux下编译成python的扩展模块。使用boost_python。
使用示例
#coding=utf-8 source="PyIctclas是通过简单修改ICTCLAS后,在windows和linux下编译成python的扩展模块。" import PyIctclas ictclas=PyIctclas.CIctclas("./") #词典文件必须都放在data文件夹下,初始化CIctclas必须传递一个路径 #CIctclas里组合路径的时候是简单的连接两个字符串,所以这个参数必須是"/"结尾. #例如参数值是"./",连接后就是"./data/coreDict.dct" source=unicode(source,'utf-8').encode('gb2312') #ICTCLAS只能处理gb2312的字符串,所以必须先转换为gb2312后才能处理 if ictclas.IsOK(): #如果返回False,说明在设置的路径内没有找到词典文件 result=ictclas.Process(source) result=unicode(result,'gb2312').encode('utf-8') print result else: print '找不到data文件' 输出结果: PyIctclas 是 通过 简单 修改 ICTCLAS 后 , 在 windows 和 linux 下 编 译 成 python 的 扩展 模块 。 每个词之间用两个半角空格分隔。
下载
data文件
http://torry.letme.cn/mediafiles/PyIctclas_All/data.rar http://torry.letme.cn/mediafiles/PyIctclas_All/data.zip http://torry.letme.cn/mediafiles/PyIctclas_All/data.tar.bz2 说明:程序所必需的文件,解压后,所有词典文件,要放在一个“data"文件夹下,这个文件夹名字是固定的。
Windows
http://torry.letme.cn/mediafiles/PyIctclas_All/PyIctclas_win32.zip 在python2.4下测试通过,其它环境可能不行,其它环境请下载源码自行编译
linux
源代码
编译说明