Differences between revisions 1 and 7 (spanning 6 versions)

简介

计算所汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)

http://www.nlp.org.cn/project/project.php?proj_id=6

作者:中国科学院计算技术研究所副研究员张华平博士

PyIctclas是通过简单修改ICTCLAS后，在windows和linux下编译成python的扩展模块。使用boost_python。

使用示例

#coding=utf-8
source="PyIctclas是通过简单修改ICTCLAS后，在windows和linux下编译成python的扩展模块。"
import PyIctclas
ictclas=PyIctclas.CIctclas("./")
#词典文件必须都放在data文件夹下，初始化CIctclas必须传递一个路径
#CIctclas里组合路径的时候是简单的连接两个字符串，所以这个参数必須是"/"结尾.
#例如参数值是"./"，连接后就是"./data/coreDict.dct"
source=unicode(source,'utf-8').encode('gb2312')
#ICTCLAS只能处理gb2312的字符串，所以必须先转换为gb2312后才能处理
if ictclas.IsOK(): #如果返回False,说明在设置的路径内没有找到词典文件
    result=ictclas.Process(source)
    result=unicode(result,'gb2312').encode('utf-8')
    print result
else:
    print '找不到data文件'
输出结果：
PyIctclas  是  通过  简单  修改  ICTCLAS  后  ，  在  windows  和  linux  下  编  译  成  python  的  扩展  模块  。
每个词之间用两个半角空格分隔。

下载

data文件

http://torry.letme.cn/mediafiles/PyIctclas_All/data.rar http://torry.letme.cn/mediafiles/PyIctclas_All/data.zip http://torry.letme.cn/mediafiles/PyIctclas_All/data.tar.bz2 说明：程序所必需的文件，解压后，所有词典文件，要放在一个“data"文件夹下，这个文件夹名字是固定的。

Windows

http://torry.letme.cn/mediafiles/PyIctclas_All/PyIctclas_win32.zip 在python2.4下测试通过，其它环境可能不行，其它环境请下载源码自行编译

Diff for "PyIctclas"

简介

使用示例

下载

data文件

Windows

linux

源代码

编译说明

返馈

-  ⇤ ← Revision 1 as of 2007-01-10 13:03:08 → 
  Size: 255
  Editor: wangzhen
  Comment:
+   ← Revision 7 as of 2007-01-10 14:16:38 → ⇥
  Size: 2041
  Editor: wangzhen
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 2:
-'''
计算所汉语词法分析系统ICTCLAS'''(Institute of Computing Technology, Chinese Lexical Analysis System)
http://www.nlp.org.cn/project/project.php?proj_id=6
+''' 计算所汉语词法分析系统ICTCLAS'''(Institute of Computing Technology, Chinese Lexical Analysis System)

 . http://www.nlp.org.cn/project/project.php?proj_id=6
 Line 6:
+PyIctclas是通过简单修改ICTCLAS后，在windows和linux下编译成python的扩展模块。使用boost_python。

= 使用示例 =
{{{
#!/usr/bin/env python
#coding=utf-8
source="PyIctclas是通过简单修改ICTCLAS后，在windows和linux下编译成python的扩展模块。"
import PyIctclas
ictclas=PyIctclas.CIctclas("./")
#词典文件必须都放在data文件夹下，初始化CIctclas必须传递一个路径
#CIctclas里组合路径的时候是简单的连接两个字符串，所以这个参数必須是"/"结尾.
#例如参数值是"./"，连接后就是"./data/coreDict.dct"
source=unicode(source,'utf-8').encode('gb2312')
#ICTCLAS只能处理gb2312的字符串，所以必须先转换为gb2312后才能处理
if ictclas.IsOK(): #如果返回False,说明在设置的路径内没有找到词典文件
    result=ictclas.Process(source)
    result=unicode(result,'gb2312').encode('utf-8')
    print result
else:
    print '找不到data文件'
输出结果：
PyIctclas  是  通过  简单  修改  ICTCLAS  后  ，  在  windows  和  linux  下  编  译  成  python  的  扩展  模块  。
每个词之间用两个半角空格分隔。
 }}}
= 下载 =
== data文件 ==
http://torry.letme.cn/mediafiles/PyIctclas_All/data.rar
http://torry.letme.cn/mediafiles/PyIctclas_All/data.zip
http://torry.letme.cn/mediafiles/PyIctclas_All/data.tar.bz2
说明：程序所必需的文件，解压后，所有词典文件，要放在一个“data"文件夹下，这个文件夹名字是固定的。
== Windows ==
http://torry.letme.cn/mediafiles/PyIctclas_All/PyIctclas_win32.zip
在python2.4下测试通过，其它环境可能不行，其它环境请下载源码自行编译
== linux ==
== 源代码 ==
= 编译说明 =
= 返馈 =