Differences between revisions 19 and 25 (spanning 6 versions)
Revision 19 as of 2007-11-03 15:11:14
Size: 9410
Editor: ZoomQuiet
Comment:
Revision 25 as of 2008-04-29 04:18:01
Size: 12005
Editor: ZoomQuiet
Comment:
Deletions are marked like this. Additions are marked like this.
Line 3: Line 3:
||'''status'''|| 完成 ;ZoomQuiet;95%,补充习题 || ||'''status'''|| 校对 || ZoomQuiet;100% ||
Line 8: Line 8:
= -1 PyDay 实用化,中文! = = CDay -1 实用化,中文! =
~ 中文处理完成功能的实用化

Line 26: Line 29:
来几下! ... 呜乎矣哉,什么也查不出来! 尝试来几下! ... 呜乎矣哉,什么也查不出来!
Line 49: Line 52:
 * 列表什么的一搜索才知道,只要是个中国人,不论整什么开发,中文!永远问题的  * 在网络中一搜索才知道,只要是个中国人,不论整什么开发,中文!永远会遇到各种问题的
Line 55: Line 58:
Line 116: Line 120:
{{{详细::
PCS6 Python与中文
进一步全面的阐述了在Python 中面对中文数据时的思路和技巧...
}}}
Line 117: Line 126:
这么一项项猜,还是显的很哪,万一有些字的高位在不同编码中是相同的,那真的是只能撞大运了! 这么一项项猜,还是显的很傻的哪,万一有些字的高位在不同编码中是相同的,那真的是只能撞大运了!
Line 126: Line 135:
 * 问吧...
 *
http://chardet.feedparser.org/ -- Character encoding auto-detection 自动字符探测器!
 * 问吧...行者们给出个地址:" http://chardet.feedparser.org/ "
 *
-- Character encoding auto-detection 自动字符探测器!
Line 129: Line 138:

嗯嗯嗯?!怎么安装外部模块的呢?软件包下载,解开压缩,嗯嗯嗯?没有INSTALL 说明文件,
但是有个`setup.py` 尝试执行一下?

attachment:2008-04-29-112533_install-py-packet_scrot.png
{{{
总用量 33
drwxr-xr-x 3 zoomq zoomq 72 2008-04-29 11:25 build
drwx------ 2 zoomq zoomq 1264 2006-01-11 01:34 chardet
-rwx------ 1 zoomq zoomq 26432 2006-01-11 01:34 COPYING
drwxrwxrwx 4 zoomq zoomq 296 2006-01-11 01:34 docs
-rwx------ 1 zoomq zoomq 1981 2006-01-11 01:34 setup.py
::$ python setup.py
usage: setup.py [global_opts] cmd1 [cmd1_opts] [cmd2 [cmd2_opts] ...]
   or: setup.py --help [cmd1 cmd2 ...]
   or: setup.py --help-commands
   or: setup.py cmd --help

error: no commands supplied
::$ sudo python setup.py install
running install
running build
running build_py
running install_lib
running install_egg_info
Removing /usr/lib/python2.5/site-packages/chardet-1.0.egg-info
Writing /usr/lib/python2.5/site-packages/chardet-1.0.egg-info
}}}
so easy! 好象使用了类似小白已经完成的交互式提醒哪!
看来所有Python 的软件都可以通过`python setup.py install` 进行安装哪!

{{{详细::
PCS202 chardet
进一步说明了此外部模块的信息,
并分享了使用体验;
}}}
Line 146: Line 191:
 * 经过测试在各种情况下都可以正确识别!
 * 但是怎么尝试已经保存下来的 .cdc 文本依然是 `ASCII` 码!

经过测试在各种情况下都可以正确识别!

但是不论怎么尝试已经保存下来的 .cdc 文本依然是 `ASCII` 码!
Line 156: Line 203:
 * `iso9660` -- 嗯嗯嗯,所有光盘基本都是此文件格式的,同M$使用的 FAT32/ntfs,GNU/Liunx 使用的 ext2/3,Unix使用的nfs...种文件系统都不同  * 在列表中吼了一下,行者们有点无奈的说:"TiosnG!"
  ~ `There is one site named Google!`
 * 好吧,小白老实的搜索了一番,发现了
`iso9660` -- 嗯嗯嗯,所有光盘基本都是此文件格式的,同M$使用的 FAT32/ntfs,GNU/Liunx 使用的 ext2/3,Unix使用的UFS...一样,只是种文件系统
Line 183: Line 232:
{{{警告::
Hacker~黑客
绝然不是中国媒体中宣传的那些攻击他人电脑的家伙,
黑客是些创造技术奇迹的单纯的人们:
http://wiki.woodpecker.org.cn/moin/HackerHowto

被翻译所误指的是 骇客~Cracker
http://en.wikipedia.org/wiki/Cracker
破坏者
未经授权而企图进入电脑系统者。这种入侵者通常是恶意进入他人的系统,
而且有许多技巧可以破坏他人的系统。
这个名词是骇客(Hacker)在1985年为对抗新闻媒体滥用hacker而提出的。
1981-1982年前曾有人推动使用毛虫代表与cracker一样的意义,但并未成功。
}}}
Line 217: Line 280:
相对Python 方面,仅仅一对内置函式,和一个外部模块包使用的体验 相对Python 方面,仅仅追加了一对内置函式,和一个外部模块包使用的体验
Line 228: Line 291:
{{{警告::
事实上有在Windows 下面的完全Unix环境
Cygwin
http://www.cygwin.com
是一个运行于Windows下的免费的UNIX的子系统,使用一个Dll(动态链接库)来实现的虚拟机,
可以直接在 Windows 环境中使用各种Unix 实用工具;
}}}
Line 230: Line 301:
1. 自动判定你自个儿的Blog 是什么编码的? 1. 自动判定你自个儿/或是朋友的Blog 是什么编码的?
Line 233: Line 304:


status

校对

ZoomQuiet;100%

TableOfContents

1. CDay -1 实用化,中文!

~ 中文处理完成功能的实用化

你能够碰到的问题,99%的情况下其它人已经遇到过了,所以,最佳的解决方式就是找到那段别人解决相似问题的代码!

1.1. 回顾需求

小白已经实现的需求已经到达这般了:

  1. 可以扫描光盘内容并存储为硬盘上的文本文件
    • 存储成*.cdc 的文本文件
    • 可以快速指定保存目录
    • 可以快速指定保存的文件名
  2. 可以根据储存到硬盘上的光盘信息进行搜索
    • 可以搜索指定目录中所有*.cdc文件
    • 可以指定关键字进行搜索
      • 列出所有含有关键字的信息行

1.1.1. 进一步

回想起来一直尝试搜索的都是E文关键字,中文的没有试过;

尝试来几下! ... 呜乎矣哉,什么也查不出来!

1.2. 查阅记录文本

attachment:badcdc-chinese.png

这种数据对嘛?

  • 当初为了简单使用文档中的基本型:{{{#'cdctools.py' 中 cdWalker(cdrom,cdcfile) 的动作

...

  • for root, dirs, files in os.walk(cdrom):
    • export+="\n %s;%s;%s" % (root,dirs,files)

... }}}就是使用 os.walk() 的天然输出组织成每一行:

/media/cdrom0/EVA/Death-Rebirth;[];['eva8-01.Mp3', 'eva8-02.Mp3',...]
    ^                          ^ ^  ^ 
    |                          | |  +- files列表,此目录的文件名 
    |                          | +- 各个数据段使用";" 分隔
    |                          +- dirs列表,子目录名,如果没有就为空
    +- 当前目录
  • 瞧着格式象,为什么到中文的地方就是问号呢?

1.3. 中文!永远的痛

不问不知道,一把辛酸泪哪...

  • 在网络中一搜索才知道,只要是个中国人,不论整什么开发,中文!永远会遇到各种问题的
  • 幸好比小白勤劳的人海了去,有关中文的Python 处理也是一搜一大堆
  • 但是!有时候,选择太多也是个问题;-)

1.3.1. 编码问题

attachment:coding.png

attachment:ipy-try-walk.png

  • 嗯嗯嗯,看着就不同,根据理解继续尝试是否理解

attachment:ipy-try-trans-utf8.png {{{ unicode(原始文本, 'utf8' ).encode('utf8') 文本 ==decode()--> [unicode] ==>encode()--> utf-8文本

  • ^ | | | | +- 最终的渴求 | | | +- 是为编码过程;可以从unicode 输出为任意编码 | | +- Python 内置支持的unicode 格式数据 | +- 是为解码过程,将已知编码的文本编译成宇宙通用的unicode数据 +- 原始文本信息,是什么编码你得知道!

}}}

  • 也就是说文件没有编码之说,大家其实都是二进制格式保存在硬盘中的,仅仅是在写入读取时需要使用对应的编码进行处理,以便操作系统配合相关软件/字体绘制到屏幕中给人看
    • 所以,关键问题是得知道原先这些字串数据是使用什么编码来编译的!
    • 但是,在Unicode 之前,都是使用类似对照表的形式来组织编码的,无法从串数据流本身中统一解出不同的文字来,
    • 只有猜!

ObpLovelyPython/CDay-1 (last edited 2012-03-03 10:28:10 by ZoomQuiet)