1. CDay -1 实用化,中文!

~ 中文处理完成功能的实用化

你能够碰到的问题,99%的情况下其它人已经遇到过了,所以,最佳的解决方式就是找到那段别人解决相似问题的代码!

1.1. 回顾需求

小白已经实现的需求已经到达这般了:

可以扫描光盘内容并存储为硬盘上的文本文件
- 存储成*.cdc 的文本文件
- 可以快速指定保存目录
- 可以快速指定保存的文件名
可以根据储存到硬盘上的光盘信息进行搜索
- 可以搜索指定目录中所有*.cdc文件
- 可以指定关键字进行搜索
  - 列出所有含有关键字的信息行

1.1.1. 进一步

回想起来一直尝试搜索的都是E文关键字,中文的没有试过;

尝试来几下! ... 呜乎矣哉,什么也查不出来!

1.2. 查阅记录文本

attachment:badcdc-chinese.png

这种数据对嘛？

当初为了简单使用文档中的基本型:{{{#'cdctools.py' 中 cdWalker(cdrom,cdcfile) 的动作

...

for root, dirs, files in os.walk(cdrom):
- export+="\n %s;%s;%s" % (root,dirs,files)

... }}}就是使用 os.walk() 的天然输出组织成每一行:

/media/cdrom0/EVA/Death-Rebirth;[];['eva8-01.Mp3', 'eva8-02.Mp3',...]
    ^                          ^ ^  ^ 
    |                          | |  +- files列表，此目录的文件名 
    |                          | +- 各个数据段使用";" 分隔
    |                          +- dirs列表，子目录名，如果没有就为空
    +- 当前目录

瞧着格式象，为什么到中文的地方就是问号呢？

1.3. 中文!永远的痛

不问不知道,一把辛酸泪哪...

在网络中一搜索才知道,只要是个中国人,不论整什么开发,中文!永远会遇到各种问题的
幸好比小白勤劳的人海了去,有关中文的Python 处理也是一搜一大堆
但是!有时候,选择太多也是个问题;-)

1.3.1. 编码问题

attachment:coding.png

有行者给出如上[http://mindmap.fltrp.com/mind-1.htm 思维图谱(Mind Map)]
理解过程中，先使用已知的方式测试本地硬盘文件目录情况

attachment:ipy-try-walk.png

嗯嗯嗯，看着就不同,根据理解继续尝试是否理解

attachment:ipy-try-trans-utf8.png {{{ unicode(原始文本, 'utf8' ).encode('utf8') 文本 ==decode()--> [unicode] ==>encode()--> utf-8文本

^ | | | | +- 最终的渴求 | | | +- 是为编码过程;可以从unicode 输出为任意编码 | | +- Python 内置支持的unicode 格式数据 | +- 是为解码过程,将已知编码的文本编译成宇宙通用的unicode数据 +- 原始文本信息,是什么编码你得知道!

}}}

也就是说文件没有编码之说，大家其实都是二进制格式保存在硬盘中的，仅仅是在写入读取时需要使用对应的编码进行处理，以便操作系统配合相关软件/字体绘制到屏幕中给人看
- 所以,关键问题是得知道原先这些字串数据是使用什么编码来编译的!
- 但是,在Unicode 之前,都是使用类似对照表的形式来组织编码的,无法从串数据流本身中统一解出不同的文字来,
- 只有猜!

-  ⇤ ← Revision 21 as of 2008-04-16 12:37:14 → 
  Size: 10588
  Editor: ZoomQuiet
  Comment:
+   ← Revision 22 as of 2008-04-27 13:49:11 → ⇥
  Size: 10807
  Editor: ZoomQuiet
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 3:
-||'''status'''|| 完成 || ZoomQuiet;97%,完成PCS 嵌入等待补充习题 ||
+||'''status'''|| 校对 || ZoomQuiet;100% ||
 Line 9:
+~ 中文处理完成功能的实用化
-Line 26:
+Line 29:
-来几下! ... 呜乎矣哉,什么也查不出来!
+尝试来几下! ... 呜乎矣哉,什么也查不出来!
-Line 49:
+Line 52:
- * 在网络中一搜索才知道,只要是个中国人,不论整什么开发,中文!永远有问题的
+ * 在网络中一搜索才知道,只要是个中国人,不论整什么开发,中文!永远会遇到各种问题的
-Line 123:
+Line 126:
-这么一项项猜,还是显的很惾哪,万一有些字的高位在不同编码中是相同的,那真的是只能撞大运了!
+这么一项项猜,还是显的很傻的哪,万一有些字的高位在不同编码中是相同的,那真的是只能撞大运了!
-Line 132:
+Line 135:
- * 问吧...
 * http://chardet.feedparser.org/ -- Character encoding auto-detection 自动字符探测器!
+ * 问吧...行者们给出个地址:" http://chardet.feedparser.org/ "
 * -- Character encoding auto-detection 自动字符探测器!
-Line 161:
+Line 164:
-但是怎么尝试已经保存下来的 .cdc 文本依然是 `ASCII` 码!
+但是不论怎么尝试已经保存下来的 .cdc 文本依然是 `ASCII` 码!
-Line 170:
+Line 173:
- * `iso9660` -- 嗯嗯嗯,所有光盘基本都是此文件格式的,同M$使用的 FAT32/ntfs,GNU/Liunx 使用的 ext2/3,Unix使用的nfs...各种文件系统都不同
+ * 在列表中吼了一下,行者们有点无奈的说:"TiosnG!"
  ~ `There is one site named Google!`
 * 好吧,小白老实的搜索了一番,发现了`iso9660` -- 嗯嗯嗯,所有光盘基本都是此文件格式的,同M$使用的 FAT32/ntfs,GNU/Liunx 使用的 ext2/3,Unix使用的UFS...一样,只是种文件系统