Diff for "ObpLovelyPython/LpyQLearn-2-data"

Differences between revisions 2 and 18 (spanning 16 versions)

Rendering of reStructured text is not possible, please install Docutils.


:status: 草稿 ;HuangYi; 20%;

===================
Python内置数据类型
===================

.. contents::

数值类型
==========

运算符总览
----------
      
我决定在介绍数值类型之前还是先介绍一下 python 的这些个运算符，大部分都是很常见的，
只有很少的运算符可能在其他语言中不常见到。

由于 python 支持所谓运算符重载，有些类型会改变一些运算符的含义，
这些我们到时候再另行介绍，这里介绍的都是这些运算符最直观最基本的含义。

  +----------+---------------------------------------------------------------------------------------------+
  | 简单运算 | 加 ``+`` 、减 ``-`` 、乘 ``*`` 、除 ``/`` 、取模 ``%`` 、指数运算 ``**`` 、取相反数 ``-`` 。|
  +----------+---------------------------------------------------------------------------------------------+
  | 位运算   | 按位取反 ``~`` 、按位与 ``&`` 、按位或 ``|`` 、按位异或 ``^`` ，左移 ``<<`` 、右移 ``>>``   |
  +----------+---------------------------------------------------------------------------------------------+
  | 比较操作 |  ``<`` 、 ``>`` 、 ``==`` 、 ``>=`` 、 ``<=`` 、 ``<>`` 、 ``!=`` 。                        |
  +----------+---------------------------------------------------------------------------------------------+
  | 布尔操作 | ``not`` 、 ``and`` 、 ``or``                                                                |
  +----------+---------------------------------------------------------------------------------------------+

.. topic:: 简单运算
  
  加减乘除，小学就学过了，取模（就是做除法取余数）、指数运算、取相反数这些好像是初中学的。
  ::

    >>> 10/3
    3
    >>> 10%3
    1
    >>> 2**3
    8
    >>> a=1
    >>> -a
    -1

.. topic:: 位运算
  
  大家知道，计算机内部都是以二进制对数值进行存储，所谓位运算就是操作这些二进制位的。
  更详细的解释就恕我不能完整介绍，了解的同学自然一看就明白了，不了解的同学一时半会也还用不上。
  ::
    
    TODO: 一点实例

.. topic:: 比较操作

  对两个对象进行比较，返回一个布尔值，倒数第二的符号 ``<>`` 可能奇怪一点，它和最后一个 ``!=`` 一样，
  是不等于的意思。

.. topic:: 布尔运算

  这个不急，马上就要讲到了 ;-)


布尔
-------

``True`` 或者 ``False`` ，这就是布尔类型，干脆俐落。

.. sidebar:: 其他对象到布尔对象的转换规则

  ``None`` 、任何数值类型中的 ``0`` 、空字符串 ``''`` 、空元组 ``()`` 、空列表 ``[]`` 、空字典 ``{}``
  都被当作 ``False`` ，还有自定义的类型如果它实现了 ``__nonzero__()`` 或 ``__len__()`` 
  方法且方法返回 ``0`` 或 ``False`` 的，则其实例也被当作 ``False`` ，其他对象均为 ``True`` 。

在 python 中，任何对象都可以隐式地转换为布尔对象，这常常给大家一个错觉，认为布尔类型不存在，但实际上是布尔类型无处不在。

通过构造 ``bool`` 对象，可以看看哪些对象会被转换成 ``True`` ，哪些对象会被转换成 ``False`` ：
::

  >>> bool(0)
  False
  >>> bool(1)
  True
  >>> bool('hello')
  True
  >>> class FooBar(object):
  ...     def __nonzero__(self):
  ...         return False
  ...
  >>> foobar = FooBar() # 创建 FooBar 类的实例，见 n 章 n 节 类与对象。
  >>> bool(foobar)
  False
  >>> 0 or 0L or 0.0 or 0j or '' or () or [] or {} or False
  False

如果你拥有基本的逻辑知识的话，应该不难看出，最后一句代码其实就证明了那些对象都是 ``False`` 。

布尔本是逻辑学、数学中的概念，在那里布尔值之间就有三种基本的运算： ``not`` 、 ``and`` 和 ``or`` 。
python 的布尔类型自然也不例外。

不过在这里他们虽然还是叫做布尔运算，但上面也说过了，python 中任何对象都可以隐式地转换为布尔对象，
这使得实际上任何对象之间都可以进行这种所谓“布尔运算”，况且 python 又对三种运算的语义做了细微的调整，一方面
大大增强了他们的灵活性与实际用途，一方面也使得它们开始偏离了其本来的语义。

python 中这三种运算的详细规则如下：

.. sidebar:: and or 组合

  通过 and 和 or 的组合你可以获得许多奇妙的效果，
  比如 ``condition and a or b`` 实际上就等价于 c 语言中的 ``condition? a:b`` ，
  意思就是说如果条件 ``condition`` 满足那么就 ``a`` ，否则就 ``b`` 。
  有意思吧 ;-)  至于为什么就当做作业留给聪明的你慢慢思考吧（见练习题1）。

.. topic:: not a

  如果 ``a`` 为 ``True`` 则返回 ``False`` ，为 ``False`` 则返回 ``True``

.. topic:: a and b
  
  如果 a 为 ``True`` 则返回 b，否则返回 a

.. topic:: a or b
  
  如果 a 为 ``False`` 则返回 b，否则返回 a

示例：::

  >>> not 1
  False

  TODO：给一些有趣的 and or 实例。

另外，进行数值运算的时候布尔对象还能够隐式地转换成整数， ``True`` 是 ``1`` ， ``False`` 是 ``0`` ：
::

  >>> True+1
  2
  >>> False+1
  1
  >>> int(True)
  1
  >>> int(False)
  0


整数
------

我们生活在一个数学的世界里，数字对大家来说当不陌生，而整数便是数字中最基本的一种。

如果你没用过其他语言，那 python 的整数对于你来说应该是非常自然的；
如果你用过其他语言，那你很可能会发现 python 的整数有许多独特之处。
首先 python 整数之间没有什么 short、long 之类的区分，
这还不算什么，python 整数最奇妙的地方莫过于它甚至没有大小的限制：
::

  >>> 1
  1
  >>> 9999999999999999999999
  9999999999999999999999L

.. topic:: 长整数

  实际上在内部 python 对整数的处理还是会分为普通整数和长整数，
  普通整数就是大家在其他语言中常见到整数。
  而超过这个范围的整数就自动当作长整数处理，
  而长整数可表示的范围就没有限制了。
  如果你还想刨根问底，那就只好去看 CPython 的实现了 ;-)

.. topic:: 小整数池

  为了提高性能，python 在启动时会对一定范围以内的小整数创建缓存,
  这样在后面创建这些小整数对象的时候，就不用重复的去申请内存，
  而是直接使用缓存中的小整数对象。
  这一点通过 ``id()`` 函数就可以看得出来：
  ::

    >>> a = 10
    >>> b = 10
    >>> id(a)
    11163620
    >>> id(b)
    11163620

浮点数
--------

所谓浮点数就是小数，如果你有 c 这样的静态语言经验，你完全可以把它当作是 c 语言的 ``double`` 类型。
::

  >>> 3/2
  1
  >>> 3/2.0
  1.5

从这段代码看得出来，在数值运算中，整数与浮点数运算的结果是浮点数，这就是所谓的“提升规则”。
也就是“小”类型会被提升为“大”类型参与计算，现在回头去看，就不难理解布尔对象会隐式地转换成整数了。

复数
-------

复数算是数学中比较“高深”一点的概念了，如果你不知复数为何物，你大可跳过这一节，反正你一时半会也用不上。

既然你懂复数，你应该会发现 python 的复数非常直观，和数学中学到的没有什么不同。
::

  >>> 1+1j
  (1+1j)
  >>> 1+1j +3
  (4+1j)
  >>> 1+1j +3j
  (1+4j)
  >>> (1+1j)*5
  (5+5j)
  >>> (1+1j)*(2+2j)
  4j
  >>> (1+1j)/(2+2j)
  (0.5+0j)
  >>> (1+1.0j)/(2+2j)
  (0.5+0j)
  >>> (1+1j)**(2+2j) # 指数运行，见 数值运算_
  (-0.26565399884924118+0.31981811385613623j)

字符串
========

.. sidebar:: 字符串缓存

  python 虚拟机对所有 python 字符串进行缓存，所以任何两个内容相同的字符串，实际上都是同一个字符串。
  ::

    >>> a = 'python'
    >>> b = 'python'
    >>> id(a)
    11361984
    >>> id(b)
    11361984

python 字符串既可以用单引号表示也可以用双引号表示，
甚至还可以用三引号——哦不对，是三个引号——来表示。

这样如果字符串里本身包含双引号，你就可以用单引号来表示：
::

  >>> 'My name is "python"'
  'My name is "python"'

而如果字符串里本身包含单引号呢，你又可以用双引号用表示：
::

  >>> "My name is 'python'"
  "My name is 'python'"

真是太方便了！

三个引号的字符串就更方便了，中间甚至还可以换行！
::

  >>> '''My
  ... name
  ... is
  ... "python"
  ... !
  ... '''
  'My\nname\nis\n"python"\n!\n'
  >>> """My
  ... name
  ... is
  ... 'python'
  ... !
  ... """
  "My\nname\nis\n'python'\n!\n"

字符串转义
------------

那字符串里要是既有单引号又有双引号怎么办？答案就是字符串转义：
::

  >>> 'My \'name\' is "python"!'
  'My \'name\' is "python"!'

所谓字符串转义就是 ... TODO: 字符串转义的含义、作用 等。

下面这个表列出所有转义符及其简要说明，要是觉得这点简要的解释不过瘾的话，
直接跑到 python shell 下面去试验一下，马上就清楚了：
::

  >>> print '\a'

  >>> print 'aa\bbb'
  abb
  >>> print 'a\tb\nab'
  a       b
  ab
  >>> TODO: 更多有趣例子

+-------------+------------------------------------------------+
| 转义符      | 含义                                           |
+=============+================================================+
| ``\换行``   | 忽略后面的换行符                               |
+-------------+------------------------------------------------+
| ``\\``      | 字符 ``\``                                     |
+-------------+------------------------------------------------+
| ``\'``      | 单引号 ``'``                                   |
+-------------+------------------------------------------------+
| ``\"``      | 双引号 ``"``                                   |
+-------------+------------------------------------------------+
| ``\a``      | 发出声音：滴                                   |
+-------------+------------------------------------------------+
| ``\b``      | 退格符                                         |
+-------------+------------------------------------------------+
| ``\f``      |                                                |
+-------------+------------------------------------------------+
| ``\n``      | 换行符                                         |
+-------------+------------------------------------------------+
| ``\r``      | 回车符                                         |
+-------------+------------------------------------------------+
| ``\t``      | 水平 TAB 符                                    |
+-------------+------------------------------------------------+
| ``\v``      | 竖直 TAB 符                                    |
+-------------+------------------------------------------------+
| ``\ooo``    | 输出 8 进制数字（最多3个） ``oo`` 所代表的字符 |
+-------------+------------------------------------------------+
| ``\xhh``    | 输出 16 进制数字（最多2个） ``hh`` 所代表的字符|
+-------------+------------------------------------------------+
| ``\N{name}``|                                                |
+-------------+------------------------------------------------+
| ``\uxxx``   |                                                |
+-------------+------------------------------------------------+
| ``\Uxxx``   |                                                |
+-------------+------------------------------------------------+

序列操作
--------------

序列类型（Sequence Types）其实是一个抽象接口，
内置类型中实现了这一接口的有字符串、Unicode 对象、元组、列表、
buffer、xrange。既然先讲到字符串，那就在这里就把这个概念说明一下先，
在后面向大家介绍其他序列类型时就直接参考这里了。

所有的序列类型都支持一些共同的操作，这里拿字符串来举例子，其他序列类型大家到时候一看就明白了。

.. topic:: ``in``

  ::
  
    >>> 'python' in 'I love python!'
    True
    >>> 'c' not in 'I love python!'
    False

.. topic:: 连接 ``+``

  将多个序列对象连接起来。
  ::

    >>> 'I '+'love '+'python!'
    'I love python!'

.. topic:: ``*``

  拷贝 n 份（准确得说是浅拷贝，见第n章第n节）
  ::

    >>> print 'I love python!\n'*3
    I love python!
    I love python!
    I love python!

.. topic:: 索引

  第一个是 ``0`` ，正数表示从左向右数第几个，负数是从右向左数，不过第一个的左边没有，就绕到最右边去了。
  ::

    >>> 'python'[0]
    'p'
    >>> 'python'[3]
    'h'
    >>> 'python'[-1]
    'n'
    >>> 'python'[-3]
    'h'

.. sidebar:: 惯用法
  
  ``sequence[:]`` ，也就是使用 ``start`` 、 ``end`` 和 ``step`` 的默认值对序列对象切片，
  实际上就是对序列对象的一个浅拷贝，而这显然比实际的拷贝操作方便多了。

.. topic:: 切片

  取序列中一个片段。

  原型是 ``sequence[start:end:step]``

  ``start`` 表示起始位置， ``end`` 表示结束位置， ``step``
  表示每经过多少取一个值。 
  三个值均可忽略。 ``step`` 默认值为 ``1`` ，表示没有间隔； 
  ``start`` 默认值为 ``0`` ，也就是序列最开始的位置，
  ``end`` 默认为 ``-1`` ，也就是序列最末尾的位置。
  ::

    >>> 'python'[0:6:2] # 完整版本
    'pto'
    >>> 'python'[0:6]   # 忽略 step
    'python'
    >>> 'python'[:3]    # 忽略 start 和 step
    'pyt'
    >>> 'python'[3:]    # 忽略 end 和 step
    'hon'
    >>> 'python'[:]     # 全部忽略
    'python'


常用字符串操作
----------------

上面这一节讲的其实已经是属于常用字符串操作了，不过那些是所有序列对象都共同拥有的东西，
而这一节要介绍的是专门为字符串提供的操作。
::

  >>> dir(str)
  ['__add__', '__class__', '__contains__', '__delattr__', '__doc__', '__eq__', '__
  ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__getslice__', '__g
  t__', '__hash__', '__init__', '__le__', '__len__', '__lt__', '__mod__', '__mul__
  ', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '
  __rmul__', '__setattr__', '__str__', 'capitalize', 'center', 'count', 'decode',
  'encode', 'endswith', 'expandtabs', 'find', 'index', 'isalnum', 'isalpha', 'isdi
  git', 'islower', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lst
  rip', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit'
  , 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', '
  translate', 'upper', 'zfill']

其实里面许多的方法，都是看到名字就能联想到其功能的。
稍微复杂点的方法，只要在 python shell 里面做点实验也都能猜个八九不离十。
如果还剩下些什么疑问呢，就到这里来找答案吧。

.. topic:: 连接与分割

  上面介绍序列类型时，我们已经使用了 ``+`` 号来做字符串的连接操作，
  在某些情况下这当然是不错的，然而在多数情况下我们其实都不推荐这种做法，
  因为大量的这种连接操作会大大影响效率。比如说这个例子：::

    >>> 'I '+'love '+'python!'
    'I love python!' 

  分解开来看就是 ``('I '+'love ') + 'python!'``
  ，第一次连接操作就会产生一个中间对象 ``'I love '``
  ，而这个对象从结果来看完全是没有用的。
  大量的连接操作，就会产生大量无用的中间对象。
  浪费了分配内存所花费的时间也浪费了内存。

  所以对于两个以上的字符串的连接，我们推荐下面这个更好的做法：
  ::

    >>> ' '.join(['I', 'love', 'python!'])
    'I love python!'

  你看，代码还是这么漂亮 ;-)

  你还可以试试用其他字符串来连接：
  ::

    >>> '--'.join(['I', 'love', 'python!'])
    'I--love--python!'

  也许你已经注意到了里面的中括号，中括号是用来构造列表的（参考 列表_ ）。

  ``split`` 是 ``join`` 的逆操作，原型是 ``split( [sep [,maxsplit]])`` ，
  可以用它来把字符串分割成列表：
  ::

    >>> 'I love python!'.split(' ')
    ['I', 'love', 'python!']
    >>> 'I--love--python!'.split('--')
    ['I', 'love', 'python!']

  如果你不传递或者传递 ``None`` 给 ``sep`` 参数，那么 ``split`` 会启用
  一个比较特殊的字符串分割策略，多说无益，先看代码：
  ::

    >>> 'I love     python!'.split(' ') # 使用空格分割
    ['I', 'love', '', '', '', '', 'python!']
    >>> 'I love     python!'.split()    # 默认分割策略
    ['I', 'love', 'python!']

  看出区别了吧，它会把连续的空白当作分割符，其作用就不用我明说了吧 ;-)

  ``split`` 方法还接受另一个可选的参数： ``maxsplit`` ，意思就是最大分割次数，
  这样分割结果的长度最大就是 ``maxsplit + 1`` 。
  ::

    >>> 'I love python!'.split(' ', 1)
    ['I', 'love python!']

.. topic:: 大小写转换

  ``upper`` 将字符串转换为大写， ``lower`` 转换成小写。
  比较奇妙的是 ``title`` ，它将每个单词的首字母转成大写，其他转成小写。
  ::

    >>> 'Python'.upper()
    'PYTHON'
    >>> 'Python'.lower()
    'python'
    >>> 'the python book'.title()
    'The Python Book'

.. topic:: 字符串测试

  ::

    >>> 'python'.islower()      # 是否都是小写
    True
    >>> 'PYTHON'.isupper()      # 是否都是大写
    True
    >>> 'The Python Book'.istitle() # 是否 ... (参考上面对 title 方法的解释)
    True
    >>> 'python'.isalpha()      # 是否都是字母， isalnum 方法作用相同
    True
    >>> '42'.isdigit()          # 是否都是数字
    True
    >>> '  '.isspace()          # 是否都是空格
    True
    >>> ''.islower() or ''.isupper() or ''.istitle() or ''.isalpha() or ''.isdigit() or ''.isspace()
    False 

  最后一句证明了这些测试对空字符串都不成立。

.. topic:: 查找

  ``find`` 方法返回子串在字符串中出现的位置，原型是 ``find( sub[, start[, end]])`` ，
  可选的 ``start`` 、 ``end`` 参数用来限制查找范围，如果找不到则返回 ``-1`` 。

  ``index`` 方法和 ``find`` 方法一样，唯一区别就是找不到的时候会抛出
  ``ValueError`` 异常（见某章某节 异常）而不是返回 ``-1`` 。

  ``find`` 和 ``index`` 方法都可以在前面加个 ``r`` ，也就是 ``rfind`` 和 ``rindex`` ，功能类似，
  只不过查找的方向变成从右向左。
  ::

    >>> 'I love python!'.find('love')
    2
    >>> 'I love python!'.find('c')
    -1
    >>> 'I love python!'.index('c')
    Traceback (most recent call last):
      File "<stdin>", line 1, in ?
    ValueError: substring not found
    >>> 'python is pythonic!'.find('python')
    0
    >>> 'python is pythonic!'.rfind('python')
    10

.. topic:: TODO 更多字符串操作

  TODO 更多字符串操作

字符串与字节流
----------------

Unicode 字符串
----------------

Unicode 是一个重要的话题，也是一个现代程序员所必备的知识之一。那还是在 n 年以前 ...

话说老美刚整出计算机的那会，老美还在说英文（当然，现在也还在说英文），大家知道，英文 abc 总共也没几个字符，
就算加上一些稀奇古怪的!@#$%^&这样的字符，
也就那么些了，最后把各种奇怪字符都加在一起算了一下，大概 127 个，
而一个字节能表达 256 种字符呢，用一个字节表示一个字符都还绰绰有余。
当时谁都觉得用一个字节表示一个字符真好。这种编码方式叫做 ASCII 。

后来计算机就传入了中国和许多其他国家，遇到了一个大问题，汉语言文字博大精深，又岂是小小一个字节能表达得了的？
于是有人发明了用两个字节表达汉字的编码方法，叫做 gbk 。这种现象同样也在其他非英语国家上演着。
大家都用着各自不同的互相冲突的编码方式，这给交流带来极大不便，此时的世界亟需一个统一的标准。

于是 Unicode 便应运而生了！Unicode 定义了一个大表，里面包含了全世界所有已知的字符，然后给这些字符编号，每个字符对应一个数字，
也就是所谓的代码点（code-point）。

需要注意的是 Unicode 本身是不在乎字符在计算机上是如何存储的，一个字节还是两个字节还是三个字节与 Unicode 无关，
你可以直接用字符的编码——也就是代码点——来存储字符，也可以用任意的其它方式存储，
而规定如何存储 Unicode 字符的规范就叫做编码。

现在世界上的编码成百上千，以前的 gbk 在现在 Unicode 新环境下也仍然存在，不过它只能处理 Unicode 字符的一部分了。
如果希望自己的程序能够跨越国界的话，最好还是使用一种能够处理所有 Unicode 字符的全能编码。
最流行的全能编码应该是 utf-8 了，它使用一种变长的存储方式，对传统的 ASCII 字符还是使用一个字节来存储，
这样那些英文国家的程序可以完全不受影响。当然这样的话它就要使用更多的字节来存储其他非英文字符了。

在 python 中定义一个 Unicode 字符串非常简单，在普通字符串前面加一个 ``u`` 即可，
还可以使用转义符 ``\u`` 直接使用代码点来定义 Unicode 字符串：
::

  >>> u'派松'
  u'\u6d3e\u677e'
  >>> print u'\u4e2d\u56fd'
  中国
  >>> print u'派松\u4e2d\u56fd'
  派松中国

使用普通字符串和Unicode字符串的 ``encode`` （编码） ``decode`` （解码） 方法，就可以使用不同的编码在普通字符串和 Unicode 字符串之间自由转换，
两个方法的原型分别为： ``encode( [encoding[,errors]])`` 和 ``decode( [encoding[,errors]])``
``encode`` 和 ``decode`` 两个方法都接受两个可选参数，第一个是编码名称，默认是当前默认编码，
第二个参数是个字符串，用来指定错误处理方式，可以使用的值有：

+-------------------------+----------------------------------------------------------------------------+
| 取值                    | 错误处理方式。                                                             |
+=========================+============================================================================+
| ``'strict'``            | 抛出异常 ``UnicodeError`` ，这是默认行为。                                 |
+-------------------------+----------------------------------------------------------------------------+
| ``'ignore'``            | 忽略错误字符，继续处理其他文本。                                           |
+-------------------------+----------------------------------------------------------------------------+
| ``'replace'``           | 用一个合适的字符替代出错字符，解码时使用标准 Unicode 替代字符 ``'\uFFFD'`` |
|                         | ，编码时使用 ``'?'`` 。                                                    |
+-------------------------+----------------------------------------------------------------------------+
| ``'xmlcharrefreplace'`` | 使用合适的 XML character reference ?? 替代出错字符，仅在编码时有用         |
+-------------------------+----------------------------------------------------------------------------+
| ``'backslashreplace'``  | 使用转义字符串替代出错字符，仅在编码时有用。                               |
+-------------------------+----------------------------------------------------------------------------+

::

  >>> print u'派\uffff松'.encode('gbk', 'strict')
  Traceback (most recent call last):
    File "<stdin>", line 1, in ?
  UnicodeEncodeError: 'gbk' codec can't encode character u'\uffff' in position 1:
  illegal multibyte sequence
  >>> print u'派\uffff松'.encode('gbk', 'ignore')
  派松
  >>> print u'派\uffff松'.encode('gbk', 'replace')
  派?松
  >>> '派\xff\xff松'.decode('gbk', 'replace')
  u'\u6d3e\ufffd\u677e'
  >>> print u'派\uffff松'.encode('gbk', 'xmlcharrefreplace')
  派&#65535;松
  >>> print u'派\uffff松'.encode('gbk', 'backslashreplace')
  派\uffff松

直接在普通字符串中使用中文，在中文平台上实际上使用的编码方式便是 gbk ，下面我们来体验几种不同编码的差异：
::

  >>> u'派松'                 # 无编码
  u'\u6d3e\u677e'
  >>> '派松'                  # 默认的 gbk 编码
  '\xc5\xc9\xcb\xc9'
  >>> u'派松'.encode('utf-8') # 使用 encode 从 Unicode 字符串转换成 普通字符串
  '\xe6\xb4\xbe\xe6\x9d\xbe'
  >>> '派松'.decode('gbk')    # 使用 decode 从普通字符串转换成 Unicode 字符串
  u'\u6d3e\u677e'
  >>> len(u'派松')
  2
  >>> len('派松')
  4
  >>> len(u'派松'.encode('utf-8'))
  6

.. sidebar:: 默认编码
  
  ::

    >>> import sys
    >>> sys.getdefaultencoding()
    'ascii'

我们说过 Unicode 本身不定义字符在计算机中的表现方式，所以当我们需要将 Unicode 字符串保存到文件，
或是在网络中传输，或是从 console 中 ``print`` 出来时，都需要以某种方式编码 Unicode 字符串先。
不过很多操作面对 Unicode 字符串时都能够智能地选择某种默认编码进行处理，
比如在一般的中文平台上， ``print`` 默认便使用 gbk 来进行输出：
::

  >>> print u'\uFFFF'
  Traceback (most recent call last):
    File "<stdin>", line 1, in ?
  UnicodeEncodeError: 'gbk' codec can't encode character u'\uffff' in position 0:
  illegal multibyte sequence

TODO: Unicode 还有什么没说到的吗？

字符串模板
--------------

容器类型
============

元组
----------

列表
----------

字典
----------

集合
----------

数组(array)
--------------

TODO: 是否该加上 array 类型？

练习
======

* 解释 ``condition and a or b`` 与 ``condition?a:b`` 的等价关系。
  
  * 还没学过 c 语言？OK，可以告诉你， ``condition?a:b`` 的意思就是：
    ::
    
      if condition:
          return a
      else:
          return b

* 使用 ``range`` 快速构造等差数列。


.. macro:: [[PageComment2(nosmiley=1, notify=1)]]

-  ⇤ ← Revision 2 as of 2007-04-12 06:12:46 → 
  Size: 367
  Editor: HuangYi
  Comment:
+   ← Revision 18 as of 2007-04-17 09:37:15 → ⇥
  Size: 27263
  Editor: HuangYi
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 1:
-||'''status'''|| 草稿 || HuangYi || 0%||

[[TableOfContents]]

= 内置数据类型 =

== 数值类型 ==
=== 布尔 ===
=== 整数 ===
=== 浮点数 ===
=== 复数 ===

== 字符串 ==
=== 常见字符串操作 ===
=== Unicode 对象 ===
=== 字符串模板 ===

== 集合类型 ==
=== 元组 ===
=== 列表 ===
=== 字典 ===
=== 集合 ===
+##language:zh
#format rst

:status: 草稿 ;HuangYi; 20%;

===================
Python内置数据类型
===================

.. contents::

数值类型
==========

运算符总览
----------
      
我决定在介绍数值类型之前还是先介绍一下 python 的这些个运算符，大部分都是很常见的，
只有很少的运算符可能在其他语言中不常见到。

由于 python 支持所谓运算符重载，有些类型会改变一些运算符的含义，
这些我们到时候再另行介绍，这里介绍的都是这些运算符最直观最基本的含义。

  +----------+---------------------------------------------------------------------------------------------+
  | 简单运算 | 加 ``+`` 、减 ``-`` 、乘 ``*`` 、除 ``/`` 、取模 ``%`` 、指数运算 ``**`` 、取相反数 ``-`` 。|
  +----------+---------------------------------------------------------------------------------------------+
  | 位运算   | 按位取反 ``~`` 、按位与 ``&`` 、按位或 ``|`` 、按位异或 ``^`` ，左移 ``<<`` 、右移 ``>>``   |
  +----------+---------------------------------------------------------------------------------------------+
  | 比较操作 |  ``<`` 、 ``>`` 、 ``==`` 、 ``>=`` 、 ``<=`` 、 ``<>`` 、 ``!=`` 。                        |
  +----------+---------------------------------------------------------------------------------------------+
  | 布尔操作 | ``not`` 、 ``and`` 、 ``or``                                                                |
  +----------+---------------------------------------------------------------------------------------------+

.. topic:: 简单运算
  
  加减乘除，小学就学过了，取模（就是做除法取余数）、指数运算、取相反数这些好像是初中学的。
  ::

    >>> 10/3
    3
    >>> 10%3
    1
    >>> 2**3
    8
    >>> a=1
    >>> -a
    -1

.. topic:: 位运算
  
  大家知道，计算机内部都是以二进制对数值进行存储，所谓位运算就是操作这些二进制位的。
  更详细的解释就恕我不能完整介绍，了解的同学自然一看就明白了，不了解的同学一时半会也还用不上。
  ::
    
    TODO: 一点实例

.. topic:: 比较操作

  对两个对象进行比较，返回一个布尔值，倒数第二的符号 ``<>`` 可能奇怪一点，它和最后一个 ``!=`` 一样，
  是不等于的意思。

.. topic:: 布尔运算

  这个不急，马上就要讲到了 ;-)


布尔
-------

``True`` 或者 ``False`` ，这就是布尔类型，干脆俐落。

.. sidebar:: 其他对象到布尔对象的转换规则

  ``None`` 、任何数值类型中的 ``0`` 、空字符串 ``''`` 、空元组 ``()`` 、空列表 ``[]`` 、空字典 ``{}``
  都被当作 ``False`` ，还有自定义的类型如果它实现了 ``__nonzero__()`` 或 ``__len__()`` 
  方法且方法返回 ``0`` 或 ``False`` 的，则其实例也被当作 ``False`` ，其他对象均为 ``True`` 。

在 python 中，任何对象都可以隐式地转换为布尔对象，这常常给大家一个错觉，认为布尔类型不存在，但实际上是布尔类型无处不在。

通过构造 ``bool`` 对象，可以看看哪些对象会被转换成 ``True`` ，哪些对象会被转换成 ``False`` ：
::

  >>> bool(0)
  False
  >>> bool(1)
  True
  >>> bool('hello')
  True
  >>> class FooBar(object):
  ...     def __nonzero__(self):
  ...         return False
  ...
  >>> foobar = FooBar() # 创建 FooBar 类的实例，见 n 章 n 节 类与对象。
  >>> bool(foobar)
  False
  >>> 0 or 0L or 0.0 or 0j or '' or () or [] or {} or False
  False

如果你拥有基本的逻辑知识的话，应该不难看出，最后一句代码其实就证明了那些对象都是 ``False`` 。

布尔本是逻辑学、数学中的概念，在那里布尔值之间就有三种基本的运算： ``not`` 、 ``and`` 和 ``or`` 。
python 的布尔类型自然也不例外。

不过在这里他们虽然还是叫做布尔运算，但上面也说过了，python 中任何对象都可以隐式地转换为布尔对象，
这使得实际上任何对象之间都可以进行这种所谓“布尔运算”，况且 python 又对三种运算的语义做了细微的调整，一方面
大大增强了他们的灵活性与实际用途，一方面也使得它们开始偏离了其本来的语义。

python 中这三种运算的详细规则如下：

.. sidebar:: and or 组合

  通过 and 和 or 的组合你可以获得许多奇妙的效果，
  比如 ``condition and a or b`` 实际上就等价于 c 语言中的 ``condition? a:b`` ，
  意思就是说如果条件 ``condition`` 满足那么就 ``a`` ，否则就 ``b`` 。
  有意思吧 ;-)  至于为什么就当做作业留给聪明的你慢慢思考吧（见练习题1）。

.. topic:: not a

  如果 ``a`` 为 ``True`` 则返回 ``False`` ，为 ``False`` 则返回 ``True``

.. topic:: a and b
  
  如果 a 为 ``True`` 则返回 b，否则返回 a

.. topic:: a or b
  
  如果 a 为 ``False`` 则返回 b，否则返回 a

示例：::

  >>> not 1
  False

  TODO：给一些有趣的 and or 实例。

另外，进行数值运算的时候布尔对象还能够隐式地转换成整数， ``True`` 是 ``1`` ， ``False`` 是 ``0`` ：
::

  >>> True+1
  2
  >>> False+1
  1
  >>> int(True)
  1
  >>> int(False)
  0


整数
------

我们生活在一个数学的世界里，数字对大家来说当不陌生，而整数便是数字中最基本的一种。

如果你没用过其他语言，那 python 的整数对于你来说应该是非常自然的；
如果你用过其他语言，那你很可能会发现 python 的整数有许多独特之处。
首先 python 整数之间没有什么 short、long 之类的区分，
这还不算什么，python 整数最奇妙的地方莫过于它甚至没有大小的限制：
::

  >>> 1
  1
  >>> 9999999999999999999999
  9999999999999999999999L

.. topic:: 长整数

  实际上在内部 python 对整数的处理还是会分为普通整数和长整数，
  普通整数就是大家在其他语言中常见到整数。
  而超过这个范围的整数就自动当作长整数处理，
  而长整数可表示的范围就没有限制了。
  如果你还想刨根问底，那就只好去看 CPython 的实现了 ;-)

.. topic:: 小整数池

  为了提高性能，python 在启动时会对一定范围以内的小整数创建缓存,
  这样在后面创建这些小整数对象的时候，就不用重复的去申请内存，
  而是直接使用缓存中的小整数对象。
  这一点通过 ``id()`` 函数就可以看得出来：
  ::

    >>> a = 10
    >>> b = 10
    >>> id(a)
    11163620
    >>> id(b)
    11163620

浮点数
--------

所谓浮点数就是小数，如果你有 c 这样的静态语言经验，你完全可以把它当作是 c 语言的 ``double`` 类型。
::

  >>> 3/2
  1
  >>> 3/2.0
  1.5

从这段代码看得出来，在数值运算中，整数与浮点数运算的结果是浮点数，这就是所谓的“提升规则”。
也就是“小”类型会被提升为“大”类型参与计算，现在回头去看，就不难理解布尔对象会隐式地转换成整数了。

复数
-------

复数算是数学中比较“高深”一点的概念了，如果你不知复数为何物，你大可跳过这一节，反正你一时半会也用不上。

既然你懂复数，你应该会发现 python 的复数非常直观，和数学中学到的没有什么不同。
::

  >>> 1+1j
  (1+1j)
  >>> 1+1j +3
  (4+1j)
  >>> 1+1j +3j
  (1+4j)
  >>> (1+1j)*5
  (5+5j)
  >>> (1+1j)*(2+2j)
  4j
  >>> (1+1j)/(2+2j)
  (0.5+0j)
  >>> (1+1.0j)/(2+2j)
  (0.5+0j)
  >>> (1+1j)**(2+2j) # 指数运行，见 数值运算_
  (-0.26565399884924118+0.31981811385613623j)

字符串
========

.. sidebar:: 字符串缓存

  python 虚拟机对所有 python 字符串进行缓存，所以任何两个内容相同的字符串，实际上都是同一个字符串。
  ::

    >>> a = 'python'
    >>> b = 'python'
    >>> id(a)
    11361984
    >>> id(b)
    11361984

python 字符串既可以用单引号表示也可以用双引号表示，
甚至还可以用三引号——哦不对，是三个引号——来表示。

这样如果字符串里本身包含双引号，你就可以用单引号来表示：
::

  >>> 'My name is "python"'
  'My name is "python"'

而如果字符串里本身包含单引号呢，你又可以用双引号用表示：
::

  >>> "My name is 'python'"
  "My name is 'python'"

真是太方便了！

三个引号的字符串就更方便了，中间甚至还可以换行！
::

  >>> '''My
  ... name
  ... is
  ... "python"
  ... !
  ... '''
  'My\nname\nis\n"python"\n!\n'
  >>> """My
  ... name
  ... is
  ... 'python'
  ... !
  ... """
  "My\nname\nis\n'python'\n!\n"

字符串转义
------------

那字符串里要是既有单引号又有双引号怎么办？答案就是字符串转义：
::

  >>> 'My \'name\' is "python"!'
  'My \'name\' is "python"!'

所谓字符串转义就是 ... TODO: 字符串转义的含义、作用 等。

下面这个表列出所有转义符及其简要说明，要是觉得这点简要的解释不过瘾的话，
直接跑到 python shell 下面去试验一下，马上就清楚了：
::

  >>> print '\a'

  >>> print 'aa\bbb'
  abb
  >>> print 'a\tb\nab'
  a       b
  ab
  >>> TODO: 更多有趣例子

+-------------+------------------------------------------------+
| 转义符      | 含义                                           |
+=============+================================================+
| ``\换行``   | 忽略后面的换行符                               |
+-------------+------------------------------------------------+
| ``\\``      | 字符 ``\``                                     |
+-------------+------------------------------------------------+
| ``\'``      | 单引号 ``'``                                   |
+-------------+------------------------------------------------+
| ``\"``      | 双引号 ``"``                                   |
+-------------+------------------------------------------------+
| ``\a``      | 发出声音：滴                                   |
+-------------+------------------------------------------------+
| ``\b``      | 退格符                                         |
+-------------+------------------------------------------------+
| ``\f``      |                                                |
+-------------+------------------------------------------------+
| ``\n``      | 换行符                                         |
+-------------+------------------------------------------------+
| ``\r``      | 回车符                                         |
+-------------+------------------------------------------------+
| ``\t``      | 水平 TAB 符                                    |
+-------------+------------------------------------------------+
| ``\v``      | 竖直 TAB 符                                    |
+-------------+------------------------------------------------+
| ``\ooo``    | 输出 8 进制数字（最多3个） ``oo`` 所代表的字符 |
+-------------+------------------------------------------------+
| ``\xhh``    | 输出 16 进制数字（最多2个） ``hh`` 所代表的字符|
+-------------+------------------------------------------------+
| ``\N{name}``|                                                |
+-------------+------------------------------------------------+
| ``\uxxx``   |                                                |
+-------------+------------------------------------------------+
| ``\Uxxx``   |                                                |
+-------------+------------------------------------------------+

序列操作
--------------

序列类型（Sequence Types）其实是一个抽象接口，
内置类型中实现了这一接口的有字符串、Unicode 对象、元组、列表、
buffer、xrange。既然先讲到字符串，那就在这里就把这个概念说明一下先，
在后面向大家介绍其他序列类型时就直接参考这里了。

所有的序列类型都支持一些共同的操作，这里拿字符串来举例子，其他序列类型大家到时候一看就明白了。

.. topic:: ``in``

  ::
  
    >>> 'python' in 'I love python!'
    True
    >>> 'c' not in 'I love python!'
    False

.. topic:: 连接 ``+``

  将多个序列对象连接起来。
  ::

    >>> 'I '+'love '+'python!'
    'I love python!'

.. topic:: ``*``

  拷贝 n 份（准确得说是浅拷贝，见第n章第n节）
  ::

    >>> print 'I love python!\n'*3
    I love python!
    I love python!
    I love python!

.. topic:: 索引

  第一个是 ``0`` ，正数表示从左向右数第几个，负数是从右向左数，不过第一个的左边没有，就绕到最右边去了。
  ::

    >>> 'python'[0]
    'p'
    >>> 'python'[3]
    'h'
    >>> 'python'[-1]
    'n'
    >>> 'python'[-3]
    'h'

.. sidebar:: 惯用法
  
  ``sequence[:]`` ，也就是使用 ``start`` 、 ``end`` 和 ``step`` 的默认值对序列对象切片，
  实际上就是对序列对象的一个浅拷贝，而这显然比实际的拷贝操作方便多了。

.. topic:: 切片

  取序列中一个片段。

  原型是 ``sequence[start:end:step]``

  ``start`` 表示起始位置， ``end`` 表示结束位置， ``step``
  表示每经过多少取一个值。 
  三个值均可忽略。 ``step`` 默认值为 ``1`` ，表示没有间隔； 
  ``start`` 默认值为 ``0`` ，也就是序列最开始的位置，
  ``end`` 默认为 ``-1`` ，也就是序列最末尾的位置。
  ::

    >>> 'python'[0:6:2] # 完整版本
    'pto'
    >>> 'python'[0:6]   # 忽略 step
    'python'
    >>> 'python'[:3]    # 忽略 start 和 step
    'pyt'
    >>> 'python'[3:]    # 忽略 end 和 step
    'hon'
    >>> 'python'[:]     # 全部忽略
    'python'


常用字符串操作
----------------

上面这一节讲的其实已经是属于常用字符串操作了，不过那些是所有序列对象都共同拥有的东西，
而这一节要介绍的是专门为字符串提供的操作。
::

  >>> dir(str)
  ['__add__', '__class__', '__contains__', '__delattr__', '__doc__', '__eq__', '__
  ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__getslice__', '__g
  t__', '__hash__', '__init__', '__le__', '__len__', '__lt__', '__mod__', '__mul__
  ', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '
  __rmul__', '__setattr__', '__str__', 'capitalize', 'center', 'count', 'decode',
  'encode', 'endswith', 'expandtabs', 'find', 'index', 'isalnum', 'isalpha', 'isdi
  git', 'islower', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lst
  rip', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit'
  , 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', '
  translate', 'upper', 'zfill']

其实里面许多的方法，都是看到名字就能联想到其功能的。
稍微复杂点的方法，只要在 python shell 里面做点实验也都能猜个八九不离十。
如果还剩下些什么疑问呢，就到这里来找答案吧。

.. topic:: 连接与分割

  上面介绍序列类型时，我们已经使用了 ``+`` 号来做字符串的连接操作，
  在某些情况下这当然是不错的，然而在多数情况下我们其实都不推荐这种做法，
  因为大量的这种连接操作会大大影响效率。比如说这个例子：::

    >>> 'I '+'love '+'python!'
    'I love python!' 

  分解开来看就是 ``('I '+'love ') + 'python!'``
  ，第一次连接操作就会产生一个中间对象 ``'I love '``
  ，而这个对象从结果来看完全是没有用的。
  大量的连接操作，就会产生大量无用的中间对象。
  浪费了分配内存所花费的时间也浪费了内存。

  所以对于两个以上的字符串的连接，我们推荐下面这个更好的做法：
  ::

    >>> ' '.join(['I', 'love', 'python!'])
    'I love python!'

  你看，代码还是这么漂亮 ;-)

  你还可以试试用其他字符串来连接：
  ::

    >>> '--'.join(['I', 'love', 'python!'])
    'I--love--python!'

  也许你已经注意到了里面的中括号，中括号是用来构造列表的（参考 列表_ ）。

  ``split`` 是 ``join`` 的逆操作，原型是 ``split( [sep [,maxsplit]])`` ，
  可以用它来把字符串分割成列表：
  ::

    >>> 'I love python!'.split(' ')
    ['I', 'love', 'python!']
    >>> 'I--love--python!'.split('--')
    ['I', 'love', 'python!']

  如果你不传递或者传递 ``None`` 给 ``sep`` 参数，那么 ``split`` 会启用
  一个比较特殊的字符串分割策略，多说无益，先看代码：
  ::

    >>> 'I love     python!'.split(' ') # 使用空格分割
    ['I', 'love', '', '', '', '', 'python!']
    >>> 'I love     python!'.split()    # 默认分割策略
    ['I', 'love', 'python!']

  看出区别了吧，它会把连续的空白当作分割符，其作用就不用我明说了吧 ;-)

  ``split`` 方法还接受另一个可选的参数： ``maxsplit`` ，意思就是最大分割次数，
  这样分割结果的长度最大就是 ``maxsplit + 1`` 。
  ::

    >>> 'I love python!'.split(' ', 1)
    ['I', 'love python!']

.. topic:: 大小写转换

  ``upper`` 将字符串转换为大写， ``lower`` 转换成小写。
  比较奇妙的是 ``title`` ，它将每个单词的首字母转成大写，其他转成小写。
  ::

    >>> 'Python'.upper()
    'PYTHON'
    >>> 'Python'.lower()
    'python'
    >>> 'the python book'.title()
    'The Python Book'

.. topic:: 字符串测试

  ::

    >>> 'python'.islower()      # 是否都是小写
    True
    >>> 'PYTHON'.isupper()      # 是否都是大写
    True
    >>> 'The Python Book'.istitle() # 是否 ... (参考上面对 title 方法的解释)
    True
    >>> 'python'.isalpha()      # 是否都是字母， isalnum 方法作用相同
    True
    >>> '42'.isdigit()          # 是否都是数字
    True
    >>> '  '.isspace()          # 是否都是空格
    True
    >>> ''.islower() or ''.isupper() or ''.istitle() or ''.isalpha() or ''.isdigit() or ''.isspace()
    False 

  最后一句证明了这些测试对空字符串都不成立。

.. topic:: 查找

  ``find`` 方法返回子串在字符串中出现的位置，原型是 ``find( sub[, start[, end]])`` ，
  可选的 ``start`` 、 ``end`` 参数用来限制查找范围，如果找不到则返回 ``-1`` 。

  ``index`` 方法和 ``find`` 方法一样，唯一区别就是找不到的时候会抛出
  ``ValueError`` 异常（见某章某节 异常）而不是返回 ``-1`` 。

  ``find`` 和 ``index`` 方法都可以在前面加个 ``r`` ，也就是 ``rfind`` 和 ``rindex`` ，功能类似，
  只不过查找的方向变成从右向左。
  ::

    >>> 'I love python!'.find('love')
    2
    >>> 'I love python!'.find('c')
    -1
    >>> 'I love python!'.index('c')
    Traceback (most recent call last):
      File "<stdin>", line 1, in ?
    ValueError: substring not found
    >>> 'python is pythonic!'.find('python')
    0
    >>> 'python is pythonic!'.rfind('python')
    10

.. topic:: TODO 更多字符串操作

  TODO 更多字符串操作

字符串与字节流
----------------

Unicode 字符串
----------------

Unicode 是一个重要的话题，也是一个现代程序员所必备的知识之一。那还是在 n 年以前 ...

话说老美刚整出计算机的那会，老美还在说英文（当然，现在也还在说英文），大家知道，英文 abc 总共也没几个字符，
就算加上一些稀奇古怪的!@#$%^&这样的字符，
也就那么些了，最后把各种奇怪字符都加在一起算了一下，大概 127 个，
而一个字节能表达 256 种字符呢，用一个字节表示一个字符都还绰绰有余。
当时谁都觉得用一个字节表示一个字符真好。这种编码方式叫做 ASCII 。

后来计算机就传入了中国和许多其他国家，遇到了一个大问题，汉语言文字博大精深，又岂是小小一个字节能表达得了的？
于是有人发明了用两个字节表达汉字的编码方法，叫做 gbk 。这种现象同样也在其他非英语国家上演着。
大家都用着各自不同的互相冲突的编码方式，这给交流带来极大不便，此时的世界亟需一个统一的标准。

于是 Unicode 便应运而生了！Unicode 定义了一个大表，里面包含了全世界所有已知的字符，然后给这些字符编号，每个字符对应一个数字，
也就是所谓的代码点（code-point）。

需要注意的是 Unicode 本身是不在乎字符在计算机上是如何存储的，一个字节还是两个字节还是三个字节与 Unicode 无关，
你可以直接用字符的编码——也就是代码点——来存储字符，也可以用任意的其它方式存储，
而规定如何存储 Unicode 字符的规范就叫做编码。

现在世界上的编码成百上千，以前的 gbk 在现在 Unicode 新环境下也仍然存在，不过它只能处理 Unicode 字符的一部分了。
如果希望自己的程序能够跨越国界的话，最好还是使用一种能够处理所有 Unicode 字符的全能编码。
最流行的全能编码应该是 utf-8 了，它使用一种变长的存储方式，对传统的 ASCII 字符还是使用一个字节来存储，
这样那些英文国家的程序可以完全不受影响。当然这样的话它就要使用更多的字节来存储其他非英文字符了。

在 python 中定义一个 Unicode 字符串非常简单，在普通字符串前面加一个 ``u`` 即可，
还可以使用转义符 ``\u`` 直接使用代码点来定义 Unicode 字符串：
::

  >>> u'派松'
  u'\u6d3e\u677e'
  >>> print u'\u4e2d\u56fd'
  中国
  >>> print u'派松\u4e2d\u56fd'
  派松中国

使用普通字符串和Unicode字符串的 ``encode`` （编码） ``decode`` （解码） 方法，就可以使用不同的编码在普通字符串和 Unicode 字符串之间自由转换，
两个方法的原型分别为： ``encode( [encoding[,errors]])`` 和 ``decode( [encoding[,errors]])``
``encode`` 和 ``decode`` 两个方法都接受两个可选参数，第一个是编码名称，默认是当前默认编码，
第二个参数是个字符串，用来指定错误处理方式，可以使用的值有：

+-------------------------+----------------------------------------------------------------------------+
| 取值                    | 错误处理方式。                                                             |
+=========================+============================================================================+
| ``'strict'``            | 抛出异常 ``UnicodeError`` ，这是默认行为。                                 |
+-------------------------+----------------------------------------------------------------------------+
| ``'ignore'``            | 忽略错误字符，继续处理其他文本。                                           |
+-------------------------+----------------------------------------------------------------------------+
| ``'replace'``           | 用一个合适的字符替代出错字符，解码时使用标准 Unicode 替代字符 ``'\uFFFD'`` |
|                         | ，编码时使用 ``'?'`` 。                                                    |
+-------------------------+----------------------------------------------------------------------------+
| ``'xmlcharrefreplace'`` | 使用合适的 XML character reference ?? 替代出错字符，仅在编码时有用         |
+-------------------------+----------------------------------------------------------------------------+
| ``'backslashreplace'``  | 使用转义字符串替代出错字符，仅在编码时有用。                               |
+-------------------------+----------------------------------------------------------------------------+

::

  >>> print u'派\uffff松'.encode('gbk', 'strict')
  Traceback (most recent call last):
    File "<stdin>", line 1, in ?
  UnicodeEncodeError: 'gbk' codec can't encode character u'\uffff' in position 1:
  illegal multibyte sequence
  >>> print u'派\uffff松'.encode('gbk', 'ignore')
  派松
  >>> print u'派\uffff松'.encode('gbk', 'replace')
  派?松
  >>> '派\xff\xff松'.decode('gbk', 'replace')
  u'\u6d3e\ufffd\u677e'
  >>> print u'派\uffff松'.encode('gbk', 'xmlcharrefreplace')
  派&#65535;松
  >>> print u'派\uffff松'.encode('gbk', 'backslashreplace')
  派\uffff松

直接在普通字符串中使用中文，在中文平台上实际上使用的编码方式便是 gbk ，下面我们来体验几种不同编码的差异：
::

  >>> u'派松'                 # 无编码
  u'\u6d3e\u677e'
  >>> '派松'                  # 默认的 gbk 编码
  '\xc5\xc9\xcb\xc9'
  >>> u'派松'.encode('utf-8') # 使用 encode 从 Unicode 字符串转换成 普通字符串
  '\xe6\xb4\xbe\xe6\x9d\xbe'
  >>> '派松'.decode('gbk')    # 使用 decode 从普通字符串转换成 Unicode 字符串
  u'\u6d3e\u677e'
  >>> len(u'派松')
  2
  >>> len('派松')
  4
  >>> len(u'派松'.encode('utf-8'))
  6

.. sidebar:: 默认编码
  
  ::

    >>> import sys
    >>> sys.getdefaultencoding()
    'ascii'

我们说过 Unicode 本身不定义字符在计算机中的表现方式，所以当我们需要将 Unicode 字符串保存到文件，
或是在网络中传输，或是从 console 中 ``print`` 出来时，都需要以某种方式编码 Unicode 字符串先。
不过很多操作面对 Unicode 字符串时都能够智能地选择某种默认编码进行处理，
比如在一般的中文平台上， ``print`` 默认便使用 gbk 来进行输出：
::

  >>> print u'\uFFFF'
  Traceback (most recent call last):
    File "<stdin>", line 1, in ?
  UnicodeEncodeError: 'gbk' codec can't encode character u'\uffff' in position 0:
  illegal multibyte sequence

TODO: Unicode 还有什么没说到的吗？

字符串模板
--------------

容器类型
============

元组
----------

列表
----------

字典
----------

集合
----------

数组(array)
--------------

TODO: 是否该加上 array 类型？

练习
======

* 解释 ``condition and a or b`` 与 ``condition?a:b`` 的等价关系。
  
  * 还没学过 c 语言？OK，可以告诉你， ``condition?a:b`` 的意思就是：
    ::
    
      if condition:
          return a
      else:
          return b

* 使用 ``range`` 快速构造等差数列。


.. macro:: [[PageComment2(nosmiley=1, notify=1)]]