ObpLovelyPython/LpyQLearn-2-data - Woodpecker Wiki for CPUG

Rendering of reStructured text is not possible, please install Docutils.
:status: 草稿 ;HuangYi; 70%;

===================
Python内置数据类型
===================

.. contents::

数值类型
==========


布尔
-------

在所有的语言中，布尔类型可能都是数据类型中最简单的了， ``True`` 或者 ``False`` ，干脆俐落。

在 python 中，任何对象都可以隐式地转换为布尔对象，
转换的规则如下： ``None`` 、任何数值类型中的 ``0`` 、空字符串 ``''`` 、空元组 ``()`` 、空列表 ``[]`` 、空字典 ``{}``
都被当作 ``False`` ，还有自定义的类型如果它实现了 ``__nonzero__()`` 或 ``__len__()`` 
方法且方法返回 ``0`` 或 ``False`` 的，则其实例也被当作 ``False`` ，其他对象均为 ``True`` 。
::

  >>> 0 or 0L or 0.0 or 0j or '' or () or [] or {} or False
  False

上面这个代码就可以证明那些对象都被当作 ``False`` ，至于为什么就留给聪明的你自己思考吧 ;-)

你还可以使用任何对象来构造 ``bool`` 对象：
::

  >>> bool(0)
  False
  >>> bool(1)
  True
  >>> bool('hello')
  True
  >>> class FooBar(object):
  ...     def __nonzero__(self):
  ...         return False
  ...
  >>> foobar = FooBar() # 创建 FooBar 类的实例，见 ...
  >>> bool(foobar)
  False

python 中还有三个布尔操作符：not、and 和 or，
不过他们虽然叫做布尔操作符，但由于我们上面说过的任何对象都可以隐式转换为布尔对象，
实际上这三个操作符可以操作任何对象，而且返回的也不仅仅是布尔对象。
具体规则如下：

.. sidebar:: and or 组合

  通过 and 和 or 的组合你可以获得许多奇妙的效果，
  比如 ``condition and a or b`` 实际上就等价于 c 语言中的 ``condition? a:b`` ，
  意思就是说如果条件 ``condition`` 满足那么就 ``a`` ，否则就 ``b`` 。
  有意思吧 ;-)  至于为什么就当做作业留给聪明的你慢慢思考吧（见练习题1）。

.. topic:: not a

  如果 ``a`` 为 ``True`` 则返回 ``False`` ，为 ``False`` 则返回 ``True``

.. topic:: a and b
  
  如果 a 为 ``True`` 则返回 b，否则返回 a

.. topic:: a or b
  
  如果 a 为 ``False`` 则返回 b，否则返回 a

::

  TODO：给一些有趣的 and or 实例。

另外，布尔对象在进行数值运算的时候还可以当整数来用：
::

  >>> True+1
  2
  >>> False+1
  1
  >>> int(True)
  1
  >>> int(False)
  0


整数
------

.. sidebar:: 长整数

  实际上在内部 python 对整数的处理还是会分为普通整数和长整数，
  普通整数就是大家在其他语言中常见到整数。
  而超过这个范围的整数就自动当作长整数处理，
  而长整数可表示的范围就没有限制了。
  如果你还想刨根问底，那就只好去看 CPython 的实现了 ;-)

.. sidebar:: 小整数池

  为了提高性能，python 在启动时会对一定范围以内的小整数创建缓存,
  这样在后面创建这些小整数对象的时候，就不用重复的去申请内存，
  而是直接使用缓存中的小整数对象。
  这一点通过 ``id()`` 函数就可以看得出来：
  ::

    >>> a = 10
    >>> b = 10
    >>> id(a)
    11163620
    >>> id(b)
    11163620

整数也是相当常见的数据类型了。
不过 python 的整数却和普通的整数不同，首先 python 整数没有什么 short、long 等等的区分，
这还不算什么，python 整数最奇妙的地方莫过于他甚至没有大小的限制：
::

  >>> 1
  1
  >>> 9999999999999999999999
  9999999999999999999999L

浮点数
--------

TODO

复数
-------

TODO

字符串
========

python 字符串既可以用单引号表示也可以用双引号表示，
甚至还可以用三引号——哦不对，是三个引号——来表示。

这样如果字符串里本身包含双引号，你就可以用单引号来表示：
::

  >>> 'My name is "python"'
  'My name is "python"'

而如果字符串里本身包含单引号呢，你又可以用双引号用表示：
::

  >>> "My name is 'python'"
  "My name is 'python'"

真是太方便了！

三个引号的字符串就更方便了，中间甚至还可以换行！
::

  >>> '''My
  ... name
  ... is
  ... "python"
  ... !
  ... '''
  'My\nname\nis\n"python"\n!\n'
  >>> """My
  ... name
  ... is
  ... 'python'
  ... !
  ... """
  "My\nname\nis\n'python'\n!\n"

.. sidebar:: 字符串缓存

  TODO: 解释 python 实现对字符串的缓存

字符串转义
------------

那字符串里要是既有单引号又有双引号怎么办？答案就是字符串转义：
::

  >>> 'My \'name\' is "python"!'
  'My \'name\' is "python"!'

所谓字符串转义就是 ... TODO: 字符串转义的含义、作用 等。

下面这个表列出所有转义符及其简要说明，要是觉得这点简要的解释不过瘾的话，
直接跑到 python shell 下面去试验一下，马上就清楚了：
::

  >>> print '\a'

  >>> print 'aa\bbb'
  abb
  >>> print 'a\tb\nab'
  a       b
  ab
  >>> TODO: 更多有趣例子

+-------------+------------------------------------------------+
| 转义符      | 含义                                           |
+=============+================================================+
| ``\换行``   | 忽略后面的换行符                               |
+-------------+------------------------------------------------+
| ``\\``      | 字符 ``\``                                     |
+-------------+------------------------------------------------+
| ``\'``      | 单引号 ``'``                                   |
+-------------+------------------------------------------------+
| ``\"``      | 双引号 ``"``                                   |
+-------------+------------------------------------------------+
| ``\a``      | 发出声音：滴                                   |
+-------------+------------------------------------------------+
| ``\b``      | 退格符                                         |
+-------------+------------------------------------------------+
| ``\f``      |                                                |
+-------------+------------------------------------------------+
| ``\n``      | 换行符                                         |
+-------------+------------------------------------------------+
| ``\r``      | 回车符                                         |
+-------------+------------------------------------------------+
| ``\t``      | 水平 TAB 符                                    |
+-------------+------------------------------------------------+
| ``\v``      | 竖直 TAB 符                                    |
+-------------+------------------------------------------------+
| ``\ooo``    | 输出 8 进制数字（最多3个） ``oo`` 所代表的字符 |
+-------------+------------------------------------------------+
| ``\xhh``    | 输出 16 进制数字（最多2个） ``hh`` 所代表的字符|
+-------------+------------------------------------------------+
| ``\N{name}``|                                                |
+-------------+------------------------------------------------+
| ``\uxxx``   |                                                |
+-------------+------------------------------------------------+
| ``\Uxxx``   |                                                |
+-------------+------------------------------------------------+

序列操作
--------------

序列类型（Sequence Types）其实是一个抽象接口，
内置类型中实现了这一接口的有字符串、Unicode 对象、元组、列表、
buffer、xrange。既然先讲到字符串，那就在这里就把这个概念说明一下先，
在后面向大家介绍其他序列类型时就直接参考这里了。

所有的序列类型都支持一些共同的操作，这里拿字符串来举例子，其他序列类型大家到时候一看就明白了。

.. topic:: ``in``

  ::
  
    >>> 'python' in 'I love python!'
    True
    >>> 'c' not in 'I love python!'
    False

.. topic:: 连接 ``+``

  将多个序列对象连接起来。
  ::

    >>> 'I '+'love '+'python!'
    'I love python!'

.. topic:: ``*``

  拷贝 n 份（准确得说是浅拷贝，见第n章第n节）
  ::

    >>> print 'I love python!\n'*3
    I love python!
    I love python!
    I love python!

.. topic:: 索引

  第一个是 ``0`` ，正数表示从左向右数第几个，负数是从右向左数，不过第一个的左边没有，就绕到最右边去了。
  ::

    >>> 'python'[0]
    'p'
    >>> 'python'[3]
    'h'
    >>> 'python'[-1]
    'n'
    >>> 'python'[-3]
    'h'

.. sidebar:: 惯用法
  
  ``sequence[:]`` ，也就是使用 ``start`` 、 ``end`` 和 ``step`` 的默认值对序列对象切片，
  实际上就是对序列对象的一个浅拷贝，而这显然比实际的拷贝操作方便多了。

.. topic:: 切片

  取序列中一个片段。

  原型是 ``sequence[start:end:step]``

  ``start`` 表示起始位置， ``end`` 表示结束位置， ``step``
  表示每经过多少取一个值。 
  三个值均可忽略。 ``step`` 默认值为 ``1`` ，表示没有间隔； 
  ``start`` 默认值为 ``0`` ，也就是序列最开始的位置，
  ``end`` 默认为 ``-1`` ，也就是序列最末尾的位置。
  ::

    >>> 'python'[0:6:2] # 完整版本
    'pto'
    >>> 'python'[0:6]   # 忽略 step
    'python'
    >>> 'python'[:3]    # 忽略 start 和 step
    'pyt'
    >>> 'python'[3:]    # 忽略 end 和 step
    'hon'
    >>> 'python'[:]     # 全部忽略
    'python'


常用字符串操作
----------------

上面这一节讲的其实已经是属于常用字符串操作了，不过那些是所有序列对象都共同拥有的东西，
而这一节要介绍的是专门为字符串提供的操作。
::

  >>> dir(str)
  ['__add__', '__class__', '__contains__', '__delattr__', '__doc__', '__eq__', '__
  ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__getslice__', '__g
  t__', '__hash__', '__init__', '__le__', '__len__', '__lt__', '__mod__', '__mul__
  ', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '
  __rmul__', '__setattr__', '__str__', 'capitalize', 'center', 'count', 'decode',
  'encode', 'endswith', 'expandtabs', 'find', 'index', 'isalnum', 'isalpha', 'isdi
  git', 'islower', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lst
  rip', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit'
  , 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', '
  translate', 'upper', 'zfill']

其实里面许多的方法，都是看到名字就能联想到其功能的。
稍微复杂点的方法，只要在 python shell 里面做点实验也都能猜个八九不离十。
如果还剩下些什么疑问呢，就到这里来找答案吧。

.. topic:: 连接与分割

  上面介绍序列类型时，我们已经使用了 ``+`` 号来做字符串的连接操作，
  在某些情况下这当然是不错的，然而在多数情况下我们其实都不推荐这种做法，
  因为大量的这种连接操作会大大影响效率。比如说这个例子：::

    >>> 'I '+'love '+'python!'
    'I love python!' 

  分解开来看就是 ``('I '+'love ') + 'python!'``
  ，第一次连接操作就会产生一个中间对象 ``'I love '``
  ，而这个对象从结果来看完全是没有用的。
  大量的连接操作，就会产生大量无用的中间对象。
  浪费了分配内存所花费的时间也浪费了内存。

  所以对于两个以上的字符串的连接，我们推荐下面这个更好的做法：
  ::

    >>> ' '.join(['I', 'love', 'python!'])
    'I love python!'

  你看，代码还是这么漂亮 ;-)

  你还可以试试用其他字符串来连接：
  ::

    >>> '--'.join(['I', 'love', 'python!'])
    'I--love--python!'

  也许你已经注意到了里面的中括号，中括号是用来构造列表的（参考 列表_ ）。

  ``split`` 是 ``join`` 的逆操作，原型是 ``split( [sep [,maxsplit]])`` ，
  可以用它来把字符串分割成列表：
  ::

    >>> 'I love python!'.split(' ')
    ['I', 'love', 'python!']
    >>> 'I--love--python!'.split('--')
    ['I', 'love', 'python!']

  如果你不传递或者传递 ``None`` 给 ``sep`` 参数，那么 ``split`` 会启用
  一个比较特殊的字符串分割策略，多说无益，先看代码：
  ::

    >>> 'I love     python!'.split(' ') # 使用空格分割
    ['I', 'love', '', '', '', '', 'python!']
    >>> 'I love     python!'.split()    # 默认分割策略
    ['I', 'love', 'python!']

  看出区别了吧，它会把连续的空白当作分割符，其作用就不用我明说了吧 ;-)

  ``split`` 方法还接受另一个可选的参数： ``maxsplit`` ，意思就是最大分割次数，
  这样分割结果的长度最大就是 ``maxsplit + 1`` 。
  ::

    >>> 'I love python!'.split(' ', 1)
    ['I', 'love python!']

.. topic:: 大小写转换

  ``upper`` 将字符串转换为大写， ``lower`` 转换成小写。
  比较奇妙的是 ``title`` ，它将每个单词的首字母转成大写，其他转成小写。
  ::

    >>> 'Python'.upper()
    'PYTHON'
    >>> 'Python'.lower()
    'python'
    >>> 'python book'.title()
    'Python Book'

.. topic:: 字符串测试

  ::

    >>> 'python'.islower()      # 是否都是小写
    True
    >>> 'PYTHON'.isupper()      # 是否都是大写
    True
    >>> 'Python Book'.istitle() # 是否 ... (参考上面对 title 方法的解释)
    True
    >>> 'python'.isalpha()      # 是否都是字母， isalnum 方法作用相同
    True
    >>> '42'.isdigit()          # 是否都是数字
    True
    >>> '  '.isspace()          # 是否都是空格
    True
    >>> ''.islower() or ''.isupper() or ''.istitle() or ''.isalpha() or ''.isdigit() or ''.isspace()
    False 

  最后一句证明了这些测试对空字符串都不成立。

.. topic:: 查找

  ``find`` 方法返回字串在字符串中出现的位置，原型是 ``find( sub[, start[, end]])`` ，
  可选的 ``start`` 、 ``end`` 参数用来限制查找范围，如果找不到则返回 ``-1`` 。

  ``index`` 方法和 ``find`` 方法一样，唯一区别就是找不到的时候会抛出
  ``ValueError`` 异常（见某章某节 异常）而不是返回 ``-1`` 。

  ``find`` 和 ``index`` 方法都可以在前面加个 ``r`` ，也就是 ``rfind`` 和 ``rindex`` ，功能类似，
  只不过查找的方向变成从右向左。
  ::

    >>> 'I love python!'.find('love')
    2
    >>> 'I love python!'.find('c')
    -1
    >>> 'I love python!'.index('c')
    Traceback (most recent call last):
      File "<stdin>", line 1, in ?
    ValueError: substring not found
    >>> 'python is pythonic!'.find('python')
    0
    >>> 'python is pythonic!'.rfind('python')
    10

.. topic:: TODO 更多字符串操作

  TODO 更多字符串操作

Unicode 对象
---------------

字符串模板
--------------

容器类型
============

元组
----------

列表
----------

字典
----------

集合
----------

数组(array)
--------------

TODO: 是否该加上 array 类型？

练习
======

* 解释 ``condition and a or b`` 与 ``condition?a:b`` 的等价关系。
  
  * 还没学过 c 语言？OK，可以告诉你， ``condition?a:b`` 的意思就是：
    ::
    
      if condition:
          return a
      else:
          return b

运算符表：

+----------+---------------------------------------------------+
| 简单运算 | 加+、减-、乘*、除/、取模%、指数运算**、取相反数-。|
+----------+---------------------------------------------------+
| 位运算   | 按位取反~、按位与&、按位或|、按位异或^，          |
+----------+---------------------------------------------------+
| 移位运算 | 左移<<、右移>>。                                  |
+----------+---------------------------------------------------+
| 比较操作 | <、>、==、>=、<=、<>、!=。                        |
+----------+---------------------------------------------------+
| 布尔操作 | not、and、or                                      |
+----------+---------------------------------------------------+

.. macro:: [[PageComment2(nosmiley=1, notify=1)]]

.. macro:: -- ZoomQuiet  [[DateTime(2007-02-20T06:12:54Z)]]