Differences between revisions 6 and 8 (spanning 2 versions)

7-14<X7> re.xml 正则表达式

TableOfContents re.xml 中不知为何不少 XML tag 和 entity 都被破坏了，都逐一修复了～～BR 本章 typo 太多，故均不列出。BR

@Para 1@：……它们的语法非常相似，那么你仅仅阅读一下 re 模块的摘要，大致了解其中可用的函数和参数就可以了。BR 由于它们的语法非常相似，你仅仅阅读一下 re 模块的摘要，大致了解其中可用的函数和参数就可以了。

概览

@Para 2@：If what you're trying to do can be accomplished with string functions, you should use them. They're fast and simple and easy to read, and there's a lot to be said for fast, simple, readable code.BR 如果你要解决的问题利用字符串函数能够完成，你应该使用它们。它们快速、简单且容易阅读，而对于快速、简单、可读性强的代码等方面有很多内容。BR ……它们快速、简单且容易阅读，而快速、简单、可读性强的代码可以说出很多好处。

个案研究：街道地址

@例7.1下, Para 1@：很快，我发现上面的例子，仅仅匹配地址末尾的……BR 很快我发现，在上面的例子中，……
@例7.2, (1)@：你利用 \b，……在 python 中，由于字符'\'在一个字符串中必须转义这个事实，从而变得非常麻烦。BR 由于字符 '\' 在一个字符串中必须转义，这会变得非常麻烦。

个案研究：罗马字母

确定了几个术语的使用：“fives character”翻译为“含五字符”（原译“被5整除的字符”），同样地，“tens character”翻译为“含十字符”（原译“被10整除的字符”）。原译注删去。
@Para 1@：这是一个表示数字的系统，它能够真正回溯到远古的罗马帝国（因此而得名）。 它实际上能够追溯到远古的罗马帝国
@列举最后一条@：罗马数字经常从高位到低位书写，…… 一般

校验千位数

@Para 1@：……由于罗马数字经常是从高位到低位书写，…… 一般
@例7.3, (1)@：^表示仅仅在一个字符串的开始匹配其后的字符串内容。仅
@同上@：M?可选地匹配单个字符 M，由于它重复出现三次，…… 根据上文最多
@例7.3, (2)@：re 模块的本质是一个 search 函数BR 模块的本质是函数？？BR 模块的关键是一个 search 函数
@同上@：你此刻关注的唯一事情，就是模式是否匹配上，可以利用 search 函数的返回值弄清这个事实。BR ……于是我们利用 search 函数的返回值了解这个事实。
@例7.3, (3)@：'MM' 匹配上是因为…… 能
@例7.3, (4)@：'MMM' 匹配上是因为…… 能
@例7.3, (5)@：'MMMM' 没有匹配上。因为所有的三个 M 都匹配上，但是正则表达式还有字符串尾部的限制（由于字符 $），然而字符串没有结束……BR 'MMMM' 没有匹配上。因为所有的三个 M 都匹配完了，但是正则表达式还有字符串尾部的限制（由于字符 $），而字符串又没有结束

检验百位数

@标题@：检验百位数为和上一节标题“校验千位数”一致，校验百位数
文中多次出现了X位数位置 ，实际上指的就是 X位数，一律修正。
@Para 1@：……，具体用那种方式表达和具体的数值相关。BR 而具体用那种方式表达和具体的数值有关。
@第二次列举@：零到三次出现 C 字符（如果是零，表示百位数为 0） 出现零次表示百位数为 0
@例7.4, (2)@：因此 CD 和 D?C?C?C? 两个模式甚至不再考虑
@Para -1@：吆！来看正则表达式能够多快变得难以理解？BR 这个语气叹词我可没见过（字典里也找不到这一义项）。BR 哎呀！来看正则表达式能够多快变得难以理解？

使用 {n,m} 语法

@Para 1@：在前面的章节，你处理了相同字符可以重复三次的情况，在正则表达式中有另外一个方式来表达这种情况，并且使代码的可读性更好。BR 在前面的章节，你处理了相同字符可以重复三次的情况。在正则表达式中，有另外一个方式来表达这种情况，并且能提高代码的可读性。
@例7.6, (1)@：The 0 and 3 can be any numbers; if you want to match at least one but no more than three M characters, you could say M{1,3}.BR 可是是 0 到 3 之间的任何数字，如果你想要匹配至少 1 次，至多 3 次字符 M，则可以写成 M{1,3}。BR 这里的 0 和 3 可以改成其它任何数字；如果你想要匹配至少 1 次，至多 3 次字符 M，则可以写成 M{1,3}。BR 对照原文，不难判定孰正孰误。
@例7.6, (5)@：但是 没有匹配 字符串的结尾。根据上文，这里应当是 没有匹配上。
@例7.6下, 注解@：没有一个轻松的方法来确定两个正则表达式是否为等价的，……在本书后面的章节，关于如何书写测试样例有更多的讨论。BR 没有一个轻松的方法来确定两个正则表达式是否等价。……在本书后面的章节，将更多地讨论如何编写测试样例。

校验十位数和个位数

@Para 1@：现在我们来扩展扩展关于罗马数字的正则表达式，……BR 现在我们来扩展一下关于罗马数字的正则表达式，……
@7.4 Para -2@：……我曾经做过这样的事情，但是它并不是那么好看。有趣

松散正则表达式

@例7.9, (1)@：当使用松散正则表达式是，请记住 最重要的一件事情就是：……

个案研究：解析电话号码

@例7.10, (1)@：通常是从左到右阅读正则表达式，……BR 我们通常从左到右阅读正则表达式
为了用词的统一，后文的分割符 一律改为 分隔符。
@例7.14, (1)@：这个正则表达式和前面的几乎相同，除了在第一个记忆组（区号）前面匹配……BR 这个正则表达式和前面的几乎相同，但它在第一个记忆组（区号）前面匹配……
@例7.14, (4)@：但是你认为在区号前面的所有字符都是非数字字符（\D*）。Aargh.BR 没有翻译？？！！BR ……唉！
@例7.15, (2)@：……，不论这个电话号码的首字符是数字还是不是数字，还是在电话号码不同部分之间加上任意数目的任意类型的分隔符。，……BR ……，无论这个电话号码的首字符是不是数字，无论在电话号码各部分之间有多少任意类型的分隔符。

小结

x? 匹配一个可选的 x 字符（换句话说，它匹配 1 次或者 0 次 x 字符）。 换言之
@Para -1@：一些人，当遇到一个问题时，想“……”BR 一些人，遇到一个问题时就想：“……”

反馈

PageComment2

-  ⇤ ← Revision 6 as of 2007-07-14 06:51:42 → 
  Size: 412
  Editor: XiaoQi
  Comment:
+   ← Revision 8 as of 2007-07-14 08:59:59 → ⇥
  Size: 7783
  Editor: XiaoQi
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 4:
-本章 typo 太多，均不列出。[[BR]]
占位先～～
+本章 typo 太多，故均不列出。[[BR]]
 1. @Para 1@：……它们的语法非常相似，'''那么'''你仅仅阅读一下 re 模块的摘要，大致了解其中可用的函数和参数就可以了。[[BR]]
 (./) '''由于'''它们的语法非常相似，你仅仅阅读一下 re 模块的摘要，大致了解其中可用的函数和参数就可以了。
-Line 7:
+Line 8:
+. @Para 2@：''If what you're trying to do can be accomplished with string functions, you should use them. They're fast and simple and easy to read, '''and there's a lot to be said for fast, simple, readable code.'''''[[BR]]
 如果你要解决的问题利用字符串函数能够完成，你应该使用它们。它们快速、简单且容易阅读，'''而对于快速、简单、可读性强的代码等方面有很多内容'''。[[BR]]
 (./) ……它们快速、简单且容易阅读，'''而快速、简单、可读性强的代码可以说出很多好处'''。
-Line 8:
+Line 12:
+. @例7.1下, Para 1@：'''很快，我发现上面的例子，'''仅仅匹配地址末尾的……[[BR]]
 (./) '''很快我发现，在上面的例子中，'''……
 1. @例7.2, (1)@：你利用 \b，……在 python 中，'''由于字符'\'在一个字符串中必须转义这个事实，从而变得非常麻烦。'''[[BR]]
 (./) '''由于字符 '\' 在一个字符串中必须转义，这会变得非常麻烦。'''
-Line 9:
+Line 17:
+. 确定了几个术语的使用：“fives character”翻译为“含五字符”（原译“被5整除的字符”），同样地，“tens character”翻译为“含十字符”（原译“被10整除的字符”）。原译注删去。
 1. @Para 1@：这是一个表示数字的系统，'''它能够真正回溯到远古的罗马帝国'''（因此而得名）。 (./) '''它实际上能够追溯到远古的罗马帝国'''
 1. @列举最后一条@：罗马数字'''经常''' <!> 从高位到低位书写，…… (./) '''一般'''
=== 校验千位数 ===
 1. @Para 1@：……由于罗马数字'''经常''' <!> 是从高位到低位书写，…… (./) '''一般'''
 1. @例7.3, (1)@：`^`表示'''仅仅''' <!> 在一个字符串的开始匹配其后的字符串内容。 (./) '''仅'''
 1. @同上@：M?可选地匹配单个字符 M，由于它 {i} 重复出现三次，…… (!) 根据上文 (./) '''最多'''
 1. @例7.3, (2)@：re 模块的'''本质'''是一个 search 函数[[BR]]
 (!) 模块的本质是函数？？[[BR]]
 (./) 模块的'''关键'''是一个 search 函数
 1. @同上@：你此刻关注的唯一事情，就是模式是否匹配上，'''可以利用 search 函数的返回值弄清这个事实。'''[[BR]]
 (./) ……'''于是我们利用 search 函数的返回值了解这个事实。'''
 1. @例7.3, (3)@：'MM' {i} 匹配上是因为…… (./) '''能'''
 1. @例7.3, (4)@：'MMM' {i} 匹配上是因为…… (./) '''能'''
 1. @例7.3, (5)@：'MMMM' 没有匹配上。因为所有的三个 M 都'''匹配上'''，但是正则表达式还有字符串尾部的限制（由于字符 $），'''然而'''字符串没有结束……[[BR]]
 (./) 'MMMM' 没有匹配上。因为所有的三个 M 都'''匹配完了'''，但是正则表达式还有字符串尾部的限制（由于字符 $），'''而'''字符串又没有结束
=== 检验百位数 ===
 1. @标题@：'''检验'''百位数 (!) 为和上一节标题“校验千位数”一致， (./) '''校验'''百位数
 1. 文中多次出现了'''X位数位置''' <!> ，实际上指的就是 (./) '''X位数'''，一律修正。
 1. @Para 1@：……，具体用那种方式表达和具体的数值'''相关'''。[[BR]]
 (./) '''而'''具体用那种方式表达和具体的数值'''有关'''。
 1. @第二次列举@：零到三次出现 C 字符（'''如果是零，表示百位数为 0'''） (./) '''出现零次表示百位数为 0'''
 1. @例7.4, (2)@：因此 CD 和 D?C?C?C? 两个模式'''甚至''' {X} 不再考虑
 1. @Para -1@：'''吆！'''来看正则表达式能够多快变得难以理解？[[BR]]
 (!) 这个语气叹词我可没见过（字典里也找不到这一义项）。[[BR]]
 (./) '''哎呀！'''来看正则表达式能够多快变得难以理解？
-Line 10:
+Line 45:
+. @Para 1@：在 前面的章节，你处理了相同字符可以重复三次的情况，在正则表达式中有另外一个方式来表达这种情况，并且'''使代码的可读性更好'''。[[BR]]
 (./) 在前面的章节，你处理了相同字符可以重复三次的情况'''。'''在正则表达式中'''，'''有另外一个方式来表达这种情况，并且'''能提高代码的可读性'''。
 1. @例7.6, (1)@：'''''The 0 and 3 can be any numbers;''' if you want to match at least one but no more than three M characters, you could say M{1,3}.''[[BR]]
 '''可是是 0 到 3 之间的任何数字，'''如果你想要匹配至少 1 次，至多 3 次字符 M，则可以写成 M{1,3}。[[BR]]
 (./) '''这里的 0 和 3 可以改成其它任何数字；'''如果你想要匹配至少 1 次，至多 3 次字符 M，则可以写成 M{1,3}。[[BR]]
 (!) 对照原文，不难判定孰正孰误。
 1. @例7.6, (5)@：但是 '''没有匹配''' <!> 字符串的结尾。 (!) 根据上文，这里应当是 (./) '''没有匹配上'''。
 1. @例7.6下, 注解@：没有一个轻松的方法来确定两个正则表达式'''是否为等价的，'''……在本书后面的章节，'''关于如何书写测试样例有更多的讨论'''。[[BR]]
 (./) 没有一个轻松的方法来确定两个正则表达式'''是否等价。'''……在本书后面的章节，'''将更多地讨论如何编写测试样例'''。
=== 校验十位数和个位数 ===
 1. @Para 1@：现在我们来'''扩展扩展'''关于罗马数字的正则表达式，……[[BR]]
 (./) 现在我们来'''扩展一下'''关于罗马数字的正则表达式，……
 1. @7.4 Para -2@：……我曾经做过这样的事情，但是它并不是那么'''好看''' <!> 。 (./) '''有趣'''
-Line 11:
+Line 59:
+. @例7.9, (1)@：当使用松散正则表达式是，'''请记住''' {X} 最重要的一件事情就是：……
-Line 12:
+Line 62:
+. @例7.10, (1)@：'''通常是'''从左到右阅读正则表达式，……[[BR]]
 (./) '''我们通常'''从左到右阅读正则表达式
 1. 为了用词的统一，后文的'''分割符''' <!> 一律改为 (./) '''分隔符'''。
 1. @例7.14, (1)@：这个正则表达式和前面的几乎相同，'''除了'''在第一个记忆组（区号）前面匹配……[[BR]]
 (./) 这个正则表达式和前面的几乎相同，'''但它'''在第一个记忆组（区号）前面匹配……
 1. @例7.14, (4)@：但是你认为在区号前面的所有字符都是非数字字符（\D*）。'''Aargh.'''[[BR]]
 (!) 没有翻译？？！！[[BR]]
 (./) ……'''唉！'''
 1. @例7.15, (2)@：……，不论这个电话号码的首字符'''是数字还是不是数字'''，'''还是'''在电话号码'''不同部分之间加上任意数目的'''任意类型的分隔符。，……[[BR]]
 (./) ……，无论这个电话号码的首字符'''是不是数字'''，'''无论'''在电话号码'''各部分之间有多少'''任意类型的分隔符。
-Line 13:
+Line 74:
+. x? 匹配一个可选的 x 字符（'''换句话说'''，它匹配 1 次或者 0 次 x 字符）。 (./) '''换言之'''
 1. @Para -1@：一些人，'''当遇到一个问题时，想“……”'''[[BR]]
 (./) 一些人，'''遇到一个问题时就想：“……”'''

== 反馈 ==
[[PageComment2]]

Diff for "DiveIntoPythonZh/2007-07-14"

7-14<X7> re.xml 正则表达式

概览

个案研究：街道地址

个案研究：罗马字母

校验千位数

检验百位数

使用 {n,m} 语法

校验十位数和个位数

松散正则表达式

个案研究：解析电话号码

小结

反馈