status

草稿

清风

完成度60%

1. 用Python完成常见任务

为何要学习Python？到google可以搜索到一大堆理由。我的理由是其字符串处理能力，和随心所欲的脚本语言写法，写Java总有一种很严肃很认真的感觉，而Python则很简便，有一种想法到哪，程序就到哪里的感觉

今天学习几个简单的部分：

1.1. 生成随机数

import random  
rnd = random.randint(1,500)#生成1-500之间的随机数

1.2. 读文件

for line in open("c:\\1.txt","r")  :  
  print line

1.3. 写文件

f = open("c:\\1.txt","r+")#可读可写模式  
f.write("123")#写入字符串

1.4. Python的文本处理

任务：读取tomcat的日志文件，并且把日期开头的内容显示出来，例如：xxxx-xx-xx

import re
regx = "\d\d\d\d-\d\d-\d+"
for str in open("c:\stdout.log","r"):
    if re.search(regx,str):
        pintr str

一个用来测试Python正则表达式的工具： http://kodos.sourceforge.net/ 图形界面，简单易用，适合学习Python的正则表达式

1.4.1. 什么是正则表达式

样本规则表达式
ABC([d-w]*\d\d?)+XYZ

对于要匹配这个表达式的字符串，它必须以 "ABC" 开头、以 "XYZ" 结尾 -- 但它的中间必须要有什么呢？中间子表达式是 ([d-w]*\d\d?)，而且后面跟了“一或多”运算符。所以，字符串的中间必须包括一个（或者两个，或者一千个）与括号中的子表达式匹配的字符或字符串。字符串 "ABCXYZ" 不匹配，因为它的中间没有必要的字符。

不过这个内部子表达式是什么呢？它以 d-w 范围内的零或多个字母开头。一定要注意：零字母是有效匹配，虽然使用英语单词 "some"（一些）来描述它，可能会感到很别扭。接着，字符串必须恰好有一个数字；然后有零或一个附加数字。（第一个数字字符类没有循环运算符，所以它只出现一次。第二个数字字符类有 "?" 运算符。）总而言之，这将翻译成“一个或两个数字”。以下是一些与规则表达式匹配的字符串：

匹配样本表达式的字符串

ABC1234567890XYZ 
ABCd12e1f37g3XYZ 
ABC1XYZ

还有一些表达式与规则表达式不匹配（想一想，它们为什么不匹配）：

不匹配样本表达式的字符串

ABC123456789dXYZ 
ABCdefghijklmnopqrstuvwXYZ 
ABcd12e1f37g3XYZ 
ABC12345%67890XYZ 
ABCD12E1F37G3XYZ

需要一些练习才能习惯创建和理解规则表达式。但是，一旦掌握了规则表达式，您就具有了强大的表达能力。也就是说，转而使用规则表达式解决问题通常会很容易，而这类问题实际上可以使用更简单（而且更快速）的工具，如 string，来解决。

1.5. Python和XML-RPC

1.5.1. 何为XML-RPC？

XML-RPC 是 XML Web 服务的鼻祖。它是一个用于远程过程调用（remote procedure call，RPC）的简单规范，这种调用使用 HTTP 作为传输协议，并使用 XML 词汇表作为消息有效负载。由于 XML-RPC 非常简单（整个规范打印出来还不到十页纸），它已经变得非常流行，现在大多数语言都有了标准的或已经可用的 XML-RPC 实现。这些语言中包括 Python，它在版本 2.2 中就开始捆绑 xmlrpclib（Fredrik Lundh 开发的 XML-RPC 实现）了。

1.5.2. 任务：尝试Python的XML-RPC远程调用

首先，我们打算将CMS(Context Manager System)系统进行Python的改造，第一件事，先向外公开版本的变化，可供远程调用。

import SimpleXMLRPCServer  
  
#定义自己的CMS类  
class MyCMS:  
    def getVersion(self):#向外公开版本的方法  
        return "Powerd By Python 0.1a"  
  
cms = MyCMS()  
server = SimpleXMLRPCServer.SimpleXMLRPCServer(("localhost", 8888))  
server.register_instance(cms)  
  
print "Listening on port 8888"  
server.serve_forever()#服务器执行，并监听8888端口

客户端调用代码，获得最新的版本信息

import xmlrpclib  
  
server = xmlrpclib.ServerProxy("http://localhost:8888";)  
  
version = server.getVersion()  
  
print "version:"+version

1.5.3. 总结

比同等的JAVA实现代码量明显减少，使精力能够更多的集中到系统本身中来 JAVA的一个XmlRpc实现：http://ws.apache.org/xmlrpc/ JAVA调用代码如下：

XmlRpcClient xmlrpc = null;  
try  
{  
    xmlrpc = new XmlRpcClient("http://localhost:8888/";);  
}  
catch (MalformedURLException e)  
{  
    e.printStackTrace();  
}  
Vector params = new Vector();  
try  
{  
    String result = (String) xmlrpc.execute("getVersion", params);  
    System.out.println(result);  
}  
catch (XmlRpcException e1)  
{  
    e1.printStackTrace();  
}  
catch (IOException e1)  
{  
    e1.printStackTrace();  
}

1.5.4. 参考资料

1.6. Python的网络操作

1.6.1. 任务：抓取FarideaBBS首页的所有图片

主要应用技术：正则表达式&urllib

第一步，模拟HTTP连接，连接FarideaBBS，获取Html源代码

def farideaHttp():    
    page = urllib.urlopen("../Boards.asp";)  
    body = page.readlines()  
    page.close()  
     
    return body

第二步分析Html源代码，建立正则表达式：今天先建立一个简单的表达式，不考虑图片链接是否有http头

regx = r"""<img\s*src\s*="?(\S+)"""

函数代码如下：

def anyHtml(line):  
    import re  
    regx = r"""<img\s*src\s*="?(\S+)"?"""  
    match_obj = re.search(regx,line)  
    if match_obj!=None:  
        all_groups = match_obj.groups()  
        for img in all_groups:print img#这个img就是图片的链接了

调用代码如下：

lines = farideaHttp()#读取全部内容  
for line in lines:  
    anyHtml(line)

1.6.2. 任务：从新浪抓取天气预报

首先访问http://weather.sina.com.cn/cgi-bin/figureWeather/simpleSearch.cgi来看一下新浪天气预报的样式。OK，一天的基本天气在这里就都有了，我们要做的就是把他变为自己的

首先我们要为自己的爬虫起一个名字，就叫QingFengbot吧：），版本0.1，然后让我们看一下其他浏览器是如何定义自己的USER_AGENT的： IE：

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.1.4322)

Mozilla：

Mozilla/5.0 (Windows; U; Windows NT 5.0; zh-CN; rv:1.7.5) Gecko/20041124 Firefox/1.0

那么，如何实现呢，让我们用代码交流：建立一个qingfengbot.py，这个机器人的所有代码就都放在这里

import urllib  
import re  
  
class MyUserAgent(urllib.FancyURLopener):  
    def __init__(self, *args):  
        self.version = "QingFengbot/0.1(Python;QingFengbot 0.1;zh-CN)"#定义自己的user_agent  
        urllib.FancyURLopener.__init__(self, *args)  
  
def httpclient(url):  
    urllib._urlopener = MyUserAgent()  
     
    page = urllib.urlopen(url)  
    body = page.read()#read? readlines?  
    page.close()  
     
    return body

目前里面仅仅封装了一个方法httpclient，用来连接一个web地址，然后返回这个地址的html，在这里究竟应当返回read还是readlines，我还得继续研究，目前感觉返回read外面好处理一些。

import qingfengbot  
print qingfengbot.httpclient("http://www.faridea.com/bbs/Boards.asp")

1.7. Python的数据库操作

1.7.1. 什么是dbapi

1.7.2. python操作postgresql

1.8. Python的多线程

1.9. Python操作RSS

1.10. 小结

1.11. 练习

::-- ["qingfeng"] [DateTime(2007-04-14T08:42:18Z)] PageComment2

ObpLovelyPython/LpyQLearn-7-task