Differences between revisions 1 and 2
Revision 1 as of 2006-12-01 07:18:22
Size: 473
Editor: ZoomQuiet
Comment:
Revision 2 as of 2006-12-01 07:31:34
Size: 1063
Editor: ZoomQuiet
Comment:
Deletions are marked like this. Additions are marked like this.
Line 21: Line 21:

== 数据分布规划 ==
 1. 以每个网站入口域名为名分别建立目录:
{{{
xxx.com
    +-- stuff 原始页面
    +-- elemt 可疑代码块元素
    +-- filter0 过滤器0输出暂存
    +-- filter1 过滤器1输出暂存
    +-- filter2 过滤器2输出暂存
    +-- ...
    +-- filterN 过滤器N输出暂存
    +-- result 最终元信息文本
    \-- sql 导入SQL文本
}}}

 * 所以:
  * 原始页面的抓取可以使用 wget 等等第三方高级工具进行
  * DB 的导入也可以组织为标准SQL后,由MySQL 管理命令直接导入!

::-- ZoomQuiet [DateTime(2006-12-01T07:18:22Z)] TableOfContents

Include(CPUGnav)

1. ZoomQuiet的初步考虑

简述

1.1. 过程伪代码

  • 关键行为

    Cmd <- 接受参数
    crawler() <- 页面抓爬
    ver() <- 相关元信息过滤
    dumpdb() <- 专门进行DB导入
    loger() <- 协助进行各种日志操作
    • 以上行为都可以组合或是同步进行!

1.2. 数据分布规划

  1. 以每个网站入口域名为名分别建立目录:

xxx.com
    +-- stuff  原始页面
    +-- elemt 可疑代码块元素
    +-- filter0 过滤器0输出暂存
    +-- filter1 过滤器1输出暂存
    +-- filter2 过滤器2输出暂存
    +-- ...
    +-- filterN 过滤器N输出暂存
    +-- result 最终元信息文本
    \-- sql 导入SQL文本
  • 所以:
    • 原始页面的抓取可以使用 wget 等等第三方高级工具进行
    • DB 的导入也可以组织为标准SQL后,由MySQL 管理命令直接导入!

PyCrawlVer/2006-12-01 (last edited 2009-12-25 07:13:56 by localhost)