Size: 1063
Comment:
|
← Revision 3 as of 2009-12-25 07:13:56 ⇥
Size: 1063
Comment: converted to 1.6 markup
|
Deletions are marked like this. | Additions are marked like this. |
Line 4: | Line 4: |
::-- ZoomQuiet [[[DateTime(2006-12-01T07:18:22Z)]]] [[TableOfContents]] |
::-- ZoomQuiet [<<DateTime(2006-12-01T07:18:22Z)>>] <<TableOfContents>> |
Line 7: | Line 7: |
[[Include(CPUGnav)]] | <<Include(CPUGnav)>> |
::-- ZoomQuiet [2006-12-01 07:18:22]
Contents
1. ZoomQuiet的初步考虑
简述
1.1. 过程伪代码
关键行为
Cmd <- 接受参数 crawler() <- 页面抓爬 ver() <- 相关元信息过滤 dumpdb() <- 专门进行DB导入 loger() <- 协助进行各种日志操作
- 以上行为都可以组合或是同步进行!
1.2. 数据分布规划
- 以每个网站入口域名为名分别建立目录:
xxx.com +-- stuff 原始页面 +-- elemt 可疑代码块元素 +-- filter0 过滤器0输出暂存 +-- filter1 过滤器1输出暂存 +-- filter2 过滤器2输出暂存 +-- ... +-- filterN 过滤器N输出暂存 +-- result 最终元信息文本 \-- sql 导入SQL文本
- 所以:
- 原始页面的抓取可以使用 wget 等等第三方高级工具进行
- DB 的导入也可以组织为标准SQL后,由MySQL 管理命令直接导入!