##language:zh #pragma section-numbers on ::-- ZoomQuiet [<>] <> ## 默许导航,请保留 <> = ZoomQuiet的初步考虑 = ''简述'' == 过程伪代码 == * 关键行为{{{ Cmd <- 接受参数 crawler() <- 页面抓爬 ver() <- 相关元信息过滤 dumpdb() <- 专门进行DB导入 loger() <- 协助进行各种日志操作 }}} * 以上行为都可以组合或是同步进行! == 数据分布规划 == 1. 以每个网站入口域名为名分别建立目录: {{{ xxx.com +-- stuff 原始页面 +-- elemt 可疑代码块元素 +-- filter0 过滤器0输出暂存 +-- filter1 过滤器1输出暂存 +-- filter2 过滤器2输出暂存 +-- ... +-- filterN 过滤器N输出暂存 +-- result 最终元信息文本 \-- sql 导入SQL文本 }}} * 所以: * 原始页面的抓取可以使用 wget 等等第三方高级工具进行 * DB 的导入也可以组织为标准SQL后,由MySQL 管理命令直接导入!