##language:zh #pragma section-numbers on '''PyCrawlVer -- 公众视频信息爬虫''' ## 默许导航,请保留 <> ::-- ZoomQuiet [<>] ##||项目表情|| (!) '''概念/筹备/设计ing'''|| {o} '''编写/开发/组织ing'''|| {*} '''试用/推行ing'''|| {OK} '''发行/应用ed'''|| |-) '''停顿''' || ## 选用项目表情标识项目的当前状况 ||[[self:WoodpeckerProjs|啄木鸟项目::]]|| {o} '''PyCrawlVer'''|| = 缘起 = '''描述项目是如何发起的''' ## 一般是由列表中的邮件讨论引发的,所以可以使用 PyCNmail 的InterWiki 链接指向原始邮件 比如说: * '''[[PyCNmail:2006-December/032754.html|网络爬虫需求/20061201]]''' == 项目日志 == ||<^><><
><>||<^>'''提要'''<>|| == 目标 == {{{总体目标: 快速获取15个知名视频网站上的视频元信息。 具体要求: 1、给定一个视频网站上的入口URL,自动分析判断其站点所有公开视频的URL。 2、视频格式不限,至少包括flash/wma/rm/mpeg等。 3、元信息至少包括:题目、介绍、作者、发布日期、其他、评论次数、 观看次数、HTML嵌入代码、BBS嵌入代码、Blog嵌入代码、来源、URL。但不包括视 频本身。 4、将获得的元信息提交至MYSQL的DB。 5、开放源代码,最好用Python实现,这里可提供一个范例程序(python),以供参考。。 6、性能要求:大于20000条/每天。 报酬及其它要求: 1、要求北京见面,因为以上为概要需求,更详细的需要面谈。 2、10-15天内全部完成,前5个收到后,付400RMB,其余600RMB全部收到后付清。 回复邮件地址: 有兴趣的朋友,请联系: email: li.monan%gmail.com }}} == 计划 == == 成员 == == 成果 == = 反馈 = '''项目讨论''' <>