Differences between revisions 1 and 2
Revision 1 as of 2006-12-01 07:10:46
Size: 1043
Editor: ZoomQuiet
Comment:
Revision 2 as of 2006-12-01 07:12:09
Size: 2157
Editor: ZoomQuiet
Comment:
Deletions are marked like this. Additions are marked like this.
Line 3: Line 3:
'''PyCrawlVer -- 公视频信息爬虫''' '''PyCrawlVer -- 公视频信息爬虫'''
Line 17: Line 17:
 * '''[wiki:PyCNmail/2006-December/032754.html PythonGO开发计划]'''  * '''[wiki:PyCNmail/2006-December/032754.html 网络爬虫需求/20061201]'''
Line 23: Line 23:
{{{总体目标:
        
        快速获取15个知名视频网站上的视频元信息。
Line 24: Line 27:

具体要求:
        1、给定一个视频网站上的入口URL,自动分析判断其站点所有公开视频的URL。
        2、视频格式不限,至少包括flash/wma/rm/mpeg等。
        3、元信息至少包括:题目、介绍、作者、发布日期、其他、评论次数、
观看次数、HTML嵌入代码、BBS嵌入代码、Blog嵌入代码、来源、URL。但不包括视
频本身。
        4、将获得的元信息提交至MYSQL的DB。
        5、开放源代码,最好用Python实现,这里可提供一个范例程序(python),以供参考。。
        6、性能要求:大于20000条/每天。
        
报酬及其它要求:
    
        1、要求北京见面,因为以上为概要需求,更详细的需要面谈。
        2、10-15天内全部完成,前5个收到后,付400RMB,其余600RMB全部收到后付清。
       
回复邮件地址:

        有兴趣的朋友,请联系:
        email: li.monan%gmail.com
}}}

PyCrawlVer -- 公众视频信息爬虫

TableOfContents ::-- ZoomQuiet [DateTime(2006-12-01T07:10:46Z)]

[wiki:self/WoodpeckerProjs 啄木鸟项目::]

{o} PyCrawlVer

1. 缘起

描述项目是如何发起的

  • [wiki:PyCNmail/2006-December/032754.html 网络爬虫需求/20061201]

1.1. 项目日志

MonthCalendarBRInclude(CPUGnav)

提要Include(^PyCrawlVer/200.*,'项目简报',4,sort=descending,items=13,titlesonly)

1.2. 目标

{{{总体目标:

  • 快速获取15个知名视频网站上的视频元信息。

具体要求:

  • 1、给定一个视频网站上的入口URL,自动分析判断其站点所有公开视频的URL。 2、视频格式不限,至少包括flash/wma/rm/mpeg等。 3、元信息至少包括:题目、介绍、作者、发布日期、其他、评论次数、

观看次数、HTML嵌入代码、BBS嵌入代码、Blog嵌入代码、来源、URL。但不包括视 频本身。

  • 4、将获得的元信息提交至MYSQL的DB。 5、开放源代码,最好用Python实现,这里可提供一个范例程序(python),以供参考。。 6、性能要求:大于20000条/每天。

报酬及其它要求:

  • 1、要求北京见面,因为以上为概要需求,更详细的需要面谈。 2、10-15天内全部完成,前5个收到后,付400RMB,其余600RMB全部收到后付清。

回复邮件地址:

  • 有兴趣的朋友,请联系: email: li.monan%gmail.com

}}}

1.3. 计划

1.4. 成员

1.5. 成果

2. 反馈

项目讨论 Include(/DisCuss)

PyCrawlVer (last edited 2009-12-25 07:13:45 by localhost)