http://foto.zoomquiet.org/logo/kspeg-logo-v0.6-72.png

KSPEG版:GgoogleGroup2mailam

gg迁移需求

内部啓用了maillist服务, 需要把过去的在googlegroups中的邮件迁移回公司内部.

分析

数据的回源

迁移指定的googlegroups本应该对指定的服务索取数据的, 但现在googlegroups不提供API级的解决方案.

对于此问题, 可见如下讨论URL:

就目前的情况分析, 相应的有其它三种解决:

  1. 对web页面抓取, 取出相应的数据
  2. 对RSS的定阅, xml的数据抓取
  3. gmail的Email邮件download.

前两条总体是: xml格式 -> email格式, 非常麻烦, 或者工作量较大.

走gmail路线可以直接取得email格式数据. 但存在缺点:

决定迁移采取gmail的路线

数据的组织

将googlegroups数据迁移到公司的maillist(具体为mailman软件), 可以走如下路线:

  1. email格式文件 -> MDA

  2. email格式文件 -> mailman的归递程序

这里都需要对从googlegroups得到的email格式文件(具体说是从gmail从得到)需要做如下工作:

  1. 对email文件的排序
  2. 对eamil文件的重新整理
    • 如果使用email格式文件 -> MDA的方法,那就需要先在maillist中增加邮件中From的地址, 否则maillist不接收的

    • 请把mailman的require_explicit_destination设置为False
  3. 对于email格式文件 -> mailman的归递程序, 需要为每份email文件伪造类似如下的一文件头字符串:

实际迁移方法

如下两部分使用到自个写的python脚本:

使用gmail的Email

如下是脚本的交互过程:

what can I do for you?
d/D: download email to localhost mbox format
s/S: send localhost mbox file to MDA
m/M: make mbox file which can be use be maillist software

which are your choice?d

User Name: richard.liao.i

input user Password: 

which label do you want download?[return to Inbox]Cpc
which do you want to save email file?[return to /tmp/Cpc.box

writing.... 1 (RFC822 {4734}
writing.... 2 (RFC822 {5364}
writing.... 3 (RFC822 {7133}
writing.... 4 (RFC822 {4559}
writing.... 5 (RFC822 {4708}
writing.... 6 (RFC822 {4821}
writing.... 7 (RFC822 {7581}
writing.... 8 (RFC822 {5168}
writing.... 9 (RFC822 {4825}
...
...

使用脚本放置Email到新的maillist中

下载完gmail的email后, 脚本会再说询问要进行的动作, 如下:

what can I do for you?
d/D: download email to localhost mbox format
s/S: send localhost mbox file to MDA
m/M: make mbox file which can be use be maillist software

which are your choice?m

where is the mbox file ?/tmp/Cpc.box
which mbox will be save to/tmp/kcpycamp.mbox

复制新的email文件到mailman的数据目录下:

[root@ml /usr/home/jessinio]# cp /tmp/kcpycamp.mbox /usr/local/mailman/archives/private/kcpycamp.mbox/
[root@ml /usr/home/jessinio]# chown mailman:mailman /usr/local/mailman/archives/private/kcpycamp.mbox/kcpycamp.mbox 

重新归档:

[root@ml /usr/home/jessinio]# /usr/local/mailman/bin/arch --wipe kcpycamp /usr/local/mailman/archives/private/kcpycamp.mbox/kcpycamp.mbox

迁移结果

最后的情况请见如下URL:

TODO

  1. 工具通用化,使用 cmd 模块友好化交互
  2. 对大型历史列表的下载提供按照月度,进行分文件下载的支持
  3. 对 .eml 的输出支持
  4. 对 .txt 的输出支持

Discuss

web 也可以

est <[email protected]>
reply-to        [email protected]
to      python-cn`CPyUG`华蟒用户组 <[email protected]>
date    Sun, Jan 4, 2009 at 19:23
subject [CPyUG:75765] Re: GoogleGroup邮件下载转换器

地址贴错了~~

这个~~~纯文本~~~直接可以爬下来保存为.eml就可以用客户端打开了。导入mailman也比较方便~~~

::-- jessinio 2009-01-04 06:07:29


反馈

创建 by -- ZoomQuiet [2009-01-04 08:58:18]

MiscItems/2009-01-04 (last edited 2009-12-25 07:16:31 by localhost)