Roy Web 重见天日

Roy Web 从尘封多年的硬盘备份里回来了!

历史的行程

记得 2009 年的时候,我还在初中三、四年级,家里在前一年通了互联网,上网半年多以后,接触了 WordPress,接触了 PHP,整天在网上寻找免费的 web space,最终也办了一个自己的网站。

网站的内容主要有网站本身的管理,一些计算机使用技巧,以及自己的小项目。那段时间算是博客正在走向衰落,社交网络开始流行的年代。阅读这些文章恍若隔世。

很多文章都有些中二气息,有一些内容已经过时,或者不是正确的。希望大家能够理解。

从 2009 年 6 月开始,辗转迁移,一直到 2011 年元旦发表了最后一篇文章。(话说当时真够浪的,中考前一个月还在折腾。)再后来高中课业繁忙,加上域名政策改变等原因,网站停止更新。网站备份到了家里那台旧电脑上。

随着笔记本电脑的普及,那台旧电脑很久没有使用了,假期之前我决定把备份找出来,重新发布文章。

建这个网站没花一分钱,时间成本还是不少的。为了能找回「童年回忆」,挖掘内容,我打算将所有文章整理出来,再次发布在互联网上。

为什么进行这次考古?

随着我的新博客(http://blog.ygao.info/)内容不断累计,我又想起了那些年我写的博客。然而之前并没有把备份从旧电脑转移出来。上个假期就想做,但由于事情太多耽误了。我就把这件事列为了暑假的任务之一。

工作介绍

搜寻信息

为了打开电脑,我先打开机箱清洁了内存,开机后很快找到备份。

遗憾的是数据库备份由于编码问题,中文字符全是问号。文件系统的备份没有问题。正好还有一个导出的 XML 备份,只是后面几篇没有。

我用 Google 搜索,已经找不到任何信息,用 Web Archive 居然搜到了。各方面信息加起来算是内容完整了。

Web Archive 真是一个好东西,帮我找回了很多内容。

处理数据

我使用了 Python 的 xml.etree 处理了 XML 格式的备份,以及在 Web Archive 抓取的 RSS,自动转换为 Hugo 文集。剩下的文章通过手动创建补全。

选取 Hugo 是因为其比较轻量(只有一个可执行文件),部署简单,也有一定的可定制性。操作有利于自动化。此外,我之前自己做了一个主题 Naive 也可以借此机会进行改进。

HTML 到 Markdown 的转换是调用 pandoc 完成的。然后进行人工检查。

将图片链接切换为新的可访问的,将文章之间互相引用的链接也进行更正,修正了一些十分不恰当的格式,极其需要的地方适当增加说明,从而完成了对博客的重新整理。

日程表

  • 08-15:获得备份
  • 08-16:自动处理,校正,开始增加未收录文章
  • 08-17:开始写说明(凌晨写的,白天去爬山,晚上太困,没干活)
  • 08-18:搜集完所有文章,处理图片问题,适当修改主题
  • 08-19:完成,部署、总结