饭否消息解析之从minidom到xpath

抛板砖,引白玉:为何不用xpath,什么是xpath?

最近拾起了以前的小项目,在完善上篇文章发布后,“那个谁”的回复让我很感兴趣。他问,“为什么不用xpath?”

xpath是什么东东?我反问。反问之前,当然少不了先google一番,以免……那个啥。
Read the rest of this entry »

两本关于正则表达式的PDF电子书

1. Regular Expression HOWTO

作者

A.M. Kuchling(amk@amk.ca)。

简要介绍
本书主要介绍如何在python下使用re模块的正则表达式来处理问题。
本电子书是英文的,没有中文版。不过,内容比较简单,正则式和python的初学者可以看看。
Read the rest of this entry »

饭否消息析取之regex vs xml

页内导航:

批量导出饭否程序的方法很多,但是基本思路都是先将该网页保存到本地,然后将有用的饭否消息析取出来。本文不讨论如何下载饭否网页了(使用迅雷、wget、curl等),重点讨论对于下载到本地的网页,如何将有用的饭否消息析取出来。

Read the rest of this entry »