HomeFeed

我爱正则表达式

关注正则表达式和搜索引擎

Posts Tagged @ xml

使用饭否新版API编写批量抓取饭否消息的程序2009-01-06 10:27 am

admin

我在断断续续地写一款抓饭程序。预想的功能包括:下载、更新饭否消息,搜索,统计。

近日饭否官方释出搜索功能,可以使用关键字搜索自己曾经发布的消息。作离线版的饭否消息管理工具,似乎没有必要。不过,有的网友习惯将饭否消息列到blog上,因此,我的程序还是有用的。

我原来写的程序,时间都消耗在饭否消息的下载、解析上。好在饭否新版API提供了任意页码的饭否消息,大大简化了抓取难度,因此编写一款饭否消息管理工具不再是一件难事。以python语言为例,我把自己的思路写出来,供各位有类似兴趣的朋友参考。

Continue »

Comments

Permanent Link | Posted in 杂项 | Tags on: , , , ,

饭否消息解析之从minidom到xpath2008-10-14 6:00 pm

admin

抛板砖,引白玉:为何不用xpath,什么是xpath?

最近拾起了以前的小项目,在完善上篇文章发布后,“那个谁”的回复让我很感兴趣。他问,“为什么不用xpath?”

xpath是什么东东?我反问。反问之前,当然少不了先google一番,以免……那个啥。
Continue »

Comments

Permanent Link | Posted in 教程 | Tags on: , , , , ,

饭否消息析取之regex vs xml2008-10-08 6:53 pm

admin

页内导航:

批量导出饭否程序的方法很多,但是基本思路都是先将该网页保存到本地,然后将有用的饭否消息析取出来。本文不讨论如何下载饭否网页了(使用迅雷、wget、curl等),重点讨论对于下载到本地的网页,如何将有用的饭否消息析取出来。

Continue »

Comments

Permanent Link | Posted in 教程 | Tags on: , , , ,

© 我爱正则表达式 Allrights reserved. | Theme: iPost 2.7.2 |Designed By iFire. | Powered by WP. | Entries (RSS) | Comments (RSS).