skydrive外链mp3方案
Jan 10th
使用合租空间的独立博客,例如本人,有时想在自己的空间上传mp3,又有版权(美国空间要求趋严)、流量(被迅雷爬到后果很严重)的担心。经过比较,觉得skydrive的空间挺不错的,25G空间,可支持外链。唯一不足之处是操作比较复杂,使用普通的方法不容易批量提取mp3的外链。今天下午做出一种简单易行的方法,可以直接抓取skydrive的公开文件夹里的mp3音乐文件绝对地址并生成Google Player播放代码(因此您就不需要再安装播放mp3的wordpress各种插件了)。所写的php源码一并贴出,有兴趣的自行研究。如果是正则表达式方面的讨论,欢迎跟贴;其它问题恕不回复,见谅。
Read the rest of this entry »
抓取页面图片的单行命令
Dec 7th
命令如下:
curl -s $URL |perl -nle "print for m{http://[^\"]+(?:jpg|png|gif)}g;"|sort -u |xargs wget
流程:
- 将包含图片链接的页面(例如http://www.flickr.com/photos/anyaanja/4165312465/sizes/o/ 下载下来,以便析取图片地址。使用的命令是curl -s $URL。这里的地址需要手动替换为你所需要的地址。curl 的-s选项是表明使用silent模式,避免任何输出。
- 使用perl解析刚刚下载的页面,找到以http开头,以jpg、png、gif结尾的图片地址。这里的图片类型任意,只要按照类似的语法可以扩展或缩减。perl的-nle选项表示循环读入输入行,搜索相应匹配行,输出相应部分。详细参见perl one liners。
- perl在这里起解析网页的作用。awk应该也有同样的功效,只是个人感觉awk的正则表达式功能太弱较弱。
- 使用sort -u将生成的url排序。如果有重复项,只保留其一,以免重复下载。
- 使用wget来下载这些图片到当前目录。由于wget 默认无法接收standard input的输入,因此使用xargs作为中转。
2009120更新:
- 使用
curl -s $URL | grep -o "http://.*\?\(png\|jpg\)" |sort -u |xargs wget
or
curl -s $URL | grep -E -o "http://.*?(png|jpg)" |sort -u |xargs wget
能实现同样的作用。其中,-o是表示只显示匹配部分,而不必显示整行文本(默认情况下是显示整行文本);-E 是扩展模式的正则,在此模式下问号、括号、竖线都可直接使用,不必在前边加反斜杠。
- 使用perl的话,正则表达式部分比较强大,只是命令臃肿;使用grep,灵活小巧,但是有可能无法使用复杂的正则表达式。
使用饭否新版API编写批量抓取饭否消息的程序
Jan 6th
我在断断续续地写一款抓饭程序。预想的功能包括:下载、更新饭否消息,搜索,统计。
近日饭否官方释出搜索功能,可以使用关键字搜索自己曾经发布的消息。作离线版的饭否消息管理工具,似乎没有必要。不过,有的网友习惯将饭否消息列到blog上,因此,我的程序还是有用的。
我原来写的程序,时间都消耗在饭否消息的下载、解析上。好在饭否新版API提供了任意页码的饭否消息,大大简化了抓取难度,因此编写一款饭否消息管理工具不再是一件难事。以python语言为例,我把自己的思路写出来,供各位有类似兴趣的朋友参考。
Comments