找了几个获取网站快照和缩略图的方法,最后决定使用phantomjs。Phantom JS是一个服务器端的 JavaScript API 的 WebKit。其支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG。他可以被应用到web测试,页面访问自动化,屏幕捕获和网络监控等。
安装
官网:http://phantomjs.org/
下载地址:https://bitbucket.org/ariya/phantomjs/downloads/
现在最新版是2.0,不过linux系统没有build。自己build出问题的记录比较大。我选择的是1.9.8这个版本。
# wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-1.9.8-linux-x86_64.tar.bz2 # tar jxvf phantomjs-1.9.8-linux-x86_64.tar.bz2 # cd cd phantomjs-1.9.8-linux-x86_64 # cp bin/phantomjs /usr/bin
解压缩后里面有多个example,具体用法详见官方文档。
调用
phantomjs的使用需要调用js,example中也是一些js例子。屏幕截图的js如下,参考。
/* * desc: get snapshot from url * author: 十年后的卢哥哥(http://www.cnblogs.com/lurenjiashuo/) * example: phantomjs snap.js http://www.baidu.com baidu.png */ var page = require('webpage').create(); var args = require('system').args; var pageW = 1024; var pageH = 768; page.viewportSize = { width: pageW, height: pageH }; var url = args[1]; var filename = args[2]; page.open(url, function (status) { if (status !== 'success') { console.log('Unable to load ' + url + ' !'); phantom.exit(); } else { window.setTimeout(function () { page.clipRect = { left: 0, top: 0, width: pageW, height: pageH }; page.render(filename); console.log('finish:', filename); phantom.exit(); }, 1000); } });
默认脚本中使用1024*768分辨率打开。
用法
phantomjs的最简单用法。
# phantomjs snap.js http://blog.nbqykj.cn blog.nbhao.org.jpg
如果碰到截取中文页面的网站出现乱码或者方框,安装下面语言包解决。
# yum install bitmap-fonts bitmap-fonts-cjk
或者
# sudo apt-get install xfonts-wqy
缩略图
安装ImageMagick。
# yum install ImageMagick ImageMagick-devel
用法
# convert -resize 320×240 blog.nbhao.org.jpg blog.nbhao.org_thumbnail.jpg
使用这个方法获取网站缩略图的效果可以参考页面:http://www.hostunion.net/webdir/
参考连接:http://www.cnblogs.com/lurenjiashuo/p/get-snapshot-and-create-thumbnail.html
评论列表(0条)
学习下,这块我还不是很懂呢