以图明志

Web设计理念

抓取页面需要登录时的session与cookie

克服http协议无状态的缺陷
考虑一个问题:如何抓取一个访问受限的网页?如校内好友的主页,个人新鲜事页面等。显然,通过浏览器,我们可以手动输入用户名密码来访问目标页面,所谓“抓取”,只不过需要使用程序来模拟完成同样的工作,因此需要了解“登陆”过程中到底发生了什么。

PHP服务器脚本

简单的PHP伪缓存并定时抓取某页面内容

如果你数据库慢、压力大,可以用这个
需求:要抓取某个页面的一部分内容,然后iframe到别的页面去。iframe的时候,不需求每次都访问源页面,而是每天只读取源页面一次,并生成文件,iframe的时候只访问该暂时文件,也就是伪缓存啦。这么做适合访问量不大的页面,降低数据库访问压力。

PHP服务器脚本

使用PHP的Snoopy类抓取图片

php的Snoopy类
用了两天php的Snoopy这个类,发现很好用。获取请求网页里面的所有链接,直接使用fetchlinks就可以,获取所有文本信息使用fetchtext(其内部还是使用正则表达式在进行处理),还有其它较多的功能,如模拟提交表单等。它并没有提供获取网页中所有图片地址的方法,自己有个需求是要获取一个页面中所有文章列表中图片地址。

PHP服务器脚本

PHP抓取采集类snoopy介绍

一个PHP的抓取方案
snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务。官方网站 http://snoopy.sourceforge.net/。Snoopy的一些功能特点:抓取网页的内容 fetch(),抓取网页的文本内容 (去除HTML标签) fetchtext(),抓取网页的链接,表单 fetchlinks() fetchform(),支持代理主机,支持基本的用户名/密码验证等。
1 / 1 首页 < Prev 1 Next > 尾页 页码: