Python提供了许多Module,通过这些Module,可以很简单的做一些工作。比如,要获得cloga这个词在百度搜索结果页中的排名结果(排名结果+URL),这就是一个很简单的爬虫需求。
首先,要通过urllib2这个Module获得对应的HTML源码。
import urllib2
url='http://www.baidu.com/s?wd=cloga'
content=urllib2.urlopen(url).read()
通过上面这三句就可以将URL的源码存在content变量中,其类型为字符型。