清华大佬耗费三个月吐血整理的几百G的资源,免费分享!....>>>
#!/usr/bin/env python
#coding=utf-8
import urllib
import re
'''抓取www.meizitu.com的图片'''
#http://www.meizitu.com/a/list_1_1.html
#获取html内容
def getHtml(url):
file = urllib.urlopen(url)
html = file.read()
return html
#匹配图片地址返回列表数组
def getImg(html):
reg = r'data-original="(.+?\.jpg)"'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
return imglist
#下载图片
def download(imgList,page):
x = (page-1)*10
for imgurl in imgList:
print 'download file '+str(x)+' start'
urllib.urlretrieve(imgurl, 'D:/python/meizitu/%s.jpg' %x)
print 'download file '+str(x)+' end'
x+=1
# 获取图片数量,最好是10的倍数
def getPicNum(number=10,page=1):
pageSize = 10
pageNumber = number/10
while(page<=pageNumber):
url = "http://www.meizitu.com/a/list_1_"+str(page)+".html"
html = getHtml(url)
print 'get %s html success' % page
imageList = getImg(html)
print 'get %s imageurl success' %page
download(imageList,page)
page=page+1
#从第一页开始获取20张图片,可以自行定义从多少页开始进行获取
getPicNum(number=20,page=1)
raw_input("press enter")