使用Python爬虫爬取Vmgirls的图片

董舒文 2020-07-21 PM 470℃ 0条

2019-02-10_15-23-55.jpg
//第一种方法:
获取图片URL,元组转化为列表,然后遍历列表输出图片URL。

# 请求网页
import requests
# user-agent:身份
headers = {
   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"
}
respond = requests.get("https://www.vmgirls.com/11994.html", headers=headers)
html = respond.text
# 解析网页
import re
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">', html)
#print(urls)

#遍历整个urls
for each in urls:
   print('https://www.vmgirls.com/'+each)

//第二种方法:
获取图片URL,使用IMG的Title作为文件夹名字,然后自动下载。


import requests
import re
import os
import time
 
# 访问代理
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'
}
 
res = requests.get('https://www.vmgirls.com/11510.html',headers=headers)
html = res.text
 
 
# 创建文件夹
dir_name = re.findall('<h1 class="post-title h3">(.*?)</h1>',html)[-1]
if not os.path.exists(dir_name):
    os.makedirs(dir_name)
 
# 获取网址
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html)
for url in urls:
    time.sleep(1)
    file_name = url.split('/')[-1]
    res = requests.get('https://www.vmgirls.com/'+url,headers=headers)
    print(file_name + ' is downloading……')
    with open(dir_name + '/' + file_name,'wb') as f:
        f.write(res.content)
print('download finished')
标签: Python

非特殊说明,本博所有文章均为博主原创,部分搬运。

评论已关闭