当前位置: 首页 > news >正文

贸易公司如何做网站深圳百度首页优化

贸易公司如何做网站,深圳百度首页优化,wordpress 更新 固定链接,做自己的视频网站爬取图片的信息 爬取图片与爬取文本内容相似,只是需要加上图片的url,并且在查找图片位置的时候需要带上图片的属性。 这里选取了一个4K高清的壁纸网站(彼岸壁纸https://pic.netbian.com)进行爬取。 具体步骤如下: …

爬取图片的信息

爬取图片与爬取文本内容相似,只是需要加上图片的url,并且在查找图片位置的时候需要带上图片的属性。

这里选取了一个4K高清的壁纸网站(彼岸壁纸https://pic.netbian.com)进行爬取。

具体步骤如下:

  • 第一步依然是进入这个页面,这个壁纸网站分为好几种类型的壁纸图片,点击一个你想要爬取的类型,然后按F12,从中获取URL请求方式(复制URL,会用到),这次就不用网页的"User-Agent’'了,用pycharm包中别人写好的。
    然后发送我们的请求并获取这个网页的数据
    在这里插入图片描述
# url
url = "https://pic.netbian.com/4kmeinv/"
# UA伪装 用下载好的库中别人写好的UA
head = {"User-Agent": fake_useragent.UserAgent().random}
# 发送请求
response = requests.get(url, headers=head)
# 获取想要的数据
res_text = response.text
  • 第二步打开元素栏,用左上角的寻找工具放在图片上,定位到元素栏中对应的标签,用数据分析的方法获取到图片信息。
    其实每一张图片的排放就好像是一个个列表,其所有的信息都粗存在元素栏中的li标签中,我们想要获取多张照片,首先需要先将这些li标签都获取下来。
    在这里插入图片描述
# 数据解析 获取所有的li标签,并存放在li_list中
tree = etree.HTML(res_text)
li_list = tree.xpath("//div[@class='slist']/ul/li")
  • 第三步获取图片与获取文本内容不同的是,需要再获取图片的url,图片的url就在上图箭头所指的位置,但是这个仅仅只是图片在这个板块的位置,所以前面需要在前面加上这个壁纸网站的地址,这样获取的图片信息才是完整的,可以被打开。
    因为先前已经将存放图片信息的li标签都存放在了li_list中,所以我们就用for循环遍历这个列表,以便获取更多的图片信息。
 for li in li_list:# 图片的urlimg_url = "https://pic.netbian.com" + "".join(li.xpath("./a/img/@src"))# 发送请求img_response = requests.get(img_url, headers=head)# 获取想要的数据img_content = img_response.content
  • 第四步将获取到的图片存放在文件夹中
# pic_name = 0 这次的代码封装在函数中,将这个变量放在了函数外面,给获取的图片编号
# 将pic_name定义为全局变量,方便调用
global pic_namewith open(f"./picLibbb/{pic_name}.jpg", "wb") as fp:fp.write(img_content)pic_name += 1
  • 第五步为了获取更多的照片,因为每一页能展示的照片有限,所以我们需要for循环遍历每一页的网址;
    每一页的网址都只是在页面数量上的差别,所以可以遍历。

第一页的网址
在这里插入图片描述
第二页的网址

在这里插入图片描述
第三页的网址

在这里插入图片描述

url = "https://pic.netbian.com/4kmeinv/"request_pic(url)for i in range(1,10):next_url = f"https://pic.netbian.com/4kmeinv/index_{i}.html"request_pic(next_url)

完整代码:

# 获取图片数据
import os.path
import fake_useragent
import requests
from lxml import etree# UA伪装
head = {"User-Agent": fake_useragent.UserAgent().random}pic_name = 0
def request_pic(url):# 发送请求response = requests.get(url, headers=head)# 获取想要的数据res_text = response.text# 数据解析tree = etree.HTML(res_text)li_list = tree.xpath("//div[@class='slist']/ul/li")for li in li_list:# 图片的urlimg_url = "https://pic.netbian.com" + "".join(li.xpath("./a/img/@src"))# 发送请求img_response = requests.get(img_url, headers=head)# 获取想要的数据img_content = img_response.contentglobal pic_namewith open(f"./picLib/{pic_name}.jpg", "wb") as fp:fp.write(img_content)pic_name += 1if __name__ == '__main__':# 创建存放照片的文件夹if not os.path.exists("./picLib"):os.mkdir("./picLibbb")# 网站的urlurl = "https://pic.netbian.com/4kdongman/"request_pic(url)for i in range(1,10):next_url = f"https://pic.netbian.com/4kmeinv/index_{i}.html"request_pic(next_url)

爬取后的效果如下:
在这里插入图片描述

http://www.hengruixuexiao.com/news/13199.html

相关文章:

  • 网站怎么做收录百度竞价推广方案的制定
  • 常用的设计软件有哪些厦门百度整站优化服务
  • 免费建站cms微商软文
  • 有专门做房孑特卖的网站吗广告推广 精准引流
  • 做餐饮网站建设优化网站怎么做
  • 政府门户网站建设经验发言企业seo顾问服务阿亮
  • html网站支付链接怎么做seo点击排名
  • 青海wap网站建设公司重庆seo入门教程
  • 做网站用什么web服务器吗天津seo托管
  • 网站开发是什么语言百度seo收录软件
  • 新闻网站个人可以做吗厦门网站建设公司名单
  • 怎么做网站模块惠州seo优化服务
  • 黄骅做网站|黄骅网站|黄骅百度优化|黄骅百度推广|黄骅微信|黄骅百度推广培训班
  • 查看一个网站的源代码做评价桌面百度
  • 最专业的网站设计公司有哪些网络营销制度课完整版
  • 新闻app开发惠州百度seo哪里强
  • 最新免费下载ppt模板网站为什么外包会是简历污点
  • 织梦系统怎么做单页网站seo优化工具哪个好
  • 做理财的网站有哪些内容网络优化工作内容
  • 动漫人物做羞羞事的网站百度网站怎样优化排名
  • 湘潭哪里做网站 电话泰安seo推广
  • 台州网站建设解决方案百度推广怎么开户
  • 交互做的不好的网站南宁整合推广公司
  • 专门做流程图的网站百度推广一天费用200
  • 电商平台网站技术开发网站维护工作内容
  • 网站建设空间是指什么seo关键词优化排名哪家好
  • 免费学建筑知识网站找培训机构的app
  • 怎么用模板建网站搜索引擎网址
  • 服务器做ssr后还可以做网站吗优化大师软件大全
  • 南宁快速网站建设电话google play应用商店