当前位置: 首页 > news >正文

wordpress微信商户支付免费的seo优化

wordpress微信商户支付,免费的seo优化,网站制作预算,信阳市人民政府图片本项目纯学习使用。 1 scrapy 代码 爬取逻辑非常简单,根据url来处理翻页,然后获取到详情页面的链接,再去爬取详情页面的内容即可,最终数据落地到excel中。 经测试,总计获取 11299条中医药材数据。 import pandas as…

本项目纯学习使用。

1 scrapy 代码

爬取逻辑非常简单,根据url来处理翻页,然后获取到详情页面的链接,再去爬取详情页面的内容即可,最终数据落地到excel中。
经测试,总计获取 11299条中医药材数据。

import pandas as pd
import scrapyclass ZhongyaoSpider(scrapy.Spider):name = "zhongyao"start_urls = [f"https://www.zysj.com.cn/zhongyaocai/index__{i}.html" for i in range(1, 27)]def __init__(self, *args, **kwargs):self.data = []def parse(self, response):for li in response.css('div#list-content ul li'):a_tag = li.css('a')title = a_tag.css('::attr(title)').get()href = a_tag.css('::attr(href)').get()if title and href:# 构建完整的详情页 URLdetail_url = response.urljoin(href)yield scrapy.Request(detail_url, callback=self.parse_detail, meta={'title': title})# 解析逻辑def parse_detail(self, response):title = response.meta['title']pinyin = response.css('div.item.pinyin_name_phonetic div.item-content::text').get(default='').strip()alias = response.css('div.item.alias div.item-content p::text').get(default='').strip()english_name = response.css('div.item.english_name div.item-content::text').get(default='').strip()source = response.css('div.item.alias div.item-content p::text').get(default='').strip()# 性味flavor = response.css('div.item.flavor div.item-content p::text').get(default='').strip()functional_indications = response.css('div.item.flavor div.item-content p::text').get(default='').strip()usage = response.css('div.item.usage div.item-content p::text').get(default='').strip()excerpt = response.css('div.item.excerpt div.item-content::text').get(default='').strip()#habitat = response.css('div.item.habitat div.item-content p::text').get(default='').strip()# 出处provenance = response.css('div.item.provenance div.item-content p::text').get(default='').strip()# 性状shape_properties = response.css('div.item.shape_properties div.item-content p::text').get(default='').strip()# 归经attribution = response.css('div.item.attribution div.item-content p::text').get(default='').strip()#  原形态prototype = response.css('div.item.prototype div.item-content p::text').get(default='').strip()# 名家论述discuss = response.css('div.item.discuss div.item-content p::text').get(default='').strip()# 化学成分chemical_composition = response.css('div.item.chemical_composition div.item-content p::text').get(default='').strip()item = {'title': title,'pinyin': pinyin,'alias': alias,'source': source,'english_name': english_name,'habitat': habitat,'flavor': flavor,'functional_indications': functional_indications,'usage': usage,'excerpt': excerpt,'provenance': provenance,'shape_properties': shape_properties,'attribution':  attribution,'prototype': prototype,'discuss': discuss,'chemical_composition': chemical_composition,}self.data.append(item)yield itemdef closed(self, reason):# 当爬虫关闭时,保存数据到 Excel 文件df = pd.DataFrame(self.data)df.to_excel('zhongyao_data.xlsx', index=False)

2 爬取截图

在这里插入图片描述

3 爬取数据截图

在这里插入图片描述

http://www.hengruixuexiao.com/news/34821.html

相关文章:

  • 许昌网站建设百度一下就知道官方
  • 仙桃做网站找谁广州百度竞价开户
  • 烟台企业网站怎么优化长春模板建站代理
  • 做衣服的教程网站有哪些优化网站性能监测
  • 代做maya三维动画的网站广州王牌seo
  • 网站安全如何做sem是什么检测分析
  • 网站开发培训哪个好知乎营销平台
  • 个人网站简单今天nba新闻最新消息
  • 合肥网站的建设谷歌seo实战教程
  • 购物网页设计图片seo在线优化平台
  • 做门户网站淘宝运营培训课程
  • 网站网页设计代码搜索引擎的作用
  • 做网站的软件叫81什么来着头条权重查询
  • 镇江网站制作哪家便宜网站推广计划
  • 网站中的文字滑动怎么做百度服务电话
  • 福州建设局网站品牌推广
  • 做企业礼品的网站长沙服务好的网络营销
  • 网站建设及维护保密协议nba赛季排名
  • wordpress开源协议疫情二十条优化措施
  • 石家庄有没有销售做被用的网站大连网站开发公司
  • 海北北京网站建设网页制作教程
  • cms 做网站单页网站怎么优化
  • 石家庄做网站价格怎么做网络广告推广
  • 金马国旅网站建设什么平台可以免费发广告
  • 做游戏ppt下载网站有哪些重庆seo排名方法
  • 拉新推广怎么快速拉人怎么做网络推广优化
  • 公司注册核名在哪个网站郑州计算机培训机构哪个最好
  • 旅游电子商务网站的建设方案网络营销服务的特点
  • 第一次和别人女友做网站产品推广软文范文
  • 北京做兼职网站有哪些搜索引擎优化的基本内容