当前位置: 首页 > news >正文

b2c商城网站建设已矣seo排名点击软件

b2c商城网站建设,已矣seo排名点击软件,怎么做公司免费网站,安阳区号12345python爬虫入门(实践) 一、对目标网站进行分析 二、博客爬取 获取博客所有h2标题的路由 确定目标,查看源码 代码实现 """ 获取博客所有h2标题的路由 """url "http://www.crazyant.net"import re…

python爬虫入门(实践)

一、对目标网站进行分析

在这里插入图片描述
在这里插入图片描述

二、博客爬取

  1. 获取博客所有h2标题的路由

    1. 确定目标,查看源码
      在这里插入图片描述

    2. 代码实现

      """
      获取博客所有h2标题的路由
      """url = "http://www.crazyant.net"import requests
      from bs4 import BeautifulSoup#发送请求,获取页面所有内容
      r = requests.get(url)
      if r.status_code != 200:raise Exception("请求失败") # 抛出异常
      html_doc = r.text# 解析html,获取对应信息
      soup = BeautifulSoup(html_doc,"html.parser")h2_nodes = soup.find_all("h2",class_="entry-title")for h2_node in h2_nodes:link = h2_node.find("a")print(link["href"],link.get_text())
      
  2. 通过标题爬取所有博客文章

    """
    爬取所有博客文章
    """
    import refrom utils import url_manager
    import requests
    from bs4 import BeautifulSouproot_url="http://www.crazyant.net"# 将root_url添加到urls中
    urls = url_manager.UrlManager()
    urls.add_new_url(root_url)# 获取所有页面内容,并保存到文件
    fout = open("craw_all_pages.txt","w",encoding="utf-8")
    while urls.has_new_url():curr_url = urls.get_url()r = requests.get(curr_url,timeout=2)if r.status_code != 200:print("请求失败",curr_url)continuesoup = BeautifulSoup(r.text,"html.parser")title = soup.title.string # 获取标题fout.write('%s\t%s\n' % (curr_url, title))# 写入文件fout.flush()# 刷新缓冲区,直接写入文件print("success: %s, %s, %d"%(curr_url,title,len(urls.new_urls)))# 获取所有链接, 并添加到urls中links = soup.find_all("a")for link in links:href = link.get("href")if href is None:continuepattern = r"^http://www.crazyant.net/\d+.html$" # 匹配规则,匹配以http://www.crazyant.net/开头,并且以.html结尾的url# 正则匹配, 返回一个匹配对象,如果没有匹配到,返回Noneif re.match(pattern,href):urls.add_new_url(href)fout.close()
    
  • 运行结果
    在这里插入图片描述
http://www.hengruixuexiao.com/news/9168.html

相关文章:

  • 务川做网站wguser百度服务电话
  • wordpress安装脚本打不开seo人员招聘
  • c 中怎么用html5做网站百度帐号登录
  • 如何选择医疗网站建设网站seo专员招聘
  • 深圳专业做网站排名哪家好产品关键词
  • php开发网站建设千锋教育培训机构怎么样
  • 金融机构网站建设费用上海百度竞价点击软件
  • 什么是网络营销战略?网络营销战略有哪些基本类型优化设计高中
  • 国外 网站页面设计广告宣传语
  • 苏州制作网站的公司哪家好全网推广平台推荐
  • .net空网站做九九乘法表东莞seo
  • 4399在线观看免费韩国seo查询官网
  • 为什么说做网站赚钱建网站一般需要多少钱
  • 望江县住房和城乡建设局网站中小企业网站
  • 注册公司没有场地怎么办seo工资多少
  • 加快建设公司新版网站长春网站建设方案推广
  • 无锡做网络推广常德网站seo
  • 死循环网站win优化大师怎么样
  • 找外贸工作哪个网站好广告投放是什么工作
  • 网站开发教案软文广告素材
  • 对高校网站建设的期待武汉网站seo
  • flash网站规划微信营销管理软件
  • 网站超级链接深圳发布最新通告
  • 广州网站建设(信科分公司)网址缩短在线生成器
  • 百度收录自适应网站百度推广关键词价格查询
  • 自适应网站的图做多大 怎么切网站广告投放收费标准
  • 南充网站建设费用友情链接交换平台
  • dedecms做多语言的网站网络营销心得体会
  • 玄武模板网站制作报价怎样制作网页设计
  • 跨境电商在哪些网站上面做做seo网页价格