当前位置: 首页 > news >正文

做代购需要什么网站哪里做网站便宜

做代购需要什么网站,哪里做网站便宜,西安网站建设公司都有哪些,做网站首页与分页什么样子思路: 进入电影天堂首页,提取到主页面中的每一个电影的背后的那个urL地址 a. 拿到“2024必看热片”那一块的HTML代码 b. 从刚才拿到的HTML代码中提取到href的值访问子页面,提取到电影的名称以及下载地址 a. 拿到子页面的页面源代码 b. 数据提…

思路:

  1. 进入电影天堂首页,提取到主页面中的每一个电影的背后的那个urL地址
    a. 拿到“2024必看热片”那一块的HTML代码
    b. 从刚才拿到的HTML代码中提取到href的值
  2. 访问子页面,提取到电影的名称以及下载地址
    a. 拿到子页面的页面源代码
    b. 数据提取

代码实现:

from tqdm import tqdm
import requests
import re
from selenium import webdriver
from selenium.webdriver.edge.options import Optionsclass MovieScraper:"""MovieScraper类用于从网站抓取电影信息。属性----------edge_options : Options用于配置webdriver的selenium Options对象web_driver : webdriver用于与网站交互的selenium webdriverrequest_headers : dict包含请求头的字典方法-------get_response(url)向指定的URL发送GET请求并返回响应。get_movie_list_html(response)从响应中提取电影列表的HTML。get_sub_url_list(movie_list_html)从电影列表HTML中提取子URL。get_movie_info(child_response)从子URL的响应中提取电影信息。scrape(target_url)从指定的URL抓取电影信息并写入文件。"""def __init__(self):"""初始化MovieScraper,配置webdriver和请求头。"""self.edge_options = Options()self.edge_options.add_argument("headless")self.web_driver = webdriver.Edge(options=self.edge_options)self.request_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"}def get_response(self, url):"""向指定的URL发送GET请求并返回响应。参数----------url : str要发送请求的URL。返回-------response : ResponseGET请求的响应。"""response = requests.get(url, headers=self.request_headers)response.encoding = "gbk"return responsedef get_movie_list_html(self, response):"""从响应中提取电影列表的HTML。参数----------response : Response要提取HTML的响应。返回-------movie_list_html : str电影列表的HTML。"""movie_list_pattern = re.compile(r'2024必看热片.*?<ul>(?P<html>.*?)</ul>', re.S)movie_list_result = movie_list_pattern.search(response.text)return movie_list_result.group("html")def get_sub_url_list(self, movie_list_html):"""从电影列表HTML中提取子URL。参数----------movie_list_html : str电影列表的HTML。返回-------sub_url_list : iterator子URL的迭代器。"""sub_url_pattern = re.compile(r"<li><a href='(?P<sub_url>.*?)'", re.S)return sub_url_pattern.finditer(movie_list_html)def get_movie_info(self, child_response):"""从子URL的响应中提取电影信息。参数----------child_response : Response要提取电影信息的响应。返回-------movie_info_result : Match包含电影信息的匹配对象。"""movie_info_pattern = re.compile(r'◎片  名 (?P<movie>.*?)<br.*?<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)"', re.S)return movie_info_pattern.search(child_response.text)def scrape(self, target_url):"""从指定的URL抓取电影信息并写入文件。参数----------target_url : str要抓取电影信息的URL。"""self.web_driver.get(target_url)response = self.get_response(target_url)movie_list_html = self.get_movie_list_html(response)sub_url_list = self.get_sub_url_list(movie_list_html)with open("电影天堂.txt", "w", encoding="utf-8") as file:for sub_url in tqdm(sub_url_list, desc="处理URL中", unit="URL"):child_url = target_url + sub_url.group("sub_url")child_response = self.get_response(child_url)movie_info_result = self.get_movie_info(child_response)download_link = movie_info_result.group("download")file.write(download_link + "\n")self.web_driver.quit()print("爬取完毕")if __name__ == "__main__":scraper = MovieScraper()scraper.scrape("https://www.dy2018.com/")

效果:

在这里插入图片描述

http://www.hengruixuexiao.com/news/53961.html

相关文章:

  • 潍坊网站制作最低价格国外网站seo免费
  • iis5 新建网站搜索引擎营销的特点有
  • 免费做思维导图的网站长治网站seo
  • 手机版网站如何做图片滚动百度教育会员
  • tk域名注册网站网站搜索系统
  • 昆明营销型网站建设深圳网络推广公司哪家好
  • 秦皇岛优化网站排名威海seo优化公司
  • 网站的规划与设计快手秒赞秒评网站推广
  • 网络科技公司门户网站百度竞价sem入门教程
  • 一般网站服务器配置seo网站推广首页排名
  • 唯品会一家专门做特卖的网站线上培训机构有哪些
  • 星月教你做网站回顾文档seo营销是什么
  • 做店铺装修的公司网站网络营销是什么意思?
  • 58同城的网站怎么做的互动营销案例都有哪些
  • 有啦域名网站怎么做网店运营是做什么的
  • 网站修改关键字软件推广赚钱一个10元
  • 网站关键词优化怎么弄公司网络搭建
  • 网站建设业务员的话术sem运营
  • 保定做网站建设营业推广促销方式有哪些
  • 屋领网站固链西安网站建设推广专家
  • 个人网站建立平台排名sem优化软件
  • 东莞企业网站建设盐酸达泊西汀片是治疗什么的药物
  • 做食品网站有哪些东西网站报价
  • 单页营销式网站模板下载网站推广方法大全
  • 青岛互联网公司排名南沙seo培训
  • 凡科做网站是否安全常州seo招聘
  • 旅游平台网站建设方案精准引流获客软件
  • 网站为什么具有网络营销价值网上有卖网站链接的吗
  • wordpress站点预览化工seo顾问
  • 网站是否降权查询360推广