当前位置: 首页 > news >正文

wordpress微信商户支付信息流优化师证书

wordpress微信商户支付,信息流优化师证书,广州百度关键词排名,开网络公司做网站挣钱吗本项目纯学习使用。 1 scrapy 代码 爬取逻辑非常简单,根据url来处理翻页,然后获取到详情页面的链接,再去爬取详情页面的内容即可,最终数据落地到excel中。 经测试,总计获取 11299条中医药材数据。 import pandas as…

本项目纯学习使用。

1 scrapy 代码

爬取逻辑非常简单,根据url来处理翻页,然后获取到详情页面的链接,再去爬取详情页面的内容即可,最终数据落地到excel中。
经测试,总计获取 11299条中医药材数据。

import pandas as pd
import scrapyclass ZhongyaoSpider(scrapy.Spider):name = "zhongyao"start_urls = [f"https://www.zysj.com.cn/zhongyaocai/index__{i}.html" for i in range(1, 27)]def __init__(self, *args, **kwargs):self.data = []def parse(self, response):for li in response.css('div#list-content ul li'):a_tag = li.css('a')title = a_tag.css('::attr(title)').get()href = a_tag.css('::attr(href)').get()if title and href:# 构建完整的详情页 URLdetail_url = response.urljoin(href)yield scrapy.Request(detail_url, callback=self.parse_detail, meta={'title': title})# 解析逻辑def parse_detail(self, response):title = response.meta['title']pinyin = response.css('div.item.pinyin_name_phonetic div.item-content::text').get(default='').strip()alias = response.css('div.item.alias div.item-content p::text').get(default='').strip()english_name = response.css('div.item.english_name div.item-content::text').get(default='').strip()source = response.css('div.item.alias div.item-content p::text').get(default='').strip()# 性味flavor = response.css('div.item.flavor div.item-content p::text').get(default='').strip()functional_indications = response.css('div.item.flavor div.item-content p::text').get(default='').strip()usage = response.css('div.item.usage div.item-content p::text').get(default='').strip()excerpt = response.css('div.item.excerpt div.item-content::text').get(default='').strip()#habitat = response.css('div.item.habitat div.item-content p::text').get(default='').strip()# 出处provenance = response.css('div.item.provenance div.item-content p::text').get(default='').strip()# 性状shape_properties = response.css('div.item.shape_properties div.item-content p::text').get(default='').strip()# 归经attribution = response.css('div.item.attribution div.item-content p::text').get(default='').strip()#  原形态prototype = response.css('div.item.prototype div.item-content p::text').get(default='').strip()# 名家论述discuss = response.css('div.item.discuss div.item-content p::text').get(default='').strip()# 化学成分chemical_composition = response.css('div.item.chemical_composition div.item-content p::text').get(default='').strip()item = {'title': title,'pinyin': pinyin,'alias': alias,'source': source,'english_name': english_name,'habitat': habitat,'flavor': flavor,'functional_indications': functional_indications,'usage': usage,'excerpt': excerpt,'provenance': provenance,'shape_properties': shape_properties,'attribution':  attribution,'prototype': prototype,'discuss': discuss,'chemical_composition': chemical_composition,}self.data.append(item)yield itemdef closed(self, reason):# 当爬虫关闭时,保存数据到 Excel 文件df = pd.DataFrame(self.data)df.to_excel('zhongyao_data.xlsx', index=False)

2 爬取截图

在这里插入图片描述

3 爬取数据截图

在这里插入图片描述

http://www.mnyf.cn/news/40278.html

相关文章:

  • 深圳微网站制作优化大师有必要安装吗
  • 仙桃做网站找谁sem对seo的影响有哪些
  • 正邦设计公司seo专员是干嘛的
  • ppt模板免费下载免费seo入门培训学多久
  • 哪种公司一般会做网站杭州网站seo推广
  • 著名的网站制作公司如何制作网站赚钱
  • 原创小说网站建设源码房地产市场现状分析
  • 新手可以做网站营运吗编程培训机构排名前十
  • 吸引人的网站类型网络营销和网站推广的区别
  • 网站建设都包括哪些内容沈阳seo排名优化软件
  • 电商网站的二级怎么做上海关键词排名推广
  • 番禺建网站公司网站制作开发
  • 黄页应用推广徐州seo外包平台
  • 建设网站过程网站流量监控
  • 网站建设捌金手指专业5全国疫情最新数据
  • 做微信封面的网站seo优化总结
  • 龙华网站建设哪家好sem优化策略
  • 商城建站系统多少钱应用商店aso
  • 芜湖镜湖区做网站公司比较火的推广软件
  • 酒店网站建设流程关键词优化的作用
  • wordpress模板是什么seo技术外包 乐云践新专家
  • seo 排名连云港seo
  • 河南郑州网站制作公司电商运营培训课程有哪些
  • 天津网站建站推广百度中心人工电话号码
  • 怎么自己做公众号长春seo顾问
  • 官方做任务网站天津外贸seo推广
  • 网站怎么做跳转链接网站应该如何推广
  • 做影视网站的软件seo全称英文怎么说
  • 事业单位门户网站建设atp最新排名
  • 网络建设公司起名选字杭州优化排名哪家好