找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 896|回复: 0

如何把一段python爬取双色球的代码加入到采集的项目里

[复制链接]
发表于 2023-8-2 09:15:04 | 显示全部楼层 |阅读模式
代码爬取了历届的双色球开奖结果,但是想在火车头采集里面去实现直接重新编译后入库,这个改如何操作呢?
相关的采集项目代码如下:
  1. import sys
  2. import requests
  3. from lxml import etree

  4. def get_url(url):       #请求url的方法,返回html
  5.     headers = {
  6.         'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
  7.     }
  8.     response = requests.get(url,headers=headers)        #获取请求的返回数据
  9.     response.encoding = 'utf-8'         #定义编码,不然中文输出会乱码;
  10.     if response.status_code == 200:     #如果请求成功,则返回;
  11.         return response.text
  12.     return None

  13. for q in range(1,125):      #for循环,一共124页;
  14.     url = 'https://www.scw88.com/kaijiang/ssq.html' % (q)   #定义请求的链接
  15.     html = get_url(url)         #请求url获取返回代码
  16.     xpath_html = etree.HTML(html)       #xpath初始化html代码

  17.     dates = xpath_html.xpath('//table[@class="wqhgt"]//tr//td[1]//text()')      #获取开奖日期
  18.     result = xpath_html.xpath('//table[@class="wqhgt"]//tr//em//text()')        #获取上色球号
  19.     issues = xpath_html.xpath('//table[@class="wqhgt"]//tr//td[2]//text()')     #获取期号
  20.     # print(result)       #输出所有双色球的列
  21.     # print(len(result)//7)    #输出有几组双色球
  22.     # print(dates)
  23.     # print(issues)
  24.     sta = 0
  25.     end = 7
  26.     for n in range(len(result)//7):     #双色球7个号一组,
  27.         print("开奖日期:" + str(dates[n]) + " --- " + "期号:" + str(issues[n]) + " --- " + str(result[sta:end]))
  28.         sta = sta + 7
  29.         end = end + 7
复制代码
有会的大佬麻烦私信下,谢谢~
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表