火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3432|回复: 8

BUG通过XPath来获取meta content获取不到

[复制链接]
发表于 2023-3-13 11:40:16 | 显示全部楼层 |阅读模式
BUG通过XPath来获取meta content获取不到
规则是//meta[@name="keywords"]/@content
我通过浏览器XPath插件跟其他采集器工具使用此XPath规则是能获取到内容的,

由于需要采集多个不同网页meta使用前后截取规则方式来匹配大多内容采集不到,后来发现使用XPath方式能成功解决,但是火车头采集器使用此规则获取不到内容
http://bbs.locoy.com/spider-197748-1-1.html


发表于 2023-3-13 11:54:02 | 显示全部楼层
采集器是根据源码采集的,xpath获取需要符合源码范围处理。
 楼主| 发表于 2023-3-13 12:09:25 | 显示全部楼层
leweizxl 发表于 2023-3-13 11:54
采集器是根据源码采集的,xpath获取需要符合源码范围处理。

源码里面包含,我使用其他品牌的采集器测试是能成功能拿到,你可以测试下,使用xpath获取meta内容
发表于 2023-3-14 09:10:27 | 显示全部楼层
wjspwy 发表于 2023-3-13 12:09
源码里面包含,我使用其他品牌的采集器测试是能成功能拿到,你可以测试下,使用xpath获取meta内容 ...

节点选outerhtml即可
 楼主| 发表于 2023-3-16 21:26:00 | 显示全部楼层
leweizxl 发表于 2023-3-14 09:10
节点选outerhtml即可

这种方式获取会包含meta标签,我只需要内容就行的那种
发表于 2023-3-17 09:06:05 | 显示全部楼层
wjspwy 发表于 2023-3-16 21:26
这种方式获取会包含meta标签,我只需要内容就行的那种

采集器里的属性只能选择
 楼主| 发表于 2023-3-20 14:35:06 | 显示全部楼层
leweizxl 发表于 2023-3-17 09:06
采集器里的属性只能选择

没有明白。。。。
发表于 2023-3-21 09:00:16 | 显示全部楼层
wjspwy 发表于 2023-3-20 14:35
没有明白。。。。

意思是,目前只能是这个结果,要去掉代码做内容替换处理。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-22 22:52

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表