火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2647|回复: 1

要有PDF链接的<a href>, 但不要其他的<a href>

[复制链接]
发表于 2009-5-24 05:46:35 | 显示全部楼层 |阅读模式
http://www.eetchina.com/ART_8800571890_628868_NT_fbd1a3f4.HTM
如此页, 正文有很多<a>标签,要去掉

如果我设置去除<a>标签,这个<点击下载top25排行榜清晰表格>的链接就没有了,怎么样才能设置成不要正文里的其他链接,但是如果这个链接包含了pdf, 那么就保留并下载PDF.
发表于 2009-5-24 09:02:13 | 显示全部楼层
本帖最后由 soarb 于 2009-5-24 09:04 编辑

你是说要在正文中实现,火车头的标签排除功能不支持正则。

你可以在你要发布的程序里添加一去就可以。
$content=preg_replace('/<a href=\"[^\>pdf]+\"[^\]*>([^\>]+)<\/a>/',\\1,$content);
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

企业微信|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-27 11:08

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表