火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2536|回复: 5

有没有办法将采集为空的标签不进行发布?

[复制链接]
发表于 2014-5-18 05:16:49 | 显示全部楼层 |阅读模式
例如我采集一个页面的文章..但因为有些标签在某些文章中并不完全适用...会有些标签采集不到数据..有没有办法让这个标签在发布的时候过滤掉?就是如果这个标签采集为空..则不进行发布..其他能采集到标签的则正常发布?
发表于 2014-5-18 12:02:33 | 显示全部楼层
 楼主| 发表于 2014-5-18 19:53:57 | 显示全部楼层
303718 发表于 2014-5-18 12:02
http://faq.locoy.com/q-936.html

我的意思不是把整条数据标记为未采...而是仅仅针对那个标签不进行发布..其他能采集到的标签正常发布..



如图..红框里的标签使用了多页采集...



每个标签对应一个多页...



用固定的子串符把标签组合起来,得到一个完整的数据...

但问题来了...因为不是每一条数据都有那么多页面能按照这个规则采到所有数据..



http://www.youku.com/show_page/id_zd23b0d06bee511e3b8b7.html
这个页面其实只有http://www.youku.com/show_episode/id_zd23b0d06bee511e3b8b7.html这里能采集到数据...

http://www.youku.com/show_episode/id_zd23b0d06bee511e3b8b7.html?dt=json&divid=reload_101以后其实都是采集不到的...于是返回了空值...

那么能否仅仅针对这些采集不到的标签进行发布...而播放地址100和其他的则正常发布呢?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2014-5-18 20:04:41 | 显示全部楼层
303718 发表于 2014-5-18 12:02
http://faq.locoy.com/q-936.html

如果设置了内容不得为空的话,就会把整条数据都标记为未采..而不发布...但其实那个数据是真实有效的..只是没有那么多页面而已...



如果按正常采集发布是没问题..但发布后采集不到的标签会自动为一个空行...而程序是按照换行来识别每一条数据...



这些空行就是那些没有采集到的标签导致的..

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2014-5-18 20:17:54 | 显示全部楼层
这种只能用插件处理或者在发布接口里处理了
 楼主| 发表于 2014-5-18 20:20:43 | 显示全部楼层
303718 发表于 2014-5-18 20:17
这种只能用插件处理或者在发布接口里处理了

意思是使用PHP过滤掉空行信息吗?
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-15 07:18

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表