ttdms 发表于 2014-5-18 05:16:49

有没有办法将采集为空的标签不进行发布?

例如我采集一个页面的文章..但因为有些标签在某些文章中并不完全适用...会有些标签采集不到数据..有没有办法让这个标签在发布的时候过滤掉?就是如果这个标签采集为空..则不进行发布..其他能采集到标签的则正常发布?

303718 发表于 2014-5-18 12:02:33

http://faq.locoy.com/q-936.html

ttdms 发表于 2014-5-18 19:53:57

303718 发表于 2014-5-18 12:02 static/image/common/back.gif
http://faq.locoy.com/q-936.html

我的意思不是把整条数据标记为未采...而是仅仅针对那个标签不进行发布..其他能采集到的标签正常发布..



如图..红框里的标签使用了多页采集...



每个标签对应一个多页...



用固定的子串符把标签组合起来,得到一个完整的数据...

但问题来了...因为不是每一条数据都有那么多页面能按照这个规则采到所有数据..



http://www.youku.com/show_page/id_zd23b0d06bee511e3b8b7.html
这个页面其实只有http://www.youku.com/show_episode/id_zd23b0d06bee511e3b8b7.html这里能采集到数据...

http://www.youku.com/show_episode/id_zd23b0d06bee511e3b8b7.html?dt=json&divid=reload_101以后其实都是采集不到的...于是返回了空值...

那么能否仅仅针对这些采集不到的标签进行发布...而播放地址100和其他的则正常发布呢?

ttdms 发表于 2014-5-18 20:04:41

303718 发表于 2014-5-18 12:02 static/image/common/back.gif
http://faq.locoy.com/q-936.html

如果设置了内容不得为空的话,就会把整条数据都标记为未采..而不发布...但其实那个数据是真实有效的..只是没有那么多页面而已...



如果按正常采集发布是没问题..但发布后采集不到的标签会自动为一个空行...而程序是按照换行来识别每一条数据...



这些空行就是那些没有采集到的标签导致的..

303718 发表于 2014-5-18 20:17:54

这种只能用插件处理或者在发布接口里处理了

ttdms 发表于 2014-5-18 20:20:43

303718 发表于 2014-5-18 20:17 static/image/common/back.gif
这种只能用插件处理或者在发布接口里处理了

意思是使用PHP过滤掉空行信息吗?
页: [1]
查看完整版本: 有没有办法将采集为空的标签不进行发布?