有没有办法将采集为空的标签不进行发布?
例如我采集一个页面的文章..但因为有些标签在某些文章中并不完全适用...会有些标签采集不到数据..有没有办法让这个标签在发布的时候过滤掉?就是如果这个标签采集为空..则不进行发布..其他能采集到标签的则正常发布? http://faq.locoy.com/q-936.html 303718 发表于 2014-5-18 12:02 static/image/common/back.gifhttp://faq.locoy.com/q-936.html
我的意思不是把整条数据标记为未采...而是仅仅针对那个标签不进行发布..其他能采集到的标签正常发布..
如图..红框里的标签使用了多页采集...
每个标签对应一个多页...
用固定的子串符把标签组合起来,得到一个完整的数据...
但问题来了...因为不是每一条数据都有那么多页面能按照这个规则采到所有数据..
http://www.youku.com/show_page/id_zd23b0d06bee511e3b8b7.html
这个页面其实只有http://www.youku.com/show_episode/id_zd23b0d06bee511e3b8b7.html这里能采集到数据...
http://www.youku.com/show_episode/id_zd23b0d06bee511e3b8b7.html?dt=json&divid=reload_101以后其实都是采集不到的...于是返回了空值...
那么能否仅仅针对这些采集不到的标签进行发布...而播放地址100和其他的则正常发布呢? 303718 发表于 2014-5-18 12:02 static/image/common/back.gif
http://faq.locoy.com/q-936.html
如果设置了内容不得为空的话,就会把整条数据都标记为未采..而不发布...但其实那个数据是真实有效的..只是没有那么多页面而已...
如果按正常采集发布是没问题..但发布后采集不到的标签会自动为一个空行...而程序是按照换行来识别每一条数据...
这些空行就是那些没有采集到的标签导致的.. 这种只能用插件处理或者在发布接口里处理了 303718 发表于 2014-5-18 20:17 static/image/common/back.gif
这种只能用插件处理或者在发布接口里处理了
意思是使用PHP过滤掉空行信息吗?
页:
[1]