发新话题
打印

[3.2版] XML数据采集网址规则如何写

一个小问题就是没人回答  哎

TOP

我也有同样的问题

TOP

多多的去论坛里面去看教程,看别人的经验,看别人的作品,我想多看了你们是会提高的。
附件里面是我刚做的,你们看看,照这样设置就能采集到了。
附件: 您所在的用户组无法下载或查看附件

TOP

昨晚弄了一个晚上没有成功,希望再指点下,目标地址:http://union.xunlei.com/voddata/xml/movieinfo/update/2008/20080814.xml
单个地址
内容采集成功,能采到设定标签的内容
采集网址规则不成功,获不到二级地址

启动采集不成功,我使用的是2008版 启动采集提示:
采网址--下载并分析No.1 页: http://union.xunlei.com/voddata/xml/movieinfo/update/2008/20080814.xml
当前获取网址深度为1,线程池内所有线程线程空闲,采集网址工作全部完成,共采集网址0条,其中重复0实际0条...
直接跳过采集内容,进入发布内容步骤
无需发布内容,任务全部完成
无需发布内容,任务全部完成

TOP

chenfy
能帮我写一个吗?

TOP

引用:
原帖由 lml520 于 2008-8-16 07:07 发表
昨晚弄了一个晚上没有成功,希望再指点下,目标地址:http://union.xunlei.com/voddata/xml/movieinfo/update/2008/20080814.xml
单个地址
内容采集成功,能采到设定标签的内容
采集网址规则不成功,获不到二级地 ...
  首先你要先说明你是要哪个版块的,像http://union.xunlei.com/voddata/xml/movieinfo/update/2008/20080814.xml
这个网址是采集不了,然后我退到http://union.xunlei.com这个网址里面又没有看到比较有用的,所以,你是要采集哪个版块,如果你连哪个版块都不知道,让别人怎么帮你呢

TOP

引用:
原帖由 chenfy 于 2008-8-16 11:35 发表



      首先你要先说明你是要哪个版块的,像http://union.xunlei.com/voddata/ ... e/2008/20080814.xml
这个网址是采集不了,然后我退到http://union.xunlei.com这个网址里面又没有看到比较有 ...
首先感谢 chenfy  你的回复
我采集的是PHPCMS 2007 sp6 电影频道的内容 采集器火车头2008版 目标是一个xml里的内容:
http://union.xunlei.com/voddata/xml/movieinfo/all.xml  (迅雷电影总片库列表)
http://union.xunlei.com/voddata/xml/movieinfo/update/2008/20080813.xml (迅雷电影按日期更新列表)
http://union.xunlei.com/voddata/xml/movieinfo/update/2008/20080814.xml (迅雷电影按日期更新列表)
http://union.xunlei.com/voddata/xml/movieinfo/update/2008/20080815.xml (迅雷电影按日期更新列表)
以次类推。。。
我想把20080814.xml内的内容,添加入PHPCMS SP6电影频道

[ 本帖最后由 lml520 于 2008-8-16 23:40 编辑 ]

TOP

引用:
原帖由 lml520 于 2008-8-16 23:38 发表



首先感谢 chenfy  你的回复
我采集的是PHPCMS 2007 sp6 电影频道的内容 采集器火车头2008版 目标是一个xml里的内容:
http://union.xunlei.com/voddata/xml/movieinfo/all.xml  (迅雷电影总片库列表)
http: ...
我还是不明白你这些网址是哪里来的,也就是说你这些网址总不能给人看的时候就是这样的网址吧,你要给我一个网址地址给我,主页,然后再说版块,这样我才能看看怎么去解决啊,你只给xml这样的地址给我,我找到了主页,但里面的内容又不是,只有论坛,我又不知道你要采集哪个版块

TOP

这种网址的采集我也不会耶,多多学习

TOP

这几天做别的事没有到论坛看, chenfy不好意思来晚了。
我采集的就是一个XML里面的内容。
说一下http://union.xunlei.com/voddata/xml/movieinfo/update/2008/20080813.xml的地址及 我采集的目的。
这个地址的是迅雷联盟里面的片库的内容,没有主页就这一个XML页面,迅雷联盟每天都有更新新的电影,更新的电影列在这个xml里面,并已日期形式的xml发布出来。这个XML里面包含了很N条电影信息:电影名称,主演,导演,略图,地址等等信息, 我需要采集xml里面的电影信息,一篇一篇的分类好。然后提交PHPCMS影视模块里。 如果写好规则我只需要每天把地址修改一下就可以采集当天更新的电影,免去手工天加的麻烦。

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.195356 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-12-3 09:05 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档