发新话题
打印

[3.2版] 大家看一下这个网站如何采集

大家看一下这个网站如何采集

http://www.sdggc.com/ 这个钢材网帮我看一下这个网站的标题和内容应该如何截取吗?这是我有史以来见过最难写规则的一个站了,内容很难采,达人求教了。

TOP

全站采集?还是采某个栏目?
专踩牛B站,js封装,flash调用,多重防踩;定制智能采集接口,自动化接口,数据翻译,伪原创策略组合,价格比对,验证码识别,口碑等图片样式电话识别。。。。QQ:肆零肆叁叁肆捌玖柒(最低消费200元)

TOP

采集整个站点,能帮忙吗?规则我研究了三天也摸不透,大家都帮我看看。我会感谢你们的。

TOP

楼主,说清楚你的采集意图,我没明白你的意思
是一个栏目,一个栏目的采集吗?

TOP

如果采集这个页面:http://www.sdggc.com/html/price/2008711016.htm
通过源代码可看到<title>内容为:
<title>上海无缝管价格下降100元 - 钢管|无缝钢管|无缝管-聊城盛大金属有限公司-电话:0635-2117751</title>
那么你可以这样设置规则:
<title>* - 钢管|无缝钢管|无缝管-聊城盛大金属有限公司-电话:0635-2117751</title>

其内容部分也很简单,你学着自己想吧:)

TOP

楼上的谢谢你的回复!标题是截取出来了。其实最难采集的是内容区域,内容根本就截取不到,怎么截在测试栏中显示的都是一大堆代码,楼上的如果能截取到内容麻烦你发个代码过来,谢谢你了。

TOP

朋友,很难吗,那天看到你发的这个帖子,我随机打开了一个目标网页,
原本以为有多难,结果根本就没经过思考,按照很常规的方法,按部就搬地,就测试成功.

我怀疑你没有动脑筋,或者完全不会写规则,
内容部分的规则,你自己实践吧。

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.189556 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-12-2 00:35 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档