气吞万里如虎 发表于 2008-7-12 15:28:39

大家看一下这个网站如何采集

http://www.sdggc.com/ 这个钢材网帮我看一下这个网站的标题和内容应该如何截取吗?这是我有史以来见过最难写规则的一个站了,内容很难采,达人求教了。

soarb 发表于 2008-7-12 16:46:11

全站采集?还是采某个栏目?

气吞万里如虎 发表于 2008-7-12 17:31:08

采集整个站点,能帮忙吗?规则我研究了三天也摸不透,大家都帮我看看。我会感谢你们的。:ali10ls

siting 发表于 2008-7-12 17:53:07

楼主,说清楚你的采集意图,我没明白你的意思
是一个栏目,一个栏目的采集吗?

siting 发表于 2008-7-12 17:55:27

如果采集这个页面:http://www.sdggc.com/html/price/2008711016.htm
通过源代码可看到<title>内容为:
<title>上海无缝管价格下降100元 - 钢管|无缝钢管|无缝管-聊城盛大金属有限公司-电话:0635-2117751</title>
那么你可以这样设置规则:
<title>* - 钢管|无缝钢管|无缝管-聊城盛大金属有限公司-电话:0635-2117751</title>
:lol
其内容部分也很简单,你学着自己想吧:)

气吞万里如虎 发表于 2008-7-14 09:10:45

楼上的谢谢你的回复!标题是截取出来了。其实最难采集的是内容区域,内容根本就截取不到,怎么截在测试栏中显示的都是一大堆代码,楼上的如果能截取到内容麻烦你发个代码过来,谢谢你了。

siting 发表于 2008-7-14 17:51:39

朋友,很难吗,那天看到你发的这个帖子,我随机打开了一个目标网页,
原本以为有多难,结果根本就没经过思考,按照很常规的方法,按部就搬地,就测试成功.

我怀疑你没有动脑筋,或者完全不会写规则,
内容部分的规则,你自己实践吧。
页: [1]
查看完整版本: 大家看一下这个网站如何采集