大家看一下这个网站如何采集
http://www.sdggc.com/ 这个钢材网帮我看一下这个网站的标题和内容应该如何截取吗?这是我有史以来见过最难写规则的一个站了,内容很难采,达人求教了。 全站采集?还是采某个栏目? 采集整个站点,能帮忙吗?规则我研究了三天也摸不透,大家都帮我看看。我会感谢你们的。:ali10ls 楼主,说清楚你的采集意图,我没明白你的意思是一个栏目,一个栏目的采集吗? 如果采集这个页面:http://www.sdggc.com/html/price/2008711016.htm
通过源代码可看到<title>内容为:
<title>上海无缝管价格下降100元 - 钢管|无缝钢管|无缝管-聊城盛大金属有限公司-电话:0635-2117751</title>
那么你可以这样设置规则:
<title>* - 钢管|无缝钢管|无缝管-聊城盛大金属有限公司-电话:0635-2117751</title>
:lol
其内容部分也很简单,你学着自己想吧:) 楼上的谢谢你的回复!标题是截取出来了。其实最难采集的是内容区域,内容根本就截取不到,怎么截在测试栏中显示的都是一大堆代码,楼上的如果能截取到内容麻烦你发个代码过来,谢谢你了。 朋友,很难吗,那天看到你发的这个帖子,我随机打开了一个目标网页,
原本以为有多难,结果根本就没经过思考,按照很常规的方法,按部就搬地,就测试成功.
我怀疑你没有动脑筋,或者完全不会写规则,
内容部分的规则,你自己实践吧。
页:
[1]