18# tanyingxin
采集这样的网站,自然包括他的整个页面的代码,图片 文字等。 单独采文字,你自己手动标签屏蔽 替换一下、
如果这个规则达不到你的要求,那请你自己看下准规则的写法正规提取 应完全可以做到。
前两天回帖子回到楼主你另一个帖去了。。
现在才找准地方{:4_195:} ..
这个才是正文页喔。(http://edu.qq.com/a/20080519/000134.htm )
http://edu.qq.com/a/20080519/000134_1.htm 这个是第二页了。
另一个帖子规则不行啊。。。请再帮忙看看吧。我也只有一节车厢,给你吧 哈哈
达人 小弟的 分页问题可否解决下
http://bbs.locoy.com/spider-45264-1-1.html
本帖最后由 hl3653h 于 2009-11-4 12:18 编辑
楼上已解决 {:4_180:}
本帖最后由 aimeideqier 于 2009-11-5 20:35 编辑
慧聪单页面规则,我不会采图片。郁闷的。
http://b2b.hc360.com/supplyself/40026420.html#1
我想采
1。标题
2。图片(主要这个 不会采)不需要下载到本地,只要获取到图片地址就行。
3。内容
可以了。谢谢
25# aimeideqier
我没看到图片 老大!搞的我一头雾水!
25# aimeideqier
内容和联系放系 图片都能采集,只要碰到图片就能采集 不会本地:你可以下载测试我的是火车头2009
本帖最后由 aimeideqier 于 2009-11-6 10:10 编辑
楼主好,非常感谢你的支持,我说的图片是指。。。产品左上角不是有个略图吗?点进去还有个大图,你帮我写的规则采不到左上角的产品图呢。我说的图是这个。请再帮我弄弄好吗?
很感谢楼主,左上角的缩图我已经采下来了,原来是用替换
用正规匹配内容
<img id=focpic style="FILTER: RevealTrans ( duration = 1,transition=100 );align="absmiddle"
src="[参数]"/>
组合内容为:
[参数1]
我不知道要怎么给你火车厢。我只有一节。你教我,我送你。
本帖最后由 caidong 于 2009-11-7 13:17 编辑
4# divid
大侠,能不能看一下这个地址,帮写个规则。
http://foodcert.cnca.cn/foodcertWeb/web/certSearch.jsp
1、要能得到首页“证书列表”中的信息,如证书号、企业名称、省份等。
2、要能得到下一页中关于某个企业的详细信息,如认证范围、认证依据等。
非常感谢。
补充一下,我用的是2009 sp4 火车头。
29# caidong 好了 内容其他代码自己标签排除 屏蔽一下,我全选就好了 因为那样就没有格式了 看不得、
你想要就自己替换代码就OK 了, 我只采集了 5页 你想全部采集 就添加600页就好了!