jmkp100 发表于 2012-4-4 17:48:33

什样采集文章内容中的图片地址?

什样采集文章内容中的图片地址?意思就是内容标签中提取图片地址,或其它有用的HTML标记。

negatlov 发表于 2012-4-4 20:45:18

正则过滤就可以了

jmkp100 发表于 2012-4-4 22:40:45

本帖最后由 jmkp100 于 2012-4-4 22:41 编辑

negatlov 发表于 2012-4-4 20:45 static/image/common/back.gif
正则过滤就可以了

问题是什样确定是文章的正文图片。如果直接用正则就会采集到文章正文以外的图片地址。正则只是对内容页整页采集。如果这样正文外的也匹配采集不合要求的。

重点是正文内的图片地址,并不是内容页的整个页面的图片地址。
页: [1]
查看完整版本: 什样采集文章内容中的图片地址?