什样采集文章内容中的图片地址?
什样采集文章内容中的图片地址?意思就是内容标签中提取图片地址,或其它有用的HTML标记。 正则过滤就可以了 本帖最后由 jmkp100 于 2012-4-4 22:41 编辑negatlov 发表于 2012-4-4 20:45 static/image/common/back.gif
正则过滤就可以了
问题是什样确定是文章的正文图片。如果直接用正则就会采集到文章正文以外的图片地址。正则只是对内容页整页采集。如果这样正文外的也匹配采集不合要求的。
重点是正文内的图片地址,并不是内容页的整个页面的图片地址。
页:
[1]