什样采集文章内容中的图片地址？

jmkp100 发表于 2012-4-4 17:48:33

什样采集文章内容中的图片地址？意思就是内容标签中提取图片地址，或其它有用的HTML标记。

negatlov 发表于 2012-4-4 20:45:18

正则过滤就可以了

jmkp100 发表于 2012-4-4 22:40:45

本帖最后由 jmkp100 于 2012-4-4 22:41 编辑

negatlov 发表于 2012-4-4 20:45 static/image/common/back.gif
正则过滤就可以了

问题是什样确定是文章的正文图片。如果直接用正则就会采集到文章正文以外的图片地址。正则只是对内容页整页采集。如果这样正文外的也匹配采集不合要求的。

重点是正文内的图片地址，并不是内容页的整个页面的图片地址。

页: [1]

火车采集器软件交流官方论坛's Archiver

什样采集文章内容中的图片地址？