怎么采集一个网页的全部内容

创意达人控 发表于 2016-5-31 14:24:48

大家好！

由于被采集的页面，是纯内容的，也没有固定的标签，使用“正文提取”功能，是可以，但不一定完整，也就是说此功能的标签有限，只适合版本页面比较固定的，例如以下页面，以下页面使用标签是可以提取完，但与其相同列表中其它的页面，标签又与以下页面不同，所以没法在一个任务里完成，谢谢！

http://ml.smzfcg.gov.cn/n/noticemgr/query-viewcontentfj.do?noticeId=08C2FEB5C1B74738A86B23B5DB504DEB

创意达人控 发表于 2016-5-31 14:28:30

也就是说，一个列表里，所有的内容页面，我都在不设置固定标签的情况下，从头到尾的采集这个页面的全部，有知道的吗？谢谢！我测过，开头可以用（*），可结尾呢？

创意达人控 发表于 2016-5-31 15:41:08

麻烦管理员快点审核，这都一个多小时了，比较着急，在线等呢！谢谢！

ahuihome 发表于 2016-6-14 17:24:20

没问题啊，直接正则提取

liuyunfei 发表于 2016-6-20 11:19:42

ahuihome 发表于 2016-6-14 17:24
没问题啊，直接正则提取

“正则提取”还是“正文提取”，正文提取，提取的是页面中的正文内容，但我指的是，整个页面的全部，好比是<html>开始，到</html>结束，一个意思，只是这个页面不规则，没有<html>这样的标签

ahuihome 发表于 2016-6-24 11:15:15

本帖最后由 ahuihome 于 2016-6-24 11:36 编辑

你说的是全部采集网页内容，包括代码吧？

是这样吧？

正则^(?<content>[\s\S]*?)$

liuyunfei 发表于 2016-6-27 15:50:32

对对对，太感谢了，真是大神啊！！感动中…………太好了，谢谢！

页: [1]

火车采集器软件交流官方论坛's Archiver

怎么采集一个网页的全部内容