创意达人控 发表于 2016-5-31 14:24:48

怎么采集一个网页的全部内容

大家好!

由于被采集的页面,是纯内容的,也没有固定的标签,使用“正文提取”功能,是可以,但不一定完整,也就是说此功能的标签有限,只适合版本页面比较固定的,例如以下页面,以下页面使用标签是可以提取完,但与其相同列表中其它的页面,标签又与以下页面不同,所以没法在一个任务里完成,谢谢!

http://ml.smzfcg.gov.cn/n/noticemgr/query-viewcontentfj.do?noticeId=08C2FEB5C1B74738A86B23B5DB504DEB

创意达人控 发表于 2016-5-31 14:28:30

也就是说,一个列表里,所有的内容页面,我都在不设置固定标签的情况下,从头到尾的采集这个页面的全部,有知道的吗?谢谢!我测过,开头可以用 (*),可结尾呢?

创意达人控 发表于 2016-5-31 15:41:08

麻烦管理员快点审核,这都一个多小时了,比较着急,在线等呢!谢谢!

ahuihome 发表于 2016-6-14 17:24:20

没问题啊,直接正则提取

liuyunfei 发表于 2016-6-20 11:19:42

ahuihome 发表于 2016-6-14 17:24
没问题啊,直接正则提取

“正则提取”还是“正文提取”,正文提取,提取的是页面中的正文内容,但我指的是,整个页面的全部,好比是<html>开始,到</html>结束,一个意思,只是这个页面不规则,没有<html>这样的标签

ahuihome 发表于 2016-6-24 11:15:15

本帖最后由 ahuihome 于 2016-6-24 11:36 编辑

你说的是全部采集网页内容,包括代码吧?


是这样吧?


正则^(?<content>[\s\S]*?)$

liuyunfei 发表于 2016-6-27 15:50:32

对对对,太感谢了,真是大神啊!!感动中…………太好了,谢谢!
页: [1]
查看完整版本: 怎么采集一个网页的全部内容