怎么采集一个网页的全部内容
大家好!由于被采集的页面,是纯内容的,也没有固定的标签,使用“正文提取”功能,是可以,但不一定完整,也就是说此功能的标签有限,只适合版本页面比较固定的,例如以下页面,以下页面使用标签是可以提取完,但与其相同列表中其它的页面,标签又与以下页面不同,所以没法在一个任务里完成,谢谢!
http://ml.smzfcg.gov.cn/n/noticemgr/query-viewcontentfj.do?noticeId=08C2FEB5C1B74738A86B23B5DB504DEB
也就是说,一个列表里,所有的内容页面,我都在不设置固定标签的情况下,从头到尾的采集这个页面的全部,有知道的吗?谢谢!我测过,开头可以用 (*),可结尾呢? 麻烦管理员快点审核,这都一个多小时了,比较着急,在线等呢!谢谢! 没问题啊,直接正则提取 ahuihome 发表于 2016-6-14 17:24
没问题啊,直接正则提取
“正则提取”还是“正文提取”,正文提取,提取的是页面中的正文内容,但我指的是,整个页面的全部,好比是<html>开始,到</html>结束,一个意思,只是这个页面不规则,没有<html>这样的标签 本帖最后由 ahuihome 于 2016-6-24 11:36 编辑
你说的是全部采集网页内容,包括代码吧?
是这样吧?
正则^(?<content>[\s\S]*?)$
对对对,太感谢了,真是大神啊!!感动中…………太好了,谢谢!
页:
[1]