给大家出个简单的难题
本帖最后由 comcock 于 2011-4-20 19:56 编辑如果是纯汉字或者纯字符的页面大家看下怎么采
http://book.htexam.com/Shop/bookContent.asp?ProductID=1229
不需要过滤,每个页面的内容都直接从头采到尾
看起来很简单,其实很难。 ali74ls用正则就行了呀 正则不行,没有开始字符和结束字符,怎么写正则 啥规则都不用,直接把这个网址,放到火车头自带的任务规则中采集。见图吧
PS:采集还是要结合你的目标吧,这么把任务孤立提取出来玩,也没必要吧。看了一下楼主提供的网站,还不至于被逼到用这个网址才能采集吧。
页:
[1]