采集内容不去掉要求的开始结束字符串及图片的问题,js代码采集,不确定页数多页采集
我采集一个内容,内容开始位<table class="content"><tr>......</tr></table>我在采集设置的时候开始字符串设置<table class="content">,结束字符串设置</table>,结果发现采集<tr>......</tr>之间的内容把前面的去掉了,我要求保留前面的,如何操作。
再一个问题,我采集的的一个图片为一个JS代码,例如openimage('11233444'),其中的openimage为JS的函数,11233444为参数,我仔细看了下,其实这个参数就是图片名字,网站会弹出一个网页,然后显示图片,弹出的网页是http://www.abc.com/images/11233444.jpg,请问我如何根据采集到的11233444补全,成http://www.abc.com/images/11233444.jpg,然后将图片下载
还有一个问题。我在内容页中有一个尺寸的内容采集,但这个尺寸位一个下拉框,商品不同下拉框的项不同,选择了下拉后会弹出一个页面,然后在新的页面中有尺寸的介绍。我如何将不确定个数的下拉框中的连接读出,然后去读出的页面采集内容,最后得到内容的值,返回,存入库中。
问题较多,感谢 自己顶一下,继续求助 还是没人回复啊,继续求助 顶,求助求助求助求助求助求助 第一个问题:将采集内容的开始和结束标签重新设置或用正则
第二个问题:要知道图片的真实地址,获取那个参数用正则匹配出图片地址
第三个问题:采用多页采集,在源代码中分析出尺寸的介绍页面
页:
[1]