|
我采集一个内容,内容开始位<table class="content"><tr>......</tr></table>
我在采集设置的时候开始字符串设置<table class="content">,结束字符串设置</table>,结果发现采集<tr>......</tr>之间的内容把前面的去掉了,我要求保留前面的,如何操作。
再一个问题,我采集的的一个图片为一个JS代码,例如openimage('11233444'),其中的openimage为JS的函数,11233444为参数,我仔细看了下,其实这个参数就是图片名字,网站会弹出一个网页,然后显示图片,弹出的网页是 ,请问我如何根据采集到的11233444补全,成 ,然后将图片下载
还有一个问题。我在内容页中有一个尺寸的内容采集,但这个尺寸位一个下拉框,商品不同下拉框的项不同,选择了下拉后会弹出一个页面,然后在新的页面中有尺寸的介绍。我如何将不确定个数的下拉框中的连接读出,然后去读出的页面采集内容,最后得到内容的值,返回,存入库中。
问题较多,感谢 |
|