采集内容不去掉要求的开始结束字符串及图片的问题，js代码采集，不确定页数多页采集

kyoxiao 发表于 2010-8-15 02:13:33

我采集一个内容，内容开始位<table class="content"><tr>......</tr></table>
我在采集设置的时候开始字符串设置<table class="content">，结束字符串设置</table>,结果发现采集<tr>......</tr>之间的内容把前面的去掉了，我要求保留前面的，如何操作。

再一个问题，我采集的的一个图片为一个JS代码，例如openimage('11233444'),其中的openimage为JS的函数，11233444为参数，我仔细看了下，其实这个参数就是图片名字，网站会弹出一个网页，然后显示图片，弹出的网页是http://www.abc.com/images/11233444.jpg,请问我如何根据采集到的11233444补全，成http://www.abc.com/images/11233444.jpg，然后将图片下载

还有一个问题。我在内容页中有一个尺寸的内容采集，但这个尺寸位一个下拉框，商品不同下拉框的项不同，选择了下拉后会弹出一个页面，然后在新的页面中有尺寸的介绍。我如何将不确定个数的下拉框中的连接读出，然后去读出的页面采集内容，最后得到内容的值，返回，存入库中。

问题较多，感谢

kyoxiao 发表于 2010-8-15 09:45:12

自己顶一下，继续求助

kyoxiao 发表于 2010-8-18 14:54:27

还是没人回复啊，继续求助

kyoxiao 发表于 2010-8-18 18:22:37

顶，求助求助求助求助求助求助

wxl08 发表于 2010-8-19 09:58:34

第一个问题：将采集内容的开始和结束标签重新设置或用正则
第二个问题：要知道图片的真实地址，获取那个参数用正则匹配出图片地址
第三个问题：采用多页采集，在源代码中分析出尺寸的介绍页面

页: [1]

火车采集器软件交流官方论坛's Archiver

采集内容不去掉要求的开始结束字符串及图片的问题，js代码采集，不确定页数多页采集