WinMain 发表于 2009-6-6 17:29:45

好复杂的采集啊,求救。。

老板要我们人工录入5000多条信息,要累死人了,但是我从类似网站 'or'' 进入后台,发现他们的数据已经躺在那里等着我采集了,可是研究了半天也没弄懂该怎么弄,哈哈,看过教程了,只是觉得我这种采集比较特殊。

    1、因为数据在后台,所以要登陆后再采集

    2、他就一个asp文件,也就是新闻管理页,就是那个列出了所有文章的标题,后面有个修改,有个删除的那一页,有分页,如织梦的content_list.php

    3、这个新闻管理页面他的代码是这样的:

   <form name="form2" method="post" action="ctrl_pro_edit.asp?id=8300">
<input type="hidden" name="id" value="8300">
      <td width="44%" height="25" align="left" valign="middle" bgcolor="#FFFFFF">&nbsp;&nbsp;名称:
      <input type="text" name="bigclassname" value="成裕">
&nbsp; </td>
   <td width="12%" align="center" valign="middle" bgcolor="#FFFFFF">字母:C</td>
   <td width="19%" align="center" valign="middle" bgcolor="#FFFFFF">所属月份:2009年6月号</td>
   <td width="19%" align="center" valign="middle" bgcolor="#FFFFFF"><input type="Submit" name="Submit2" value="修改" style="border-left:1px solid;border-right:1px solid;border-top:1px solid;border-bottom:1px solid;"><input type="hidden" name="ye" value="不选">
   <input type="hidden" name="pro" value="67">   </td>
      <td width="6%" height="25" align="center" valign="middle" bgcolor="#FFFFFF">
   <a href="?info=8300&pimg=upfile/productimg/20096616591615829.jpg&active=del">
   
   删除</a>   </td>
</form></tr>

<form name="form2" method="post" action="ctrl_pro_edit.asp?id=8299">
<input type="hidden" name="id" value="8299">
      <td width="44%" height="25" align="left" valign="middle" bgcolor="#FFFFFF">&nbsp;&nbsp;名称:
      <input type="text" name="bigclassname" value="长兴">
&nbsp; </td>
   <td width="12%" align="center" valign="middle" bgcolor="#FFFFFF">字母:C</td>
   <td width="19%" align="center" valign="middle" bgcolor="#FFFFFF">所属月份:2009年6月号</td>
   <td width="19%" align="center" valign="middle" bgcolor="#FFFFFF"><input type="Submit" name="Submit2" value="修改" style="border-left:1px solid;border-right:1px solid;border-top:1px solid;border-bottom:1px solid;"><input type="hidden" name="ye" value="拉页">
   <input type="hidden" name="pro" value="67">   </td>
      <td width="6%" height="25" align="center" valign="middle" bgcolor="#FFFFFF">
   <a href="?info=8299&pimg=upfile/productimg/20096616574414818.jpg&active=del">
   
   删除</a>   </td>
</form></tr>

<form name="form2" method="post" action="ctrl_pro_edit.asp?id=8298">
<input type="hidden" name="id" value="8298">
      <td width="44%" height="25" align="left" valign="middle" bgcolor="#FFFFFF">&nbsp;&nbsp;名称:
      <input type="text" name="bigclassname" value="长兴">
&nbsp; </td>
   <td width="12%" align="center" valign="middle" bgcolor="#FFFFFF">字母:C</td>
   <td width="19%" align="center" valign="middle" bgcolor="#FFFFFF">所属月份:2009年6月号</td>
   <td width="19%" align="center" valign="middle" bgcolor="#FFFFFF"><input type="Submit" name="Submit2" value="修改" style="border-left:1px solid;border-right:1px solid;border-top:1px solid;border-bottom:1px solid;"><input type="hidden" name="ye" value="不选">
   <input type="hidden" name="pro" value="67">   </td>
      <td width="6%" height="25" align="center" valign="middle" bgcolor="#FFFFFF">
   <a href="?info=8298&pimg=upfile/productimg/20096616561556149.jpg&active=del">
   
   删除</a>   </td>
</form>

就是说我要采集的东西都在这一个文件里,他又是内容页又是列表页,而且要登陆后才能查看,还要下载最后的红色字体标注的图片。。。。。。。。。

研究了好几个小时了,郁闷啊。。。。

有没有高手能帮忙解答下?

乌龙茶 发表于 2009-6-6 17:54:27

和你一样啊。

kjmdiba 发表于 2009-6-6 18:23:56

1.采集网址深度为0, 列表页就是内容页.
2.登陆就自己搞定了.
3.标签设置选上循环匹配.
4.下载图片, 修改这个标签, 用正则匹配内容(选上循环匹配). 组合出可以下载的图片链接格式.

soarb 发表于 2009-6-6 19:41:51

如果没有post对你来说问题不大。

langford 发表于 2009-6-7 11:01:24

楼上有人说明的很详细了哦!!

WinMain 发表于 2009-6-8 17:10:55

感谢楼上的各位,特别是 kjmdiba
我已经按照提示成功采集并且入库,但是问题又来了
1、在第二步“采集内容规则”标签中“采集页面测试”中成功的到图片地址并且正确下载,但是真正采集的时候就没有任何文件下载
2、现在可以正确采集并且正确入库,但是无法正确WEB发布,也没有任何提示,只是到最后的时候显示个所有数据发布成功,我看过了,未审核稿件是0,另外我已经正确配置了WEB发布模块并且成功发布了测试文章,在发布任务之前也重新登陆过后台获取最新Cookies,就是不能发布,好是郁闷

还求高手解答。。谢谢

langford 发表于 2009-6-8 20:57:39

火车头重启一下!!实在不行电脑重启一下!!也许有效果!!

wdkey 发表于 2009-6-9 10:14:15

发布模块有问题

rq204 发表于 2009-6-9 10:39:19

如果测试可以下载但实际不能下载,可能是你用了收费版本的功能了.就需要使用付费版本进行采集了.
页: [1]
查看完整版本: 好复杂的采集啊,求救。。