火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2818|回复: 4

2008版本采集地址时的失误及个人建议10/1

[复制链接]
发表于 2008-9-30 18:50:31 | 显示全部楼层 |阅读模式
批量/多页 + POST 方式
只有第一个地址能能够解析属二级地址
见后:

[ 本帖最后由 faunus 于 2008-10-1 00:05 编辑 ]
发表于 2008-9-30 21:14:41 | 显示全部楼层
每个人都可以把责任推到程序的身上.
 楼主| 发表于 2008-9-30 23:08:13 | 显示全部楼层
原帖由 winslow 于 2008-9-30 21:14 发表
每个人都可以把责任推到程序的身上.

==============1============
我会遵重作者的贡献,才会提出意见,部分测试结果己经作为BUG上传。
我在发表意见前,己经做过了很多验证,
我并未把责任推在程序的身上,相反你可以在指责别人之前,可以先负责任地测试下一下。
==============2============
条件:免费版,采集网址深度1
-------------------------------------------------------------
情况一:单条网址
输入:网址+POST[分页1~N]
输出:
+[分页1]网址
  网址1~X1
+[分页2]网址
  网址1~X2
......
+[分页n]网址
  网址1~Xn
说明:这种情况下似乎没有问题
--------------------------------------------------
情况二:多条网址
输入:网址[1~N]+POST[分页1~m]
输出:
+网址1
  网址1~Xn
+网址2(实为网址1)
  网址1~X2
......
+网址n(实为网址1)
  网址1~Xn
说明:
这种情况下问题就来了
第一个是错误:在多网址情况下,仅仅只有第一个网址在起作用,显示上没错网址2~网址n,实际上全是网址1在配合POST2~POSTm
第二个是原理:按理说不同的网址,配合不同的分页条件,加上每页得到的结果是三个层次的内容。但是经过组合测试验证了作者可能本意是想用网址i来配合post[分页i]来得到第一层的页面条件。最直观的试验是,当m<n时,起作用的是前m个网址(当然如第一点所述这个也是错的);当m>n时候作用的只有前n个。
第三个是猜测:也许作者本人很明白,本来POST只是作用在单网址下包含多分页的情况下使作,其它的要作扩展,必须破坏这部分的风格,需要设计更加灵活的界面。
第四个是灵活使用:(1)“分页”其实并非真的只用于分页,其实在POST当中可以用作任一参数。(2)“参数”也可以在前后进行加一些字符的简单改造,也可以让参数多次出现,并非只是参数而己。(3)在第一个错误可以改正的情况下,可以将GET和POST方式混合使用,这种方案还是常见的,尤其中一些STRUS架构下,偷懒的程序员常干的事情。(4)把需要POST方式,本来又是针对页面的采集作为采集网址深度0来考虑的,可以将其内容作为手工设置地址来获得,再将地址倒出后自行分拆。(5)由于只有一个[参数]可用,回旋的余地比较下,更好的用法见“建议”部分。

[ 本帖最后由 faunus 于 2008-9-30 23:34 编辑 ]
 楼主| 发表于 2008-10-1 00:01:49 | 显示全部楼层
======
关于界面
======
首先申明一下,作者在这个领域还是最棒的,不好意思,只看了这个下,至少网上查下来基本上是这样的,不排除我自己写一个^_^。
获得网页内容是最核心的部分,却还不是最困难的。
运行效率,延伸功能,及得易用性是最有价值的部分。
----------------
声明:我使用的第一个这种软件,前一阶段注册的,
也就最近在研究这个好东东,
对整个软件处于一知半解的状态,
又比较懒的去一项项了解,
所以观点必有局限提一点感觉吧。
===========================
1、处理“界面”上似乎复杂了点,初上手的感觉是晕呼呼的。
2、至少对我这样的初手来说,帮助还是草了点,不展开了,走了不少弯路。
3、有多非“常规的”典型案例处理不了,我可以理解,绝非技术上的原因,还是“流程”的交互上。
4、输出方式,还可以更加的灵活多样。
============谈谈我对交互“界面”的期望======
1、您的东西界于“复杂”和“简单”之间,处理简单的CASE比较简单,处理复杂的CASE太复杂了,还可能力不从心。
2、我的想法,可以搞两~三种模式。
简点模式:采用图分步聚导航式。
高级模式:脚本化(类似于EXCEL下的宏)/程图式(类似于SQL2005的SSIS)
命令行式:像isql那样。
3、反正己经用了.net2了,图形非富的很,可以漂亮的一点,绿色也不是一定要的,干脆再了个命令行式。
4、想表达的真正重要的意思是可以适应组给的流程(只是组合,不等同于复杂,无获取技术上的困难),比如很多情况下我得到了页面,点击后出来验证码,也可取到,再输入验证码,得到真正需要的而,也许是别的多个分支的情况。

[ 本帖最后由 faunus 于 2008-10-1 00:04 编辑 ]
发表于 2008-10-13 14:38:05 | 显示全部楼层
看过您的建议,在处理POST上的确有这样的问题。
也正如你所说的那样,基于POST方式流程的不一样,界面的操作上就和其他的有了冲突。没有找到一个好的结合点
做起这方面规则起来比较麻烦

你所说的交互界面的方式考虑采纳
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 17:59

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表