faunus 发表于 2008-9-30 18:50:31

2008版本采集地址时的失误及个人建议10/1

批量/多页 + POST 方式
只有第一个地址能能够解析属二级地址
见后:

[ 本帖最后由 faunus 于 2008-10-1 00:05 编辑 ]

winslow 发表于 2008-9-30 21:14:41

每个人都可以把责任推到程序的身上.

faunus 发表于 2008-9-30 23:08:13

原帖由 winslow 于 2008-9-30 21:14 发表 http://bbs.locoy.com/images/common/back.gif
每个人都可以把责任推到程序的身上.
==============1============
我会遵重作者的贡献,才会提出意见,部分测试结果己经作为BUG上传。
我在发表意见前,己经做过了很多验证,
我并未把责任推在程序的身上,相反你可以在指责别人之前,可以先负责任地测试下一下。
==============2============
条件:免费版,采集网址深度1
-------------------------------------------------------------
情况一:单条网址
输入:网址+POST[分页1~N]
输出:
+[分页1]网址
网址1~X1
+[分页2]网址
网址1~X2
......
+[分页n]网址
网址1~Xn
说明:这种情况下似乎没有问题
--------------------------------------------------
情况二:多条网址
输入:网址+POST[分页1~m]
输出:
+网址1
网址1~Xn
+网址2(实为网址1)
网址1~X2
......
+网址n(实为网址1)
网址1~Xn
说明:
这种情况下问题就来了
第一个是错误:在多网址情况下,仅仅只有第一个网址在起作用,显示上没错网址2~网址n,实际上全是网址1在配合POST2~POSTm
第二个是原理:按理说不同的网址,配合不同的分页条件,加上每页得到的结果是三个层次的内容。但是经过组合测试验证了作者可能本意是想用网址i来配合post[分页i]来得到第一层的页面条件。最直观的试验是,当m<n时,起作用的是前m个网址(当然如第一点所述这个也是错的);当m>n时候作用的只有前n个。
第三个是猜测:也许作者本人很明白,本来POST只是作用在单网址下包含多分页的情况下使作,其它的要作扩展,必须破坏这部分的风格,需要设计更加灵活的界面。
第四个是灵活使用:(1)“分页”其实并非真的只用于分页,其实在POST当中可以用作任一参数。(2)“参数”也可以在前后进行加一些字符的简单改造,也可以让参数多次出现,并非只是参数而己。(3)在第一个错误可以改正的情况下,可以将GET和POST方式混合使用,这种方案还是常见的,尤其中一些STRUS架构下,偷懒的程序员常干的事情。(4)把需要POST方式,本来又是针对页面的采集作为采集网址深度0来考虑的,可以将其内容作为手工设置地址来获得,再将地址倒出后自行分拆。(5)由于只有一个[参数]可用,回旋的余地比较下,更好的用法见“建议”部分。

[ 本帖最后由 faunus 于 2008-9-30 23:34 编辑 ]

faunus 发表于 2008-10-1 00:01:49

======
关于界面
======
首先申明一下,作者在这个领域还是最棒的,不好意思,只看了这个下,至少网上查下来基本上是这样的,不排除我自己写一个^_^。
获得网页内容是最核心的部分,却还不是最困难的。
运行效率,延伸功能,及得易用性是最有价值的部分。
----------------
声明:我使用的第一个这种软件,前一阶段注册的,
也就最近在研究这个好东东,
对整个软件处于一知半解的状态,
又比较懒的去一项项了解,
所以观点必有局限提一点感觉吧。
===========================
1、处理“界面”上似乎复杂了点,初上手的感觉是晕呼呼的。
2、至少对我这样的初手来说,帮助还是草了点,不展开了,走了不少弯路。
3、有多非“常规的”典型案例处理不了,我可以理解,绝非技术上的原因,还是“流程”的交互上。
4、输出方式,还可以更加的灵活多样。
============谈谈我对交互“界面”的期望======
1、您的东西界于“复杂”和“简单”之间,处理简单的CASE比较简单,处理复杂的CASE太复杂了,还可能力不从心。
2、我的想法,可以搞两~三种模式。
简点模式:采用图分步聚导航式。
高级模式:脚本化(类似于EXCEL下的宏)/程图式(类似于SQL2005的SSIS)
命令行式:像isql那样。
3、反正己经用了.net2了,图形非富的很,可以漂亮的一点,绿色也不是一定要的,干脆再了个命令行式。
4、想表达的真正重要的意思是可以适应组给的流程(只是组合,不等同于复杂,无获取技术上的困难),比如很多情况下我得到了页面,点击后出来验证码,也可取到,再输入验证码,得到真正需要的而,也许是别的多个分支的情况。

[ 本帖最后由 faunus 于 2008-10-1 00:04 编辑 ]

火车头 发表于 2008-10-13 14:38:05

看过您的建议,在处理POST上的确有这样的问题。
也正如你所说的那样,基于POST方式流程的不一样,界面的操作上就和其他的有了冲突。没有找到一个好的结合点
做起这方面规则起来比较麻烦

你所说的交互界面的方式考虑采纳
页: [1]
查看完整版本: 2008版本采集地址时的失误及个人建议10/1