kjmdiba 发表于 2009-6-4 23:56:55

近期找到采集的一些BUG

本帖最后由 kjmdiba 于 2009-6-5 11:06 编辑

1.采集内容图片(附件没试过)选择下载, 如果地址有错,例如:http//xxx.xx/xx.jpg 绝对地址,少了个符号: 就提示大串英文的错误. (采集测试才提示)

2.也是内容图片下载问题, 如果图片不存在.网站用了404跳转到主页, 火车也会下载这个页面保存为图片文件.

3.有时候分词功能有问题, 分词很乱, 非词语+句子(不是整句).

4.自动更新采集开启,如果设置运行完成注销, 就自动关闭窗口. 如果不选就出现无数个采集窗口, 可以一个任务就一个窗口吗? 作用不大,就是有时想看看采集的结果如何.

5.获取网站验证码,用登录模式, 输入验证码登陆提示验证码错误, 验证码地址后有一个PHP日期格式数字串, 不知道跟这个有关不, 如果是的话验证码地址加上[登陆随机值X]功能呢? 例如:shopex后台登陆.

另外, 喜欢官方的SQL数据编辑(特别是批量替换功能),希望能加强一些, 例如数据排序,批量替换再增强一些,还有修复一下小问题. (例如:直接在数据表处编辑有时候无法保存,部分表项点击无法在下面显示跟编辑.)

还有内容页的替换能加上其他标签[标签:xx]引用吗,呵呵,不知道难不难.

kjmdiba 发表于 2009-6-5 11:04:47

本帖最后由 kjmdiba 于 2009-6-5 11:21 编辑

增加:
1.下载图片附件使用迅雷,如果地址目录用的自定义值, 那样建立的HTML列表没有分开.
   (本下载到不同目录的也混在一起)
   可以按自定义路径来建立目录和生成HTML列表文件吗?

另外希望增加任务可以移动到另外站点. 应该是说批量吧, 因为多咯任务单个编辑很累.

rq204 发表于 2009-6-6 14:53:08

1.2,提供个例子.
3.分词有时和你的内容有关,因为词库只是包含最常用常见的词语,有些分不出的需要你手工添加关键词.

4.这个可以考虑做成日志的形式.

5.这种的话建议用内置浏览器登陆.

内容替换可以在本地编辑的替换里,也可以在php接口里操作.
页: [1]
查看完整版本: 近期找到采集的一些BUG