本帖最后由 wendywang 于 2009-2-12 12:24 编辑
本地编辑采集数据时,编辑采集字段那里,数据都乱了,点标题显示的是内容,乱套了。
本帖最后由 懷念過去↑文 于 2009-2-12 19:02 编辑
搜索 System/config.ini里 KeepAlive=True 改成 KeepAlive=False 看看
--by 懷念過去↑文
登录不上
发现个bug
将缩略图保存止后面选择路径的按钮看不到了。
另外发现个BUG
08 09 都有问题。
数据库选择为sqlite时
在第一步:采集网址规则
设置自定义链接格式,并选择下载缩略图到本地。
开始采集后,采集网址速度非常非常慢,切换到access数据库下,一切正常。
问题已经反应给尘缘了。希望可以早点解决
发布慢多了,不知道什么原因!!!!!!!!
多线程采集和发布出现问题
本帖最后由 ahwcz 于 2009-2-13 08:55 编辑
采集的内容里的引号""都成了“”这种代码,导致对内容分词时,“”也成为了关键字。成这样:【SY_分词】: 印刷品|网站|莫奈|信息|艺术|雅虎|流量|意图|rdquo|ldquo|
例如对这个页的采集:http://www.admin5.com/article/20080729/96294.shtml
下面是采集的部分内容:
<p> 1、导航型搜索者 要寻找特定的网站(可能因为他们不知道确切的网址),使用的搜索请求如“新浪”或者“网易”。</p>
<p> 2、信息性搜索者 需要信息来回答他们的问题或者要了解新的主题,使用的搜索请求如“什么是SEO”或者“网站优化”。</p>
<p> 3、交易型搜索者 想要做些事情(买东西、注册、参加竞赛等),他们使用的搜索请求如“悉尼天气”或者“NOKIA5200如何解锁”</p>
本帖最后由 wendywang 于 2009-2-13 10:16 编辑
插入的连接变成类似这样的了,<a href=\"http://www.sohu.com/\">sohu</a>
采集发布设置里面的循环时的合并间隔符也是,有html代码的都变成上面这样的了。内容规则里也一样。
还有一点,编辑采集数据时,点击表上面的字段,下面的表不能重新排列,2008可以的,希望可以添加以方便用户。
最后,那个多线程采集网址有问题,一直只能单线程采集网址。
发现个较大的BUG
见图片,测试采集一个12个数据的相册列表,并设置下载缩略图
附件下载中也是12个附件正常下载
但在使用中发现个奇怪的问题,下载文件夹中有24个文件。
200921310181146606.jpg
200921310181146606(1).jpg
最大的问题是
200921310181146606.jpg 这个文件是坏的。无法浏览图片!
附上规则