建议
建议在采集 网址链接地址 那里增加 网址替换功能 netdream能不能把具体思路说清楚下 比如:有的带汉字的网址要换成代码才能采到内容页,还有采无图版时网址中会多出一个目录地址,这些时候就特别需要网址的 批量替换功能.哟,我试了下可以直接在地址文件里替换的 同意。现在也遇到有这样的问题。
在列表中,可能得到的地址内容分别是:123, 456,56等几个,但实际上对应的链接应该是:
http://xxx/123.html
http://xxx/456.html
http://xxx/56.html
即,需要一个链接构造功能,我以前好像和火车头说过。 即:自动生成链接 功能 采集复杂地址时,我都是把错的地址导出来,在用软件编辑好了,导入到火车程序里去采集。
在实际采集中会碰到很多种地址错误形式。有的只能根据函数采集到数据的ID数,所以我一般软件批量修改。
目前如此。
不过替换功能的确能省心不少。 我遇到最多的是中文网址的问题,这个功能确实需要
页:
[1]