mario2891 发表于 2013-2-1 11:03:39

请问我采集下来的文章,保存的txt格式,但是含有很多代码,请问怎么不采集这些代码?

我采集一个网站的文章,想保存下来成txt格式,用gb2312格式保存的话只有[标签:内容][标签:标题]这样的内容。
后来用utf8可以保存了,可是文章里有不少穿插的html代码,请问采集的时候怎样不采集这些代码呢?

还有我想上传我的ljbo文件,为什么附件添加里看不到文件呢?明明提示支持的啊?

303718 发表于 2013-2-1 11:45:38

采集的时候把HTML排除掉就行了

leejunji 发表于 2013-2-1 13:31:48

打包上传 本身就不支持上传的

mario2891 发表于 2013-2-1 14:17:20

303718 发表于 2013-2-1 11:45 static/image/common/back.gif
采集的时候把HTML排除掉就行了

请问哪里有html排除啊?我找了很久都没找到,我用的7.6版本的。也搜索过,但是那个贴好像和我的版本不一样,这个版本我不知道怎么弄呢

mario2891 发表于 2013-2-1 14:17:56

leejunji 发表于 2013-2-1 13:31 static/image/common/back.gif
打包上传 本身就不支持上传的

打包上传,我怎么都没见过这个词呢......

leejunji 发表于 2013-2-1 16:31:48

mario2891 发表于 2013-2-1 14:17 static/image/common/back.gif
打包上传,我怎么都没见过这个词呢......

额 压缩包知道不~~~~~~
页: [1]
查看完整版本: 请问我采集下来的文章,保存的txt格式,但是含有很多代码,请问怎么不采集这些代码?