火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2655|回复: 2

关于论坛数据的采集

[复制链接]
发表于 2016-7-16 16:22:24 | 显示全部楼层 |阅读模式
以某个帖子为例,想要采集帖子信息(含主贴信息和回帖信息)和用户信息在操作过程中遇到一些问题:
1、主贴信息和回帖信息的格式不同,无法同时采集。若区分字段,则会有数据冗余
2、用户信息有的有缺失,导致其他信息错位

麻烦各位大神不吝赐教~
发表于 2016-7-18 08:49:52 | 显示全部楼层
1.可以区分标签设置  再做标签组合
2.论坛回复用户有空用户名?
 楼主| 发表于 2016-7-18 15:01:36 | 显示全部楼层
leweizxl 发表于 2016-7-18 08:49
1.可以区分标签设置  再做标签组合
2.论坛回复用户有空用户名?

谢谢解答,我再说的详细一点,我想采集的是汽车之家的数据,以这个界面为例子:
http://club.autohome.com.cn/bbs/thread-c-466-52866595-1.html
问题1:就是这边有不同的回复格式(有的是直接回复的,有的是回复之前的某个用户的),所以源代码格式不同,所以不知道怎么办?
问题2:回帖的用户信息中,有的人是有“关注”这项,而有的人有“爱车”这项,所以有可能匹配上的错乱
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 23:33

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表