火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4534|回复: 1

怎么去除文章中重复的行?

[复制链接]
发表于 2021-3-27 17:52:21 | 显示全部楼层 |阅读模式
本帖最后由 lansehuanyu 于 2021-3-27 17:55 编辑

采集的时候,遇到一个情况,每篇文章当中都有几行文字是重复的,(每篇文章当中重复的文字内容和位置都不一样,所以没办法直接使用简单的替换功能)如何删除重复行呢?

在网上找了不少正则表达式都没有匹配上,c#网上也找不到合适的。求大神指教!

因为我不懂正则怎么写,所以都是百度查,目前没有找到合适的,也不知道是否能实现,或者我思考:是不是可以实现匹配到字符数完全相同的行,这样不也就是重复行了吗。
发表于 2021-4-1 18:01:56 | 显示全部楼层
如果是内容页源码中本身就有的,那无法去除
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-23 23:26

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表