找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 176|回复: 1

怎么去除文章中重复的行?

[复制链接]
发表于 2021-3-27 17:52:21 | 显示全部楼层 |阅读模式
本帖最后由 lansehuanyu 于 2021-3-27 17:55 编辑

采集的时候,遇到一个情况,每篇文章当中都有几行文字是重复的,(每篇文章当中重复的文字内容和位置都不一样,所以没办法直接使用简单的替换功能)如何删除重复行呢?

在网上找了不少正则表达式都没有匹配上,c#网上也找不到合适的。求大神指教!

因为我不懂正则怎么写,所以都是百度查,目前没有找到合适的,也不知道是否能实现,或者我思考:是不是可以实现匹配到字符数完全相同的行,这样不也就是重复行了吗。
发表于 2021-4-1 18:01:56 | 显示全部楼层
如果是内容页源码中本身就有的,那无法去除
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表