lansehuanyu 发表于 2021-3-27 17:52:21

怎么去除文章中重复的行?

本帖最后由 lansehuanyu 于 2021-3-27 17:55 编辑

采集的时候,遇到一个情况,每篇文章当中都有几行文字是重复的,(每篇文章当中重复的文字内容和位置都不一样,所以没办法直接使用简单的替换功能)如何删除重复行呢?

在网上找了不少正则表达式都没有匹配上,c#网上也找不到合适的。求大神指教!

因为我不懂正则怎么写,所以都是百度查,目前没有找到合适的,也不知道是否能实现,或者我思考:是不是可以实现匹配到字符数完全相同的行,这样不也就是重复行了吗。

leweizxl 发表于 2021-4-1 18:01:56

如果是内容页源码中本身就有的,那无法去除
页: [1]
查看完整版本: 怎么去除文章中重复的行?