怎么去除文章中重复的行?
本帖最后由 lansehuanyu 于 2021-3-27 17:55 编辑采集的时候,遇到一个情况,每篇文章当中都有几行文字是重复的,(每篇文章当中重复的文字内容和位置都不一样,所以没办法直接使用简单的替换功能)如何删除重复行呢?
在网上找了不少正则表达式都没有匹配上,c#网上也找不到合适的。求大神指教!
因为我不懂正则怎么写,所以都是百度查,目前没有找到合适的,也不知道是否能实现,或者我思考:是不是可以实现匹配到字符数完全相同的行,这样不也就是重复行了吗。
如果是内容页源码中本身就有的,那无法去除
页:
[1]