如何判断伪原创的文章?

发布时间:2022-10-11 20:31:14

如何判断伪原创的文章?

1、数据指纹跟踪。当搜索引擎蜘蛛通过相似度把文章收集起来后,会马上判别一下是不是重复文章,经常用的就是数据指纹,数据指纹算法多样化,最常见的方法有:将文章的标点符号提出进行前后对比。

很难想象有两篇不同的文章,标点符号是一致的。还有对相应的向量进行比对,也就是关键词密度等因素来判断。

大家也发现,现在网络上推出了很多AI伪原创工具,一些伪原创软件只是把个别关键词进行了替换,标点符号指纹没有一点改动,以至连TF词频都不变动,大部分替换后语句不通。重拍文章的段落内容,标点符号相应的也会打乱,可是向量和词频问题并没有解决依然存在。

2、文字内容相似度。是搜索引擎用的最多的算法,用的较多的一种算法是TF_IDF算法,这个也是计算相关性的算法,TF_IDF可以解释为:如果某个短语或词在一篇文章内容中出现的过于频繁,但在别的文章内容中极少出现的情况下,则认为此短语或词具有较强的类别区分能力,非常合适用来分类。

3、代码噪音。通常谷歌进行区分都是通过对代码的布局和噪音比例来进行的,哪些是正文,哪些是导航,还能忽略一些典型的代码。实现了整页面降噪的效果,方便搜索引擎对正文进行快速确认;同时正文区要适当的加燥,提高搜索引擎蜘蛛识别重复性的难度。