如何进行相似度的计算，主要用什么方式

日期：2020年02月16日分类：优美句子

如何计算句子的语义相似度,很容易想到的是向量空间模型（VSM）和编辑距离的方法,比如A：“我爸是李刚”,B：“我儿子是李刚”,利用VSM方法A（我,爸,是,李刚）B（我,儿子,是,李刚）,计算两个向量的夹角余弦值,不赘述；编辑距离就更好说了将“爸”,“儿子”分别替换掉,D（A,B）= replace_cost；

这是两种相当呆的方法,属于baseline中的baseline,换两个例子看一下就知道A：“楼房如何建造?”,B：“高尔夫球怎么打?”,C:“房子怎么盖?”,如果用VSM算很明显由于B,C中有共同的词“怎么”,所以BC相似度高于AC；编辑距离同理；

解决这种问题方法也不难,只要通过同义词词典对所有句子进行扩展,“如何”、“怎么”,“楼房”、“房子”都是同义词或者近义词,扩展后再算vsm或者edit distance对这一问题即可正解.这种方法一定程度上解决了召回率低的问题,但是扩展后引入噪声在所难免,尤其若原句中含有多义词时.例如：“打酱油”、“打毛衣”.在汉字中有些单字词表达了相当多的意义,在董振东先生的知网（hownet）中对这种类型汉字有很好的语义关系解释,通过hownet中词语到义元的树状结构可以对对词语粒度的形似度进行度量.

问题到这里似乎得到了不错的解答,但实际中远远不够.VSM的方法把句子中的词语看做相互独立的特征,忽略了句子序列关系、位置关系对句子语义的影响；Edit Distance考虑了句子中词语顺序关系,但是这种关系是机械的置换、移动、删除、添加,实际中每个词语表达了不同的信息量,同样的词语在不同词语组合中包含的信息量或者说表达的语义信息大不相同.What about 句法分析,计算句法树的相似度?这个比前两种方法更靠谱些,因为句法树很好的描述了词语在句子中的地位.实际效果要待实验证实.

对了,还有一种方法translation model,IBM在机器翻译领域的一大创举,需要有大量的语料库进行训练才能得到理想的翻译结果.当然包括中间词语对齐结果,如果能够利用web资源建立一个高质量的语料库对两两相似句对通过EM迭代词语对齐,由词语对齐生成句子相似度,这个.想想还是不错的方法!

如何通过词向量技术来计算2个文档的相似度

最近正好组内做了一个文档相似度的分享。

决定回答一发。

首先，如果不局限于NN的方法，可以用BOW+tf-idf+LSI/LDA的体系搞定，也就是俗称的01或one hot representation。

其次，如果楼主指定了必须用流行的NN，俗称word-embedding的方法，当然首推word2vec（虽然不算是DNN）。

然后得到了word2vec的词向量后，可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。

这算是一种方法。

当然，加权之前一般应该先干掉stop word，词聚类处理一下。

还有，doc2vec中的paragraph vector也属于直接得到doc向量的方法。

特点就是修改了word2vec中的cbow和skip-gram模型。

依据论文《Distributed Representations of Sentences and Documents》（ICML 2014）。

还有一种根据句法树加权的方式，是ICML2011提出的，见论文《Parsing Natural Scenes and Natural Language with Recursive Neural Networks》，后续也有多个改编的版本。

当然，得到词向量的方式不局限于word2vec,RNNLM和glove也能得到传说中高质量的词向量。

ICML2015的论文《From Word Embeddings To Document Distances, Kusner, Washington University》新提出一种计算doc相似度的方式，大致思路是将词之间的余弦距离作为ground distance，词频作为权重，在权重的约束条件下，求WMD的线性规划最优解。

最后，kaggle101中的一个word2vec题目的tutorial里作者如是说：他试了一下简单加权和各种加权，不管如何处理，效果还不如01，归其原因作者认为加权的方式丢失了最重要的句子结构信息（也可以说是词序信息），而doc2vec的方法则保存了这种信息。

在刚刚结束的ACL2015上，似乎很多人提到了glove的方法，其思想是挖掘词共现信息的内在含义，据说是基于全局统计的方法（LSI为代表）与基于局部预测的方法（word2vec为代表）的折衷，而且输出的词向量在词聚类任务上干掉了word2vec的结果，也可以看看。

《GloVe: Global Vectors forWord Representation》

电大毕业论文要相似度要低于多少才可以合格毕业,本人在网上查的相...

知网检测，就是用一定的算法将你的论文和知网数据库中已收录的论文进行对比，从而得出你论文中哪些部分涉嫌抄袭。

目前的对比库有：中国学术期刊网络出版总库中国博士学位论文全文数据库/中国优秀硕士学位论文全文数据库中国重要会议论文全文数据库中国重要报纸全文数据库中国专利全文数据库互联网资源英文数据库（涵盖期刊、博硕、会议的英文数据以及德国Springer、英国Taylor&Francis期刊数据库等）港澳台学术文献库优先出版文献库互联网文档资源关于学校查重率、相似率、抄袭率：各个学校不一样，全文重复率在30%一下（而有的学校，本科是20%）。

每章重复率应该没有要求，这个每个学校会出细则的，并且学校也出给出他们查重复率的地方——基本都是中国知网。

具体打电话问老师，每界每个学校要求都不一样相关查重系统名词的具体作用：查重率的具体概念就是抄袭率，引用率，要用专业软件来测试你的文章与别人论文的相似度，杜绝抄袭。

基本就这意思。

一个是自写率就是自己写的一个是复写率就是你抄袭的还有一个引用率就是那些被画上引用符号的是合理的引用别人的资料关于知网相关抽查规定：有规定的，可以进行第一次修改，修改之后通过就可以答辩，如果第二次不通过就算结业，在之后4个月内还要交论文或者设计的。

这个是在抄袭30%的基础上的。

如果抄袭50%以上的话，直接结业在之后4个月内还要交论文或者设计的。

1.被认定为抄袭的本科毕业设计（论文），包括与他人已有论文、著作重复总字数比例在30%至50%（含50%）之间的，需经本人修改。

修改后经过再次检测合格后，方可参加学院答辩。

再次检测后仍不合格的，按结业处理。

须在3 个月后提交改写完成的毕业设计（论文），检测合格后再参加答辩。

2.被认定为抄袭的本科毕业设计（论文），且与他人已有论文、著作重复总字数比例超过50%的，直接按结业处理。

须在4 个月后提交改写的毕业设计（论文），检测合格后再参加答辩。

修改重复率或抄袭率论文的经验： CNKI是连续的字数相同不能超过13个字，万方是连续的字数相同不能超过15个字。

否则就会标注出来，算进重复率。

我们学校规定是CNKI检测重复率不能超过30%.两种数据库检测重复率会有结果上的误差，一般CNKI会更严格一点，先在用万方检测一下，然后对照重复段落，句子反复修改一下，最后用CNKI检测一下，就放心了。

现在是学生写作毕业论文的关键时期，许多学生在论文写作中要利用一些文献资料，这样就涉及到一个问题，如何应用别人的文献资料，如何形成一个良好的学术规范，避免抄袭。

这在现在是一个非常迫切的问题，但是我们许多同学缺乏严格的训练，也不知道什么情况下是抄袭，什么情况下是引用别人的文章。

在这里我想对这个问题作出一个简单的讨论。

这仅仅只能算是个抛砖引玉而已，目的是想和大家一起讨论这个话题。

什么是抄袭行为？简单地说就是使用了别人的文字或观点而不注明就是抄袭。

“照抄别人的字句而没有注明出处且用引号表示是别人的话，都构成抄袭。

美国现代语言联合会《论文作者手册》对剽窃（或抄袭）的定义是：‘剽窃是指在你的写作中使用他人的观点或表述而没有恰当地注明出处。

……这包括逐字复述、复制他人的写作，或使用不属于你自己的观点而没有给出恰当的引用。

’可见，对论文而言，剽窃有两种：一种是剽窃观点，用了他人的观点而不注明，让人误以为是你自己的观点；一种是剽窃文字，照抄别人的文字表述而没有注明出处且用引号，让人误以为是你自己的表述。

当然，由于论文注重观点的原创性，前者要比后者严重。

至于普及性的文章却有所不同，因为并不注重观点的原创性，所以并不要求对来自别人的观点一一注明，因此只看重文字表述是否剽窃。

”那么如何使用别人的文献资料呢？美国哈佛大学在其相关的学生手册中指出，“如果你的句子与原始资料在观点和句子结构上都非常相似，并且结论与引语相近而非用自己的话重述，即使你注明出处，这也是抄袭。

你不能仅仅简单改变原始资料中的几个词语或者对其进行摘要总结，你必须用你自己的语言和句子结构彻底地重塑你的总结，要不就直接引用。

”（引自哈佛大学的相关规定，该原文是我1年前看到的，现在找不到出处了）。

可见，对别人的内容的使用必须进行全面的重写，否则就有抄袭的嫌疑。

但这里要避免胡乱拼凑和揉合。

总之来说，我们必须尊重别人的智力成果，在文章中反映出哪些是你做的哪些是别人做的。

当然现在做到这些还很难，但我想我们至少要有这个意识，因为在剽窃的概念里，除过强调未注明这点外，还强调不是成心的。

我们许多人写东西，正是因为不知道什么是抄袭，如何避免抄袭才犯了错误，所以明确什么是抄袭非常重要。

从现实来看，我们的同学要写一篇10000字左右的没有任何抄袭嫌疑的毕业论文是很困难的，但是我们至少应该从主观上尽可能的避免出现严重抄袭行为，逐步形成好的习惯。

在国内就是知网/paperpass/万方这三大系统，这里面的资源是不断更新的，每一年毕业生的论文除有保密要求外的基本上都是收这三大系...

机器学习句子相似度计算,最后怎么根据相似度高低排序返回原来的句...

先说一个还是从词的角度出发考虑的，最后的效果非常好，就是怎么样从词的向量得到句子的向量，首先选出一个词库，比如说10万个词，然后用w2v跑出所有词的向量，然后对于每一个句子，构造一个10万维的向量，向量的每一维是该维对应的词和该句子中每一个词的相似度的最大值。

这种方法实际上是bag of words的一个扩展，比如说对于我喜欢用苹果手机这么一句话，对应的向量，会在三星，诺基亚，小米，电脑等词上也会有比较高的得分。

这种做法对于bag of words的稀疏性问题效果非常好。

还做过一个直接训练句子的相似度的一个query2vec模型，效果也不错，就不细说了。

论文怎么检测相似度

第一步：初稿一般重复率会比较高（除非你是自己一字一句写的大神），可以采用万方、papertest去检测，然后逐句修改。

这个系统是逐句检测的，也就是说你抄的任何一句话都会被检测出来。

这种检测算法比较严格，从程序的角度分析这种算法比较简单。

因而网上卖的都很便宜，我测的是3万字，感觉还是物美价廉的。

（注意：1 这个库不包含你上一届研究生师兄的大论文，修改一定注意. 2 个人建议如果学校是用万方检测，就不要去检测维普之类的先把论文电子版复制一份，保存一份。

看检测结果，其中一份复制的备份论文，把检测出重复的部分能删了先删了，把不能删的，15字以内改一改，最好是加减字符，不要改顺序，改顺序没太大用，参考文献删掉一部分，不能删的话，先改下，英文文献可以15个字符换一个词。

把修改过的上交，重新过系统检查。

保存的原论文稍做改动上交纸质版。

那个系统很麻烦的，很多没看过没应用过的文献都能给你加上，可见中国人抄袭的功夫，都是互相抄，但是为了保证论文的完整性和表述的准确性，不要随意改动，上交的纸质版，一定要斟酌，一般检查完就不会再过检测系统了，所以纸质版的不用担心。

第二步：经过修改后，重复率大幅下降了。

这时你可以用知网查了，知网查重系统是逐段检测的，比较智能。

检测后再做局部修改就基本上大功告成了，我最后在网上用知网查是4%，简单修改后，在学校查是1.5%。

注意：记住，最忌讳的是为了查重，把论文语句改得语句不通、毫无逻辑，这样是逃不过老师的，哈哈，大家加油！知网系统计算标准详细说明： 1.看了一下这个系统的介绍，有个疑问，这套系统对于文字复制鉴别还是不错的，但对于其他方面的内容呢，比如数据，图表，能检出来吗？检不出来的话不还是没什么用吗？学术不端的各种行为中，文字复制是最为普遍和严重的，目前本检测系统对文字复制的检测已经达到相当高的水平，对于图表、公式、数据的抄袭和篡改等行为的检测，目前正在研发当中，且取得了比较大的进展，欢迎各位继续关注本检测系统的进展并多提批评性及建设性意见和建议。

2.按照这个系统39%以下的都是显示黄色，那么是否意味着在可容忍的限度内呢？最近看到对上海大学某教师的国家社科基金课题被撤消的消息，原因是其发表的两篇论文有抄袭行为，分别占到25%和30%. 请明示超过多少算是警戒线？百分比只是描述检测文献中重合文字所占的比例大小程度，并不是指该文献的抄袭严重程度。

只能这么说，百分比越大，重合字数越多，存在抄袭的可能性越大。

是否属于抄袭及抄袭的严重程度需由专家审查后决定。

3.如何防止学位论文学术不端行为检测系统成为个人报复的平台？这也是我们在认真考虑的事情，目前这套检测系统还只是在机构一级用户使用。

我们制定了一套严格的管理流程。

同时，在技术上，我们也采取了多种手段来最大可能的防止恶意行为，包括一系列严格的身份认证，日志记录等。

4.最小检测单位是句子，那么在每句话里改动一两个字就检测不出来了么？我们对句子也有相应的处理，有一个句子相似性的算法。

并不是句子完全一样才判断为相同。

句子有句子级的相似算法，段落有段落级的相似算法，计算一篇文献，一段话是否与其他文献文字相似，是在此基础上综合得出的。

5.如果是从相关书籍上摘下来的原话，但是此话已经被数据库中的相关文献也抄了进去，也就是说前面的文章也从相关书籍上摘了相同的话，但是我的论文中标注的这段话来自相关的书籍，这个算不算学术抄袭？检测系统不下结论，是不是抄袭最后还有人工审查这一关，所以，如果是您描述的这种情况，专家会有相应判断。

我们的系统只是提供各种线索和依据，让人能够快速掌握检测文献的信息。

6.知网检测系统的权威性？学术不端文献检测系统并不下结论，即检测系统并不对检测文献定性，只是将检测文献中与其他已发表文献中的雷同部分陈列出来，列出客观事实，而这篇检测文献是否属于学术不端，需专家做最后的审查确认。

关于知网相关抽查规定：有规定的，可以进行第一次修改，修改之后通过就可以答辩，如果第二次不通过就算结业，在之后4个月内还要交论文或者设计的。