今日頭條是怎麼去辨別你的文章是原創還是偽原創的？

首頁>Club>2022-01-10 06:05

今日頭條是怎麼去辨別你的文章是原創還是偽原創的？

回覆列表

1 # 喵星人老師

為什麼？因為程式碼畢竟不是人，偶爾有重複，也可能是因為某個概念或者定義與網上的重複了啊哈哈……認倒黴吧。解決這個問題的辦法也很簡單，那就是儘量用通俗易懂自己的話來給讀者描述一遍該定義，或者換詞調順序。論文狗必然熟悉這個操作，為了應付國內的查重系統，這個屬於必備的生存技能。

2 # 風雨闌珊

這個問題對於程式設計師來說是比較容易回答的，首先最簡單的oracle資料庫中就有對文章匹配度進行計算的演算法函式，將文章內容作為引數傳進去就能返回重複度引數，如果過高則代表文章疑似抄襲，但是當文章基數過大，這樣依次對文章進行比對需要耗費巨大伺服器資源，為了加快監測效率，有很多演算法應需而生。

隨便舉幾個例子：
首先透過區域性詞頻指紋演算法（Local Word-Frequency Fingerprint，LWFF）對大規模文件進行快速檢測，找出疑似抄襲文件。然後利用最長有序公共子序列演算法（Longest Sorted Common Subsequence，LSCS）對疑似抄襲文件內容進行精確檢測，標註抄襲細節。該模型改進了以往常用檢測方法結構不合理、精度不高等問題，在標準中文資料集SOGOU-T上進行的實驗表明，該演算法具有較高的準確率和召回率。

區域性詞頻指紋演算法的思想是將句子看成文件的基本構成元素，對其進行有效關鍵詞提取，並排序重構，根據編碼和詞頻聯合方式獲取句子指紋，以此計算文字間相似度。以句子為單位生成向量空間模型，將一篇文件看作若干句子的集合D，D=i = 1NSi 。其中，N 為句子個數，Si = (w1....w2....wj....wn) ，wj 為句子Si 中第j 個非重複關鍵詞的權重，然後計算整體權重。
還有基於大資料技術，對每一段文字自動生成md5值或者生成關鍵字序列，後面有新文章時只需對文章的關鍵字序列進行對比即可進行重複度監測，能夠加大比對效率！
3 # 小眾科技

一、機器判斷
機器會抓取你文章裡面的核心關鍵詞對比網上的新聞，檢視相似度。
四、使用者舉報
使用者舉報你的是新聞，還是舊聞等等。

4 # W五月初夏W

當然有甄別方法。
1-不能複製，抄襲，搬運，拼湊，或者顛倒順序，機器會把重複的搜出來，過濾，還有人工。所以有的文即便已發表也沒有已推薦的字樣。
5 # 吧啦小精靈

我認為有兩種，程式篩選和人工稽核。

第一種是程式篩選。這是工作常態，針對每一篇釋出的文章，提取關鍵字，然後在全網範圍內篩選相似資訊，非常快速和高效，基本上在很短時間內就可以客觀、迅速地判斷文章的分類，相似度和原創度，然後自動給文章定位，分類，決定推薦度，同時對作者進行評估判斷，如果出現禁用詞語，敏感詞語或者不當言論，就要進一步提交，進行相應的限制，下線，甚至懲罰。
第二種是人工稽核，分為深度稽核和隨機稽核。

二、隨機稽核。主要是針對當前已經發布的大量文章，由系統隨機抽取後，再由人工進行稽核，主要是想透過這樣的方式，調研文章的總體水平和趨勢，這種符合統計學隨機取樣調查的方法，只是要掌握總體趨勢，發展概況，而不精細管理，這種稽核，方式雖然是隨機的，但是一般每次隨機抽取稽核的工作時間卻是固定的。

以上為我的分析猜測，相信實際工作中，平臺還有更加理智和科學化的稽核機制，分析判斷不科學的地方還請大家包涵。

6 # 杭州之大城小事

在沒用人工智慧的機器判斷之前，判斷方式有兩種，一是人工判斷，限於判斷者的記憶和經驗，多見於比較專業的領域，判斷者多為該領域專家，可利用行業資源協同判斷。這種判斷方式過於依賴人員的個人知識儲備，比較片面，遺漏率比較高。二是網際網路出現後的網路查重，原理比較簡單，摘取內容中的片段（一句話，衣一個段落等），在網際網路檢索查詢，如果跟網際網路已有內容重合度比較高的，可能判斷為非原創。這種判斷機制的缺陷在於簡單粗暴，對摘取檢索的內容的依賴度高，容易出現誤判。
在目前大資料和人工智慧自然語言深度學習技術兩項熱門技術的基礎上，實現機器自動判斷。

二是內容指紋構建。大家都知道每個人的指紋是不同的，有獨特性的，一篇文章、一本書也存在獨特性，將其中的獨特性記錄下來，這就是內容指紋構建。實現這一目標，依賴於自然語言技術的成熟，機器會對內容中的關鍵字詞先做拆分處理，再透過前後調換順序等多種組合（可以理解為演算法模型），讓機器理解有效的組合，再與其他內容對比。
7 # 發寶攝影小屋

機器人會全網搜尋對比的。文章標題有很多重複的，但是內容完全不一樣也是原創的。自己寫的關於自己的經歷，感悟，所見所聞或者比較擅長的文章，會出現題材雷同，素材相似的情況。但是每個人的語言表達方式和文章風格都不一樣。長句，短褲，各種不同。只要不是抄襲的文章，即使是同一個主題一群很寫出來的文章也不會完全一樣的。

8 # 三石科技觀察

這個問題可以進一步抽象一下，就是判斷給定的一段文字序列和系統資料庫中已有文字序列的相似度。大體可以從如下幾個步驟去處理：
1.使用機器學習演算法對系統中海量資料（文章）進行訓練，得到分詞模型，並且持續的完善此模型。
2.對新發表的文章使用分詞模型進行分詞，得到這篇文章特有的特徵集合。
3.計算新文章特徵集合與系統已有文章的相似度。
其中需要大資料和人工智慧的很多專業知識，而且也需要歷史資料的支援，不過基本原理和論文查重是類似的。
9 # 愛欣奇

第一，
第二，
第三，
替換原文中的圖片，或者對原始圖片裁剪，顏色矯正，ps上自己的內容，去除原來的文章。
圖片相似度分析還是比較準確的，只要改多點，機器會識別圖片上的文字，內容的。
第四，如果機器判斷的相似度很高，直接判斷為摘抄，稽核不過。如果相似度分析不確定，那麼會轉為人工稽核。人工稽核效率低，一般網路公司，都用機器學習技術輔助，有自己的稽核系統。

10 # 唯美大叔的LOGO日記

兩個字“資料”能理解阿爾法狗和李世石的就不糾結這個問題，但是其中有一定的文字或者邏輯換算關係，無非是約束創作者做更優質的內容而已，好多作者是為了省事而去別的地方摘抄，獲取也會得到“原創”但是隨著平臺數據庫的不斷更新迭代，隨著平臺驗證系統區塊鏈功能的足部完善，會給您自動賦予“偽原創”評級，所以平臺也希望大家做出更優質的原創作品。

劇多

今日頭條是怎麼去辨別你的文章是原創還是偽原創的？

相關內容