首頁>科技>
摘要:

QoE 人群測試越來越受研究人員歡迎,用來進行網路服務的主觀評估。實驗者可以透過眾包平臺輕鬆訪問大量的人類主題。但是,在沒有任何監督的情況下,低質量的工人會威脅評估的可靠性。分類工人質量的方法之一是分析他們在實驗過程中的行為,例如滑鼠游標的軌跡。但是,現有的工作對軌跡進行了粗略的分析,不能完全提取出嵌入的資訊。在本文中,我們提出了一種透過分析工人行為來在 QoE 人群測試中檢測低質量工人的新方法。我們的方法是透過使用監督學習演算法來構建預測模型。透過使用現有的反作弊技術和人工檢查來標記工人,可以計算出質量得分。我們定義了一組十個工作人員行為指標,用於量化不同型別的工作人員行為,包括更精細的游標軌跡分析。應用多類樸素貝葉斯分類器來訓練模型,以根據指標預測工人的素質。我們已經在 Amazon Mechanical Turk 和 CrowdFlower 上進行了影片 QoE 評估,以收集工作人員的行為。我們的結果表明,從四個指標訓練的模型的錯誤率等於或小於 30%。我們進一步發現,將四種不同的 5 點 Likert 量表評分方法的預測結合起來,可以將檢測低質量工人的成功率提高到 80%左右。最終,我們的方法的精度和召回率比 CrowdMOS 高出 16.5%和 42.9%。

關鍵字:眾包,作弊者檢測,QoE 人群測試,QoE,員工行為

1. 介紹

QOE 人群測試在研究人員中越來越受歡迎,以進行主觀評估。透過眾包平臺(例如 Amazon Mechanical Turk(MTurk)或 CrowdFlower),可以評估影片流,VoIP 和 IPTV 等不同網路服務的體驗質量(QoE)。還可以評估多媒體材料的質量,包括影象,音訊或語音。實驗人員可以透過將評估彙總為眾包平臺中釋出的網站來輕鬆部署實驗。

與傳統的實驗室實驗相比,使用人群測試的優勢在於成本更低,並且工人群體更大且更具多樣性。但是,在沒有任何監督的情況下,從人群測試中獲得的作品質量令人懷疑。先前的研究表明,某些工人的精度可能非常低。一些作弊者僅打算透過快速提交評估以最小的努力來最大化他們的報酬。即使工人可能不想作弊,他們也會分心或不適合做這項工作。兩種工人都可能導致測量不可靠。因此,識別這些工作人員可以幫助大大提高基於眾包評估的可靠性。

分析工人的行為是推斷工人素質的最新趨勢。基於工人行為的機制與現有的方法相比具有三個主要優點。首先,由於對工人行為的監視是在後臺進行的,因此工人幾乎看不見它。因此,欺詐者逃避反欺詐的企圖將被挫敗。第二,可以減少進行實驗的時間和成本,因為監控不會給評估帶來額外或多餘的問題。最後,我們的機制與評估結果無關,因此不需要測試專案具有任何隱式排名或絕對答案。

現有的基於員工行為的方法著重於事件的時間安排,例如合併時間或完成時間。這些指標很有用,但是我們認為滑鼠游標的移動對於衡量工作人員的質量也非常重要。先前的研究表明,滑鼠游標的移動可以揭示認知過程。因此,這些行為可以為工人的可靠性提供隱含的措施。

在本文中,我們提出了一種檢測低質量工人的新方法。我們的方法基於工人的行為構造了一個預測模型。在從 QoE 人群測試收集原始行為資料和評估結果之後,第一步是評估工人的素質,並透過分析評估結果為每個工人分配標籤。第二步是從行為資料中提取有用的功能。最後一步是利用監督的機器學習演算法來訓練一個模型,該模型可以根據指標預測工人的素質。要解決三個主要挑戰。首先,很難系統地分析工人的行為。第二個問題是如何從評估結果中獲得作為標籤的基礎事實(即工人的實際素質)。最後一個問題是,必須仔細設計實施評估系統,以減輕因捕獲行為而造成的效能影響。

我們透過提出一套新穎的十項工人行為指標來應對第一個挑戰。這組度量標準可以有效地從從瀏覽器捕獲的工作人員行為資料中提取資訊。在度量的設計中,最具挑戰性的部分是系統地分析游標軌跡。我們透過其微動和定時資訊來量化游標軌跡。透過精心設計評估任務可以緩解第二個問題。採用了多種現有的反作弊技術,例如保留的程式碼項。此外,我們還包括人工檢查。因此,我們可以撰寫質量得分,作為工人素質的基礎。透過仔細調整系統中的引數以平衡效能和接收反饋的頻率,可以緩解第三個問題。

在我們的評估中,我們從透過 MTurk 和 CrowdFlower 眾包的自適應影片質量評估中收集了工人行為資料集。工人行為跟蹤用於計算工人行為指標,而評估結果用於計算質量得分。我們採用多類樸素貝葉斯分類器來建立預測模型,以根據工人行為指標估算工人的素質。我們進一步研究了四種適合對李克特量表進行評分的評分方法,包括單選按鈕,星號,滑塊和數字步長。

我們的結果表明,十分之四的指標可以有效地推斷出工人的素質。 對於所有評估方法,訓練模型的錯誤率約為 30%。 這些指標包括子移動次數,時間延遲,游標速度和額外點選次數。 我們還發現,在四種評級方法中,星號和單選按鈕在檢測低質量工人方面比其他兩種方法更有效。 透過結合多種評估方法,發現低質量工人的準確性可以達到約 80%。 在先前工作的基礎上,我們進一步將我們的方法與 CrowdMOS 進行了比較。 我們的方法顯示出比 CrowdMOS 更好的精度,召回率和 F1 分數。

2. 相關工作

在某些先前的工作中通常採用工作人員行為或應用程式層指標來識別低質量的工作人員。 Rzeszotarski 和 Kittur 建議使用幾種使用者行為來推斷工人的素質。但是,它們將滑鼠游標的移動聚合為事件,而不儲存座標。因此,他們對滑鼠游標移動的分析是粗略的。在他們的後續論文中,作者專注於視覺化使用者行為,這可以幫助實驗人員手動篩選出可能質量低下的工作人員。 Costagliola 等人在電子學習系統中捕獲了學生的行為,並透過分析回答問題的順序來發現作弊行為。赫斯等分析了一些應用程式層指標,例如考慮時間和完成時間,然後將異常值標記為低質量工作人員。 Gardlo 等採用基於信用的計劃來評估工人的可靠性。當識別出一些可疑行為時,將扣除工人的可靠性點。 Kazai 和 Zitouni 提出了一套行為特徵來表徵基於 Web 的評審任務中的工人。

除了分析員工的行為外,許多研究都集中在員工完成任務後處理資料。 Buchholz 和 Latorre 建議將資料與實驗室實驗中收集的金標準資料進行比較。 CrowdMOS 計算了每個方案的工作人員提交的結果的平均值和偏差。提供與平均值明顯不同的結果的工人將被視為低質量的工人。 Wu 等人並沒有直接給出評分,而是隻要求工人對哪種情況更好做出二元決策。然後在工人之間比較排名以發現異常值。但是,這些方法通常無法應用於沒有絕對答案或排名的調查或評估。 Joglekar 等人提出了一些技術,用於為工人的錯誤率估計值生成置信區間,從而評估工人的素質。但是,他們的方法僅支援二進位制問題。

在完成整個人群測試活動後,他們並沒有發現作弊者,而是提出了一些更好的逃避作弊者的工作設計。使用驗證碼或使用已知答案提問可以有效地阻止自動完成任務的軟體機器人。將任務重新設計為遊戲可以吸引尋求娛樂的工作人員,事實證明這些工作人員比金錢驅動的工作人員更可靠。另一種方法是採用兩階段方法在進行實際評估之前篩選出偽可靠人群。首先部署鑑定任務。透過任務的工人被認為更可靠。然後邀請他們進行實際評估。但是,這兩種方法很容易被作弊的作弊者發現,它們也不可避免地增加了評估時間。

除了篩選出低質量的工作人員外,使用者行為和滑鼠游標移動對於研究搜尋引擎結果頁的效能也非常有用。 Guo 和 Agichtein 提出了一些有關使用滑鼠軌跡推斷使用者對 SERP 意圖的初步結果。 Huang 等人表明,即使沒有單擊 SERP,游標的位置和移動也有助於理解搜尋者的行為。 提出了一組單擊後行為(PCB)功能,例如搜尋停留時間,游標移動和滾動行為,以估計 SERP 上顯示的文件相關性。 Guo 等人透過一組細粒度的會話行為(FSB)功能預測了搜尋成功,這些功能還包括搜尋停留時間,滑鼠滾動,點選和游標移動。 還分析滑鼠游標資訊,以預測使用者在搜尋引擎上的體驗,使用者對 Web 內容的參與程度以及在 SERP 上的直接顯示。

3. 實現方案

我們的方法是分析工人在 QoE 人群測試任務中回答問題時產生的行為。完成 QoE 人群測試活動後,我們將處理行為跟蹤以檢測低質量的工作人員。檢測機制的基本思想是將評估過程中捕獲的工人行為量化為工人行為指標。之後,我們應用多類樸素貝葉斯分類器來建立與工人素質相關的預測模型。質量得分用於透過工人在任務中提交的評估結果和人工評估者的評級來估計工人的質量。最後,我們獲得了訓練有素的模型,該模型可用於透過工人行為來預測工人的素質。

經過訓練的模型可以幫助實驗人員自動確定工作人員是否可靠。在工作人員提交任務之後,我們可以為每個工作人員計算工作人員行為指標,並將其輸入到經過訓練的模型中,以估計工作人員的素質。接受或拒絕他們的工作的決定可以透過其 API 傳送到眾包平臺。

與其他作弊者檢測方法相比,採用工人行為具有三個主要優點。首先,捕獲工人行為幾乎是工人看不到的。此功能很重要,因為複雜的垃圾郵件傳送者可以輕鬆地找到並逃避反作弊檢查,例如合理的問題或一致性測試。這些檢查還可能無法對攻擊進行分組,而攻擊者會在作弊者之間共享任務的答案。其次,對工人行為的監控不會給工人帶來任何額外的工作量。獲得訓練後的模型後,可以減少甚至取消反作弊檢查。因此,任務的長度可以減少。由於進行實驗的費用通常與任務的長度成正比,因此我們的方法可以節省實驗人員的費用。最後,我們的方法與實際評級無關。這對 QoE 評估特別有用,因為某些主觀指標(例如期望或享受程度)可能沒有絕對答案或排名。因此,工人之間的等級差異是可以接受的,並且可能無法揭示工人的素質。

使用工人行為來檢測低質量工人主要面臨三個挑戰。首先,很難系統地分析工人的行為並找出能夠發現低質量工人的因素,因為他們的行為也會受到他們的反應或他們自己的使用行為的影響。我們透過設計十個工人行為指標來量化相關行為,例如整個評估過程中的游標軌跡的微動和時序資訊,來應對這一挑戰。特別是,我們使用人機介面區域中常見的子運動分析來研究定點裝置的效能和準確性,以從游標軌跡中提取微運動資訊。此外,我們採用了 Hwang 等人提出的部分遊標措施來量化遊標軌跡,例如遊標的速度和加速度。在我們的分析中,我們應用統計工具從模型中選擇四個指標。第二個挑戰是獲得有關工人素質的基本事實,以使其與工人行為相關聯。儘管眾包平臺提供了單個工人的歷史接受率,但我們發現工人的素質可以是多種多樣的。例如,一組工人或機器人可以使用共享問題答案字典(SQAD)方法來提高其接受率。 因此,我們在 QoE 人群測試任務中精心設計了問題,其中包括反向編碼的問題和跳過邏輯。 我們還將分析開放式響應和評估結果。 透過檢查違反這些邏輯,響應的複雜性和人工檢查,我們可以推匯出質量得分來估計工人的質量。最後一個挑戰與捕獲工人行為的實際設計有關。必須仔細設計評估系統的實施,以減輕因捕獲行為而造成的效能影響,而行為可能會干擾正常行為。因此,我們會仔細調整工人行為反饋的頻率,從而可以減少瀏覽器中緩衝的條目數。

3.1 方法框架圖3.2 評估工作人員質量

QoE 人群測試的主觀性使其難以衡量工人的準確性,因為與以前的工作不同,QoE 人群測試任務沒有模型答案。我們透過在評估中包含多種作弊檢測策略來解決此問題,從而可以自信地推斷出工人的素質。除了用於單項度量之外,我們還使用 15 個多項選擇題和 1 個開放式問題來度量 QoE。要求工作人員從不同方面對剛剛觀看的 QoE 進行評分,以提高測量的魯棒性,包括影象/聲音質量,影片內容和回放的平滑度等。在設計問題時,我們採用了許多策略來幫助我們評估工人的素質。要求工作人員指出他們是否注意到任何影片質量適應。設定了三個反向編碼的問題來衡量工人的可靠性。我們還實施了通常用於對李克特量表進行評分的四種評分方法。在每次評估中,為工人隨機選擇一種方法。

3.2.1 質量得分

質量得分用於總結工人的答案並量化工人的素質。它由七個措施組成,這些措施是根據所有四個影片評估和手動檢查的響應計算得出的。 我們假設工人的素質在整個任務中不會改變。 因此,我們為每個工人而不是每個評估分配質量得分。 這套措施可以根據其性質分為三類。 第一類重點是分析開放式問題中文字輸入響應的複雜性。其他兩類,分別是違反軟性規則和對立矛盾,分別側重於檢查意識和對指令和問題的關注。這些技術通常用於過濾低質量的工人。

•文字輸入響應中的複雜性:我們的評估中有一個懸而未決的問題,要求工作人員輸入 3 個用逗號分隔的單詞,以表示他們剛觀看的影片的內容。 這個問題類似於影象/影片註釋任務。 根據他們的回答,我們可以檢查工作人員是否對影片和問題給予了足夠的重視。

我們透過三個指標(qwc,qww 和 qw f)來分析響應,這三個指標與使用的唯一字元的數量,使用的唯一單詞的數量以及響應的格式有關。 我們還手動檢查響應的內容,並對每個 qct 進行評分。 為了計算 qwc,我們首先將響應轉換為小寫大寫字母,然後計算所使用的唯一字元的數量。 我們透過將該指數除以 26 個英文字母的總數來對其進行歸一化。

另一個度量 qww 考慮響應中唯一單詞與單詞總數之比。 透過將由非字母字元分隔的相同子字串分組,可以找到唯一的單詞。 我們觀察到,一些工作人員對所有四個具有不同內容(例如“好”和“有趣”)的影片做出了相似的迴應。

由於字元或單詞的計數不能檢查答覆的內容,因此我們還使用人類評分者對答覆的評分(從 1 到 5)進行評估(qct),這些答覆與 NBA 籃球比賽有關。要求工人每次評估輸入三個詞,評級標準主要側重於回答的準確性而不是描述性。

•違反軟規則:為確保工人達到一定的質量,說明中規定了一些規則。 例如,工作人員必須觀看整個影片,而不能快速轉發。違反這些“硬性”規則可能會導致其工作被拒絕或阻止其繼續進行下一次評估。 另一方面,“軟”規則不會導致拒絕,但它們可以反映出工人對使用說明的意識。 我們的評估有兩個軟規則。 其中一個是在一個問題中實施的,要求工人指出他們是否注意到任何影片質量適應問題。 如果工人沒有注意到任何質量變化,則指示他們跳過下一個問題。但是,我們發現一些工人沒有按照指示跳過該問題。 qjp 是在整個任務中正確遵循四個評估中的規則的平均計數。

另一個軟規則是關於文字響應的格式,這要求工作人員輸入三個逗號分隔的單詞。 儘管在工作人員提交答案之前在瀏覽器上實施格式化策略是可行的,但我們不限制輸入。 因此,我們可以捕獲隨便輸入的低質量工人。 我們發現,大約有 18%的工人在所有四個評估中均未輸入正確的格式。 與 qjp 相似,此度量 qwf 是使用正確格式化的輸入的平均數量計算的。

•對立矛盾:一些低質量的工人傾向於對所有問題提供隨機評分或相同評分。 透過應用反向編碼的問題,可以輕鬆地篩選出這些工作人員。 這些問題在語義上與另一個問題相反。 例如,“初始圖片質量太低。” 與“初始圖片質量符合我的期望”。 在我們的評估中,三個問題被反向編碼。 我們編寫了一個度量 qrc,該度量計算所有四個評估中正向和負向編碼問題之間等級的平均差異。

最後一項度量 qcn,檢查工作人員是否可以正確識別影片流是否具有任何影片位元率自適應。由於工作人員很容易確定影片質量是否已改變或保持恆定,因此我們認為該措施可以向評估揭示平均水平。此度量計算了平均任務中正確識別的評估數。

最後,質量得分 q 是這七個量度的總和。 因此,分數在 0.4 到 7 之間。分數越高意味著工人的素質越好。 在本文中,我們認為{q≤3、3 <q≤4.5,q> 4.5}分別是低質量工人,邊際工人和可接受的工人。 換句話說,低質量的工人至少不能滿足三個條件。

3.3 量化工人行為

我們介紹了使用工人行為指標系統地量化工人行為的方法。 在介紹指標的詳細資訊之前,我們首先透過展示在我們的 QoE 人群測試任務中收集的典型案例,來提供一些使用滑鼠游標軌跡來推斷工人質量的直覺。

3.3.1 觀察

我們相信隱藏在滑鼠游標軌跡中的資訊也可以幫助推斷工人的素質,因為游標的移動與眼睛的移動密切相關。我們的原始行為跟蹤包括與游標和滑鼠相關的事件的全面集合。此外,我們為每個評分物件(例如單選按鈕或文字欄位)安裝了回撥函式,以區分隨機點選和對評分物件的點選。還記錄其他瀏覽器事件,例如大小調整或失去焦點。每條記錄都在使用者側加了時間戳,時間解析度為 1 ms。在本研究中,我們不限制工人使用的指示裝置。但是,我們的 QoE 人群測試任務僅允許 Windows 和 Linux 使用者參與。這排除了執行 Android 或 iOS 的平板電腦。因此,我們相信,大多數參與其中的工人在膝上型電腦中都使用了滑鼠或觸控板。

我們提出了一組十個工作人員行為指標,用於從原始跟蹤中提取時間和滑鼠移動資訊。 除了整個任務的平均行為外,我們還分別分析了啟動階段和詢問間隔。 我們認為,這些指標可以從不同方面捕捉工人的認知過程。 評估頁面完成渲染並在時間 t0 開始捕獲工作人員行為。 工人在時間 t 單擊 ath 問題。 啟動時間段定義為從頁面渲染到第一次單擊答案的時間段,而詢問時間段定義為工作人員回答問題與下一個問題之間的時間段。

每個游標移動記錄都包含座標 xj 和 yj 以及其時間戳記 tj,其中 j 是軌跡中的第 j 個游標移動記錄。帶有陰影的純色區域是記錄滑鼠連續移動且游標間移動小於 50 ms(即 tj-tj-1 <50 ms)的時間段。否則,我們將移動視為停頓,並以垂直筆觸繪製陰影。我們使用 t(k)p 和 τ(k)p 分別表示第 k 個暫停事件的開始和結束。我們讓游標移動記錄和點選的總數分別為 N 和 C。我們使用這些符號來計算工作人員行為指標。

另一個挑戰是系統地分析軌跡,因為軌跡會受到許多因素的影響,例如響應和工人的習慣。在本文中,我們應用子運動分析來捕獲軌跡中的微觀結構。此外,Hwang 等人提出了一套主要基於子運動分析的遊標措施,以分析針對不同型別使用者的指示裝置的效能和準確性。我們還採用遊標措施來推斷工人的素質。我們使用以下步驟從游標軌跡計算子運動。我們定義函式 S(a,b)為時間段 a 和 b 之間的子運動數。收集的游標軌跡由一系列點tj,xj,yj表示,∀j= 0、1,...,N − 1,其中 xj 和 yj 是 x 和 y 座標,tj 是的時間戳此資料,N 是記錄總數。為了計算 S(t0,tN -1),我們透過(xj + 1-xj)/(tj + 1-tj)和(yj + 1-yj)/(tj + 1-tj)。最後,我們將 x 或 y 速度分量中的零交叉數(即從正值到負值,反之亦然)計算為子移動數。

3.3.2 特徵工程

•總體子移動計數,暫停次數和暫停中位數:前三個指標量化了整個評估任務中員工的行為。 子運動的總數可以量化評估過程中工人產生的微小運動,並揭示出工人是否採取非常直接的途徑來完成任務。

子運動只能顯示運動方向。 為了獲得時間量度,我們考慮了暫停次數 P 和中位暫停持續時間 mtd。 我們認為只要游標停留在同一位置的時間超過 50 毫秒,就會發生暫停事件。 因為我們的任務相對簡單,工人可以快速回答,我們使用的時間比以前使用的時間短。

啟動時間和子移動計數:以下兩個指標特別關注啟動時間,即工人在回答問題並移動滑鼠游標之前可以先瀏覽問題。 我們透過測量長度並計算啟動週期的子移動來量化這種行為(分別由 mst 和 msc 表示)。

額外點選次數:我們計算工作人員產生的額外點選次數,以 mtk 表示。我們從跟蹤記錄的點選數中減去完成任務所需的最小點選數。例如,我們假設只需要單擊一次即可透過單選按鈕回答多項選擇題。我們考慮使用此指標,因為低質量的工人傾向於以最小的努力完成任務。但是,額外的滑鼠單擊是該任務的附加功能。因此,我們認為此指標可以幫助篩選出低質量的員工。

中間詢問時間和子移動時間:除了總體和啟動期間統計資訊外,我們還考慮了詢問期間的行為。 安裝在每個評估物件中的回撥函式使我們能夠識別工作人員回答的問題。 我們可以在工人回答問題時輕鬆地將跡線切成薄片。之後,我們可以計算出平均時間長度 mit,以及產生的子移動次數 mis。

中值游標速度和加速度:從我們的觀察中,我們發現滑鼠移動的動態性對於檢測低質量的工人也很重要。 因此,運動分析被用作我們指標的一部分。 游標速度的中位數 mcs 和加速度 mca 是座標的一階和二階導數。這兩個指標是表徵游標軌跡的重要度量。

4. 結論

本文提出了一種新的基於工人行為的方法,可以用來推斷工人的素質。我們建議從游標軌跡中提取資訊,並透過使用一組工作人員行為指標對它們進行量化。在我們的實驗中,我們精心設計了一項人群測試任務,以便我們可以透過質量得分來評估工人的質量。研究了四種不同的評分方法。我們使用多類樸素貝葉斯模型將員工行為指標與得分相關聯。

我們的結果表明,具有三個指標的模型的錯誤率小於 30%。我們還發現,應將不同的指標集用於不同的評分方法。透過結合四種評級方法的預測,發現低質量工人的成功率約為 80%。我們進一步表明,我們的方法在準確性和查全率方面優於 CrowdMOS。

未來,我們將研究此方法對其他型別的調查任務的可推廣性。我們還將介紹針對觸控式螢幕和移動裝置的新指標。

15
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 小米造車並非為了“撈金”,遇到風口,雷軍再一次做“起飛的豬”