首頁>科技>
摘要

眾包測試是研究應用程式(如影片流和 Web)的體驗質量(QoE)的一種越來越流行的方法。人群的多樣性提供了一個比實驗室更真實的評估環境。由於眾包任務的壽命很短,每個受試者花費實驗時間的很大一部分只學習它是如何工作的。我們提出了一種新的實驗設計來進行縱向眾包研究,旨在提高眾包 QoE 評估的效率。在亞馬遜機械土耳其,我們發現了我們的設計比眾包多個一次性短實驗更具有 20%的成本效益。我們的結果表明,受試者具有較高的重訪意向,並持續參與我們的實驗。我們在傳統的實驗室環境中複製了影片流 QoE 評估。我們的研究表明,影片位元率與 QoE 之間的關係也有類似的趨勢,這表明了我在先前的研究中的發現。

介紹

我們實現了一個基於遊戲化的網路實驗平臺 QUINCE,進行四種類型的測量任務,包括影片流 QoE 評估和網路效能測量。QUINCE 將遊戲元素用於三個主要目的:為困難任務提供培訓的互動式教程和介面;用於增強使用者體驗的使用者配置檔案系統;分數、級別和徽章,以衡量主題的進展和提供激勵參與。我們利用評分系統來量化任務完成和計算獎勵。我們將不同的任務分組,並僱用一個公司,根據任務的難度和預期完成時間,降低任務的提交率。

我們使用 QUINCE 對 AmazonMechanicalTurk(MTurk)進行了兩項實驗研究,其引數略有不同,以評估我們的框架。我們有五個主要發現:

超過 70%的受試者參加了擴充套件研究。這些受試者對實驗非常投入。其中一半達到至少 5.5 倍的最低要求分數。

在整個實驗運動期間,我們收到了任務提交。使用者活動表現出強烈的日變化模式,在晚上 7 點到晚上 11 點之間達到高峰。每一主題都在阿韋拉格完成每小時 10 項任務。

超過 98%的註冊受試者在 24 小時內至少一次返回我們的平臺,反映出重新訪問的高度意圖。我們發現對 dif 應用不同的冷卻時間不同的任務組有效地調節了提交率。

我們的實驗設計將每 QoE 評級的成本降低到 0.2-0.32 美元,這比獲得多次一次性眾包測試低 20-67%。

我們進一步表明,我們的實驗框架沒有降低 QoE 評估的質量。我們使用了一個非標準化版本的 QUINCE 在實驗室設定中進行影片流 QoE 評估。我們發現評估結果與從眾包研究中收集到的評級之間存在很高的相關性。我們關於影片位元率與 QoE 之間的相關性的結果與先前的研究一致,進一步驗證了我們的方法的可靠性。

實驗設計與實現

我們的實驗設計包括兩部分-初步研究和擴充套件研究。無花果。展示了我們實驗設計的工作流程。我們提供了我們的實驗研究作為一個常規的眾包平臺上的任務,如 MTurk。這項研究首先提出了一個任務描述,其中包含了關於任務性質、初始研究的最低要求和資訊參與和計算獎勵的細節(步驟(1))。然後,受試者在任務描述結束時遵循超連結訪問 QUINCE 並開始初步研究(步驟(2))。

初步研究(步驟(3a)-(3c))類似於傳統的 QoE 人群測試方法。QUINCE 首先獲得受試者的知情同意,然後給出關於測量任務的詳細說明,然後是一個簡短的互動練習會議。當一個學科的工作(分數)滿足最低要求時,平臺提供了參加擴充套件學習(步驟)的選擇 4(a)),並指示受試者向眾包平臺提交唯一的實驗識別符號(步驟(4b))。註冊的受試者可以直接訪問該平臺,並執行任何可用的操作實驗任務而不重複入職過程(步驟(5))。QUINCE 自動為受試者生成新的測量任務。

在我們執行 T 天的擴充套件研究(步驟(6))之後,我們關閉平臺並驗證主題的工作(步驟(7))。實驗者使用被試提交的識別符號在 MTU 之間進行連結實驗平臺和實驗平臺。我們決定接受/拒絕一個任務提交,根據每個主題提交的工作量,按主題的分數量化。我們支付固定金額的獎勵用於初步研究(步驟(8a)-(8b))對於擴充套件的研究,我們根據所獲得的主題的分數支付額外的獎勵(步驟(8c))。我們利用 MTurk 中的獎金支付功能來支付獎勵物件。

QUINCE-一個遊戲化的實現

我們實現了一個名為 QUINCE 的 Web 平臺,使用 MeteorJavascript 框架和 MongoDB 進行反應性 Web 設計和資料儲存。我們還使用 amChartsJava 指令碼庫來呈現視覺化,如地圖和圖表。我們部署了一個影片流伺服器,以支援自適應流使用蘋果的 HLS 標準。

我們採用遊戲化技術來增加被試的動機,從而提高眾包和實驗室實驗的效率和準確性。我們實施了四個遊戲元素在 QUINCE。

1、故事/主題。提供主題使受試者能夠體驗替代的設定。在 QUINCE,我們提出了一個簡單的故事在遊戲遊戲:主題可以是一個英雄誰可以改善網際網路形式。我們將實驗任務嵌入到基於地圖的介面和“任務”選項卡中,並指示受試者發現實驗任務。受試者也可以選擇一個化身來表示他們自己。

2、分數/點。評分系統是眾包實驗中最常用的遊戲化元素之一,用於提高受試者的動機和表現。在我們的平臺,我們利用分數來提供進度反饋,並量化完成的工作。更重要的是,所獲得的分數與對該主題的貨幣支付成正比。

3、水平。我們引入了一個“水平”系統來視覺化個人成就,併為受試者提供明確的目標和里程碑。受試者在完成更多工時可以獲得“經驗”。我們設計了 10 個水平,受試者可以在實驗中達到。

4、徽章。徽章系統可以增加使用者活動。在最新版本的 QUINCE 中,我們開發了三個徽章,主題可以在(1)進入下一個徽章時獲得級別(2)完成任何任務組 5 次,或(3)訪問平臺 5 天。

實驗任務

與現有平臺只關注少數特定實驗不同,QUINCE 可以將任何基於瀏覽器的實驗納入其介面。我們實施了四種不同但相關型別的測量任務研究了影片流 QoE 與網際網路基礎設施拓撲結構和效能特徵的關係。

1、網路拓撲測量。我們指示受試者執行系統內建的 traceroute 命令,以測量從他們的計算機到 IP 目的地的路徑。我們的平臺決定了 IP 目的地基於資料其他網路測量平臺或我們在以前執行任務 T3 時提取的主機名。

2、網路效能測量。我們使用基於網路的速度測試來測量被測試者的計算機網際網路的速度測試伺服器之間的網路吞吐量。我們在 QUINCE 中加入了兩個測試實驗室網路診斷工具下行和上行吞吐量)和定製版本的快速網路(下行吞吐量)。

3、檔案下載。我們要求受試者下載專用網頁,這樣我們就可以從這些網頁的原始碼中提取 CDN 快取的主機名,以便在隨後的 executio 中作為目標目的地使用任務 T1 的 NS。

4、影片流 QoE 考核。我們使用 HTTP 自適應流(HAS)或大型影片服務提供商(YouTube 和 Vimeo)從我們自己的 Web 伺服器上傳送了一個簡短的(60-90s)影片剪輯)。、在 c 上完成影片播放,我們要求受試者使用絕對類別評分(ACR)方法(1:壞-5:優秀)對他們的 QoE 進行評分。我們使用了一個定製的基於 Java 指令碼的影片播放器不同的損傷,如拒絕和切換影片質量,以模擬不同的流媒體效能條件。

任務 T1-3 收集了網際網路拓撲和效能資料,這些資料有助於診斷我們在 QoE 評估(T4)中觀察到的 QoE 退化,特別是直接從提供商傳輸的影片。這些任務的完整性和持續時間各不相同。例如,影片流任務至少需要 1 分鐘才能播放整個影片,而受試者可以在 10 秒內完成檔案下載任務。咄咄逼人的受試者可以選擇在短時間內完成許多簡單的任務。此外,長時間的 QoE 評估會使受試者疲勞,降低評估的可靠性。我們設計了三種方法來調節任務完成率。

1、我們將任務分組為任務組。被試者在收到更多工之前必須完成組中的所有任務。表 1 總結了每個任務組的任務組成。

2、我們為每個任務組介紹了一個冷卻期。受試者必須等待這段時間後,平臺才能為他們生成新的任務。我們根據自然設定降溫期以及測量的要求。例如,我們期望從 T3 捕獲的 CDN 資訊相對穩定,不需要高頻測量。因此,我們分配了一個更長的時間給這些任務組。

3、我們根據正常科目的完成時間,加權受試者可以從任務組獲得的分數。表 1 的最後兩列顯示了我們在兩個實驗中使用的分數研究。我們給包含影片流 QoE 任務(T4)的任務組分配了一個更高的分數,因為它的測試更長。

評估

主題表現

表 3 列出了被試完成的任務數和實驗費用。研究 B 的提交數量比研究 A 高 32.9%-135%,比研究 A 低 4.1。我們對斯科裡的改變徽章的增加進一步提高了研究 B 的成本效率。一般來說,我們的實驗成本低於多次一次性眾包 QOE 測試。如果我們保守地假設子項在研究 A 和研究 B 中,TS 花費了 50%的時間在影片流 QoE 評估任務(T4)上,每個 QoE 評級的成本分別$0.32 美元和 0.2 美元。另一方面,30 分鐘的時間 10 個影片的源測試可能花費$4-6 美元(即$0.4-0.6/評級)。因此,我們的方法比傳統方法更划算 20-66.7%。

專案參與

我們實驗設計成功的關鍵因素是,它促進和激勵相同受試者的重複參與,這允許縱向資料收集。有趣的是,我們發現了顯著的再登入活性分數(13.9%在研究 A 和 26.1%在 B 研究中)發生在前一節結束後不到 1 分鐘。原因可能是受試者不小心關閉了瀏覽器選項卡,或者連線到伺服器是不穩定的。在另一方面,這兩項研究中超過 98%的受試者在第二天內至少一次重新訪問該平臺。

基於實驗室評估交叉驗證

對於網路測量任務,我們可以很容易地透過對主題輸入執行格式檢查來保證資料的質量。我們的平臺可以立即發現常見的錯誤,並提供反饋糾正他們的提交。然而,由於 QoE 的主觀性質,我們不能很容易地評估主觀評估的質量。

為了評估實驗的可靠性,我們計算了 Cohen 的 Kappa 係數以衡量被試感知相同刺激的一致性。雖然勞動的平均係數理論實驗(∼0.9)高於眾包實驗(∼0.6),它處於合理的水平,類似於中報告的值,然後過濾離群值。我們給出了原始 MOS 資料避免不同孤立點檢測方法之間的潛在偏差,這是本文的一個非目標。雖然我們的研究中的樣本量很大,但我們可以透過檢測進一步提高可靠性。透過應用後驗方法,如 CrowdMOS、HodgeRank 和 iHT/iLTS/aLTS,從資料中刪除異常值。

總結

我們設計了一個新的眾包實驗框架,以提高 QoE 人群測試的效率,並實現了該框架作為一個遊戲化的平臺,用於測量影片流的 QoE 以及網際網路的表現。我們與亞馬遜機械土耳其公司進行了兩次為期 7 天的研究。這兩項研究表明,我們的實驗設計和平臺吸引了很強的學科參與。研究物件是願意在整個研究期間重新訪問和執行額外的測量任務。最後,為了顯示我們收集的 QoE 評級的可靠性,我們將 QoE 評估結果與之進行了比較,並複製了 QoE 和影片位元率之間的良好相關性。

14
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 大資料時代,資訊還安全嗎?