質量控制是眾包的挑戰,尤其是在軟體測試中。由於一些非專業人員的參與,低質量的產量可能會阻礙眾包測試無法滿足請求者的要求。因此,需要幫助眾籌人員提高錯誤報告的質量。 在本文中,我們提出了一種新穎的輔助方法,即 CroReG,它透過使用影象理解技術分析眾包工作者上傳的錯誤截圖來生成眾包錯誤報告。初步的實驗結果表明,CroReG 可以有效地生成包含準確的螢幕截圖示題的錯誤報告,併為群眾提供積極的指導。
關鍵字:眾包測試,移動應用測試,錯誤 報告生成
1. 背景在某些領域,眾包測試已被證明比傳統的內部測試有效得多。在移動應用程式測試中,眾包測試已成為主流方法,這是因為裝置模型的碎片化,移動裝置的數量眾多,作業系統版本的多樣性以及測試場景的多樣性。但是,眾包的開放性也很容易導致質量差的結果。質量控制是眾包的挑戰,尤其是在軟體測試等專業領域。
眾包系統中的質量控制策略主要分為眾工簡介,任務設計,控制執行等。本文提出了一種新的控制執行報告生成方法,以提高缺陷報告的質量。大多數群眾(甚至是普通的移動應用程式使用者)很容易在移動裝置中捕獲螢幕截圖。但是,未經培訓的測試人員很難編寫專業的錯誤報告。
在許多領域都有許多成功的影象理解案例。這激勵我們引入影象理解技術,以提高眾包報告的質量。我們提出了一種新穎的方法,稱為 CroReG,用於瞭解眾包截圖並結合使用深度學習和光學字元識別(OCR)技術自動生成錯誤報告。 我們使用 im2txt 模型將螢幕截圖轉換為文字標題,並使用 OCR 提取螢幕截圖中現有的文字。 將計算兩個模組的文字相似度,以進一步生成錯誤報告。 預期生成的錯誤報告可以準確反映螢幕快照中顯示的錯誤。
卷積神經網路(CNN)由於其獨特的結構而具有很強的自學習和分類識別能力。 CroReG 還借鑑了機器翻譯的思想,使用遞迴神經網路(RNN),長期短期記憶(LSTM)的變體將影象特徵向量轉換為字幕。LSTM 儲存先前的資訊,並將其應用於當前的計算。 CroReG 中引入了 OCR,以準確識別螢幕截圖中存在的字元。
為了評估 CroReG 的有效性,我們對來自不同類別的移動應用程式的一些錯誤截圖進行了初步實驗。 每個螢幕截圖使用 CroReG 生成 4 個字幕。 根據人工評估,所生成報告的正確性達到 90%,並且報告中的描述均採用高度模擬的自然語言。 結果確認大多數生成的報告與螢幕截圖中顯示的錯誤緊密相關。 我們相信,CroReG 不僅可以提高未經培訓的工作人員的錯誤報告的質量,還可以減少熟練的人群工作人員的工作費用。
2. 方法我們首先提出一種基於眾包錯誤截圖的報告生成方法 CroReG。 生成過程分為兩部分:影象翻譯和文字提取。 這兩個部分分別工作,來自這兩個模組的結果將得到進一步處理,並生成螢幕快照的最終錯誤報告。
2.1 方法框架圖2.2 影象翻譯CroReG 利用名為 im2txt 的深度學習模型,該模型由編碼器和解碼器組成。 編碼器是 CNN,將獲得固定長度的向量作為從螢幕截圖中提取的特徵。 解碼器是 LSTM 網路,特徵向量被處理成自然語言的錯誤說明。 CroReG 中特定的 CNN 模型是 Inception-v3。 此外,該資料集是從百度 MTC3 和 MOOCTEST4 獲取的。 它包含 26387 個帶有手動字幕的螢幕截圖。 資料集分為三個不相交的集:訓練集,驗證集和測試集。 還生成與錯誤相關的關鍵字列表檔案。 im2txt 模型生成的字幕將根據可能性進行排序,並根據 OCR 過程的結果進行分析。 前 3 個匹配的字幕將顯示給使用者,其他字幕將被丟棄。
2.3 文字提取當出現錯誤(例如彈出視窗)時,移動應用程式頁面始終包含與錯誤相關的豐富文字資訊。 因此,OCR 技術適用於在錯誤螢幕截圖中提取文字資訊。 CroReG 使用第三方遠端介面來識別上傳的螢幕截圖。 系統將生成多個候選文字片段,並將根據在影象翻譯模組中生成的關鍵字列表檔案中的預設關鍵字來篩選此類文字片段。 將每個候選片段與關鍵字列表進行比較,以判斷其是否包含一個或多個關鍵字。 關鍵字片段將被處理以排除冗餘資訊,並生成與上載螢幕截圖相對應的可讀性強的錯誤字幕。
2.4 報告生成來自同一螢幕截圖的影象翻譯模組和文字提取模組的結果將一起處理,以使用 Levenshtein 距離來計算字幕相似度,Levenshtein 距離是指在編輯操作期間將一個字串轉換為另一字串所需的最小運算元,包括替換 ,刪除或插入字元。 然後,將合併結果,並提交最終報告。
3. 結論儘管研究是初步的,但我們認為 CroReG 可以為眾包測試開啟質量控制的新方向。 將來可以改進 CroReG 中的許多技術。群眾工作者傾向於上傳一系列操作序列的螢幕截圖。 我們正在進一步努力,以合併一系列螢幕截圖的報告,以生成更詳細和完整的報告,為開發人員修復相應的錯誤提供更好的指導。 當群眾上傳截圖時,必須對報告質量進行質量評估。 它可以幫助群眾工作人員上傳高質量的螢幕截圖,CroReG 從而可以生成高質量的報告。