回覆列表
  • 1 # cnBeta

    昨日,特別顧問羅伯特·穆勒(Robert Mueller)釋出了有關“俄羅斯干預 2016 美總統大選”的報告,引發了無數人的下載圍觀。

    然而他們很快就沮喪地發現,你根本無法搜尋頁面上的任何文字,且整個檔案的體積相當龐大。

    在普通人發表吐槽的同時,PDF 協會(PDFA)也實在是坐不住了。其給出了一份長篇幅的解釋,說明“為何穆勒的 PDF 報告檔案做得如此糟糕”。

    【報告截圖,來自:PDAF,via TheVerge】

    該協會指出,穆勒的這份報告,既是司法部的一個迴應,也是對 PDF 這種行動式檔案格式的認同。

    PDF 協會指出了一些基本的事實,比如 448 頁的文件質量‘勉強可以接受’,但不符合嚴格的檔案標準。

    PDFA 猜測,這份 4 月 17 日出爐的報告,或許是在辦公室裡某臺典型的網路影印 / 印表機上製作的。尷尬的是,它沒有采用文字格式,而是選擇了更適合照片的有失真壓縮方式。

    司法部應該是從穆勒那裡拿到了高品質的 PDF,然後打印出來又重新掃描。或者穆勒只提供了紙質的報告,因此司法部只能掃描後再發布。

    對於此類文件,PDF 是唯一符合“文化與技術要求”的格式。正如帖子中指出的那樣,重新掃描可以確保檔案中不包含不適當的文字資料,但也限制了人們可以看到的文字和編輯框。

    然而經過來回倒騰,不僅檔案體積特別膨脹,還造成了資訊檢索上的大麻煩 —— 除非你願意重新執行以便 OCR 識別糾錯(而且這個過程不如掃描原始原始檔那麼準確)。

    【PDAF 同時希望大家能關注今年 6 月在西雅圖舉辦的電子文件大會】

    即便如此,對可搜尋性造成嚴重破壞的 PDF 檔案,偶爾也會暴露一些令人尷尬的秘密。比如在 Facebook 訴訟庭審檔案中,就有一些匆忙繪製留下的黑條(隱藏了某些可選的文字)。

    當然,專業的編輯軟體,可以避免發生這樣的事情。PDF 協會指出,未標記和無法檢索的 PDF,可能違反了司法部對於殘疾人的無障礙規則。

    那麼除了 PDF,為何正式檔案不採用 WORD、TIFF 影象、網站、XPS、EPUB、或者純文字的格式呢?該協會給出了簡短的回答:

    PDF 保留了文件的原始文字和格式,可以包含明確的編輯,並且受到多平臺的支援,這是唯一能夠滿足現代重要通訊文化和技術要求的檔案格式。

    最後,就司法部對於如此重要的檔案格式的不尊重,PDF 協會表達的強烈的不滿。一位專家表示:這份報告檔案讓人看了既羞愧又難過。

  • 中秋節和大豐收的關聯?
  • 養比熊犬的必備小技能,有哪些?