在 Linux 上將 PDF 轉換為文字
2024-11-07 16:42:29 • 分類: 關於PDF 檔案的知識 • 經過驗證的解決方案
如果你知道特定發行版中的一些提示和技巧,那麼在 Linux 上將 PDF 轉換為文件就是一項容易的工作,但是如果你是 Linux 新手,並且你需要將 PDF 文件轉換為基於文字的同等文件,該怎麼辦?是否有專門為此設計的 Linux 工具?關於 OCR 模塊 - 你如何獲得 Linux 版本?這些問題的答案都在本文中,因此請繼續閱讀,以了解關於 如何在 Linux 中將 PDF 轉換為文字的更多信息。
在 Linux 上將 PDF 轉換為文字的 2 種方法
讓我們看看在 Linux 桌面上執行此操作的幾種方法以及這些方法使用的工具。
方法1:使用電子書應用程式
本質上,你想要做的是轉換不可編輯和可能不可搜索的 PDF 文件,並在不實際更改格式的情況下轉換內容。為此,你可以使用免費軟體或 Calibre 等開源應用程式。Ubuntu、Mint、Fedora 和其它流行發行版的大部分容器中均提供了該應用程式。正確的語法因發行版而異,但你的基本終端命令應當看起來是這樣:
sudo apt install calibre
安裝之後,你就可以按照該應用程式中的過程流程。下面就是它應當看上去的樣子:
- 1.啟動該應用程式並點擊左上角的“添加書籍”按鈕以導入一個或多個掃描的或不可編輯的 PDF 文件。
- 2.當你在 Calibre 工具欄下方的列表中看到 PDF 時,選擇你想要轉換為文字的檔案,然後點擊頂部的“轉換書籍”選項。
- 3.在轉換視窗中將輸出檔案的格式選擇為 TXT,然後點擊“確定”進行轉換。
你現在可以在任何文字編輯器中打開該檔案,然後按照你想要的方式做出更改或編輯內容。這樣不會保留原始檔案的格式,而是保留了不可編輯檔案的真實副本。原始 PDF 文件將保持不變,因此你可以使用略微不同的名稱(例如 Doc1_OCR、Doc2_OCR 等)保存新版本。
方法2:使用 Terminal 命令
另一方面,如果你在 Linux 機器上達到專家水平,那麼你可以嘗試通過命令行將 PDF 轉換為文字。為此,你可以使用類似 pdftotext 的工具。它是 Poppler 軟體包的一部分,但名稱可能因你使用的發行版而異。第一步是安裝,你可以使用以下命令進行安裝:
1.首先,在 Terminal 中輸入以下內容,然後按下“Enter”
sudo apt install poppler-utils 【對 Debian、Mint、Ubuntu 等有效】。
2.下一個命令是用於轉換的命令,它應當看上去像這樣:
pdftotext -layout source.pdf target.txt 【Source 是原始 PDF,Target 是最終輸出】
如果要執行以上命令,Terminal 提示需要位於與源 PDF 檔案相同的檔案夾位置。或者,你可以在該命令中的源和目標檔案名之前定義檔案路徑。
3.按下 Enter 鍵對整個 PDF 文件運行該命令。如果要僅轉換文件中的單個頁面範圍,請修改語法以匹配如下所示的命令:
pdftotext -layout -f M -l N source.pdf target.txt 【其中 M 是第一頁,N 是需要轉換的最後一頁。】
如何在 Windows 和 Mac 平台上將 PDF 轉換文字
現在你知道了如何在 Linux 中將 PDF 轉換為文字,那麼 Windows 或 Mac 呢?你是否知道如何在這些作業系統平台上執行相同操作?如果不知道,請繼續閱讀以了解一款獨特而強大的實用工具,該工具可以在 Linux 以外的作業系統中完成相同的工作。
PDFelement 是一款跨平台 PDF 編輯器,具有用於 PDF 管理的桌面和移動設備應用程式。它們是一個輕量級的 PDF 工具系列,功能強大,用途廣泛。更重要的是,與當今統治市場的其它一些高級選擇相比,它們的價格要合理得多。由於這個原因,PDFelement 正迅速成為無法負擔昂貴替代產品的企業事實上的 PDF 編輯器。此外,它還具有以下功能:
- 針對所有 PDF 文字、圖像、連結、媒體和其它對象的完整編輯功能。
- 用於註釋 PDF 的綜合標記工具。
- 用於標記密文、添加水印、加密和數位簽章的強大安全功能。
- 用於轉換和 OCR 任務的高級批處理。
- 完全集成的表單管理:建立交互式表單、從不可編輯的 PDF 表單轉換、訪問大型模板庫、從表單和 PDF 中批量提取數據等等。
- 強大的“與 PDF 相互轉換”功能,支持非常廣泛的檔案類型。
- 比許多高級 PDF 編輯器更準確、更快速。
在 Windows 和 Mac 平台上將 PDF 轉換文字的步驟:
Windows:
- 1.在你的 Windows 電腦上啟動 PDFelement 之後,通過將檔案拖動到該軟體視窗中導入檔案,或者只需點擊“檔案”→“打開”即可。即使 PDF 編輯器已被關閉,你也可以通過將其圖標拖動到該應用程式圖標上來打開文件。
- 2.如果你點擊頂部的“轉換”選項卡,你將在其正下方的工具欄中看到一個按鈕,上面寫著“轉換到文字”,以及一個圖標。滑鼠懸停(工具提示)應顯示“將你的 PDF 轉換為文字”。點擊該按鈕。
- 3.指定你的輸出檔案夾,如果需要,你也可以在“另存為”對話方塊中更改輸出檔案類型。
Mac(包括 10.15 Catalina 在內的 macOS 版本):
PDFelement 在 Mac 上與在 Windows 上一樣直觀。你可能會看到二者的界面有很多差異,但這些功能的設計是為了盡可能地適應其平台的細微差別。最終結果是在任何平台上都能獲得非常自然的體驗,包括基於觸控螢幕的 iOS 和 Android 設備和螢幕。
- 1.在你安裝並啟動 PDFelement Mac 版之後,該應用程式就會有一種獨特的 Mac 應用程式感覺。你可以使用與 Windows 相同的方法打開 你的 PDF - 拖放或使用“檔案”選單。
- 2.同樣,在“檔案”選單中,你將看到一個名為“導出為”的選項,它會打開另一個上下文選單。選擇“文字”,然後等待轉換完成。
現在你就知道如何在 Linux、Windows 和 Mac 上將 PDF 轉換為文字。
Quintela
staff 編輯