用Python將PDF轉換為文字
2022-11-28 11:28:31 • 分類: 關於PDF 檔案的知識 • 經過驗證的解決方案
所以你在這裡是因為你想要用Python將PDF轉換成文字。你來對地方了,因為我們將向你展示兩種方便的Python轉換PDF到文字的方法。如果你還不知道,Python是一種物件導向的編程語言,用於開發網絡應用程式軟體原型,以及數據科學。現在讓我們來了解一下如何用Python將PDF轉換為文字。
用Python將PDF轉換為文字並不簡單,特別是對新手來說。而且,用Python將掃描的PDF轉換為文字也很難。如果你正在尋找一種更簡單的方法來轉換PDF,包括將掃描的PDF轉換成文字,你可以使用 PDFelement。這是一個易於使用的PDF編輯器,可以將PDF轉換為TXT、Word、Excel、PPT等,反之亦然。通過OCR技術,它可以從PDF圖片中提取文字和數據。支援大量轉換。
通過pdftotext模塊用Python將PDF轉換為文字
要用Python將PDF轉換為文字,你需要以下工具。
1: Windows專用Poppler
它是一個PDF渲染庫,也包含pdftoppm工具。
2:pdftotext模塊
它是一個Python模塊,包裝了將PDF轉換為文字的工具。
如何安裝所需的PDF到文字Python工具
若要在windows上安裝Poppler,在env路徑中添加xxx/bin/來將Poppler安裝在所需位置。然後pip安裝pdftotext模塊,當你在Python運行查詢時將PDF轉換為文字。
在Windows上安裝了Poppler和pdftotext模塊後,編寫並編譯以下程式碼來運行。
1 import pdftotext
2
3 # 加載你的PDF
4 with open("Target.pdf", "rb") as f:
5 pdf = pdftotext.PDF(f)
6
7 # 將所有文字儲存到一個txt檔案.
8 with open('output.txt', 'w') as f:
9 f.write("\n\n".join(pdf))
這段程式碼是怎麼運行的?
導入pdftotext: 通過這個詢問,它將調用pdftotext模塊來啟動轉換過程。
# 載入你的PDF: 這段程式碼將在編譯器中加載你的PDF檔案。
第4至9行的程式碼會選擇並將PDF檔案轉換為文字,輸出結果會被儲存在選定的目標中。所以,這就是用Python將PDF轉換為文字的方法。
通過PyPDF2用Python將PDF轉換為文字
這個方法將使用一個叫做PyPDF2的外部模塊來將PDF轉換為文字,這個PyPDF2套組可以讓你轉換、分割、合併、裁剪PDF。若要安裝PyPDF2,請使用下面的命令行:
C:\Users\Admin>pip install PyPDF2
一旦安裝了該模塊,你就可以使用以下程式碼用Python將PDF轉換為文字。
# 導入所需的模塊
import PyPDF2
# 建立一個pdf檔案物件t
pdfFileObj = open('example.pdf', 'rb')
# 建立一個pdf閱讀器物件
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
# 列印pdf檔案的頁數
print(pdfReader.numPages)
# 建立一個頁面物件
pageObj = pdfReader.getPage(0)
# 從頁面提取文字
print(pageObj.extractText())
# 關閉pdf檔案物件
pdfFileObj.close()
用Python將PDF轉換為文字的優點和缺點
讓我們首先了解一下用Python將PDF轉換為文字的優點。
Python是一種程式語言,可以用來做任何你能想像得到的事情。當涉及到檔案格式轉換時,Python是一個美妙的工具,因為有幾個模塊可用於這種目的。有了這些模塊,將PDF轉換為文字、圖片和其他格式是非常容易的。
當談到缺點時,使用Python的最大缺點是你需要先學習Python,這將花費你很多時間。此外,它將掃描的PDF檔案轉換為文字的選項和功能非常有限,可能會導致文本操縱。
現在,如果你覺得使用Python的檔案轉換將是一個頭痛的問題,我們有一個替代方法給你,就是不用Python的PDF到文字轉換。讓我們來學習如何在沒有Python的情況下進行轉換。
如何在沒有Python的情況下將PDF轉換為文字
若要將PDF轉換為文字,你只需要PDFelement。它是目前用於建立和編輯PDF檔案最好的工具之一。有了它,你可以執行大量不同的任務,包括檔案格式轉換、表格建立和電子簽名。以下讓我們來探討一些最佳功能。
- PDF建立 - PDF檔案建立可以像建立普通MS word檔案一樣簡單。你可以在你的PDF檔案中添加圖片、顏色和其他更多。
- PDF編輯 - 從某人那裡得到了一個PDF檔案,需要在轉發給其他人之前對其進行編輯嗎?使用這個工具,你就可以完全輕鬆的掌控編輯任何檔案。
- 檔案格式轉換 - 不僅是PDF到文字,反之亦然,你還可以從PDF轉換到大約300種其他格式,或從其他格式轉換到PDF,只需點擊幾下就可以了。
- 表格建立 - 你只需點擊一下,就可以建立進階和複雜的表格。有了這個功能,你還可以編輯現有的表格,以及從你的電腦上填寫表格,而不需要下載和列印它們。
- OCR - 有了OCR(光學字符識別),你可以輕鬆地將掃描的PDF檔案轉換成可編輯的格式,並可以進一步將它們轉換成任何其他格式。聽起來很有趣吧?
PDFelement還有許多其他很棒的功能,它可以輕鬆超越其他類似的軟體,因為其他軟體都沒有這麼多的功能組合。現在讓我們來看看將PDF轉換為文字的一步一步指南。
第1步:打開PDF檔案
首先,啟動PDFelement,並打開PDF檔案來轉換它。若要打開檔案,點選"打開檔案......"按鈕,在你的電腦中找到該檔案,選擇它,並點選"打開"按鈕。
第2步:將PDF轉換為文字
現在,在選單欄點選"轉換",然後在子選單點選"到文字"。
第3步:選擇輸出資料夾
在最後一步,選擇轉換後的檔案將被儲存的輸出或目標資料夾,並點選"儲存"按鈕。當你點選"儲存"按鈕後,PDF檔案會瞬間轉換為文字格式,並被儲存在選定的目的地。這就是在不使用Python或任何其他複雜語言的情況下將PDF轉換為文字的方法。
Quintela
staff 編輯