Top
PDFelement
應用程式名稱
在 AppStore 應用程式中開啟
在 Google Play 應用程式中開啟
開啟 開啟

用Python將PDF轉換為文字

author name

2022-11-28 11:28:31 • 分類: 關於PDF 檔案的知識 • 經過驗證的解決方案

所以你在這裡是因為你想要用Python將PDF轉換成文字。你來對地方了,因為我們將向你展示兩種方便的Python轉換PDF到文字的方法。如果你還不知道,Python是一種物件導向的編程語言,用於開發網絡應用程式軟體原型,以及數據科學。現在讓我們來了解一下如何用Python將PDF轉換為文字。

用Python將PDF轉換為文字並不簡單,特別是對新手來說。而且,用Python將掃描的PDF轉換為文字也很難。如果你正在尋找一種更簡單的方法來轉換PDF,包括將掃描的PDF轉換成文字,你可以使用 PDFelement。這是一個易於使用的PDF編輯器,可以將PDF轉換為TXT、Word、Excel、PPT等,反之亦然。通過OCR技術,它可以從PDF圖片中提取文字和數據。支援大量轉換。

通過pdftotext模塊用Python將PDF轉換為文字

要用Python將PDF轉換為文字,你需要以下工具。

1: Windows專用Poppler

它是一個PDF渲染庫,也包含pdftoppm工具。

2:pdftotext模塊

它是一個Python模塊,包裝了將PDF轉換為文字的工具。

如何安裝所需的PDF到文字Python工具

若要在windows上安裝Poppler,在env路徑中添加xxx/bin/來將Poppler安裝在所需位置。然後pip安裝pdftotext模塊,當你在Python運行查詢時將PDF轉換為文字。

在Windows上安裝了Poppler和pdftotext模塊後,編寫並編譯以下程式碼來運行。

1 import pdftotext
2
3 # 加載你的PDF
4 with open("Target.pdf", "rb") as f:
5 pdf = pdftotext.PDF(f)
6
7 # 將所有文字儲存到一個txt檔案.
8 with open('output.txt', 'w') as f:
9 f.write("\n\n".join(pdf))

這段程式碼是怎麼運行的?

導入pdftotext: 通過這個詢問,它將調用pdftotext模塊來啟動轉換過程。

# 載入你的PDF: 這段程式碼將在編譯器中加載你的PDF檔案。

第4至9行的程式碼會選擇並將PDF檔案轉換為文字,輸出結果會被儲存在選定的目標中。所以,這就是用Python將PDF轉換為文字的方法。


通過PyPDF2用Python將PDF轉換為文字

這個方法將使用一個叫做PyPDF2的外部模塊來將PDF轉換為文字,這個PyPDF2套組可以讓你轉換、分割、合併、裁剪PDF。若要安裝PyPDF2,請使用下面的命令行:

C:\Users\Admin>pip install PyPDF2

一旦安裝了該模塊,你就可以使用以下程式碼用Python將PDF轉換為文字。

# 導入所需的模塊
import PyPDF2

# 建立一個pdf檔案物件t
pdfFileObj = open('example.pdf', 'rb')

# 建立一個pdf閱讀器物件
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

# 列印pdf檔案的頁數
print(pdfReader.numPages)

# 建立一個頁面物件
pageObj = pdfReader.getPage(0)

# 從頁面提取文字
print(pageObj.extractText())

# 關閉pdf檔案物件
pdfFileObj.close()


用Python將PDF轉換為文字的優點和缺點

讓我們首先了解一下用Python將PDF轉換為文字的優點。

Python是一種程式語言,可以用來做任何你能想像得到的事情。當涉及到檔案格式轉換時,Python是一個美妙的工具,因為有幾個模塊可用於這種目的。有了這些模塊,將PDF轉換為文字、圖片和其他格式是非常容易的。

當談到缺點時,使用Python的最大缺點是你需要先學習Python,這將花費你很多時間。此外,它將掃描的PDF檔案轉換為文字的選項和功能非常有限,可能會導致文本操縱。

現在,如果你覺得使用Python的檔案轉換將是一個頭痛的問題,我們有一個替代方法給你,就是不用Python的PDF到文字轉換。讓我們來學習如何在沒有Python的情況下進行轉換。


如何在沒有Python的情況下將PDF轉換為文字

若要將PDF轉換為文字,你只需要PDFelement。它是目前用於建立和編輯PDF檔案最好的工具之一。有了它,你可以執行大量不同的任務,包括檔案格式轉換、表格建立和電子簽名。以下讓我們來探討一些最佳功能。

  • PDF建立 - PDF檔案建立可以像建立普通MS word檔案一樣簡單。你可以在你的PDF檔案中添加圖片、顏色和其他更多。
  • PDF編輯 - 從某人那裡得到了一個PDF檔案,需要在轉發給其他人之前對其進行編輯嗎?使用這個工具,你就可以完全輕鬆的掌控編輯任何檔案。
  • 檔案格式轉換 - 不僅是PDF到文字,反之亦然,你還可以從PDF轉換到大約300種其他格式,或從其他格式轉換到PDF,只需點擊幾下就可以了。
  • 表格建立 - 你只需點擊一下,就可以建立進階和複雜的表格。有了這個功能,你還可以編輯現有的表格,以及從你的電腦上填寫表格,而不需要下載和列印它們。
  • OCR - 有了OCR(光學字符識別),你可以輕鬆地將掃描的PDF檔案轉換成可編輯的格式,並可以進一步將它們轉換成任何其他格式。聽起來很有趣吧?

PDFelement還有許多其他很棒的功能,它可以輕鬆超越其他類似的軟體,因為其他軟體都沒有這麼多的功能組合。現在讓我們來看看將PDF轉換為文字的一步一步指南。

第1步:打開PDF檔案

首先,啟動PDFelement,並打開PDF檔案來轉換它。若要打開檔案,點選"打開檔案......"按鈕,在你的電腦中找到該檔案,選擇它,並點選"打開"按鈕。

pdf到文字python

第2步:將PDF轉換為文字

現在,在選單欄點選"轉換",然後在子選單點選"到文字"。

python pdf到文字

第3步:選擇輸出資料夾

在最後一步,選擇轉換後的檔案將被儲存的輸出或目標資料夾,並點選"儲存"按鈕。當你點選"儲存"按鈕後,PDF檔案會瞬間轉換為文字格式,並被儲存在選定的目的地。這就是在不使用Python或任何其他複雜語言的情況下將PDF轉換為文字的方法。

轉換pdf到文字python

免費下載立即購買 PDFelement!

免費下載立即購買 PDFelement!

立即購買 PDFelement!

立即購買 PDFelement!


author name

Quintela

staff 編輯

首頁 > 關於PDF 檔案的知識 > 用Python將PDF轉換為文字