python程序設計PDF python程序設計基礎 pdf



文章插圖
python程序設計PDF python程序設計基礎 pdf

文章插圖
如果經常跟數據表格打交道,那你應該體驗過那種令人煩躁到抓狂的心情 。但現在,學會下面將要介紹的一款工具的使用方法,相信我,它會讓你在工作中簡直不能更舒爽 。
Excalibur,從古希臘語翻譯過來就是“神劍”,它現在也是一種用于從 PDF 中提取表格數據的 Web 界面,使用 Python 3 編寫,由 Camelot(Python 庫) 提供支持,可以讓任何人輕松地從 PDF 文件中提取表格數據 。需要注意的是,Excalibur 僅適用于基于文本的 PDF 文件,掃描文件不在此列 。
Camelot 和 Excalibur 的作者和維護者是來自新德里 Bharati Vidyapeeth 工程學院的 Vinayak Mehta,目前他正全職做這些項目 。
Excalibur 的四大特性
可移植文件格式
PDF 文件定義了將字符放置在相對于頁面左下角的 x,y 坐標的指令 。通過將某些字符放在比其他字符更近的地方來模擬單詞 。空格是通過將單詞放在相對較遠的地方來模擬的 。最后,通過放置在電子表格中顯示的字詞來模擬表格,格式沒有表格結構的內部表示 。
自動檢測 PDF 中的表格數據
可移植文件格式不是為表格數據設計的 。可悲的是,許多開放數據共享時都是 PDF 文件,但對其中的表格進行分析卻是一件非常痛苦的事 。簡單的復制粘貼行不通,Excalibur 通過自動檢測 PDF 中的表格并讓你通過 Web 界面將它們保存為 CSV 和 Excel 文件,這使 PDF 表格提取變得非常簡單 。
可動態調整表格提取規則
雖然有很多廣泛用于 PDF 表格提取的開源和閉源工具,但他們輸出的表格良莠不齊 。Excalibur 由 Camelot 提供支持,為用戶提供附加設置以調整表格提取并獲得最佳效果 。相較而言,它的性能要好于其他開源工具和庫 。
數據完全可控且安全
【python程序設計PDF python程序設計基礎 pdf】你可以完全控制數據,因為所有文件存儲和處理都在你自己的本地或遠程計算機上進行 。Excalibur 還可以配置 MySQL 和 Celery 系統,以并行和分布式方式執行表格提取任務 。默認情況下,任務按順序執行 。
快速上手指南
下載和安裝
https://github.com/camelot-dev/excalibur/releases