apache pdfbox怎么用

文章插圖
Apache PDFbox是一個開源的、基于Java的、支持PDF文檔生成的工具庫,它可以用于創建新的PDF文檔,修改現有的PDF文檔,還可以從PDF文檔中提取所需的內容 。Apache PDFBox還包含了數個命令行工具 。
Apache PDFbox于2016年4月26日發布了最新的2.0.1版 。
如何用PDFBox-1.8.3打印文件我們需要PDFBox的Jar包,所以我們先在百度搜索一下“PDFBox” 。點擊“Apache PDFBox | A Java PDF Library”這個鏈接 。
進入Apache PDFBox介紹頁面,我們可以看到PDFBox可以實現這么多操作,我們這里只介紹如何提取文本,也就是第一項“Extract Text-Extract Unicode text from PDF files.”
然后我們點擊左側導航中的“Downloads”(下載),我們進入下載頁面 。
此時我們希望下載兩個Jar文件,一個是“pdfbox-app-1.8.10.jar”,另一個是“fontbox-1.8.10.jar”,你可以發現還有一個“pdfbox-1.8.10.jar”,為什么不下載它呢?上面那個名稱中含有“app”的Jar,它是功能最完整的,所以下載它比較好 。
4
將下載的這兩個Jar文件加到程序的libraries中 。說一下步驟,右擊工程-->選擇“Build Path”-->"Configure Build Path...",彈出窗口,選擇左側導航中的“Java Build Path”,再選擇“libraries”選項卡,點擊“Add External JARs”,再選擇上剛剛下載的那兩個Jar文件,點擊“OK”即可 。
pdfbox itext哪個好用PDFBox和IText是解析PDF文檔最常用的兩種java API 。
1、 使用PDFBox時,需要添加:pdfbox-2.0.0.jar、fontbox-2.0.0.jar、commons-logging-1.2.jar;
2、 使用iText時,需要添加:itextpdf-5.5.9.jar;
話不多說,直接看具體代碼 。
import java.io.File;
import java.io.FileNotFoundException;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfReaderContentParser;
import com.itextpdf.text.pdf.parser.SimpleTextExtractionStrategy;
import com.itextpdf.text.pdf.parser.TextExtractionStrategy;
public class PdfPaser {
/**
* 使用IText API解析
* @param filePath 待解析pdf文檔路徑
* @return 解析得到的pdf文本字符串
* @throws Exception
*/
public String paserPDFFileByIText(String filePath) throws Exception {
TextExtractionStrategy strategy = null;
PdfReader reader = new PdfReader(filePath);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
StringBuffer buffer = new StringBuffer();
for (int i = 1; i <= reader.getNumberOfPages(); i++) {
strategy = parser.processContent(i, new SimpleTextExtractionStrategy());
buffer.append(strategy.getResultantText());
}
return buffer.toString();
}
/**
* 使用PdfBox API解析
* @param filePath 待解析pdf文檔路徑
* @return 解析得到的pdf文本字符串
* @throws Exception
*/
public String paserPDFFileByPdfBox(String filePath) throws Exception {
File file = new File(filePath);
PDDocument document = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String result = stripper.getText(document);
if(document != null){
document.close();
}
return result;
}
}
用pdfbox怎么將word轉換成pdf?【pdfbox開發文檔,pdfbox讀取pdf表格】你好!
用掃描儀可以的 。只適合少頁的 。
如有疑問,請追問 。
- 移動互聯網開發技術,手機app開發
- 手機word下劃線怎么打出來,文字下劃線怎么打出來
- wps背景圖片怎么設置大小,wps背景圖片怎么設置一張
- 智辦公內部app,東航內部app
- 網絡開發工程師,網絡開發軟件
- 怎樣做個app軟件開發,怎樣做個app軟件代理
- 紅米手機開發者選項在哪里關閉,紅米手機開發者選項在哪里設置
- 廣州PHP開發工程師,廣州PHP軟件開發
- 怎樣復制百度文庫里的付費文檔,怎樣復制百度文庫的文章
- word文檔如何給文章添加標題,word表格怎么頂頭打字
