1.搜到的一些参考资料,有空可以去试试:
http://www.endlesslycurious.com/2012/06/13/scraping-pdf-with-python/
https://github.com/dpapathanasiou/pdfminer-layout-scanner/blob/master/layout_scanner.py
http://denis.papathanasiou.org/2010/08/04/extracting-text-images-from-pdf-files/
2.后来才发现,原先已有类似帖子:
3.另外有空可以参考:
使用iText,精确提取PDF页面内容(估计完胜pdfbox吧)
转载请注明:在路上 » 【整理】用Python从PDF中提取数据