【整理】python nlp 基础知识
crifan 5年前 (2019-09-02) 1498浏览 0评论
python nlp 【译文】基于Python的自然语言处理指南 – 知乎 text cleaning pipeline nlp – Pipeline for text cleaning / processing in py...
crifan 5年前 (2019-09-02) 1498浏览 0评论
python nlp 【译文】基于Python的自然语言处理指南 – 知乎 text cleaning pipeline nlp – Pipeline for text cleaning / processing in py...
crifan 6年前 (2019-04-09) 8505浏览 0评论
折腾: 【已解决】更新gitbook发布脚本Makefile忽略某些book 期间,Makefile中想要读取出文件的内容 makefile read file contents Create a variable in a makefile by ...
crifan 6年前 (2018-10-11) 1403浏览 0评论
折腾: 【记录】用PySpider去爬取scholastic的绘本书籍数据 期间,现在对于: Riff Raff Sails the High Cheese by Susan Schade | Scholastic 已经用代码: (注意 html...
crifan 11年前 (2014-01-27) 3239浏览 0评论
【背景】 折腾: 【未解决】将不可拷贝复制的PDF中的表格数据导出并转换为xml格式数据 期间,去试试用xpdf,将一个不可拷贝的pdf文件,转换为文本或html。 【折腾过程】 1.参考: PDFTOHTML conversion p...
crifan 11年前 (2014-01-27) 4899浏览 3评论
【背景】 折腾: 【未解决】将不可拷贝复制的PDF中的表格数据导出并转换为xml格式数据 期间,去试试使用pyPdf去把一个不可复制的PDF文件,转换为文本或HTML。 【折腾过程】 1.参考: Convert PDF to text ...
crifan 11年前 (2014-01-27) 3296浏览 1评论
【背景】 折腾: 【未解决】将不可拷贝复制的PDF中的表格数据导出并转换为xml格式数据 期间,打算去试试使用PDFMiner去把PDF,且是个加了密,不可拷贝的PDF,看看能否转换为文本或HTML。 【折腾过程】 1.找到主页: PD...