Tag: 文本提取

从大文件中提取文本

我需要从大文件中提取文本(最大限制50MB)文件可能是doc,ppt,xls,txt或pdf格式。 到目前为止,我已经使用Apache POI'http: //poi.apache.org/ ' 用于Microsoft Office文档和PDFBox从PDF中提取文本。 但是,随着文件变得特别大,以下文件,提取过程变慢。 结果到目前为止, 1.PPTX – 45MB – 3分钟apx 2.PDF – 62MB – 2分钟apx 3.Docx – 32MB – 15秒apx 4.XLS – 17MB – 10秒apx 5.XLSX – 7MB – 20秒apx 我需要这个过程是快速的。 我可以使用哪些API来实现这一点,以及哪些最佳实践可以帮助我提高应用程序的性能?

从PDF文件中提取每个句子到Excel中的单独单元格?

正如标题所示,我有一个文件需要将每个句子提取到Excel中的单元格,每个单元格一个。 句子提取可以像find下一个". "一样简单,并提取到一个单元格。 问题是除了MATLAB之外,我真的不知道任何编程语言(我是机械工程师)。 如果它可以忽略表格/图片的真棒,如果没有,它可以很好,只要它遇到一个表/图片时不会搞砸。 我知道我没有给你很多工作,但任何帮助表示赞赏。

从包含子string中的特定字符的string中提取一个字

在MS Excel中,我想使用公式从文本中只包含特定字符(“=”)的单元格中提取单词。 A2:多莉给我做了一个自制的蛋糕和一些松饼 A3:我们吃了奶酪=蛋糕吃晚饭 A4:每个人都喜欢这家面包店如何制作一些很棒的蛋糕 A5:约翰尼自己晚餐=昨天晚上,然后清理厨房 A6:有大量的国家=俄克拉何马州 我想从栏目(A2:A4)中的以下内容在栏目(B2:B4)中提供以下结果。 B2:自制=蛋糕 B3:芝士=蛋糕 B4:真棒=蛋糕 B5:晚餐=昨晚 B6:州=俄克拉荷马州 我已经尝试了几种方法,比其他方法更接近一些,但是如果可能的话,却无法弄清楚。

从HTML标记中的文件中刮除文本

我有一个文件,我想从中提取date,这是一个HTML源文件,所以它充满了我不需要的代码和短语。 我需要提取每个包裹在特定HTML标记中的date的实例: abbr title =“((这是我需要的文本))”data-utime =“ 什么是最简单的方法来实现呢?

VBA代码searchstring,然后第二个string,并从文本文件返回数据行

我试图通过大日志文件search来查找一个文本string,然后如果该string存在find另一个文本string,然后返回下一个5行数据。 我设法search文本文件的string,并返回5行之后,但我似乎无法让macros返回5行之前search两行文本。 例如,如果文本文件看起来像这样: 17:42:56: Log File Closed 17:42:56: PrintInvoice: 2 17:42:56: copyReportData: 17:42:56: getNextRptDataID: 17:42:58: CalcDelCharge: 17:42:58: Sub Total: 3.80 17:42:58: Del Total: 0.00 17:42:58: Disc Total: 0.00 17:42:58: Vat Total: 0.00 17:42:58: Inv Total: 3.80 18:33:00: CalculateAmtDue: 18:33:00: CalculateChange: 18:33:00: UpdateDelCharge: 18:33:00: UpdateTotals 18:42:58: CalcDelCharge: 18:42:58: Sub Total: 5.80 18:42:58: Del Total: 0.00 18:42:58: […]

根据括号的位置从string中提取单词

如何从string中提取单词,直到excel中第二个右括号出现为止 例如。 华硕K55VD-SX313D笔记本电脑(第二代Ci3 / 4GB / 500GB / DOS / 2GBgraphics)(激情红)2写评论,这将有助于它为其他读者创造价值(提示) 我如何提取只有华硕K55VD-SX313D笔记本电脑(第二代Ci3 / 4GB / 500GB / DOS / 2GB图)(激情红)