Tag: 文本提取

从大文件中提取文本: 我需要从大文件中提取文本（最大限制50MB）文件可能是doc，ppt，xls，txt或pdf格式。到目前为止，我已经使用Apache POI'http: //poi.apache.org/ ' 用于Microsoft Office文档和PDFBox从PDF中提取文本。但是，随着文件变得特别大，以下文件，提取过程变慢。结果到目前为止， 1.PPTX – 45MB – 3分钟apx 2.PDF – 62MB – 2分钟apx 3.Docx – 32MB – 15秒apx 4.XLS – 17MB – 10秒apx 5.XLSX – 7MB – 20秒apx 我需要这个过程是快速的。我可以使用哪些API来实现这一点，以及哪些最佳实践可以帮助我提高应用程序的性能？

从PDF文件中提取每个句子到Excel中的单独单元格？: 正如标题所示，我有一个文件需要将每个句子提取到Excel中的单元格，每个单元格一个。句子提取可以像find下一个". "一样简单，并提取到一个单元格。问题是除了MATLAB之外，我真的不知道任何编程语言（我是机械工程师）。如果它可以忽略表格/图片的真棒，如果没有，它可以很好，只要它遇到一个表/图片时不会搞砸。我知道我没有给你很多工作，但任何帮助表示赞赏。

从包含子string中的特定字符的string中提取一个字: 在MS Excel中，我想使用公式从文本中只包含特定字符（“=”）的单元格中提取单词。 A2：多莉给我做了一个自制的蛋糕和一些松饼 A3：我们吃了奶酪=蛋糕吃晚饭 A4：每个人都喜欢这家面包店如何制作一些很棒的蛋糕 A5：约翰尼自己晚餐=昨天晚上，然后清理厨房 A6：有大量的国家=俄克拉何马州我想从栏目（A2：A4）中的以下内容在栏目（B2：B4）中提供以下结果。 B2：自制=蛋糕 B3：芝士=蛋糕 B4：真棒=蛋糕 B5：晚餐=昨晚 B6：州=俄克拉荷马州我已经尝试了几种方法，比其他方法更接近一些，但是如果可能的话，却无法弄清楚。

从HTML标记中的文件中刮除文本: 我有一个文件，我想从中提取date，这是一个HTML源文件，所以它充满了我不需要的代码和短语。我需要提取每个包裹在特定HTML标记中的date的实例： abbr title =“（（这是我需要的文本））”data-utime =“ 什么是最简单的方法来实现呢？

VBA代码searchstring，然后第二个string，并从文本文件返回数据行: 我试图通过大日志文件search来查找一个文本string，然后如果该string存在find另一个文本string，然后返回下一个5行数据。我设法search文本文件的string，并返回5行之后，但我似乎无法让macros返回5行之前search两行文本。例如，如果文本文件看起来像这样： 17:42:56: Log File Closed 17:42:56: PrintInvoice: 2 17:42:56: copyReportData: 17:42:56: getNextRptDataID: 17:42:58: CalcDelCharge: 17:42:58: Sub Total: 3.80 17:42:58: Del Total: 0.00 17:42:58: Disc Total: 0.00 17:42:58: Vat Total: 0.00 17:42:58: Inv Total: 3.80 18:33:00: CalculateAmtDue: 18:33:00: CalculateChange: 18:33:00: UpdateDelCharge: 18:33:00: UpdateTotals 18:42:58: CalcDelCharge: 18:42:58: Sub Total: 5.80 18:42:58: Del Total: 0.00 18:42:58: […]

根据括号的位置从string中提取单词: 如何从string中提取单词，直到excel中第二个右括号出现为止例如。华硕K55VD-SX313D笔记本电脑（第二代Ci3 / 4GB / 500GB / DOS / 2GBgraphics）（激情红）2写评论，这将有助于它为其他读者创造价值（提示）我如何提取只有华硕K55VD-SX313D笔记本电脑（第二代Ci3 / 4GB / 500GB / DOS / 2GB图）（激情红）

Tag: 文本提取

从大文件中提取文本

从PDF文件中提取每个句子到Excel中的单独单元格？

从包含子string中的特定字符的string中提取一个字

从HTML标记中的文件中刮除文本

VBA代码searchstring，然后第二个string，并从文本文件返回数据行

根据括号的位置从string中提取单词

添加Percentile_Inc到Excel 2011 MAC？

Excel添加红绿灯

VBA将Excel电子表格链接到Access

csv文件打印大于0.5的列的原始值

从多个工作簿复制并粘贴到单个工作簿到下一个空行

Excell细胞样式问题

根据文本标准添加值

初始化UserForm多次

VBAnetworking数据不显示整个表

如何从模板生成工作表

运行时错误'1004'：使用ThisWorkbookselect范围类的方法失败

R：如何将结构化列表导出为excel

使用WMI在VBA中获取当前的Windows用户名

在Excel中提取文本的确切部分

如何将大数据导出到Excel中

Tag: 文本提取

从大文件中提取文本

从PDF文件中提取每个句子到Excel中的单独单元格？

从包含子string中的特定字符的string中提取一个字

从HTML标记中的文件中刮除文本

VBA代码searchstring，然后第二个string，并从文本文件返回数据行

根据括号的位置从string中提取单词

添加Percentile_Inc到Excel 2011 MAC？

Excel添加红绿灯

VBA将Excel电子表格链接到Access

csv文件打印大于0.5的列的原始值

从多个工作簿复制并粘贴到单个工作簿到下一个空行

Excell细胞样式问题

根据文本标准添加值

初始化UserForm多次

VBAnetworking数据不显示整个表

如何从模板生成工作表

运行时错误'1004'：使用ThisWorkbookselect范围类的方法失败

R：如何将结构化列表导出为ex​​cel

使用WMI在VBA中获取当前的Windows用户名

在Excel中提取文本的确切部分

如何将大数据导出到Excel中

R：如何将结构化列表导出为excel