Tag: parsing

使用Excel VBAparsingHTML: 嗨StackOverflow社区！在我去最近的加油站买了一加仑的汽油，然后去购物中心（一路上擦着绝望的泪水）把我自己放火了… 我正在尝试parsing几个网站，每个网站都是一个finance.google.co.uk的实例。这个子只打开了3个站点（现在我计划有几百个），从每个站点拿出股价，分别放在A1，A2，A3单元格中。我写的代码只有在启动/重新启动我的笔记本电脑并第一次运行excel后才能正常工作。第二次和以后的运行会产生随机的结果，这意味着第二次运行会给我说A1和A3的值，下一个A1，下一个A1和A2等。最近几天花了一些时间来弄清楚发生了什么事情。此外，我不能find一种方法来摆脱“在错误恢复下一行”行。如果我这样做，我得到“方法导航”的对象“IWebBrowser2”失败“的错误，任何想法为什么？顺便说一下，我是绿色的，代码为个人使用，或试图。所以也许我忽略了一些简单的事情，或者我认为是这样的事情，根本就不知道那么简单的事情。齿轮： – windows7 32bit – IE 11 我的分： Sub Google_Finance() Dim o(3) As String o(1) = "http://finance.google.co.uk/finance?q=LON%3ABARC" o(2) = "http://finance.google.co.uk/finance?q=LON%3ACCH" o(3) = "http://finance.google.co.uk/finance?q=LON%3ASUK2" Dim IE As Object Set IE = New InternetExplorer IE.Visible = False For i = 1 To 3 IE.navigate o(i) On Error […]

无法正确find/replace: 我有一个CSV文件，我试图从中删除HTML标签，并且所有行都返回。使用<*>执行查找/replace操作会返回“此公式存在问题”错误。尝试\<*>得到错误“我们找不到任何要replace的东西”。尝试这个VBA什么都不做 – 它运行成功，但所有的标签仍然存在： Sub t() With Range("A1:AE60165") .Replace Chr(10), " " .Replace Chr(13), " " .Replace vbCr, " " .Replace vbLf, " " .Replace vbCrLf, " " .Replace "<*>", "" End With End Sub 该macros也不会删除任何换行符或回车符。用Char!10)或Char(13)做一个查找/replace也不会做任何事情。我试过的最后一件事是Worksheetfunction.Clean(Range("A1")) ，它也什么都不做。但如果在A2 ，我使用=CLEAN(A1) ，它成功地删除了换行符。尽pipe数据集非常大，但是我不能在所有的单元格上这样做。我甚至无法从所有单元格中成功删除@ 。我刚刚运行它，它删除了23个实例，但即使我select的单元格有一个@但没有被删除。我怀疑这是CSV的东西，因为我不知道它为什么如此复杂。这是一个很多的数据，所以一个函数不可能是最好的select。这可能是一些Unicodetypes的问题？编辑：FWIW，我使用profiles.csv在这里find，因为我学习Python它只是玩弄。这里有一个pastebin链接到less量的数据，但我不知道它在该网站“翻译”有多好。

parsingSQL文件以分隔列: 我有一个SQL文件有很多插入语句（超过3000+）。例如 insert into `pubs_for_client` (`ID`, `num`, `pub_name`, `pub_address`, `publ_tele`, `publ_fax`, `pub_email`, `publ_website`, `pub_vat`, `publ_last_year`, `titles_on_backlist`, `Personnel`) values('7','5','4TH xxxx xxxx','xxxx xxxx, 16 xxxxx xxxxx, xxxxxxx, We','111111111','1111111111','support@example.net','www.example.net','15 675 4238 14',NULL,NULL,'Jane Bloggs(Sales Contact:)jane.bloggs@example.net,Joe Bloggs(Other Contact:)joe.bloggs@example.net'); 我已经将这个导出到一个Excel文档（我通过在phpmyadmin中运行查询，并导出为一个Excel文档）。只有一个问题，就像你在这种情况下看到的，有两个名字和电子邮件地址被插入到“人员”中。将这些分开显示为姓名，电子邮件，姓名2，电子邮件2是多么容易/困难？

Python – parsing结构化文本到Excel: 我需要将结构化文本格式的大量文件转换为excel（csv会工作），以便能够将它们与其他一些数据合并。这里是一个文本的样本： FILER: COMPANY DATA: COMPANY CONFORMED NAME: NORTHQUEST CAPITAL FUND INC CENTRAL INDEX KEY: 0001142728 IRS NUMBER: 223772454 STATE OF INCORPORATION: NJ FISCAL YEAR END: 1231 FILING VALUES: FORM TYPE: NSAR-A SEC ACT: 1940 Act SEC FILE NUMBER: 811-10419 FILM NUMBER: 03805344 BUSINESS ADDRESS: STREET 1: 16 RIMWOOD LANE CITY: COLTS NECK STATE: NJ […]

在Excel中使用python格式化单元格: 您好我正在使用pythonparsing通过一个excel文件，只复制我想要另一个excel文件的内容，但是，我想新的单元格以不同的方式格式化。目前我正在使用xlrd和xlwt库。我查看了他们的网站上的文档，似乎没有解决它，只有字体格式，如粗体和下划线。具体而言，我希望我的新复制的单元格居中，其他一些单元格合并。有任何想法吗？

Excelstringparsing与随机字符: 所以，我这里有这个stringXX.XX.XX.XX.XX.XX 我必须检查一些XX是否匹配模式。像10.10.10.??.10.?? 为什么我不能用EXACT(cell,"10.10.10."&??&".10."&??) 我的意思是，我怎么能告诉我需要一些数字匹配，但我不在乎别人？希望很清楚，我到处search。

用js-xlsxparsingExcel工作表: 我试图parsing用户指定的目录中的所有Excel文件，但我使用的js-xlsx库似乎需要手动导航。 var url = "/test-files/test.xlsx"; <——– Located in the project directory var oReq = new XMLHttpRequest(); oReq.open("GET", url, true); oReq.responseType = "arraybuffer"; oReq.onload = function(e) { var arraybuffer = oReq.response; var data = new Uint8Array(arraybuffer); var arr = new Array(); for (var i = 0; i != data.length; i++) arr[i] = String.fromCharCode(data[i]); var bstr = […]

VBA ：自动化：在同一浏览器窗口/选项卡中打开链接: 我想用VBA（Excel）parsing一长串本地网页（ .HTM文件），并将一些数据提取到excel中。有超过9000个程序需要刮的网页。这是一个例子： > C:\Users\User_ID\Webpages\BS_1000.HTM.htm C:\Users\User_ID\Webpages\BS_1001.HTM.htm C:\Users\User_ID\Webpages\BS_1002.HTM.htm C:\Users\User_ID\Webpages\BS_1003.HTM.htm C:\Users\User_ID\Webpages\BS_1006.HTM.htm C:\Users\User_ID\Webpages\BS_1007.HTM.htm C:\Users\User_ID\Webpages\BS_1011.HTM.htm C:\Users\User_ID\Webpages\BS_1012.HTM.htm C:\Users\User_ID\Webpages\BS_1015.HTM.htm C:\Users\User_ID\Webpages\BS_1016.HTM.htm [… and the list goes on …] 这里是VBA： <!– language: lang-HTML –> For startNumber = 1 To TotalProfiles Dim ie As InternetExplorerMedium Set ie = New InternetExplorerMedium ie.Visible = True Application.StatusBar = "Loading profile " & ProfileNumber & " from […]

在VB.NET CDbl和十进制分隔符 – 有没有办法绕过区域设置？: 我正在编写一个程序，用于从Excel工作表中分析和处理信息（文本和数字）。我面临一个奇怪的问题，有关将单元格数据转换为Doublevariables。大多数时候，并感谢Microsoft.Office.Interop.Excel导入，我使用： var = CDbl(sheet.Cells(row,column).Value) 但是，我的工作表（由数千行组成）包含用“。”表示的十进制数字。和“，”。在我国，“，”被认为是小数分隔符，所以像“1.23456789”这样的任何数字都会引起CDbl的exception。我find了一个解决方法，它不是使用.Value，而是使用单元格的.Text，并使用Replace（）去除“。”： var = CDbl(sheet.Cells(row,column).Text.Replace(".", ",")) 但是，由于我操作的工作表的长度，这大大增加了我的执行时间。什么是最快的方法来做到这一点？有没有办法告诉Visual Studio摆脱区域设置，并考虑“。” 和“，”一样？还有其他build议吗？非常感谢你。 🙂

C＃：从xls文档读取数据: 我目前正在一个项目遍历一个Excel文档，并使用C＃插入数据到数据库。这个项目的相关数据是： Excel表格有14行，我不在乎。（有时15，下面参见俄罗斯/西伯利亚）数据按名称分成2列（date和值），例如：表1 USA China Russia Date Value Date Value Siberia 1/1/09 4.3654 1/1/09 2.7456 Date Value 1/2/09 3.5545 1/3/09 9.3214 2/5/09 0.2454 1/3/09 3.2322 1/21/09 5.2234 2/6/09 0.5557 我需要获得的名称是直接在“date”上面列出的名称。我只关心数据库中没有的数据。在parsing每个列集之前，我将从数据库中获取任何给定名称的最大date，并跳过任何或之前的任何内容。不能保证列将以恒定的顺序或恒定的间距。我不希望所有名称的数据，而只是在收集文件之前放在一个列表中的数据。我目前的计划是这样的：对于每一列，如果date字段位于第16行，则将名称保存为上面第15行的值，检查数据库中该名称的最后date，只插入date大于获取date的数据。如果date字段位于第17行，则执行相同的操作，但在18行的每一行中启动for循环。如果名称不在列表中，请跳过列。如果是，请确保抓住旁边的列以获取必要的值。我的问题是：我目前正在尝试使用Codeplex的ExcelDataReader（ http://www.codeplex.com/ExcelDataReader ）。这只喜欢类似csv的工作表，这个工程没有。我不知道任何替代Excel的读者。据我所知，直接FileStream遍历此文件只能逐行，而不是逐列。对于还在读书的人，谢谢你的时间。任何关于如何进行的build议？请确保解决scheme可以遍历每列，而不是每行。另外，请不要担心数据库的东西，或者在遍历之前的名字列表。附录：我最终想要得到的是某种types的表，我可以用一个嵌套的循环遍历，使得以列为中心的遍历更容易。因为靠近纸张顶部的地方有太多垃圾（14行以上），所以最简单的解决scheme是不可行的。