Tag: parsing

使用Excel VBAparsingHTML

嗨StackOverflow社区! 在我去最近的加油站买了一加仑的汽油,然后去购物中心(一路上擦着绝望的泪水)把我自己放火了… 我正在尝试parsing几个网站,每个网站都是一个finance.google.co.uk的实例。 这个子只打开了3个站点(现在我计划有几百个),从每个站点拿出股价,分别放在A1,A2,A3单元格中。 我写的代码只有在启动/重新启动我的笔记本电脑并第一次运行excel后才能正常工作。 第二次和以后的运行会产生随机的结果,这意味着第二次运行会给我说A1和A3的值,下一个A1,下一个A1和A2等。最近几天花了一些时间来弄清楚发生了什么事情。 此外,我不能find一种方法来摆脱“在错误恢复下一行”行。 如果我这样做,我得到“方法导航”的对象“IWebBrowser2”失败“的错误,任何想法为什么? 顺便说一下,我是绿色的,代码为个人使用,或试图。 所以也许我忽略了一些简单的事情,或者我认为是这样的事情,根本就不知道那么简单的事情。 齿轮: – windows7 32bit – IE 11 我的分: Sub Google_Finance() Dim o(3) As String o(1) = "http://finance.google.co.uk/finance?q=LON%3ABARC" o(2) = "http://finance.google.co.uk/finance?q=LON%3ACCH" o(3) = "http://finance.google.co.uk/finance?q=LON%3ASUK2" Dim IE As Object Set IE = New InternetExplorer IE.Visible = False For i = 1 To 3 IE.navigate o(i) On Error […]

无法正确find/replace

我有一个CSV文件,我试图从中删除HTML标签,并且所有行都返回。 使用<*>执行查找/replace操作会返回“此公式存在问题”错误。 尝试\<*>得到错误“我们找不到任何要replace的东西”。 尝试这个VBA什么都不做 – 它运行成功,但所有的标签仍然存在: Sub t() With Range("A1:AE60165") .Replace Chr(10), " " .Replace Chr(13), " " .Replace vbCr, " " .Replace vbLf, " " .Replace vbCrLf, " " .Replace "<*>", "" End With End Sub 该macros也不会删除任何换行符或回车符。 用Char!10)或Char(13)做一个查找/replace也不会做任何事情。 我试过的最后一件事是Worksheetfunction.Clean(Range("A1")) ,它也什么都不做。 但如果在A2 ,我使用=CLEAN(A1) ,它成功地删除了换行符。 尽pipe数据集非常大,但是我不能在所有的单元格上这样做。 我甚至无法从所有单元格中成功删除@ 。 我刚刚运行它,它删除了23个实例,但即使我select的单元格有一个@但没有被删除。 我怀疑这是CSV的东西,因为我不知道它为什么如此复杂。 这是一个很多的数据,所以一个函数不可能是最好的select。 这可能是一些Unicodetypes的问题? 编辑:FWIW,我使用profiles.csv在这里find,因为我学习Python它只是玩弄。 这里有一个pastebin链接到less量的数据,但我不知道它在该网站“翻译”有多好。

parsingSQL文件以分隔列

我有一个SQL文件有很多插入语句(超过3000+)。 例如 insert into `pubs_for_client` (`ID`, `num`, `pub_name`, `pub_address`, `publ_tele`, `publ_fax`, `pub_email`, `publ_website`, `pub_vat`, `publ_last_year`, `titles_on_backlist`, `Personnel`) values('7','5','4TH xxxx xxxx','xxxx xxxx, 16 xxxxx xxxxx, xxxxxxx, We','111111111','1111111111','support@example.net','www.example.net','15 675 4238 14',NULL,NULL,'Jane Bloggs(Sales Contact:)jane.bloggs@example.net,Joe Bloggs(Other Contact:)joe.bloggs@example.net'); 我已经将这个导出到一个Excel文档(我通过在phpmyadmin中运行查询,并导出为一个Excel文档)。 只有一个问题,就像你在这种情况下看到的,有两个名字和电子邮件地址被插入到“人员”中。 将这些分开显示为姓名,电子邮件,姓名2,电子邮件2是多么容易/困难?

Python – parsing结构化文本到Excel

我需要将结构化文本格式的大量文件转换为excel(csv会工作),以便能够将它们与其他一些数据合并。 这里是一个文本的样本: FILER: COMPANY DATA: COMPANY CONFORMED NAME: NORTHQUEST CAPITAL FUND INC CENTRAL INDEX KEY: 0001142728 IRS NUMBER: 223772454 STATE OF INCORPORATION: NJ FISCAL YEAR END: 1231 FILING VALUES: FORM TYPE: NSAR-A SEC ACT: 1940 Act SEC FILE NUMBER: 811-10419 FILM NUMBER: 03805344 BUSINESS ADDRESS: STREET 1: 16 RIMWOOD LANE CITY: COLTS NECK STATE: NJ […]

在Excel中使用python格式化单元格

您好我正在使用pythonparsing通过一个excel文件,只复制我想要另一个excel文件的内容,但是,我想新的单元格以不同的方式格式化。 目前我正在使用xlrd和xlwt库。 我查看了他们的网站上的文档,似乎没有解决它,只有字体格式,如粗体和下划线。 具体而言,我希望我的新复制的单元格居中,其他一些单元格合并。 有任何想法吗?

Excelstringparsing与随机字符

所以,我这里有这个stringXX.XX.XX.XX.XX.XX 我必须检查一些XX是否匹配模式。 像10.10.10.??.10.?? 为什么我不能用EXACT(cell,"10.10.10."&??&".10."&??) 我的意思是,我怎么能告诉我需要一些数字匹配,但我不在乎别人? 希望很清楚,我到处search。

用js-xlsxparsingExcel工作表

我试图parsing用户指定的目录中的所有Excel文件,但我使用的js-xlsx库似乎需要手动导航。 var url = "/test-files/test.xlsx"; <——– Located in the project directory var oReq = new XMLHttpRequest(); oReq.open("GET", url, true); oReq.responseType = "arraybuffer"; oReq.onload = function(e) { var arraybuffer = oReq.response; var data = new Uint8Array(arraybuffer); var arr = new Array(); for (var i = 0; i != data.length; i++) arr[i] = String.fromCharCode(data[i]); var bstr = […]

VBA :自动化:在同一浏览器窗口/选项卡中打开链接

我想用VBA(Excel)parsing一长串本地网页( .HTM文件),并将一些数据提取到excel中。 有超过9000个程序需要刮的网页。 这是一个例子: > C:\Users\User_ID\Webpages\BS_1000.HTM.htm C:\Users\User_ID\Webpages\BS_1001.HTM.htm C:\Users\User_ID\Webpages\BS_1002.HTM.htm C:\Users\User_ID\Webpages\BS_1003.HTM.htm C:\Users\User_ID\Webpages\BS_1006.HTM.htm C:\Users\User_ID\Webpages\BS_1007.HTM.htm C:\Users\User_ID\Webpages\BS_1011.HTM.htm C:\Users\User_ID\Webpages\BS_1012.HTM.htm C:\Users\User_ID\Webpages\BS_1015.HTM.htm C:\Users\User_ID\Webpages\BS_1016.HTM.htm [… and the list goes on …] 这里是VBA: <!– language: lang-HTML –> For startNumber = 1 To TotalProfiles Dim ie As InternetExplorerMedium Set ie = New InternetExplorerMedium ie.Visible = True Application.StatusBar = "Loading profile " & ProfileNumber & " from […]

在VB.NET CDbl和十进制分隔符 – 有没有办法绕过区域设置?

我正在编写一个程序,用于从Excel工作表中分析和处理信息(文本和数字)。 我面临一个奇怪的问题,有关将单元格数据转换为Doublevariables。 大多数时候,并感谢Microsoft.Office.Interop.Excel导入,我使用: var = CDbl(sheet.Cells(row,column).Value) 但是,我的工作表(由数千行组成)包含用“。”表示的十进制数字。 和“,”。 在我国,“,”被认为是小数分隔符,所以像“1.23456789”这样的任何数字都会引起CDbl的exception。 我find了一个解决方法,它不是使用.Value,而是使用单元格的.Text,并使用Replace()去除“。”: var = CDbl(sheet.Cells(row,column).Text.Replace(".", ",")) 但是,由于我操作的工作表的长度,这大大增加了我的执行时间。 什么是最快的方法来做到这一点? 有没有办法告诉Visual Studio摆脱区域设置,并考虑“。” 和“,”一样? 还有其他build议吗? 非常感谢你。 🙂

C#:从xls文档读取数据

我目前正在一个项目遍历一个Excel文档,并使用C#插入数据到数据库。 这个项目的相关数据是: Excel表格有14行,我不在乎。 (有时15,下面参见俄罗斯/西伯利亚) 数据按名称分成2列(date和值),例如: 表1 USA China Russia Date Value Date Value Siberia 1/1/09 4.3654 1/1/09 2.7456 Date Value 1/2/09 3.5545 1/3/09 9.3214 2/5/09 0.2454 1/3/09 3.2322 1/21/09 5.2234 2/6/09 0.5557 我需要获得的名称是直接在“date”上面列出的名称。 我只关心数据库中没有的数据。 在parsing每个列集之前,我将从数据库中获取任何给定名称的最大date,并跳过任何或之前的任何内容。 不能保证列将以恒定的顺序或恒定的间距。 我不希望所有名称的数据,而只是在收集文件之前放在一个列表中的数据。 我目前的计划是这样的: 对于每一列,如果date字段位于第16行,则将名称保存为上面第15行的值,检查数据库中该名称的最后date,只插入date大于获取date的数据。 如果date字段位于第17行,则执行相同的操作,但在18行的每一行中启动for循环。 如果名称不在列表中,请跳过列。 如果是,请确保抓住旁边的列以获取必要的值。 我的问题是: 我目前正在尝试使用Codeplex的ExcelDataReader( http://www.codeplex.com/ExcelDataReader )。 这只喜欢类似csv的工作表,这个工程没有。 我不知道任何替代Excel的读者。 据我所知,直接FileStream遍历此文件只能逐行,而不是逐列。 对于还在读书的人,谢谢你的时间。 任何关于如何进行的build议? 请确保解决scheme可以遍历每列,而不是每行。 另外,请不要担心数据库的东西,或者在遍历之前的名字列表。 附录:我最终想要得到的是某种types的表,我可以用一个嵌套的循环遍历,使得以列为中心的遍历更容易。 因为靠近纸张顶部的地方有太多垃圾(14行以上),所以最简单的解决scheme是不可行的。