Tag: html parsing

将Htmlstring转换为HTMLDocument VBA

我正在写一个macros来获取雅虎当前的汇率,但我无法将HTMLstring转换为HTMLDocument,以便通过idsearch所需的元素。 这是我的代码到目前为止,但它在debug.print行上失败。 Public Sub Forex(currency1 As String, currency2 As String) Dim oXHTTP As Object Dim doc As HTMLDocument Dim url As String Dim html As String Dim id As String Set oXHTTP = CreateObject("MSXML2.XMLHTTP") url = "http://finance.yahoo.com/q?s=" & currency1 & currency2 & "=X" oXHTTP.Open "GET", url, False oXHTTP.send html = oXHTTP.responseText Set oXHTTP = Nothing […]

抓取excel中的微数据属性

我想抓取来自网站的itemprop微数据,并将其放入excel工作表的单元格中。 <li>Item Num: <span itemprop="productID">123ABC-200</span> </li> <li>ManufacturerNum: <span itemprop="model">ABC123</span> </li> 我存储的地址刮在一个专栏,我试图打开IE浏览器,导航到网站,抓住数据,并把它扔到另一个单元格。 Sub scrape() Dim i As Integer lastrow = Sheet1.Cells(Rows.Count, "A").End(xlUp).Row For i = 2 To lastrow Set wb = CreateObject("internetExplorer.Application") sURL = Cells(i, 1) wb.navigate sURL wb.Visible = True While wb.Busy DoEvents Wend 'HTML document Set doc = wb.document Cells(i, 2) = doc.Title On […]

为什么我在将文本转换为java中的xls文件后写入文本时得到了偏移输出

我正在将parsing的网页输出写入两个文本文件。 “CrawledURLS.txt”保存抓取的页面,“CrawledURLSERROR.txt”保存未抓取的页面。 由于我应该得到一些输出数据的阴谋,我将.txt文件转换为.xls文件。 我获得了超过“300.000”的url。 当我停止程序来检查输出,我看到一些列被转移到正确或它包含不正确的信息。 这里是我写输出的地方: LinkNode deque(){ LinkNode link = pQUEUE.poll(); link.setDequeTime(new DateTime()); for (LinkNode l : pQUEUE) { DateTime start = new DateTime(); l.setDequeTime(start); l.setStartTime(start); PingTaskManager.ping(l); if(l.getStatus()!= null && l.getStatus().equals(LinkNodeStatus.OK)) { try (PrintWriter out = new PrintWriter (new BufferedWriter (new FileWriter("CrawledURLS.txt",true)))){ l.setEndTime(new DateTime()); out.println( l.getUrl() + ": "+ l.getWeight() + " InTime: "+ […]

如何从VBA中的img标签parsingsrc

我有一个关于HTMLparsing的问题。 我有一个网站的一些产品,我想从图像捕捉到我当前的电子表格中的url。 这个电子表格是相当大的,但在第三列包含ItemNbr,我期望在第27列中的URL和一行对应于一个产品(项目)。 我的想法是获取“正常”或“大”或“非常大”的图像(这并不重要)的url。 这里是网站的结构(其他各种div): <div id="MainDisplay" class="miMaindisplay"> <a href="http://www.example.com/verylarge/12425/nl" id="ctl00_PageContent_MultiImage_jqzoom" class="loupe"> <div class="zoomPad"> <img src="http://www.example.com/regular/12425/nl" id="ctl00_PageContent_MultiImage_PreviewImage" class="miPreviewImage"> <div class="zoomPup"></div> <div class="zoomWindow"> <div class="zoomWrapper"> <div class="zoomWrapperTitle"></div> <div class="zoomWrapperImage"> <img src="http://www.example.com/large/12425/nl"> </div> </div> </div> <div class="zoomPreload">Loading zoom</div> </div> </a> </div> 我可以用这行代码在JS控制台中获取URL: document.getElementById('ctl00_PageContent_MultiImage_PreviewImage').src; 答案是: http://www.example.com/regular/12425/nl 但在VBA中没有成功。 这是我的代码片段: Sub ParseImage() Dim Cell As Integer Dim ItemNbr As String […]

需要HTML字符剥离Excel导出,但效果保留

我使用CF9的cfspreeadsheet标签和函数导出数据,有些列中有HTML格式的文本。 我需要去掉HTML标签,并将&lt;&amp;&amp;&amp;&amp;&amp; amp;&amp; amp; 不过,如果可能的话,我还想保留粗体标记和段落标记的效果。 我知道我可以使用rereplace,和其他人蛮力的输出,但我希望有一个更优雅的解决scheme。 有任何想法吗? 谢谢您的帮助!

HTML到Excel格式转换 – 在同一单元格中打破和li

我在本周早些时候发布了一个关于HTML转换为Excel的问题,这个问题对我很好。 我给出的示例macros代码在将HTML代码转换为Excel单元格的过程中做了很好的工作(感谢Siddharth Rout!)。 我现在遇到的问题,似乎无法find任何地方的答案与IE对象如何处理段落,中断,并在Excel中列出项目。 p,br和li将文本移动到原始单元格下面的单元格中,覆盖这些单元格中的所有数据。 有什么办法让HTML块只显示在一个单元格中(意思是每个新的行标签只会在同一个单元格中创build一个新行)? VBA代码 Sub Sample() Dim Ie As Object Set Ie = CreateObject("InternetExplorer.Application") With Ie .Visible = False .Navigate "about:blank" .document.body.InnerHTML = Sheets("Sheet1").Range("A1").Value .document.body.createtextrange.execCommand "Copy" ActiveSheet.Paste Destination:=Sheets("Sheet1").Range("A1") .Quit End With End Sub 示例HTML <p> Here are some possible uses:</p> <ul> <li><font color = "red"> syntax highlighting code snippets</font></li> <li style ="font-weight:bold; […]

带有标签的HTML文本,用于在Excel单元格中格式化文本

有没有一种方法来获取HTML并将其导入到Excel中,以便将其格式化为富文本(最好使用VBA)? 基本上,当我粘贴到一个Excel单元格,我期待着把这个: <html><p>This is a test. Will this text be <b>bold</b> or <i>italic</i></p></html> 进入这个: 这是一个testing。 这个文本是粗体还是斜体?