Tag: web scraping

Excel数据导入特定单元格

我想列出设备,并把他们的价格放在旁边。 我的目标是每周检查不同的网站并注意趋势。 这是一个爱好项目,我知道有网站已经这样做。 例如: Device | URL Site 1 | Site 1 | URL Site 2 | Site 2 Device a | http://… | €40,00 | http://… | €45,00 Device b | http://… | €28,00 | http://… | €30,50 手工,这是很多工作(每周检查),所以我认为Excel中的macros将有所帮助。 问题是,我想把数据放在一个单元格中,而excel只能识别表格。 解决scheme:查看源代码,读取价格,导出价格到特定单元格。 我认为这在Excel中是完全可能的,但是我不能清楚地知道如何读取价格或其他给定的数据以及如何将其放入一个特定的单元格中。 我可以在源代码中指定坐标,还是有更有效的思维方式? 在此先感谢,所有的提示和解决scheme,欢迎!

不在scrapy中创build和编写xlxswriter包中的excel

我正在写一个代码来抓取网站与pythonselenium代码执行和打印细节我想要的,但我想存储在excel文件中使用python xlxswriter。 这是我的代码 import xlsxwriter import time from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By row = 0 col = 0 r=1 if r: workbook = xlsxwriter.Workbook('fit1.xlsx') worksheet = workbook.add_worksheet() for i in range(1,3): url = 'http://www.examble.com/kids//page-%d.html' % i for j […]

如何使用Power Query批量从Facebookconfiguration文件中获取信息? (或其他方法)

我是一个相当大的(但非常私人的)脸谱组的拥有者。 我想看看是否可以大批量地获取我会员脸书的“关于我”栏目中公开提供的所有个人信息。 我已经准备好了所有的URL /configuration文件名称,但是在自动提取组信息时遇到了问题。 我发现Excel的一个有用的插件称为Power Query,它可以让我做到这一点,但到目前为止,我只能手动完成。 以下是我制作的虚拟configuration文件的输出: 手动输出示例 这是我想要实现的,除了自动为所有帐户。 最佳案例场景有一个公式可以用来指向FB上的configuration文件,该configuration文件输出由列分隔符分隔的数据。 如其中,每个variables都有其自己的单元格公式,这可能需要很less的消毒。 可接受的层级有一个自动化的方式去获取所有可用的数据,让我弄清楚以后如何清理数据。 我的首选输出将如下所示: urlprofileName名称年龄城市州工作教育 我意识到这是一个很大的问题,但如果有公式可用于查询Facebook数据点,那么我意识到这可能是可能的,尽pipe很难。 注意:由于各种原因,我的组是一个私人的封闭组,所以我不能使用Facebook API 这是我能想到的唯一途径,所以如果你有其他方法,我也希望听到。

任何人都知道如何获得macros(Excel VBA),当没有下一个button时停止

任何人都知道如何获得一个macros(Excel VBA),当没有下一个button存在(所以它应该刮x页,直到下一个button值不再存在)停止。 任何帮助? 循环直到e.Value <>“下一结果” Sub Test() Dim ie As Object Dim i As Long Dim strText As String Dim doc As Object Dim hTable As Object Dim hBody As Object Dim hTR As Object Dim hTD As Object Dim tb As Object Dim bb As Object Dim tr As Object Dim td As Object […]

Python:在以下位置被忽略的exception:<绑定方法服务.__删除了<selenium.webdriver.chrome.service.Service对象在0x0000015937CEA128 >>

使用的代码: from selenium import webdriver from bs4 import BeautifulSoup from urllib.request import urlopen from urllib.parse import urlparse import requests, bs4 res = requests.get('http://www.iceomatic.com/Products/Ice-Machines/Cubers/') icesoup = bs4.BeautifulSoup(res.text,'lxml') selectElems = icesoup.select('li') len(selectElems) type(selectElems[0]) selectElems[0].getText() 主要目标是将不同产品的数据转化为Excel表格。 我刚开始工作。 尝试创buildhtml对象进行进一步处理。 以下是输出: Exception ignored in: <bound method Service.__del__ of <selenium.webdriver.chrome.service.Service object at 0x0000026E252CA128>> Traceback (most recent call last): File "C:\Users\Santosh\Anaconda3\lib\site- packages\selenium\webdriver\common\service.py", […]

使用Excel VBA自动化按键进入IE浏览器按Enter键search“

我正在处理一个网页表单文本字段,当按下“Enter”键时,将启动对其内容的search。 我知道如何启动所有其他事件侦听器,但我无法得到按下“Enter”事件触发。 它没有列出与其他常见的。 即onchange,onclick,onblur 目前,我正在使用CreateObject(“Shell.Application”)作为Excel VBA中的父对象来控制现有的IE浏览器。 我也尝试过sendkeys,但在VBA注意力方面遇到麻烦。 它在我的IDE或电子表格本身中键入。 这不是一个公共的网站。 它是事件(模糊,更改,焦点,keydown,mousedown,mousemove)的input标记。 With Tex_Box .focus .keydown .innertext = Field_Text .change .focus .blur End With 任何帮助将是伟大的! 提前致谢。

使用VBA来抓取数据

我试图从下面的代码使用VBA拉热带素食 ($ 5)的价格数据 h2 class="ng-binding" Meat Lovers/h2 h3 class="ng-biding" ng-show="canShowPrice"$9.00/h3 h2 class="ng-binding"Tropical Veggie/h2 h3 class="ng-biding" ng-show="canShowPrice"$5.00/h3 这是我的代码 Dim TropicalVeggie As String TropicalVeggie = IE.Document.getElementsByClassName("ng-binding")(0).innerText 我认为问题的一部分是有“ng绑定”多个类名称。 但我不知道

HTML和JavaScript的网页与VBA拼抢

我试图input值,并从我正在使用VBA构build的内部网站上的字段读取值。 到目前为止,我一直在使用getElementsByName()方法来检索我的数据,对于普通的HTML元素一直工作正常。 然而,我现在到我的网站的一部分,包括嵌套的表格和表单,我得到了使用getElementsByName()运行时'438'或'91错误。 运行时错误#438:对象不支持此属性或方法。 “运行时错误91:对象variables或块variables未设置” 我认为这是由于我需要声明各种父元素,但我没有任何运气。 我正在附加HTLM的段,我试图从中检索值。 我正在search标签,需要从HTML文档中的表格和表格中列出的所有input标签中find名称。 谢谢! </DIV></td> <td colspan='6' rowspan='2' nowrap='nowrap' valign='top' align='left'> <DIV id='Search'><input type='text' name='RBSearch' id='RBSearch' tabindex='1977' value="" class='EDITBOX' style='width:156px; ' maxlength='254' onchange="addchg_win0(this);oChange_win0=this;" PSnchg='0' /><a class='HYPERLINK' name='RBSearch_Case' id='RBSearch_Case' role='button' tabindex='1978' href="javascript:pAction_win0(document.win0,'RBSearch);"><img src="/cs/CRMPRD/cache/PT1.gif" alt='Look up Case' title='Look up (Alt+5)' border='0' align='absmiddle' /></a> </DIV></td>

Excel输出不匹配的刮和滚动问题(Windows用户)

Excel输出不匹配它正在刮。 它只是刮掉一些数据。 我相信这个问题是与下面的事情有关,但无论我改变什么,我似乎无法得到它的工作。 with open('Aperture Science.csv', 'a+', newline='') as outfile: writer = csv.writer(outfile) for row in zip(langs1_text, langs2_text, langs_text, elem_href): writer.writerow(row) 我在这个网站上运行一个工作,据我所知,这个工作顺利和成功。 我正在使用Windows。 这是代码 。 不幸的是,输出与我在控制台中看到的不一致。 控制台说我刮了所有的页面,罚款。 excel显示了这一点 另一个问题是它不是在滚动。 虽然没有破坏代码,但很奇怪。 我也试过了: driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") 看看是否有任何区别。

VBA点击hover下拉菜单

我在这里有一个类似于这个问题的请求,而且我刚刚发现并正在查看此请求 。 我试图build立一个VBAmacros来刮一些networking数据,我已经通过login屏幕,但现在我卡住的页面似乎是用JavaScript编写的,我完全不熟悉如何使用它。 我对HTML很模糊,并且只是随心所欲地教导自己。 下面是我的VBA到目前为止,取消的代码行显示我已经尝试过,没有工作。 我想要做的是点击一个链接到“报告”,这是一个名为“My Sequentra”的下拉菜单,由onmouseover激活。 感谢您的帮助。 Sub SingleSiteReportPull() Dim ie As Object Dim form As Variant, button As Variant Set ie = CreateObject("InternetExplorer.Application") '''''Set input boxes for username, password, & site to pull report for''''' myusername = InputBox("Enter Your Sequentra Username") mypassword = InputBox("Enter Your Sequentra Password") searchsite = InputBox("Which site would you […]