Tag: scraping lxml

无法在Excel文件中正确写入提取的项目？: 我已经写了一些代码在pythonparsing标题和链接从一个网页。最初，我试图parsing左侧栏中的链接，然后通过追踪每个链接来抓取每个页面上的上述文档。我完美无瑕地做到了这一点。我试图将不同页面的文档保存在一个excel文件中。但是，它创build了几个“表格”，从我的脚本的标题variables中提取所需的部分作为表格名称。我面临的问题是，当数据被保存时，只有链接中每个页面的最后一个logging保存在我的Excel表格中，而不是完整的logging。这是我尝试的脚本： import requests from lxml import html from pyexcel_ods3 import save_data web_link = "http://www.wiseowl.co.uk/videos/" main_url = "http://www.wiseowl.co.uk" def get_links(page): response = requests.Session().get(page) tree = html.fromstring(response.text) data = {} titles = tree.xpath("//ul[@class='woMenuList']//li[@class='woMenuItem']/a/@href") for title in titles: if "author" not in title and "year" not in title: get_docs(data, main_url + title) […]

Interesting Posts

Interop Excel范围公式赋值与string连接

使用范围转换值时，会丢失长string中的数据

电子表格：只有在文本列有1的情况下，我如何在列中汇总值？

基于值复制一行到另一行

C＃Excel百分比转换为小数

使用JSP创build的Excel电子表格不显示Excel中的Unicode字符

如何使用API在podio中导出评论部分

VBA：使用Range.Formula右侧位置的数组索引

文档中链接对象的文件path的VBA列表

Excel：两个范围的标量积

在当前范围内重复声明

Exceldebugging模式失败

为什么我的字体和背景（前景）着色不起作用（Aspose Cells）？

Excel公式 – 使用单元格本身提供的条件

如果date采用ISO格式，请在Google表格或Excel中计算当前月份和年份的行数