Tag: scrapy

UnicodeDecode错误:在写入与非英文字符相关的xls(x)时解码

我试图找出从哪里开始,我已经用尽search,所以会喜欢一些关于下一步可能的build议,甚至更好的select。 简介:我使用python从网站上刮取结果,然后将这些数据写入xls(x)doc。 我在csv上select了xls(x),因为我的csv在保存时保留了非英文字符。 我已经成功地在英文页面上运行这个代码,但是一旦我点击非英文字符,就会在write()上抛出下面的错误。 要注意的是,我也尝试过string.decode('utf-8') ,但是会抛出“'ascii'编解码器无法编码字符”的错误。 问题:我需要做些什么来正确地把这些写入xls(x)? 我已经能够做到这一点没有问题的CSV,但正如我所提到的,保存它的格式。 我是否需要以不同的方式进行编码,以便write()函数能够正确传输它? 对于下面的代码,我已经导入了scrapy,编解码器,xlsxwriter(Workbook)以及其他一些代码。 # set xpaths: item_1 = 'xpath' item_2 = 'xpath' item_3 = 'xpath' item_4 = 'xpath' pagination_lookup = {} results = [] def write_to_excel(list_of_dicts,filename): filename = filename + '.xlsx' ordered_list = list(set().union(*(d.keys() for d in list_of_dicts))) # OR set up as actual list of keys (eg […]

提取的数据不存储在scrapy项目中

我正在使用scrapy和selen在python中构build一个屏幕刮板的项目,然后使用xlsxwriter将其输出到一个excel文件中。 但是,似乎我的scrapy项目总是空着。 我不确定在这一点发生了什么,所以任何帮助表示赞赏。 只是要注意,在这里张贴之前,有几个url,目录和其他一些敏感信息。 所以一些链接和目录可能看起来很奇怪。 excel输出的屏幕截图: 屏幕刮板文件输出 蜘蛛: import os import time from datetime import date from ScreenScraper.items import * from scrapy import * from scrapy.http import FormRequest from scrapy.loader import ItemLoader from scrapy.selector import Selector from selenium import webdriver from selenium.webdriver.common.keys import Keys from xlsxwriter import * class CquentiaSpider(Spider): name = 'cquentia' allowed_domains = […]