Tag: scrapy

UnicodeDecode错误：在写入与非英文字符相关的xls（x）时解码: 我试图找出从哪里开始，我已经用尽search，所以会喜欢一些关于下一步可能的build议，甚至更好的select。简介：我使用python从网站上刮取结果，然后将这些数据写入xls（x）doc。我在csv上select了xls（x），因为我的csv在保存时保留了非英文字符。我已经成功地在英文页面上运行这个代码，但是一旦我点击非英文字符，就会在write（）上抛出下面的错误。要注意的是，我也尝试过string.decode('utf-8') ，但是会抛出“'ascii'编解码器无法编码字符”的错误。问题：我需要做些什么来正确地把这些写入xls（x）？我已经能够做到这一点没有问题的CSV，但正如我所提到的，保存它的格式。我是否需要以不同的方式进行编码，以便write（）函数能够正确传输它？对于下面的代码，我已经导入了scrapy，编解码器，xlsxwriter（Workbook）以及其他一些代码。 # set xpaths: item_1 = 'xpath' item_2 = 'xpath' item_3 = 'xpath' item_4 = 'xpath' pagination_lookup = {} results = [] def write_to_excel(list_of_dicts,filename): filename = filename + '.xlsx' ordered_list = list(set().union(*(d.keys() for d in list_of_dicts))) # OR set up as actual list of keys (eg […]

提取的数据不存储在scrapy项目中: 我正在使用scrapy和selen在python中构build一个屏幕刮板的项目，然后使用xlsxwriter将其输出到一个excel文件中。但是，似乎我的scrapy项目总是空着。我不确定在这一点发生了什么，所以任何帮助表示赞赏。只是要注意，在这里张贴之前，有几个url，目录和其他一些敏感信息。所以一些链接和目录可能看起来很奇怪。 excel输出的屏幕截图：屏幕刮板文件输出蜘蛛： import os import time from datetime import date from ScreenScraper.items import * from scrapy import * from scrapy.http import FormRequest from scrapy.loader import ItemLoader from scrapy.selector import Selector from selenium import webdriver from selenium.webdriver.common.keys import Keys from xlsxwriter import * class CquentiaSpider(Spider): name = 'cquentia' allowed_domains = […]