Как сохранить вывод оболочки Scrapy / ответ на переменную вместо файла HTML

Я пытаюсь сохранить html-код в переменной с именем response, используя cmdline.execute как показано в приведенном ниже коде, но он недоступен для хранения и программирования разрывов кода в scrapy shell . Может кто-нибудь сказать мне, как хранить сырой HTML в переменную?

import scrapy
from scrapy import cmdline

linkedinnurl = "https://stackoverflow.com/users/5597065/adnan-stab=profile"
response = cmdline.execute("scrapy shell https://stackoverflow.com/users/5597065/adnan-s?tab=profile".split()))

print(response)

Всего 1 ответ


Вы можете сделать это, чтобы сохранить сырой HTML в переменную:

 class MySpider(scrapy.Spider):
        def parse(self, res):
            with open(dynamic_file_name_function(res.url), 'w') as f:
                f.write(res.body)

если вам не нужно динамическое имя файла, просто сделайте:

 class MySpider(scrapy.Spider):
        def parse(self, res):
            with open(your_file_path, 'w') as f:
                f.write(res.body)

Есть идеи?

10000