如何在scrapy蜘蛛中传递用户定义的参数

我正尝试将用户定义的parameter passing给scrapy的蜘蛛。任何人都可以build议如何做到这一点？

我读了一个参数-a地方，但不知道如何使用它。

蜘蛛参数使用-a选项在爬行命令中传递。例如：

 scrapy crawl myspider -a category=electronics -a domain=system

蜘蛛程序可以在初始化程序中访问参数：

 class MySpider(scrapy.Spider): name = 'myspider' def __init__(self, category='', domain=None, *args, **kwargs): super(MySpider, self).__init__(*args, **kwargs) self.start_urls = ['http://www.example.com/categories/%s' % category] self.domain = domain # ...

采取Scrapy文档： http ://doc.scrapy.org/en/latest/topics/spiders.html#spider-arguments

2013年更新 ：添加第二个参数

更新2015年 ：调整措辞

2016年更新 ：使用更新的基类，并添加超级，谢谢@Birla

使用-a选项运行爬网命令时会传递spider参数。例如，如果我想通过一个域名作为参数给我的蜘蛛，那么我会做这个 –

scrapy抓取myspider -a域=“http://www.example.com”;

并在蜘蛛的构造函数中接收参数：

 class MySpider(BaseSpider): name = 'myspider' def __init__(self, domain='', *args, **kwargs): super(MySpider, self).__init__(*args, **kwargs) self.start_urls = [domain] #

…

它会工作:)

用爬行命令传递参数

scrapy抓取myspider -a category ='mycategory'-a domain ='example.com'

要传递参数在scrapyd上运行，用-dreplace-a

curl http://your.ip.address.here:port/schedule.json -d spider = myspider -d category ='mycategory'-d domain ='example.com'

蜘蛛将在其构造函数中接收参数。

 class MySpider(Spider): name="myspider" def __init__(self,category='',domain='', *args,**kwargs): super(MySpider, self).__init__(*args, **kwargs) self.category = category self.domain = domain

以前的答案是正确的，但是每次你想编写一个scrapy的蜘蛛时，你不必声明构造函数（ __init__ ），你可以像以前一样指定参数：

 scrapy crawl myspider -a parameter1=value1 -a parameter2=value2

并在你的蜘蛛代码中，你可以使用它们作为蜘蛛参数：

 class MySpider(Spider): name = 'myspider' ... def parse(self, response): ... if self.parameter1 == value1: # this is True # or also if getattr(self, parameter2) == value2: # this is also True

它只是工作。

如何在scrapy蜘蛛中传递用户定义的参数

如何在单个Scrapy项目中为不同的蜘蛛使用不同的pipe道

Scrapyunit testing

我如何使用多个请求，并在他们之间的scrapy python传递项目

使用python-Scrapy刮取dynamic内容

在Scrapy中通过validation会话进行爬网

如何使用PyCharm来debuggingScrapy项目

如何根据scrapy中的URL过滤重复的请求

在authentication（login）用户会话中使用Scrapy

“OSError：操作不允许”在OSX 10.11（El Capitan）中安装Scrapy（系统完整性保护）

Scrapy可以用来从使用AJAX的网站上抓取dynamic内容吗？