Tag: web crawler

在VBA中parsingHTML内容

我有一个关于HTMLparsing的问题。 我有一个网站的一些产品,我想抓到页面内的文字到我目前的电子表格。 这个电子表格相当大,但在第三列中包含ItemNbr,我期望第14列中的文本和一行对应于一个产品(项目)。 我的想法是在标签后面的Innertext里面获取网页上的“材质”。 身份证号码从一个页面更改为页面(有时)。 这里是网站的结构: <div style="position:relative;"> <div></div> <table id="list-table" width="100%" tabindex="1" cellspacing="0" cellpadding="0" border="0" role="grid" aria-multiselectable="false" aria-labelledby="gbox_list-table" class="ui-jqgrid-btable" style="width: 930px;"> <tbody> <tr class="jqgfirstrow" role="row" style="height:auto"> <td …</td> <td …</td> </tr> <tr role="row" id="1" tabindex="-1" class="ui-widget-content jqgrow ui-row-ltr"> <td …</td> <td …</td> </tr> <tr role="row" id="2" tabindex="-1" class="ui-widget-content jqgrow ui-row-ltr"> <td …</td> <td …</td> […]

使用Python中的Requests库发送“User-agent”

我想在使用Python请求来请求网页的同时发送"User-agent"的值。 我不确定是否可以将其作为标题的一部分发送,如下面的代码所示: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) debugging信息不​​显示在请求期间发送的标题。 在标题中发送这些信息是否可以接受? 如果没有,我怎么发送它?