你将收获

1.       重点讲解数据提取策略

2.       介绍爬虫原理和实现流程

3.       介绍反爬策略

4.       实践基于单任务的数据爬取

适用人群

1.  所有对Python编程语言感兴趣的人员; 2. 大专及以上学历的在校学生; 3. 在职工作人员; 4. 本课程适用于零基础学员。

课程介绍

通过本章课程的学习,分析并解决各个目标网站的反爬机制,搭建自己的多机分布式爬虫系统,完成招标平台数据采集项目。

课程讨论

老师讲的听得挺好的,非常棒,非常的棒呀。
好好学习天天向上,来到爬虫
6666666666666666

同学笔记

  • black_2016 2020-07-05 16:40:04

    来源:JsonPath使用案例 查看详情

    正则:

    *    出现次数大于0;

    +    出现次数大于等于1;

    re模块:

    1.提取:re.findall(【正则】,【被提取的字符串】)

    2.匹配:re.match(【正则】,【被匹配的字符串】)

    3.替换:re.sub(【正则】,【替换成的字符串】,【被匹配的字符串】)

     

    xpath

     

  • memehelo 2020-05-20 17:21:36

    来源:Python中的lxml模块 查看详情

    import lxml.etree as le
    
    with open('edu.html','r',encoding='utf-8') as f:
        html=f.read()
        # print(html)
        html_x=le.HTML(html)
        # print(html_x)
        div_x_s=html_x.xpath('//div[contains(@class,"classify_cList")]')
        # print(div_x_s)
        data_s=[]
        for div_x in div_x_s:
            category_1=div_x.xpath('./h3/a/text()')[0]
            # print(category_1)
            category_2_s=div_x.xpath('./div/span/a/text()')
            # print(category_2_s)
    
            data_s.append(
                {
                    'category_1':category_1,
                    'category_2_s':category_2_s,
                }
            )
        print(data_s)
        for data in data_s:
            print(data['category_1'])
            for category_2 in data['category_2_s']:
                print('     ',category_2)
  • memehelo 2020-05-20 16:25:11

    来源:xpath语法与案例 查看详情

    一级分类提取

    //h3[@class="classify_c_h3"]/a/text()

    二级分类提取

    //div[@class="classify_list"]/span/a/text()

    or

    //div[contains(@class,"classify_list")]/span/a/text()

没有更多了