【编程学习】大数据平台基础课程要点总结——爬虫

在此附上老师教学课件地址:

爬虫

html解析

  1. 正则表达式

    1
    2
    3
    4
    5
    6
    7
    8
    import re

    # 示例HTML
    html = "<p>这是一个示例 <a href='https://example.com'>链接</a></p>"

    # 使用正则表达式提取链接
    links = re.findall(r'href=['"]?([^'" >]+)', html)
    print(links) # 输出: ['https://example.com']
  2. Beautiful Soup

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    from bs4 import BeautifulSoup

    # 示例HTML
    html = "<p>这是一个示例 <a href='https://example.com'>链接</a></p>"

    # 创建Beautiful Soup对象
    soup = BeautifulSoup(html, 'html.parser')

    # 提取链接
    link = soup.find('a')
    print(link['href']) # 输出: 'https://example.com'
  3. lxml

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    from lxml import html

    # 示例HTML
    html = "<p>这是一个示例 <a href='https://example.com'>链接</a></p>"

    # 解析HTML
    parsed_html = html.fromstring(html)

    # 提取链接
    link = parsed_html.xpath('//a/@href')
    print(link[0]) # 输出: 'https://example.com'

Selenium