【编程学习】大数据平台基础课程要点总结——爬虫
【编程学习】大数据平台基础课程要点总结——爬虫
6Young在此附上老师教学课件地址:
爬虫
html解析
正则表达式
1
2
3
4
5
6
7
8import re
# 示例HTML
html = "<p>这是一个示例 <a href='https://example.com'>链接</a></p>"
# 使用正则表达式提取链接
links = re.findall(r'href=['"]?([^'" >]+)', html)
print(links) # 输出: ['https://example.com']Beautiful Soup
1
2
3
4
5
6
7
8
9
10
11from bs4 import BeautifulSoup
# 示例HTML
html = "<p>这是一个示例 <a href='https://example.com'>链接</a></p>"
# 创建Beautiful Soup对象
soup = BeautifulSoup(html, 'html.parser')
# 提取链接
link = soup.find('a')
print(link['href']) # 输出: 'https://example.com'lxml
1
2
3
4
5
6
7
8
9
10
11from lxml import html
# 示例HTML
html = "<p>这是一个示例 <a href='https://example.com'>链接</a></p>"
# 解析HTML
parsed_html = html.fromstring(html)
# 提取链接
link = parsed_html.xpath('//a/@href')
print(link[0]) # 输出: 'https://example.com'
Selenium
略
评论
匿名评论隐私政策
✅ 你无需删除空行,直接评论以获取最佳展示效果