原创编程学习大数据 python 爬虫

【编程学习】大数据平台基础课程要点总结——爬虫

发表于2024-03-18更新于2024-12-23

字数总计:237阅读时长:1分钟阅读量: 北京评论数:

编程学习大数据 python 爬虫

【编程学习】大数据平台基础课程要点总结——爬虫

6Young2024-03-182024-12-23

在此附上老师教学课件地址:

引用站外地址

Big Data Essentials

Yanfei Kang. Ph.D.

爬虫

html解析

正则表达式

import re

# 示例HTML
html = "<p>这是一个示例 <a href='https://example.com'>链接</a></p>"

# 使用正则表达式提取链接
links = re.findall(r'href=['"]?([^'" >]+)', html)
print(links)  # 输出: ['https://example.com']

Beautiful Soup

from bs4 import BeautifulSoup

# 示例HTML
html = "<p>这是一个示例 <a href='https://example.com'>链接</a></p>"

# 创建Beautiful Soup对象
soup = BeautifulSoup(html, 'html.parser')

# 提取链接
link = soup.find('a')
print(link['href'])  # 输出: 'https://example.com'

lxml

from lxml import html

# 示例HTML
html = "<p>这是一个示例 <a href='https://example.com'>链接</a></p>"

# 解析HTML
parsed_html = html.fromstring(html)

# 提取链接
link = parsed_html.xpath('//a/@href')
print(link[0])  # 输出: 'https://example.com'

Selenium

略

6Young

一个只想一直和嘉宝在一起的吖吖

原创【编程学习】大数据平台基础课程要点总结——爬虫

打赏作者

感谢你赐予我前进的力量

微信
支付宝

赞赏者名单

因为你们的支持让我意识到写文章的价值🙏

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 6Youngの屋！

python6 爬虫1

喜欢这篇文章的人也看了

【机器学习】如何用PyTorch搭建你的神经网络模型？

【机器学习】用PyTorch搭建一个线性神经网络

【机器学习】用PyTorch搭建一个多层感知机进行图像分类

【杂谈】我为蓝桥杯做了哪些准备

【编程学习】基本排序算法的python实现

评论

✅ 你无需删除空行，直接评论以获取最佳展示效果