记录#
- 95 天是从 news 获取 5 条新闻,提交给 openai 生成关键词,再把关键词送到 spotipy 返回歌曲。因为 openai 的关系,今天的练习跳过。
- 96 天是学习获取 html 内容并解析,可能终于学到 python 最强大的功能了:爬虫!
- 使用
response = requests.get(url)
html = response.text
获取网页的 html 内容。 - 使用
soup = BeautifulSoup(html, 'html.parser')
对 html 格式化。在这之前要导入库:from bs4 import BeautifulSoup
- 使用
soup.find_all("span", {"class", "titleline"})
获取指定内容。span
是标签名,后面是类和类名。 - 今天的练习是:从 hacker news 获取内容标题,如果含有 python 和 replit 则 print。过程中发现没有包含这俩关键词的标题,所以增加了另一个关键词:SQL
CODE#
main.py#
from bs4 import BeautifulSoup
import requests
url = "https://news.ycombinator.com"
respone = requests.get(url)
html = respone.text
soup = BeautifulSoup(html, 'html.parser')
title = soup.find_all("span", {"class", "titleline"})
print(len(title))
for txt in title:
if "python" in txt.text or "replit" in txt.text or "SQL" in txt.text:
print(txt.text)