Scraping - 95~96天 - 在线学python100天

2023年9月16日#python学习253

AI 生成的摘要

在过去的95天里，从新闻中获取了5条新闻，并将其提交给openai生成关键词，然后将关键词发送到spotipy返回歌曲。由于与openai的关系，今天的练习被跳过了。在第96天，学习了如何获取和解析HTML内容，学到了Python中最强大的功能之一：爬虫。使用requests库中的response = requests.get(url)和html = response.text来获取网页的HTML内容。然后使用BeautifulSoup库中的soup = BeautifulSoup(html, 'html.parser')对HTML进行格式化。使用soup.find_all("span", {"class", "titleline"})来获取指定内容。今天的练习是从Hacker News获取标题内容，如果标题中包含python、replit或SQL，则进行打印。在过程中发现没有包含这三个关键词的标题，所以增加了另一个关键词：SQL。

记录#

95 天是从 news 获取 5 条新闻，提交给 openai 生成关键词，再把关键词送到 spotipy 返回歌曲。因为 openai 的关系，今天的练习跳过。
96 天是学习获取 html 内容并解析，可能终于学到 python 最强大的功能了：爬虫！
使用 response = requests.get(url) html = response.text 获取网页的 html 内容。
使用 soup = BeautifulSoup(html, 'html.parser') 对 html 格式化。在这之前要导入库：from bs4 import BeautifulSoup
使用 soup.find_all("span", {"class", "titleline"}) 获取指定内容。span 是标签名，后面是类和类名。
今天的练习是：从 hacker news 获取内容标题，如果含有 python 和 replit 则 print。过程中发现没有包含这俩关键词的标题，所以增加了另一个关键词：SQL

CODE#

main.py#

from bs4 import BeautifulSoup
import requests

url = "https://news.ycombinator.com"

respone = requests.get(url)
html = respone.text

soup = BeautifulSoup(html, 'html.parser')
title = soup.find_all("span", {"class", "titleline"})
print(len(title))

for txt in title:
  if "python" in txt.text or "replit" in txt.text or "SQL" in txt.text:
    print(txt.text)