二手产品经理

二手产品经理

THIS IS RENO

Scraping - 95~96天 - 在线学python100天

记录#

  1. 95 天是从 news 获取 5 条新闻,提交给 openai 生成关键词,再把关键词送到 spotipy 返回歌曲。因为 openai 的关系,今天的练习跳过。
  2. 96 天是学习获取 html 内容并解析,可能终于学到 python 最强大的功能了:爬虫!
  3. 使用 response = requests.get(url) html = response.text 获取网页的 html 内容。
  4. 使用 soup = BeautifulSoup(html, 'html.parser') 对 html 格式化。在这之前要导入库:from bs4 import BeautifulSoup
  5. 使用 soup.find_all("span", {"class", "titleline"}) 获取指定内容。span 是标签名,后面是类和类名。
  6. 今天的练习是:从 hacker news 获取内容标题,如果含有 python 和 replit 则 print。过程中发现没有包含这俩关键词的标题,所以增加了另一个关键词:SQL

CODE#

main.py#

from bs4 import BeautifulSoup
import requests

url = "https://news.ycombinator.com"

respone = requests.get(url)
html = respone.text

soup = BeautifulSoup(html, 'html.parser')
title = soup.find_all("span", {"class", "titleline"})
print(len(title))

for txt in title:
  if "python" in txt.text or "replit" in txt.text or "SQL" in txt.text:
    print(txt.text)



加载中...
此文章数据所有权由区块链加密技术和智能合约保障仅归创作者所有。