スクレイピング - 95〜96日 - オンラインでPythonを学ぶ100日

レコード#

95 日はニュースから 5 つのニュースを取得し、openai にキーワードを生成させ、そのキーワードを spotipy に送って曲を返します。openai の関係で、今日の練習はスキップします。
96 日は HTML のコンテンツの取得と解析の学習で、ついに Python で最も強力な機能を学びました：ウェブスクレイピング！
response = requests.get(url) html = response.text を使用してウェブページの HTML コンテンツを取得します。
soup = BeautifulSoup(html, 'html.parser') を使用して HTML を整形します。その前にライブラリをインポートする必要があります：from bs4 import BeautifulSoup
soup.find_all("span", {"class", "titleline"}) を使用して指定のコンテンツを取得します。span はタグ名で、後ろにはクラスとクラス名があります。
今日の練習は、ハッカーニュースからコンテンツのタイトルを取得し、タイトルに "python" や "replit" が含まれていれば print します。途中でこれらのキーワードを含むタイトルがないことがわかったため、もう 1 つのキーワード "SQL" を追加しました。

CODE#

main.py#

from bs4 import BeautifulSoup
import requests

url = "https://news.ycombinator.com"

respone = requests.get(url)
html = respone.text

soup = BeautifulSoup(html, 'html.parser')
title = soup.find_all("span", {"class", "titleline"})
print(len(title))

for txt in title:
  if "python" in txt.text or "replit" in txt.text or "SQL" in txt.text:
    print(txt.text)