レコード#
- 95 日はニュースから 5 つのニュースを取得し、openai にキーワードを生成させ、そのキーワードを spotipy に送って曲を返します。openai の関係で、今日の練習はスキップします。
- 96 日は HTML のコンテンツの取得と解析の学習で、ついに Python で最も強力な機能を学びました:ウェブスクレイピング!
response = requests.get(url)
html = response.text
を使用してウェブページの HTML コンテンツを取得します。soup = BeautifulSoup(html, 'html.parser')
を使用して HTML を整形します。その前にライブラリをインポートする必要があります:from bs4 import BeautifulSoup
soup.find_all("span", {"class", "titleline"})
を使用して指定のコンテンツを取得します。span
はタグ名で、後ろにはクラスとクラス名があります。- 今日の練習は、ハッカーニュースからコンテンツのタイトルを取得し、タイトルに "python" や "replit" が含まれていれば print します。途中でこれらのキーワードを含むタイトルがないことがわかったため、もう 1 つのキーワード "SQL" を追加しました。
CODE#
main.py#
from bs4 import BeautifulSoup
import requests
url = "https://news.ycombinator.com"
respone = requests.get(url)
html = respone.text
soup = BeautifulSoup(html, 'html.parser')
title = soup.find_all("span", {"class", "titleline"})
print(len(title))
for txt in title:
if "python" in txt.text or "replit" in txt.text or "SQL" in txt.text:
print(txt.text)