二手产品经理

二手产品经理

THIS IS RENO

スクレイピング - 95〜96日 - オンラインでPythonを学ぶ100日

レコード#

  1. 95 日はニュースから 5 つのニュースを取得し、openai にキーワードを生成させ、そのキーワードを spotipy に送って曲を返します。openai の関係で、今日の練習はスキップします。
  2. 96 日は HTML のコンテンツの取得と解析の学習で、ついに Python で最も強力な機能を学びました:ウェブスクレイピング!
  3. response = requests.get(url) html = response.text を使用してウェブページの HTML コンテンツを取得します。
  4. soup = BeautifulSoup(html, 'html.parser') を使用して HTML を整形します。その前にライブラリをインポートする必要があります:from bs4 import BeautifulSoup
  5. soup.find_all("span", {"class", "titleline"}) を使用して指定のコンテンツを取得します。span はタグ名で、後ろにはクラスとクラス名があります。
  6. 今日の練習は、ハッカーニュースからコンテンツのタイトルを取得し、タイトルに "python" や "replit" が含まれていれば print します。途中でこれらのキーワードを含むタイトルがないことがわかったため、もう 1 つのキーワード "SQL" を追加しました。

CODE#

main.py#

from bs4 import BeautifulSoup
import requests

url = "https://news.ycombinator.com"

respone = requests.get(url)
html = respone.text

soup = BeautifulSoup(html, 'html.parser')
title = soup.find_all("span", {"class", "titleline"})
print(len(title))

for txt in title:
  if "python" in txt.text or "replit" in txt.text or "SQL" in txt.text:
    print(txt.text)



読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。