requestsライブラリでWebページをダウンロードしたものの、返ってきたのは、タグが入り混じった巨大で複雑なHTML文字列…。この中から、どうやって記事のタイトルや、特定のリンク先URLだけを正確に抜き出せばよいのでしょうか。 この、ごちゃ混ぜのHTMLの ...
「Webサイトの情報を自動で集めたい!」 そう思ってスクレイピングを始めたものの、requests で取得した HTMLの壁(大量のタグの羅列) を前に絶望したことはありませんか? 正規表現で <p>.*?</p> のようなパターンを書いて抽出するのは、もうやめましょう。