すごすぎるBeautiful Soup - makarohirakiの日記

pythonでxml,htmlの解析をする。
・Beautiful Soup
http://www.crummy.com/software/BeautifulSoup/

ダウンロードした「BeautifulSoup.py」をソースが読める場所に置く。
site-packagesに置くのが一般的？

使い方は公式サイトにあるドキュメント
http://www.crummy.com/software/BeautifulSoup/documentation.html

試しにyahoo newsのrssをパースする。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib2
from BeautifulSoup import BeautifulStoneSoup

url = "http://headlines.yahoo.co.jp/rss/spnavi.xml"

xml = urllib2.urlopen(url).read()

soup = BeautifulStoneSoup(xml)

channel = soup.find("channel")

items = channel.findAll("item")

for item in items:
    print "---------------------"
    print item
    print "title: " + item.title.contents[0]
    print "---------------------"
    print

タグを含めないで値だけを取得したい場合はxxx.contents[0]をする。