すごすぎるBeautiful Soup
pythonでxml,htmlの解析をする。
・Beautiful Soup
http://www.crummy.com/software/BeautifulSoup/
ダウンロードした「BeautifulSoup.py」をソースが読める場所に置く。
site-packagesに置くのが一般的?
使い方は公式サイトにあるドキュメント
http://www.crummy.com/software/BeautifulSoup/documentation.html
試しにyahoo newsのrssをパースする。
#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib2 from BeautifulSoup import BeautifulStoneSoup url = "http://headlines.yahoo.co.jp/rss/spnavi.xml" xml = urllib2.urlopen(url).read() soup = BeautifulStoneSoup(xml) channel = soup.find("channel") items = channel.findAll("item") for item in items: print "---------------------" print item print "title: " + item.title.contents[0] print "---------------------" print
タグを含めないで値だけを取得したい場合はxxx.contents[0]をする。