プログラム周り

htmlからテキスト文だけ取り出す。webかpython-mlで見つけた。 ありがとう。ななしさん。

ent = {
  'nbsp': ' ', 
  'lt': '<', 
  'gt': '>', 
  'amp': '&', 
  'quot': '"', 
  'apos': '\''
}
r = re.compile(r"<.*?>", re.DOTALL)
s = r.sub("",open('htmlfile').read())
s = re.sub("&(\w+);", 
lambda x:ent.get(x.group(1), x.group()), s)
s=re.sub(r'\n','',s)
print s

トップ   差分 バックアップ リロード   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2015-02-01 (日) 14:38:23 (1026d)