はてなダイアリーのダウンロード形式
メイン画面から、[管理]-[データ管理]を開くと「ブログのエクスポート」がある。そこに、
- はてなの日記データ形式
- Movable Type形式
- CSV形式
- PDF形式(有料)
「はてなの日記データ形式」でダウンロードすると、拡張子は .xml、m-hiyama.xml ができる。「Movable Type形式」だと拡張子は .txt となり、CSV形式だと .csv。
MT形式では原稿(はてな記法テキスト)がなくなっているのでダメ。XML形式はレンダリングイメージ(HTML形式)がない。CSVには全部入っている。とりあえずの目的ではXML形式が一番扱いやすそうだ。要素は、
- diary 文書要素
- diary
- day(属性: date, title)
- (dayの)body
- comments
- comment
- username
- (commentの)body
- timestamp
内容モデルは次のような感じ。
diary ::=(day*);
day ::=(body, comments?);
body ::= (#text)
comments ::=(comment+)
comment ::= (username, body, timestamp)
dayのbodyとcommentのbodyの違いは、day/bodyだと改行が先頭と末尾に追加され、comment/bodyではそれがないことかな。
Catyスキーマなら例えば:
type diary = [day*];type day = {
"date": common:date,
"title": string,
"body": string,
"comments": [comment, comment*]?,
};type comment = {
"username": string,
"body": string,
"timestamp": string,
};