CannaIM と併せて、Canna 辞書のメンテも少しづつ始めています。主にニュースの見出しから人力で単語を拾いだして登録していますが、動詞は結構登録されているので、名詞の登録がメインとなりそうです。単語の拾い出しぐらいは形態素解析ソフトで自動化したいところですが、ソフトの出力を使うのはライセンス的にどうなんでしょ。
付属のものを含め、Canna 用にいくつか辞書が公開されていますが、非商用な仮名漢字変換用の辞書はほかと混ぜて使えるゆる〜いライセンスのほうがよいと考えます (オープンデータ的)。そのため、今回発生した追加単語や CC0 データを元にして、CC0/Pulic domain の辞書も作ってみることにしました。こちらもぼちぼち進めましょう。
ところで、 pubdic+ (iroha.t) のライセンスは Public domain か BSD 系かどちらなんでしょ…
ライセンスはわかりませんがWikipediaの項目は名刺登録に使えるんでしょうか?
返信削除arigayasさんこんにちわ、WikipediaはCC-BY-SAのようです。
削除ただ、今回必要なのは単語とよみがなだけなので、単純なコピペでなくいったん脳内メモリを経由すればOKなような気もしますが、中身が以下から取れるので、これを使ってCC-BY-SAな辞書を作るのがいいかもしれませんね。
http://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89
参考: http://www.mwsoft.jp/programming/munou/wikipedia_data_list.html
こんにちは。
削除Wikipediaの項目を辞書にするのって
手間が掛かるみたいですね(汗)
上のコメントを書いた後にこんな動画を見つけました。ライセンスが不明なので扱えないかもですが(汗)
棒読みちゃん用漢字辞書(MS-IME)約40万項目+助詞はへ辞書 約1000項目
http://www.nicovideo.jp/watch/sm24392026