2014/09/02

Canna-Dictionary の巻

CannaIM と併せて、Canna 辞書のメンテも少しづつ始めています。主にニュースの見出しから人力で単語を拾いだして登録していますが、動詞は結構登録されているので、名詞の登録がメインとなりそうです。単語の拾い出しぐらいは形態素解析ソフトで自動化したいところですが、ソフトの出力を使うのはライセンス的にどうなんでしょ。

付属のものを含め、Canna 用にいくつか辞書が公開されていますが、非商用な仮名漢字変換用の辞書はほかと混ぜて使えるゆる〜いライセンスのほうがよいと考えます (オープンデータ的)。そのため、今回発生した追加単語や CC0 データを元にして、CC0/Pulic domain の辞書も作ってみることにしました。こちらもぼちぼち進めましょう。

ところで、 pubdic+ (iroha.t) のライセンスは Public domain か BSD 系かどちらなんでしょ…

3 件のコメント:

  1. ライセンスはわかりませんがWikipediaの項目は名刺登録に使えるんでしょうか?

    返信削除
    返信
    1. arigayasさんこんにちわ、WikipediaはCC-BY-SAのようです。
      ただ、今回必要なのは単語とよみがなだけなので、単純なコピペでなくいったん脳内メモリを経由すればOKなような気もしますが、中身が以下から取れるので、これを使ってCC-BY-SAな辞書を作るのがいいかもしれませんね。
      http://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89
      参考: http://www.mwsoft.jp/programming/munou/wikipedia_data_list.html

      削除
    2. こんにちは。
      Wikipediaの項目を辞書にするのって
      手間が掛かるみたいですね(汗)


      上のコメントを書いた後にこんな動画を見つけました。ライセンスが不明なので扱えないかもですが(汗)

      棒読みちゃん用漢字辞書(MS-IME)約40万項目+助詞はへ辞書 約1000項目
      http://www.nicovideo.jp/watch/sm24392026

      削除