2009 5/9

ATOK 2008 for Windows [プレミアム]

 このコラムと動画を見てこれは便利になると思ったので作ってみた。やはりものすごい便利。ニコニコ動画関係のみならず、アイマス・東方・VOCALOID・その他エンターテイメント関係のブログ等を書いている人なら、もっと便利に使えると思う。

ダウンロード

 nicoime.zip (最新更新時間確認)

使い方

 nicoime.zipを解凍すると以下のテキストファイルが入っています。

  • nicoime_atok.txt (ATOK用)
  • nicoime_msime.txt (MS-IME・Google日本語入力用)

 お使いのIMEに対応するファイルを読み込ませて下さい。

おことわり

  • zipの解凍方法および、テキストファイルをIMEに登録する方法については、そのIMEのヘルプを見るなりググるなりして調べて下さい。
  • 登録の際弾かれてしまう単語がどうしてもいくらか出ますが仕様です。
  • 当然ですが、データの権利は有限会社未来検索ブラジル・株式会社ニワンゴにあります。万一運営にやめれ言われたらやめます。
  • もちろん、アイデアも元の動画の人そのままです。実作業数十分のスクリプトで出しゃばるのも何なので、動画作者の気が変わって公開するようならアイデア尊重して引っ込みます。大百科の掲示板で了解いただきました。

解説

  • ニコニコ大百科からrubyスクリプトで自動生成した辞書。
  • 読みが一文字の項目は無視している。
  • 「……の一覧」「……のサムネ画像集」など辞書っぽくない項目を無視している。
  • 誤変換指摘のためのリダイレクト項目をそのまま取り込むと誤変換してしまうという問題は対策ずみ。具体的には「同一の読みが他に存在するリダイレクト項目は出力しない」ことで対応。
  • その他幾つか思いつきで操作を入れている。
  • 品詞分けはどう考えても無理なので、全部「固有一般」または「固有名詞」になっている。経験上IME登録単語の品詞分けにそこまでの重要性はないし、実際に固有名詞がほとんどなので大きな問題はないはず。

お願い

  • 現実的に可能な改善点や要望などありましたらお気軽にどうぞ。導入するかもしれません。
  • 定期的に最新版を作る仕組みになっていますので、ニコニコ大百科のHTMLの記述方式が変わったりすると壊れる可能性が高いです。明らかに壊れていると思われる状態を見かけたら、メールなりコメントなりで知らせていただけるとありがたいです。

2009/11/18追記

  • 読み一覧ページへのページャ導入に対応しました。
  • 取得ページ数が72程度で済んでいたところが、1550程度と大幅に増えてしまったため*1時間的に負荷分散することにしました。
  • わざわざ変更をお知らせいただきグニャラくん ★あいつがいまーすありがとうございます。
  • 「ありがとうございます」→「あいつがいまーす」の変換を排除しました。

2010/03/07追記

  • Google IME用の辞書を追加しました。
  • 日時のみ・数字のみなどの項目を排除しました。
  • 他いくつかの微調整を追加しました。

2010/10/15追記

  • 「みえた」→「見えた!」および「だいじょうぶか」→「大丈夫だ、問題ない」の変換を排除しました。

2010/12/18追記

  • 現時点ではGoogle日本語入力の10000語制限はなくなっているようです。MS-IME用ファイルをそのままインポートできます。

2012/08/16追記

 以下の変換を排除しました。

  • イマ→いま!
  • アリガトウゴザイマス→ありがとうございます!
  • オネガイシマス→動画でやれ
  • オーケー→削除されたくなかったらマイリスしろ、ok?

2015/05/17追記

 以下の変換を排除しました。

  • むりです→あなたはこんな顔で死ねますか?
  • むりです→ヒーロー戦記もヨロシク!
  • むり→歌ってみろ
  • おだいじに→作者はリアルに病気
  • つうぎょうえいぎょう→エイギア故致し方なし
  • きづかなかった→影の薄い
  • おわった→おわった・・・
  • おまえがそうおもうんならそうなんだろうおまえんなかではな→終わったコンテンツ
  • おつかれさまです→闇に飲まれよ!
  • いいんじゃね→人間だろうが未確認生物だろうが、そこにおっぱいがあるのなら、いいんじゃね?

2015/06/26追記

 以下の変換を排除しました。

  • ほあ→もう受かる気しかしねえぇぜえええええ!!
  • まう→舞う(遊戯王)
  • やったか→やったか!?
  • じゃない→じゃない・・・!?
  • いらない→(いらない)
  • ちがう→←違う!
  • おもいだした→思い…出した!

*1:もちろん個々のページは小さくなっているものの。

おまけ

 kamS(なぜか変換できた)さん新作。超級者向けと呼ばれるだけのことはあるセンス。

by 木戸孝紀 tags:


“ニコニコ大百科IME辞書”へのコメント 51

  1. 1. 木戸孝紀

    MS-IME版を追加しました。理屈では問題ないはずですが、
    自分の環境からはMS-IME排除していて確認できないので、
    ちゃんと読めて登録できて動いたという人がいたら一言
    報告いただけると嬉しいです。

  2. 2. 木戸孝紀

    すいません。自動更新機能の副作用でまた若干形式がかわりました。
    この投稿の時点からATOKとMS-IME双方で動作報告があれば
    ひとまず完成です。

  3. 3. sm6899035投稿者

    sm6899035の投稿者です。
    nicoime.zipを試しましたが、うまくいきませんでした。
    MS-IME固有の事象かもしれませんが、
    読みがながカタカナだと受け付けてくれないようです。
    (ひらがなに直して登録できることを確認)

    私は以下のコードで読みをひらがなに直して辞書を作成していました。
    yomi = yomi.tr(‘ァ-ン’, ‘ぁ-ん’)

  4. 4. 木戸孝紀

    ありゃ、そうですか。
    うちのMS-IMEをわざわざ復帰させて試してちゃんと読んでいたので、
    じゃああえて一手間増やさずカタカナでもいいかと思ったのですが……。

    バージョンは何ですか? うちはMS-IME2007でした。
    どちらにしても対応しないといけないと思いますが。

  5. 5. 木戸孝紀

    読みのひらがな化対応しました。

  6. 6. Naohiro19

    IME2003でのエラーログです。
    ====================
    ! 指定された単語/用例は既にシステム辞書に登録されています。
    あかばねせん 赤羽線 固有名詞
    (中略)
    ! 指定された単語/用例は既にシステム辞書に登録されています。
    ろれっくす ロレックス 固有名詞

  7. 7. 木戸孝紀

    >Naohiro19さん
    報告どうも。長すぎるので(中略)させてもらいました。

    これは単に一般的な辞書にも入っているような単語に対して
    「すでにあります」という報告になっているだけなので、
    問題ないです。

  8. 8. 木戸孝紀

    後に大百科記述方式の変更があったとき
    対応しやすいようにリファクタリングしました。

    同時にいくつか自己満足レベルですが細かい改善を入れました。

    「一覧」の排除強化
    「リンク集?\z」の排除
    「シリーズ\z」シリーズの文字削除
    「(放送主)」などの括弧削除
    「かっこ○○かっことじ」など読みにかっこが入る括弧削除
    「有限会社・株式会社・(有)・(株)」など削除

    これでいったん放置に入ろうと思います。

  9. 9. 名無しさん

    辞書ファイルの公開、大変助かってます。ありがとうございます。
    細かい改善後のファイルですが、テキストファイル一番先頭の「生放送主」だけ
    よみがな部分がないようです。
    些細な点ですが一応報告しておきます。

  10. 10. 木戸孝紀

    >名無しさん
    どうもです。その件対応しました。

  11. 11. MAKA

    いつもお世話になっています。
    突然ですが要望があります。
    「ア?ニメ」や「ゲー?ム」、「公?式」のような0幅unicode文字列が含まれる変換結果を除去していただけないでしょうか。
    自分で使う際には発見次第削除しているのですが、更新するたびに復活してしまうので、できれば対応していただきたいです。

  12. 12. 木戸孝紀

    >MAKAさん
    情報どうも。対応しました。

    その話はまったく認識してませんでした。
    どういう理屈で入ってるものなんでしょうね。

  13. 13. グニャラくん

    ニコニコ大百科の読み一覧ページにページャを導入しました。
    というわけで、取得の際にちょっと工夫が必要になったと思います。

  14. 14. 木戸孝紀

    >グニャラくんさん
    おおお! わざわざお知らせいただきありがとうございます。
    一瞬ついにやめれ言われたかと焦りました(笑)。
    近々対応させていただきたいと思います。

  15. 15.   

    ニコニコだと変な変換もあるから
    それの応用ではてな版作れたりしませんか?

  16. 16. 匿名

    できれば、
    GoogleIME用もお願いします

  17. 17. 匿名

    →http://www.nicovideo.jp/static/atok/
    こんなのができました。

  18. 18. 匿名

    名前を打つ時(生配信者)とかが邪魔な気が・・・
    あとゴミぽいのがまだありますね><

  19. 19. 木戸孝紀

    Google IMEには、MS-IME用のがそのまま使えるみたいだ。
    (ただし10000行までしか読み込めないので分割しないといけない)
    これをあらかじめ分割しておくようにすることは
    そんなに難しくないので、次に機会があればやる。

    またGoogle IMEでは、キーボードから
    入力されるのはカタカナのヴ。

    しかし、辞書の方で読みを「ヴ」で入れていても
    「機種依存文字の一文字でひらがなのう゛」に
    変換されて登録されてしまうようだ。

    なのでヴが絡むものはうまく変換できない。
    Google IME自体の仕様が変らない限り、
    これをこちらで回避する方法はないように思われる。

  20. 20. 匿名

    google日本語入力の追加ありがとうございます。
    わざわざ、毎回分割していた手間が省けました。

  21. 21. もしもしも

    はじめまして。素晴らしいアイデアですね!
    Macユーザとしてはことえりバージョンがあると、泣いて喜ぶのですが・・・

  22. 22. 木戸孝紀

    なんだか公式の方で生放送主記事の隔離があったみたいだ。
    今見た感じでは、生放送主名の単語がなくなる以外の
    副作用は出てないようです。

    >もしもしもさん
    これ以上の辞書形式対応はたぶんなさそうです。
    おそらくどれかの形式の検索→置換ぐらいで
    どうにかなりそうな気がしますが無理でしょうか。

  23. 23. とあるぐぐるの変換補助

    GoogleIMEについては前々のアップデートで辞書の分割が不要になったようなので、1ファイルにまとめても大丈夫かと思われます。

  24. 24. 木戸孝紀

    え、ほんと? 開発版じゃなくても?
    だったら対応した方がよさそうだね。

  25. 25. 木戸孝紀

    よく考えたら制限なくなったなら、
    普通にMS-IME形式をインポートできるんじゃなイカ?

  26. 26. mongrelP

    「ニコニコ大百科IME辞書」を予測変換したいがために「ニコニコ大百科IME辞書」の記事を作りましたので一応報告をば。

  27. 27. co

    SKK辞書形式に変換するスクリプトを作ってみました(URL欄)

  28. 28. 木戸孝紀

    おねがいします→動画でやれ

    というひどい変換を発見したので今度機会があったら
    除外する予定。似たようなケースあったら教えて下さい。

  29. 29. 匿名

    単語コメントに「ニコニコ大百科」とか入れると分かりやすいと思う

  30. 30. 名無しさん

    これは便利
    ありがとうございます

  31. 31. 匿名

    すごい、全部一発変換できちゃ〜う

  32. 32. 匿名

    ATOKでは、省入力データにした方が便利です。
    数文字で(既定では4文字)でポップアップが表示され、Tabキーで候補が選べます。
    省入力データと変換辞書は独立しているため、「ニコニコ大百科で変換」「通常通り変換」という使い分けができます。何より、文書作成中に思いも寄らぬ候補が出てこないのが最大のメリットです。

  33. 33. 匿名

    アクセス数や人気順で抽出単語を絞ることが出来れば、辞書としても使いやすくなるのですが…。

  34. 34. 匿名

    @付き変換があれば誤爆もなくて良いと思うんだ

  35. 35. 木戸孝紀

    >34
    @付き変換というのが何のことかよくわからなかったのだけど、
    下で言われているもの(のようなこと)と思えばよい?

    2ちゃんねる顔文字辞書・2chアスキーアート・AAアイコン素材 MatsuCon – 顔文字辞書ダウンロード
    http://matsucon.net/material/dic/

  36. 36. 匿名

    要望
    項目の全角英数字を半角英数字に変換してほしいです。
    読みの ゎ・ゐ・ゑ を わ・い・え にしてほしいです。

  37. 37. 木戸孝紀

    >36
    項目の変換は顔文字・AAなどに影響与えたりしませんかね?
    検討します。

    すっ→おさとうゆっくり

    とかの全く変換の役に立たない読み遊びの補正をしたいけど、
    これは自前のリスト作るしかなくなるからしんどいかなあ。

  38. 38. 匿名

    MS-IME版をOfficeIIME2010にてインポートすると「! 読みがないか、文字数が制限を越えました。」となるものがいくつかありました。
    google日本語変換にて読み込んだ場合は9個ほどがMS-IME・ATOK両版ともに読み込み失敗しているよう。
    また、google日本語変換よりもOficeで登録できた言葉の数が200ほど少ないようです・・・・・・と思いきや、使用した版を記載しようと確認した際に収録語数を見ると、google日本語変換の方が元よりも多くインポートしているようでした。
    2013年12月25日 21:23版で確認しました。
    一応MS-IMEではないですが、報告までに。

  39. 39. 木戸孝紀

    2014年1月20日 01:24のコメント(未承認)の方へご連絡。

    もちろんimeの方でフィルターすることができますが、
    ニコニコ大百科の方のデータは変わらないので、
    ほとんど何の解決にもなりません。逆に、大百科で
    消去・修正されればimeからは勝手に消えます。

    IME全体の使い勝手の改善に資するものなら取り入れたいと
    思いますが、大百科自体の個別の荒らしにひとつひとつ
    IMEのコードで対応するのは困難です。大百科の荒らしは
    大百科の運営(ニワンゴ?)の方にご連絡をお願いします。

  40. 40. ななし

    大変重宝しております。ありがとうございます。
    ところで、タグを検索すると登録数が表示されるかと思いますが、
    それを利用して知名度の低い、利用されていないタグを排除したバージョンがあるとより便利かと思います。
    もし機会があればご検討お願いします。

  41. 41. 184

    DLさせていただきました。 google ime にインポートしたところ
    =====
    Google 日本語入力で取り扱えない可能性がある単語が含まれています。もとのインポート対象ファイルを確認して下さい。
    =====
    とゆう表示が出ましたので一応報告しておきます。

  42. 42. 木戸孝紀

    >184さん
    情報どうもです。

    詳細な理由は不明ですが、前から出ているものです。
    おそらく文字コードがらみだと思いますが、
    こちらで対応できるものではない可能性が高く、
    そのままになっています。

  43. 43. 木戸孝紀

    お大事に→作者はリアルで病気

    というのを見つけた。次回排除予定。

  44. 44. 匿名

    今更ながらでドロイド版GoogleIMEでもインポート可能だと知って入れようとしたのですが、問題が発生したため(ryでアプリが落ちる現象に遭遇しました。コメ欄の@付きの話で出てきている顔文字辞書はMS用・Google用で確認する限りは問題なく読み込めました。
    もしかすると中身が多すぎるのか、ドロイド版的には問題あるのか単語数制限か・・・・・詳しく調べたわけではないので分かりませんが報告までに。  
    因みに、auスマートパス向けのドロイド版ATOKの場合は登録可能数が全体で1000個までで、前に試したときには登録可能な部分まではインポート可能でした。(ただ、全体で1000個なので登録できない分はどうしようもないが)   
     
     
    報告までに

  45. 45. 匿名

    先程の書き込みに追記ですが、PC版GoogleIMEで辞書をまとめた物(とりあえずMS・ATOK両方とも入れると微妙に追加されていたので一応両方登録した)を出力したのち50,000行で分割したところドロイド版で登録出来たので報告します。

  46. 46. 匿名

    漢字記事や平仮名・片仮名の1文字だけの記事を排除してはどうでしょうか

  47. 47. 匿名

    これってgoogle日本語入力Android版では使えないのでしょうか?

  48. 48. 木戸孝紀

    >47
    やったことないのでわからないです。
    44-45のコメントで分割したらできたという報告がありましたが。

  49. 49. 匿名

    2015年12月10日 21:24版
    はんまーのひと 固有名詞
    はんまーのひと ハンマーの人 固有名詞
    なんだろコレ

    http:が含まれる候補はノイズっぽいような

  50. 50. 匿名

    「おことわり」にある株式会社ニワンゴはなくなりましたね。
    今は権利者はブラジルオンリーってことになるのかな?

  51. 51. エヌユル

    ニコニコ大百科とピクシブ百科事典の和集合の辞書にデータを使わせていただきました,やめてと言われたらやめます
    https://www.ncaq.net/2017/03/10/

コメントする

この記事へのトラックバック

 http://tkido.com/blog/1019.html/trackback