ニコニコ大百科IME辞書を紹介するというメールが来ていたので、注文してみた。
確かに『IME変換辞書大全』というコーナーにちょこっと載ってた。
しかし懐かしいな、こういうディスクつきのパソコン雑誌。大昔、Tech-Winとか買っていたのを思い出す。エミュレータとかアップローダとかオンラインソフトだとか。単語自体が懐かしいぞ。
『自炊しようぜ』というタイトルの書籍電子化特集があるのが、時代を感じさせる。
おまけ
なんか覚えてる。何が面白かったんだろうこういうの。
by 木戸孝紀
tags:IME IT プログラミング 雑誌
Google IMEに対応。これまでも10000語ごとに分割すればそのまま使えたが、あらかじめ分割したバージョンを追加。
元からネット用語に強いGoogle IMEのことなので、およそネット用語に関しては最高の環境になったかも。
サジェスト機能も軽いので、普通に入力して変換することはあまりないであろう長めの項目も、比較的有効に使える。使えるというか、使えないけど笑える。
プロパティでサジェスト9個にして「あいすべき」とか「びょういんが」とか入力するとそれだけでカオスな世界に突入する。
ただし、問題がひとつ残っている。Google IMEでは、キーボードから入力されるのはカタカナのヴなのに、辞書ファイルで読みを「ヴ」で入れていても、インポート時に「機種依存文字の一文字でひらがなのう゛」に変換されて登録されてしまう。
そのため「ヴ」が絡む単語は、登録しても結果的に変換できない。インポートの仕様が変らない限り、こちらで回避する方法はないように思われる。気になる人はGoogleの然るべきところに要望を出しておいてくれるといいかも。
おまけ
ニコニコと日本語つながり。
by 木戸孝紀
tags:Google IME ニコニコ動画 プログラミング
はーい皆さん、グールド亡き今世界一有名な進化論啓蒙者であり、人格的には割とクソ野郎なドーキンスの兄貴の新刊のお時間です。
今回のテーマは非常に明解。進化は事実だということ。
「……それはギャグで言ってるのか?」と思うでしょうが、旧約聖書の創造論をまんま事実として信じている人間が今でも大勢いて、一定の政治力を保っている欧米の読者を主な対象としているので、そこは割り引いて考えて下さい。
個人的には、あまり新しい話はなく、いつもと比べると不満なのですが、むしろ『利己的な遺伝子』もまだ読んだことがないというドーキンス初心者に、1冊目の本としておすすめできるのではないかと思います。
内容とは関係ないですが、6章のタイトルが『失われた環境』となってしまっています。急いで翻訳・出版したので校正ミスしたのでしょうが、ちょっとかっこ悪いです。
『失われた環(ミッシング・リンク)』と書こうとしたが“環”が単漢字変換できなかったので、“かんきょう”を変換して後で“境”を消そうとしたが、消し損なった。……という経緯が丸わかりです。
参考リンク
関連図書
おまけ
by 木戸孝紀
tags:IME リチャード・ドーキンス 宗教 書評 進化
とか言ってたが、本当になった。
私のATOKはお金と期間をかけてガチガチにカスタマイズされているので、すぐに乗り換える気にはならないが、将来的にはATOKもほぼ確実に駆逐されてしまいそうな予感がする。
とりあえず現在の素の状態でも、MS-IMEよりは万倍いい。MS-IMEを使っていて、ATOKを買うのを渋っている人はぜひとも導入すべき。
web上の情報から候補を作っているためか「ただしい」と入力したところで「ただしイケメンに限る」が第1候補としてサジェストされるとか、かなりカオスなことも起きる。一般の人までこれを使うようになると、言語環境的にも面白いことになりそうだ。
おまけ
by 木戸孝紀
tags:ATOK Google IME ニュース フリーソフト 言語
このコラムと動画を見てこれは便利になると思ったので作ってみた。やはりものすごい便利。ニコニコ動画関係のみならず、アイマス・東方・VOCALOID・その他エンターテイメント関係のブログ等を書いている人なら、もっと便利に使えると思う。
ダウンロード
nicoime.zip (最新更新時間確認)
使い方
nicoime.zipを解凍すると以下のテキストファイルが入っています。
- nicoime_atok.txt (ATOK用)
- nicoime_msime.txt (MS-IME・Google日本語入力用)
お使いのIMEに対応するファイルを読み込ませて下さい。
おことわり
- zipの解凍方法および、テキストファイルをIMEに登録する方法については、そのIMEのヘルプを見るなりググるなりして調べて下さい。
- 登録の際弾かれてしまう単語がどうしてもいくらか出ますが仕様です。
- 当然ですが、データの権利は有限会社未来検索ブラジル・株式会社ニワンゴにあります。万一運営にやめれ言われたらやめます。
- もちろん、アイデアも元の動画の人そのままです。
実作業数十分のスクリプトで出しゃばるのも何なので、動画作者の気が変わって公開するようならアイデア尊重して引っ込みます。大百科の掲示板で了解いただきました。
解説
- ニコニコ大百科からrubyスクリプトで自動生成した辞書。
- 読みが一文字の項目は無視している。
- 「……の一覧」「……のサムネ画像集」など辞書っぽくない項目を無視している。
- 誤変換指摘のためのリダイレクト項目をそのまま取り込むと誤変換してしまうという問題は対策ずみ。具体的には「同一の読みが他に存在するリダイレクト項目は出力しない」ことで対応。
- その他幾つか思いつきで操作を入れている。
- 品詞分けはどう考えても無理なので、全部「固有一般」または「固有名詞」になっている。経験上IME登録単語の品詞分けにそこまでの重要性はないし、実際に固有名詞がほとんどなので大きな問題はないはず。
お願い
- 現実的に可能な改善点や要望などありましたらお気軽にどうぞ。導入するかもしれません。
- 定期的に最新版を作る仕組みになっていますので、ニコニコ大百科のHTMLの記述方式が変わったりすると壊れる可能性が高いです。明らかに壊れていると思われる状態を見かけたら、メールなりコメントなりで知らせていただけるとありがたいです。
2009/11/18追記
- 読み一覧ページへのページャ導入に対応しました。
- 取得ページ数が72程度で済んでいたところが、1550程度と大幅に増えてしまったため時間的に負荷分散することにしました。
- わざわざ変更をお知らせいただきグニャラくん ★様
あいつがいまーすありがとうございます。
- 「ありがとうございます」→「あいつがいまーす」の変換を排除しました。
2010/03/07追記
- Google IME用の辞書を追加しました。
- 日時のみ・数字のみなどの項目を排除しました。
- 他いくつかの微調整を追加しました。
2010/10/15追記
- 「みえた」→「見えた!」および「だいじょうぶか」→「大丈夫だ、問題ない」の変換を排除しました。
2010/12/18追記
- 現時点ではGoogle日本語入力の10000語制限はなくなっているようです。MS-IME用ファイルをそのままインポートできます。
2011/03/21追記
- 「第○回△△」「〇〇のお絵カキコ」などの項目を排除しました。
おまけ
kamS(なぜか変換できた)さん新作。超級者向けと呼ばれるだけのことはあるセンス。
by 木戸孝紀
tags:IME IT ニコニコ動画 プログラミング
昔からIMEについてはATOK一辺倒。最近会社でもネット上でも良い評判を聞くので久々に2005からバージョンアップ。
確かに劇的に良くなったような気がする。ケータイ風の連想変換とか、電子辞書との組み合わせ動作もなかなか便利だけれども、通常の変換効率が大幅に上がった。
これまでのバージョンアップではいくつか機能がついたなというのはもちろんわかっても、基本性能のアップはそこまで感じ取れなかったものだが。
参考リンク
おまけ
漢字つながり。
by 木戸孝紀
tags:ATOK IME お役立ち ソフトウェア 買い物
キーボードによる入力効率を一通り改善してみてIMEが視界に入ってきた。
もっとも、他の入力・編集が効率化された分相対的に目立つようになってきたと言うだけで、不満があるという意味ではない。私の使っているATOKはそもそもそれなりに賢い上に長年の使用で辞書が自分用にカスタマイズされてきているからだ。
ただGoogleはIMEを作らないのかな? という疑問が頭に浮かんだ。
調べたらこのAjaxを使ったIMEの作者がGoogle社員らしいということだけど、そのものずばりのGoogle IMEにあたるものはまだないらしい。
IMEのような自然言語処理はGoogleの得意中の得意のはずだし、需要は確実にあるだろうし、google検索やgmailなどの性能からして変換効率ももっとよくできそうだし、各ユーザーの入力・登録を元に自動的に単語や変換規則を学習して賢くなるというようなこともできそうだ。
あったら是非試してみたいものだが、そもそも普通のIMEがどんなアルゴリズムで動いているものかもよく知らない。今度調べてみよう。
2009/12/3 追記
本当にキター。3年半後だけど。
by 木戸孝紀
tags:ATOK Google IME