音声についての基礎研究がメインである。
音声とは瞬時的な現象であり、「見返す」ことが難しい。なぜなら、音声を言いなおす・かけ直す度に周囲の環境音や雑音と混ざり「新しい音声」になる。また、音声に含まれている情報を数値化すると1秒あたりに8千以上の整数サンプルが存在する。耳で聞き取り瞬時に理解することが出来ても目で波形を見て瞬時に理解することは不可能。
しかし、音声の波形には確かな情報が含まれており、それさえあれば中身の認識も作成も可能である。実は音声の中に出現する波形には法則性がある。一見0.5秒続く「あ」の音には4千の整数サンプルがあるように見えるが実のところ50サンプルぐらいあればそれが「あ」であることが分かる。その法則性、波形と音との関連性を調べるのが自分の研究である。
ステレオ画像の深度計算の研究がサブである。
昨今、ヘッドマウントディスプレイ(HMD)や3Dディスプレイが話題になりつつあり、その多くはエンタメやシミュレーターで使用されてる。三次元コンテンツは3DCGとして作成して仮想空間(VR)で表示するや両眼カメラで左右両方の画像・動画を撮影しそのまま利用するケースが多い。しかし、実在する環境を三次元コンテンツで再現するのは簡単ではない。
人間が両目を使って奥行を察知するのと同じ原理を利用して、左右に並んでいる二枚の画像から奥行の情報を論理的に計算するのがこの研究の基本である。さらに、高速化やモジュール化をすすめることにより、リアルタイムの深度計算を実現し内視鏡などの医療機器に搭載できるほどの安定性・実用性を目指す。また、裸眼立体視ディスプレイと併用することでストレスフリーの環境を実現することができる。
人間と同じレベルかそれ以上の知性を持つ人工知能(AI)のことは汎用人工知能(AGI)と呼ばれていて、汎用人工知能の実現は自分の夢である。
子供だった自分は汎用人工知能の概念にあこがれ大学に進学したところ、そんなものはまだ実在していないし今の技術ではできないという現実に叩きつけられた。しかし、そこで諦めるほどの人ではなく、自分自身で「どうしたらできるのか」を考えるようになった。そこで、自分の思考の探検が始まった。その過程で「知性」を理解せずに汎用人工知能を作るのは無理だと気づき、心理学、感性工学、脳神経学などにも幅広く貪欲に知識を求めた。
その結果、「知性」とは「意識」の副産物で、「意識」の芽生えには「器」が必要だという結論にたどり着いた。(今後知見が変わる可能性もあるが…)ならば、今の自分にできることは「器」の用意だと思い、音声についての研究を進めているわけである。
ゲーム (一人用・協力・MMO・ボードゲーム)
読書 (小説 (和・洋)・趣味系・学習系)
動画鑑賞
便利ツール開発
料理
ブレスト
多国語 - 日本語, 英語, 中国語, マレー語
プログラミング (C, Java, JavaScript, Python)
画像編集
動画編集
PC組み立て
お問い合わせ | Copyright 2021 Jing Zhi Lim