IVS優勝で見た光と影、中国AI企業との提携。音声技術のパイオニアの軌跡と目指すものとは?

ガラケー時代より音声技術の研究をはじめ、IVSで優勝した足高さんは何を見て、どんな経験をされてきたのか?そして中国との提携をして、これからどこを目指すのか?これから必要とされるスキルも含めてたっぷりと聞いてきました。

足高 圭介

足高 圭介

2004年 図書館情報大学大学院 情報メディア研究科 情報学専攻修士課程修了
大学院ではニューラルネットワークを使ったパターン認識の研究行う。
2010年株式会社サインウェーブに創業メンバーとして入社。
現在は執行役員として、英語スピーキング試験システムの開発を中心に社内の開発プロジェクト全体に関わっている。

大学でAIに自然と興味を持ち、音声認識に出会う

AIや音声と出会ったのはいつからですか?

もともと将棋が好きだったというのもあるのですが、高専時代にコンピューター将棋を研究する機会がありました。
当時は、コンピューター将棋の研究が始まった時期でもあり、探索アルゴリズムや評価関数などを自分で考え実装していくのが楽しく、その延長線上にあった人工知能(AI)に自然と興味を持ちました。

大学院時代には、パターン認識の研究をしていましたが、当時の研究分野は音声ではなく分類でした。
具体的にいうと本をどのように分類するかというテーマで研究をしていました。
さまざまな切り口が考えられ、正解が1つではないというパターンに対して、どういう切り口であれば人間が使いやすくなるか、その分類を自動で行えるか、ということを研究していました。

そして研究室の先生の紹介でAIをやっている会社にアルバイトで働くこととなり、そこで音声認識に出会いました。
当時の音声認識は精度も低かったのですが、どのようにすれば認識率が上がるのかというテーマには興味を持ちました。

学生時代で特に印象深かったことは?

当時は、ニューラルネットワークを扱っていました。
今思うと「まさかこんなに光があたる時代がくるとは」といえるくらい冬の時代だったので、感慨深いですね。

音声技術自体はアルバイト先でやっていましたが、音声技術も完全に冬の時代で、いろんな製品がでてはいましたが、使い勝手や精度など、世間では音声認識はまだ実用的には使えないという評価でした。

当時はガラケー全盛期で、ガラケーのスペックも通信などハードウエアやインフラ含めまだまだ全然整っていない時期にやっていたというのもあるので、環境的にも今より相当厳しい状況でした。
利用についても「音声認識って必要なの?」というような時代にやっていたので、なおさら普及とは程遠いレベルでした。

ユーザー起点になって利便性を良くするサービスを作り、IVSで優勝した

足高 圭介さんのインタビュー

新卒で入社した会社はどんな会社でしたか?

インターンをしていたベンチャー企業に新卒で入社しました。
その会社のサービス内容は、AIの中でも音声認識・音声合成・対話です。
今でいうとAIのSiriのようなものを作ろうとしていた会社でした。
そこでは、対話エンジンなどを使ってSiriのようなものを目指していましたが、まだ時代がそこまで求めていませんでしたし、技術も追いついていなかった状況で、なかなかうまくいきませんでした。

そして、それまでの技術を向上させるための研究や開発中心の仕事でなく『今ある技術を使って何ができるのか』というのを追及したくて転職をしました。

2社目に入社されたきっかけは?

転職を考えていた時期に出会った人の紹介で二社目の会社を知りました。
その時は特に入社するとか考えていたわけではないのですが、話をしてみると「音声技術でおもしろいものを作りたい」という考えを持っていました。

私は、これまでの経験から音声技術は限定的な使い方をしないと実用化は難しいということを説明し、その状況をわかった上で、『できる技術を使ってサービスを作っていこう』ということになり、良いサービスを作る事ができるかもしれないと思い転職を決めました。
ちょうどその頃はスマートフォンが普及しはじめた時期で、当時はまだフリック入力に手間取っている人も多く、慣れないフリック入力よりも音声入力があった方が便利ではないかと言われていました。

また、Twitterやyoutube、ニコニコ動画などのサービスで、テキストの入力や動画内の音声検索などのニーズがあり、音声技術を組み合わせたサービスを作ったところ、IVSで優勝しました。

IVS優勝。しかし、喜びも束の間で立ちふさがった大きな壁

足高 圭介さんのインタビュー

優勝経験もある2社目ではどのようなことをされていましたか?

まずサービス開発するためのエンジニアがいなかったので、エンジニアの採用もしましたし、研究所や大学の研究室にも足を運びました。
また、人気のウェブサービスを展開している会社に訪問して音声技術の活用も模索しました。

IVSで優勝することはできましたが、ちょうど同じタイミングでGoogleやAppleといった大手が無料で音声技術の提供をはじめたので、マネタイズの方法が問題としてでてきました。

現職にはなぜ転職されたのですか?

IVS優勝後、会社は厳しい状況に置かれてしまいました。
私自身、技術的なところを追及しすぎていて、ビジネス的な視点が欠けていました。
音声認識に関しては、GoogleやAppleと戦うのは厳しくても、音声技術は音声認識だけではないので、まだなにか音声技術を生かしたビジネスは可能ではないかという望みは持っていました。
そういった時期に今の代表の赤池と知り合いまして、赤池が会社を設立するということだったので、そこでもう一度チャレンジしてみようと思いました。

当時まだ音声技術は発展していなかったと思うのですが、不安はありませんでした?

音声認識は厳しいと感じていました。
一方、音声合成分野ならできることがあると思っていましたので、音声認識でなく音声合成分野に舵をきってサインウェーブで技術を磨いていくことにしました。

また、前職にいた時に2回アイフライテックの会社を訪問する機会があったのですが、アイフライテックも音声合成をやっていました。
当時から技術は優れていたので、この技術をうまく使えば、日本でもインパクトのあるサービスを開発できるのではないかと考えていました。

中国で急成長していた英語教育で日本の教育も変えるべくアイフライテックと提携

足高 圭介さんのインタビュー

現在はどのようなことをされていますか?

現在は、英語の発話を採点するという技術に関わり、英語の教育分野で使えるアプリケーションを開発しています。
2020年のセンター試験後継案に向けて英語4技能の評価試験をサポートすべく、スピーキングとライティングの学習・試験システムを新たに開発しました。
自分の役割としては企画、開発、アイフライテック社との連携、営業などを、幅広く手掛けています。

アイフライテックさんとの協業のきっかけは?

サインウェーブの創業当初にアイフライテックとは業務提携をしていましたが、その後、アイフライテックは音声技術を生かして教育事業で大きく成長していきました。
音声認識や音声合成は人の代替手段としての意味合いが強いですが、英語のスピーキング能力を上げるためには、自分でしゃべって練習する方法以外にありません。

そこに関しては中国も日本も同じですので、共に国際化の進展に向け、日本でも英語教育を進めていこうという事になりました。
アイフライテックは、中国全土の教育事業をやっているので、日本とは比べ物にならないデータを持っています。
データ量が重要なのは当然理解していましたが、桁が違うデータを持っていたので純粋にすごいなと思いましたし、また、それだけのビッグデータをいかすノウハウにも驚かされました。

今後会社としては、音声認識、合成、翻訳を繋げ、個人としてはチームマネジメントのスキルを磨く

今後どこを目指していかれますか?

今行っている英語の採点・評価システムの他に、音声認識、音声合成そして翻訳、この3つを繋げたいと考えています。
そして日中英、この3ヶ国のトライアングルをつくりたいと思っています。
その前段階として、英語の教育分野で何ができるかを追及していくのは今後もやり続けていきます。

個人としては、チームとして最大限力を発揮するためにはどうすればよいかというようなチームマネジメントにシフトして、スキルを磨いていきたいと考えています。
というのも、やはり一人でできることには限界がありますし、人数が二人、三人と増えても、人数に比例した力を発揮できないことは多いので、チームの体制であったり、モチベーションの管理であったり、生産性をどうやってあげるかを考え、その力を鍛えていきたいと思っています。

特にAIに関するところでは、技術要件の把握や、必要工数の適切かつ迅速な見積もり、プロセスにおける無駄を省く最適化などの理解と改善の経験がもっと必要だと感じています。
例えば、この技術を使いたいとなった際、ある程度直感的にできるかできないかを判断しなくてはならないと思います。

もちろん直感だけでの判断で済ませてよいということではなく、実際に試してみることはとても重要な事なのですが、ある程度その前に現実的に厳しいラインの見極めができる必要はあるかと思います。
リソースが無限にあれば考え付くプランを同時並行でやっていけば良いと思うのですが、そういう状況はまれなので、どれから着手するのかの優先順位や、テストしてだめだったら次善策としてこれを試すなどの状況判断・スピード感は必要だと感じています。

また、会社として短期的に目指していることは、2020年までに国内の英語教育分野でデファクトスタンダードのような存在になることです。
そのために、教育分野に真摯に向き合いながら技術を発展させていき、最終的には皆で世の中を変えるものを創り、世界にはばたく人材の育成に貢献していきたいです。

世界基準で情報収集し・考え、日本用に変えられる人は市場価値が高い

足高 圭介さんのインタビュー

AIの分野で市場価値が高い人材とはどのような人だと思いますか?

視点が世界基準の方ですかね。
日本ではどうなっているかではなく、世界ではどうなっているかということを常に意識している情報感度が高い方は良いと思います。
もちろん日本という市場を見ることは重要なのですが、最近では、そういう狭い見方をしていると、流れが早い業界なだけに世界から取り残されてしまいます。
だから、世界基準でまず考えて、そこから日本ではどうかと落とし込むようにできる方は今後も重宝されていくと思います。

また今後は、プログラミングについては、できて当たり前の時代になっていくと思います。
言語もある程度網羅して使えれば良いですが、それよりも使える言語でスピード感をもってライブラリなどを使い、すぐに実装してみることが大事だと考えています。

素早く情報を仕入れたら、まず試し、経験則を蓄積していくことが付加価値となっていく

今後付加価値を高め続けるために重要なことは何だとお考えですか?

常に情報のアンテナを張り、新しく出てきたものをいち早くキャッチして、すぐに試すことを繰り返し自然にできる人は市場価値が高いと思います。
半年もするとガラッと変わっていく世界なので、いかに早くそのPDCAが回せるかは重要だと考えています。

あとは、周りの言葉に振り回されないようにすることも重要と考えます。
例えば開発言語の場合、〇〇言語がいいらしいと噂が広まると、皆それに走りがちになります。

流行するのはそれなりに理由もありますし、流行を追うことも大切ですが、その言語のどこが良いところなのかというのを自分で判断できる力が大切だと思います。
それには、まず経験を積み、トライアンドエラーを繰り返し、学習したものを蓄積していかなければならないと考えています。

AIが及ぼす未来はどのようになっていくと思いますか?

私は、人はこの日々進化していく流れにうまく適用し自然とAIと付き合っていくのだと思います。
そして未来ではあくまでも自然にありとあらゆる生活にAIが活用されていると思います。

音声の分野では、音声認識と翻訳と音声合成が組み合わさったものが当たり前になると思います。
将来、翻訳こんにゃくのような、違う国の人どうしが母国語でかんたんに会話ができるような時代がくると思っています。