HOW DO YOU LIKE SILICON VALLEY?

たどり着いたらそこがスタート!
<< June 2017 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 >>

スポンサーサイト

一定期間更新がないため広告を表示しています

- | permalink | - | -
<< 「SocialFeed 所感」に中の人として答える | main | [お詫び]SocialFeed ユーザーの皆様 >>

世界を変える? Powerset パブリックデモ

「Googleキラー」とうわさされる自然言語検索エンジンPowersetの初のパブリックデモを見てきた。サンフランシスコのApple Storeなどの近くのそれほど大きくないバーに400人以上が集まり、かなりの熱気だった。

僕も実際にデモ機で検索をさせてもらった。まだデモなので、インデクス対象は英語Wikipediaのみ。かつ、検索パターンは「XXはなんと言ったか?」というものだけという制限の中ではあるが、同じ検索クエリの結果をGoogleと並べて比較でき、Powersetの素敵さを実感することはできた。

記憶を無理やり日本語になおしてどんなだったかを説明すると、たとえば、「スティーブ・ジョブスはなんと言ったか?」というクエリーの結果には、「・・・でスティーブがしたプレゼンテーションでは・・・」とか、「スティーブの予想では・・・・・・・だという」とか、ひとつひとつのキーワードとして見るとずいぶん離れている単語同士をちゃんと文章として結びつけて、スティーブ・ジョブスが言ったことを教えてくれる。

僕は、「徳川家康はなんと言ったか?」と検索させてもらった。うん、ソースはWikiだけど、「Ieyasu Tokugawaがxxの政令を発布した」とか、それっぽい検索結果がたくさん出ている。一方、隣のGoogle検索の結果はさっぱりわからない。

これがちゃんとリリースされたら、もっとバラエティに富んだ、人間にとって自然な質問に、WEB上の自然な文章を返してくれるはず。確かにこれはイイ。まさに「Google Killer」なのかもしれない。確か昔初めてPowersetのCEOのプレゼンを聞いたとき、音声認識をからめて、モバイルから音声で質問させるというシナリオがあった気がする。友達がみんな集まってから、「XX近辺でおいしいイタリアンはどこ?」と携帯で声で聞くだけでよいというシナリオだ。ただし、あくまで「自然言語同士の判別」なので、「一人当たり予算Xドルで、かついまから行って予約が空いてる・・・」とかつけても教えてはくれない。

それは極端にしても、彼らの技術についての感想を

まず、自然文検索が、キーワード検索に比べてきわめて高品質であることは間違いない。キーワード検索は本来は文脈を作り出す重要な言葉を「ノイズ」として切り落としすぎる。すばらしい技術だと思う。

ただ、大きな疑問がいくつか

・検索結果の優先度はどう作るのだろう
これは、デモの時に質問すればよかった。Googleにおけるページランクがスパム的な非重要サイトを切り落とすのに絶対的に有用だったのは間違いのないところだと思う。Powersetは、ユーザーにどういう優先度で結果を提示するのだろうか。ここが解決されたら本当にすごいと思うのだが、結果の優先度付けという問題は「自然言語検索」とはまったく別の技術な気がするのだ。彼らはどうするつもりなんだろうか。

・文法モデルの改善に費用がかかり過ぎないか?
裏を知ってるわけではないが、Powersetは言語の単語を文法を(たぶん確率)モデル化してそれがインデクスにあたるんだと思う。彼らのテクノロジーは「言語非依存」だというが、どんな言語でも同じ手法でモデル化できると言う意味だろうし、当然、このモデルは言語ごとにちゃんと作らなければいけないはず。また、言語は人間が使うものである以上、このモデルは一度作って終わりというわけではないはず。
そこを質問したら「まさにそこをいまがんばっているのだ」と言っていた。もちろんリリースしたときに完成度の高い文法モデルがあるのはすばらしいことだが、これは多分リリース後も改善していかなければいけないはず。そのフィードバックループが完全自動化されたり、せめて継続に専門家を必要としないスケーラブルな方式でない限り、立ち行かなくなると思うんだよね。

・検索対象が文法に従ってないときはどうするんだろう
デモでは対象がWikiだったので、ある程度きっちりした文章だった。メディアの記事や多くのブログはちゃんと文法に従ってると思うが。どれくらい壊れた文章に対応できるんだろう。ただ、(Googleが著作権などで行き詰っているが)Webではなく、リアルな本の検索ができたら文法もきっちりしてる、有益な情報が大量に対象になりそうだな。。

すくなくとも僕が考える範囲内では、これらが解決されたら、Googleが吹き飛んでもおかしくないと思う。Powerset、素敵。

日本企業の資本も結構入ってるみたいだけど、日本人の姿はまったく見なかったから、パブリックなデモを紹介する日本語のソースはこのブログが初めてかな。Powersetは日本語インデキシングが英語の次に進んでるらしい。誰がやってるのかな。日本語の文法モデル化のトッププレイヤーって結構限られるよね。。。

ここからは会場の様子をどうぞ

P1010062

デモ画面
P1010065

個別デモに集まる人々
P1010066

「徳川家康は何と言ったか?」の結果
P1010067

いっしょに行った友達のブログの記事。動画あります。
Technology | permalink | comments(1) | -

スポンサーサイト

- | permalink | - | -

この記事に対するコメント

「Googleキラー」っていう言葉が凄いですね。
実際使わないと分からないので想像するしかないのですが、ミス・サウスカロライナの迷言を構文解析したものが、Powersetのblogに載っており興味深いです。
ちゃんと答えが出ているところが凄い。
構文解析は、PARCのXLEを使っているんでしょうか。XLEは曖昧な文でも解析できるようですね。日本語も対応しているとのことですし。
ただ、迷言を解析できてもWikipediaにないような未知語を解析できるかどうか。
未知語がノイズとなって、検索結果が駄目にならないと良いのですが。
ymikasa | 2007/10/10 6:29 PM
コメントする









COMMUNITY
TWITTER
SPONSORED LINKS