AIが生んだ新単語 未知の出力結果を生む仕組み
メッセージを届けたい相手がいるときに、相手を知った上でどんなものを届けるのが良いのだろうか?今回から、これまでの「心を知る」技術を発展させる形で、AIにコンテンツ生成させる技術について考えたい。
「アンコリーノ」。
少し小馬鹿にしているような、でもほっこりする響きだ。実はこの固有名詞は、界隈で話題をさらっているOpenAI社が提供する「ChatGPT」に、あるTwitterユーザーが「小麦粉、砂糖、卵を溶いて作った生地を丸い金属の型で焼き上げ、中にあんこを入れたお菓子の名前」をたずねたときに出力されたものである。既存の辞書には存在しない「アンコリーノ」という新単語をAIが生成してしまったことが、驚きをもって受け入れられているようだ。
このブラックボックスの中身を少し覗いてみよう。まず、単語を生成するには、単語を知らなければいけない。一方で、生成されたアンコリーノはそれ自体がひとつの単語である。第一回で紹介したMeCabでは、アンコリーノは1単語の固有名詞として形態素解析されてしまう。どうやって、未知の単語の生成が可能になるのか。キーワードはSentencePiece(Kudo EMNLP 2018)に使われている「サブワード」にある。
SentencePieceは、ニューラルネットワークを使って、生文から直接分割の句切れを自動的に学習する。なぜ...
あと60%