Googleが先月24日に発表した、日本語・中国語においての不自然な改行をより自然にするものです。機械学習を用いており、前身であるBudouの後継となるものです。
BudouX
ではより詳細な仕様を見ていくことにしましょう。BudouXは、ウェブなどで読みやすいテキスト折返しを実現するための軽量な分かち書き器です。Budouとの違いとしては、サードパーティのAPIやライブラリに依存しないという点があります。
機械学習モデルを用いますが、それを含めても20KBに収まるため、JavaScriptファイルにも同梱可能としています。
めっちゃ使うのは簡単
じゃあ使ってみましょう。
HTML + JS
今回は、Nishiki-Hubのこの記事から抜粋したものです。こちらのコードはこのままこちらで試せます。
Python
Pythonの使い方で試してみましょう。
Pythonでは、pipでbudouxをインストールする必要があります。ターミナルかコマンドプロンプトでpip install budoux
とするだけなので簡単です。
BudouX自体は分かち書き器なので、改行以外に文節区切りのような形で使うことも可能です。これは、例えば自作翻訳なんかに用いることができるかもしれません。
Pythonでこのように記述することで、分かち書きした結果をリスト型に突っ込むことができます。まだPythonでしか試していませんが、おそらくJSでも可能です。
JS/Pythonとともに、Javaでも利用することが可能です。