日本語対応の分かち書きライブラリ『BudouX』、AndroidやChromeに標準搭載へ

2023年10月7日 17:40

印刷

記事提供元:スラド

Googleが9月24日、公式ブログ上で日本語などアジア圏の言語でのテキスト折り返しを改善するための「BudouX」という「分かち書き」ライブラリを紹介している。アジア圏の言語は単語と単語の間にスペースを入れないため、テキストが意図しない位置で改行されてしまい読みにくくなることがある(Googleブログ窓の杜)。

「BudouX」はこの問題を解決するために開発された。「BudouX」は、オープンソースのライブラリで、サイズはモデルを含めて20KB程度とコンパクト、かつさまざまな言語モデルを学習できる特徴がある。現時点では日本語と中国語(簡体字と繁体字)で利用可能で、JavaScript、Python、Javaなどのプログラミング言語でサポートされている。このライブラリは既に「adobe.com」などで活用されているという。また、「Google Chrome 119」以降では、特定条件で自動的に「BudouX」の分節区切りが適用される。また、「Android 14」以降でも「BudouX」が使われているとのこと。 

スラドのコメントを読む | オープンソースセクション | オープンソース | 日本 | プログラミング

 関連ストーリー:
Python 3.12正式版リリース。言語機能の強化など 2023年10月04日
Microsoft、「Python in Excel」を発表 2023年08月24日
Twitter、日本語ハッシュ タグ入りツイートが可能に 2011年07月14日
点字コンバータBrailleConverterの作者に聞く 2008年05月13日

※この記事はスラドから提供を受けて配信しています。

関連キーワード

関連記事