Excelの自動書式変換を避けるため、遺伝子シンボルが変更される

2020年8月9日 18:53

Microsoft Excelなど表計算ソフトウェアの自動書式機能により遺伝子シンボルが日付などの誤った値に変換されてしまうことを防ぐため、HUGO Gene Nomenclature Committee(HGNC)のガイドラインが変更されたそうだ(The Vergeの記事論文アブストラクト)。

自動書式機能では入力されたデータが特定の種類だと認識した場合、自動で書式を設定する。そのため、「membrane associated ring-CH-type finger 1」の遺伝子シンボル「MARCH1」が「1-Mar」に変換されてしまう。書式だけでなくデータ自体も「1/3/2001」のように変換されてしまうため、復元は困難だ。2016年には、遺伝子のリストを使用する論文の20%で遺伝子シンボルが誤った値に変換されたまま掲載されているとの調査結果も発表されている。このような問題の回避方法として、事前にセルの書式設定で「文字列」を選択しておくなどの方法が知られているが、自動書式自体を完全に無効化することはできなかった。

遺伝子シンボルは遊び心あふれる科学者たちの楽しみでもあり、無意味に別の単語と紛らわしいものも多い。そのため、ヒトの遺伝子シンボル27個はこの1年ほど、自動書式に影響を受けないような文字列への置き換えが進められていたのだという。たとえば「MARCH1」は「MARCHF1」に変更されており、「septin 2」を示す遺伝子シンボルは「SEPT2」から「SEPTIN2」に変更されている。このほか、検索を容易にするため「CARS」は「CARS1」に、「WARS」は「WARS1」に置き換えられ、侮辱的な表現になることを避けるための変更も行われているが、ソフトウェアが引き起こす問題の対策としてガイドラインが変更されたのは今回が初めてとのことだ。 

関連記事

最新記事