Microsoft Excel вынудил ученых переименовать гены

The Verge

Комитет HGNC (HUGO Gene Nomenclature Committee) выпустил обновленное руководство по наименованию человеческих генов. Среди прочего организация сообщает об изменении названий ряда генов, некорректно обрабатываемых программой Microsoft Excel. Эта программа по обработке табличных данных по умолчанию конвертирует названия вроде MARCH1 в даты, так что во избежание ошибок ученым пришлось их модифицировать.

Имена генам даются в соответствии с номенклатурными требованиями, разработанными HGNC — комитетом, ответственным за корректные названия генов человека. Среди общих принципов — имя должно даваться на английском, быть коротким и содержать информацию о функции или структуре продукта. Кроме полного имени гену дают аббревиатуру, по которой его можно быстро найти, например TNF для Tumor Necrosis Factor. Сокращение должно состоять только из заглавных букв латинского алфавита и арабских цифр, быть уникальным внутри генома и не иметь негативной окраски. Помимо этого рекомендовано вообще избегать сокращений, совпадающих генетическими терминами. Так, сократить название гена до CHR5 будет очень плохой идеей, — оно будет постоянно путаться с пятой хромосомой. Поиск генов с названиями вроде LOVE или SUN тоже проблематичен, поэтому имена совпадающие с распространенными словами тоже не рекомендованы.

Помимо новых рекомендаций в руководстве говорится о переименовании нескольких уже существующих генов. Среди попавших под раздачу — сокращения вроде DOPEY1 (одурманенный, тормозной, вялый от приема наркотиков), WARS и CARS (теперь WARS1 и CARS1) а заодно целая группа генов, которые переименовали из-за их некорректной обработки в Microsoft Excel. Сокращения вроде MARCH1 или SEPT1 программа по умолчанию конвертирует в даты, и связанные с этим ошибки регулярно всплывают в научных работах, — по оценке австралийских ученых они есть в каждой пятой статье, содержащей дополнительные exсel-таблицы с генами.

Excel — самая распространенная программа для обработки таблиц, и — хоть она заточена совсем не под работу с генетическими данными — ее регулярно для этого используют. При этом по умолчанию она конвертирует в даты все, что похоже на даты, и любой, кто не отключил эту опцию ручном режиме заранее для отдельных колонок получит на выходе некорректный список генов, при дальнейшей обработке которого тоже могут возникнуть трудности. Глобального решения этой проблемы Excel не предлагает и не планирует делать эти настройки более гибкими, так что ученым пришлось переименовывать гены. Теперь ген MARCH1 сокращен как MARCHF1, а SEPT1 как SEPTIN1, изменения коснулись и других аналогичных генов. Это первый случай, когда смена имени была обусловлена некорректной обработкой данных.

Правила наименования целых организмов не такие строгие, — они должны быть написаны латинскими буквами, подчиняться правилам латинской грамматики и быть биномиальными, но при этом первооткрыватель волен сделать их шутливыми, поэтичными или увековечить в них людей или персонажей. Так, у нас уже есть амеба-Гендальф, онихофора-Тоторо, червь-Обама и насекомое наездник Элбакян. В описании вида должна быть указана причина выбора названия, но в целом она может быть изложена в волном стиле.

Вера Мухина