“这篇文章的技术因为申请专利耽误了发表,如果早几年投出,说不定能投中Science、Nature、Cell。”
3月17日,《医学病毒学杂志》(Journal Of Medical Virology)在线刊发了中国科学院昆明动物研究所(以下简称昆明动物所)研究员马占山的一篇论文,文章提出了一种比较病毒组(VC)的新算法,能够高效率地找出某一病毒组特有或者富集的病毒种类等功能。《医学病毒学杂志》目前的影响因子是20.7,在病毒学领域排名第二。
(资料图片)
日前,马占山在接受《中国科学报》采访时讲述了文章发表背后的故事:“2017年1月我申请受理的专利在2022年第一次审查中被驳回了,也因此错失了发表论文的最佳时间,但还是很高兴这项研究成果可以公开发表,我也会继续申请专利,此次发表的成果仅仅是这项技术研究的一小部分。”
距离第三个博士学位“就差一篇论文”
“当年,我不希望别人知道我们对于这项技术的研究,起初也没有计划申请专利,甚至想过自己要不要拿着技术去开公司。”
马占山是这篇论文唯一的作者。他一边解释为什么只有一个作者,一边略有遗憾地说道:“虽然现在看来,我当年的研究已经没有那么超前。”
“至于唯一作者原因,其实也很简单:一是我学科组人少,毕业博士生少则4-5篇论文,多则10来篇,个别毕业时已经有通讯作者论文了。二是这篇论文的研究方法确实只有两个人完成,但这次发表的论文只是该方法部分内容,其它论文还在审稿中,只是这一篇最早发表了。”马占山解释说。
就在采访前一晚,马占山工作到凌晨三点,但他的脸上看不到丝毫疲惫。
马占山不仅是一个“工作狂”,还是一个“跨界”人才。他拥有昆虫学和计算机科学两个博士学位,曾在美国硅谷干了10年软件工程师,2010年回国加入昆明动物所后,从事计算生物学研究。
这篇论文也是马占山“跨界”研究的产物之一。
1997年7月,马占山在美国爱达荷大学完成了昆虫学博士毕业论文,并顺利通过答辩获得学位,但那篇论文当时并没有公开发表。同年12月拿到计算机科学硕士学位,随后他投身产业界,并在2006年重回爱达荷大学,攻读计算机科学博士学位,仅用26个月就拿下第二个博士学位。
2008年,马占山成为爱达荷大学的一位科研人员。这时,他才将自己写好快10年的昆虫学博士论文拿出来投稿,并顺利发表。随后的两年,马占山在昆虫学领域一流期刊上,一口气发表了7篇论文。“这些文章很早就开始酝酿,却迟迟未成稿。”马占山自嘲“有严重拖延症”。
当年,马占山的计算机科学博士论文被Springer相中,双方在2011年签订了优秀博士论文丛书出版的合同,后来约定等马占山将论文内容补充完善成专著后出版发行。“对方至今仍在等我交稿。”马占山不好意思地告诉《中国科学报》,此次发表论文核心算法内容其实搁置也有7~8年了。
在“拖延”的同时,马占山还在不断地学习。快拿到计算机科学博士学位时,马占山还在寻思:“要不要再拿一个金融数学的博士学位。”实际上,在那之前他已经选修或旁听完数学专业博士研究生的大部分必修课程,用他的话说:“距离学位就差一篇论文。”
最有价值的技术专利被驳回
“关于VC算法,我大概在2016年前后就已经开始思考,当年主要看中其应用前景,于是奔着申请专利去了。”马占山说,“如果先发表论文,就意味着要公开VC算法,可能会影响专利的新颖性。”
申请专利和发表论文博弈的结果是,马占山选择了专利。
截至目前,马占山已经申请了近二十项专利。2021年这一年时间里,马占山学科组有6项发明专利获授权。但令他“伤感”的是,这些年他还有3项专利被驳回,并且都是他认为最有价值的技术,包括了VC算法的一部分,也包括了两项关于母乳菌群的技术。
“马兄,我看到美国治疗乳腺炎的指南跟你那篇论文非常接近,你的专利怎么样了?”2022年,马占山收到好友——成都市妇女儿童中心医院乳腺外科主任宁平的电话。这通电话的起因是2017年前后,宁平等人专门来到昆明拜访马占山学科组,只因读完了马占山学科组关于乳腺炎病因论文后非常受启发。
马占山有时并不在意别人的看法,在研究世界里他一直追求极致,这也是他很多文章在延迟10年后仍可以顺利发表的原因。
要比较两个或多个病毒组,找出其特有或者富集的病毒种类是一个貌似简单的问题,但实际上是一个非常复杂的计算问题。马占山告诉《中国科学报》,类似问题在计算机科学领域属于NP-hard问题。
马占山以推销员最短路径(TSP)问题为例,介绍了什么是NP-hard问题。TSP问题最早提出于19世纪,推销员需要访遍N个城市,但禁止重复访问。推销员为了节省时间,希望获得最短路径。如果是个位数以内的城市,小学生甚至幼儿园的小朋友都可以给出答案。但当城市增加到一定数量后,问题难度也会直线上升。
“简单说,对于此类问题,当规模大到一定程度时,即使用最强大的计算机仍然可能无法获得问题的最优解。”马占山选择向此难题发起了挑战,成功开发了VC算法。
“人体肠道病毒个体数量则高达380亿,在其中寻找某个病毒可谓大海捞针,太难了。”马占山说,VC算法可以为比较研究病毒组提供一套崭新的算法和软件技术。
希望这一次不要再拖延
回国以来,马占山学科组一直专注于开发基因测序软件。他告诉《中国科学报》:“当时第二代测序技术占据绝对市场,我们与美国马里兰大学叶承羲博士合作研发了一款用于第二代测序的算法和软件,将其命名为 SparseAssembler。软件公布后不久,华大基因采用了我们算法,将其当年的旗舰软件SoapDenovo升级为SoapDenovo-II。该算法的采用可以节省计算机内存达90%。”
2012至2016年前后,随着第三代基因测序技术的出现,马占山与叶承羲进一步合作又发布了另外两款软件,分别为DBG2OLC和Sparc。他介绍,当年这两款软件大幅度缩短了测序时间,从当时主流的几十万CPU小时缩减到了上千CPU小时,在三代测序软件技术领域算得上是重大突破,其核心算法为后来几乎所有三代测序所采用。
2018年,马占山学科组还与其他团队合作开发了一款技术,将第四代测序技术(Nanopore)和10X-Genomics 测序技术相结合,实现混合组装,可以降低第四代测序成本达70%。 他还提到,“这些技术我们都申请了专利,有些早已授权,但显然没有时间去探究专利维权”。
谈及专利,马占山颇有感触:“我曾就职于某芯片巨头公司,但后来发现这样的大公司也存在技术不够高精的窘境,甚至还夹带不少滥竽充数的专利。于是我选择加入硅谷一家初创软件公司,该公司当年靠一项专利让股票市值达到30亿美元,但最终倒在了互联网泡沫之中。”
马占山任职过的巨头公司,是需要养活10万员工、三班倒的芯片制造商;初创公司则没有一个蓝领,是一家纯软件设计公司,很多员工来自斯坦福大学、加州大学伯克利分校等。但白领还是败给了蓝领,或许这就是所谓世事难料。
这两段工作经历让马占山明白,要在产业界存活,光有专利这把利剑还远不够。
“靠软件,我们很难发表高影响因子论文。”2018年前,马占山学科组的考核一直是B,这也让他开始为学科组的前途和命运暗自担忧。
于是,马占山将研究重点转向菌群医学生态学。2019年这一年,马占山学科组迎来了小高潮,连发三篇9分以上的论文,学科组考核也从B升至A。
菌群医学生态学也为马占山赢来了另外一项荣誉——美国哈佛大学于2020年2月授予马占山Bullard Fellow奖,该奖始于1959年,每年从全球推选5~7位事业有成(mid-career)的高级访问学者,资助其在哈佛开展为期一年的讲学和合作研究。
由于疫情,马占山出访哈佛推迟到了2023-2024年度,他将在哈佛撰写一部关于菌群生态与进化研究的专著。“别人走一遍路,我却走了两遍。”马占山感叹道,自己很多成果因各种原因耽误了在第一时间发表,结果在几年后不得不再走一遍发表的流程,希望自己这一次不要再拖延。
相关论文信息:https://doi.org/10.1002/jmv.28682