博思艾伦咨询公司(Booz Allen会议速记)副总裁约什沙利文说:我对我的客户说

日期:2016-09-11 / 人气: / 来源:网络整理

 博思艾伦咨询公司(Booz Allen会议速记)副总裁约什沙利文说:我对我的客户说

卡里姆•科夏瓦杰是多伦多的一名医生和网络健康顾问,他要从500名医生那里反馈的海量数据中总结出怎样才干更好地治疗病人。但是众所周知,医生的“书法”本来就堪比天书,要想让电脑辨认出其中的拼写毛病和缩写更是难于登天。

比如科夏瓦杰指出:“患者是否吸烟是个很重要的信息。如果你直接浏览病历,你马上就能明确医生是什么意思。但是要想让电脑去懂得它,那就只能祝你好运了。虽然你也可以在电脑上设置‘从不吸烟’或‘吸烟=0’的选项。但是一个患者每天吸多少支烟?这几乎是电脑不可能搞明确的问题。

由于宣传报道把大数据吹得神乎其神,因此很多人可能感到大数据用起来特别简略:只要把相当于一全部图书馆的信息插到电脑上,然后就可以坐在一边,等着电脑给出精辟见解,告诉你如何进步主动生产线的生产效率,如何让网购者在网上购置更多的运动鞋,或是如何治疗癌症。但事实远远比想象复杂得多。由于信息会过时、不正确和缺失,因此数据不可避免地也有“不干净”的时候。如何把数据变“干净”是一个越来越重要但又经常被人疏忽的工作,但它可以防止你犯下代价高昂的毛病。

虽然科技一直都在进步,但是人们在净化数据上能想到的方法并不多。即便是处理一些相对较“干净”的数据,要想获得有用的成果往往也是件费时费力的事情。

博思艾伦咨询公司(Booz Allen)副总裁约什•沙利文说:“我对我的客户说,这是个混乱邋遢的世界,没有完整干净的数据集。”

很多医生在病历中没有记载病人的血压,这个问题是无论哪种数据净化方法都修复不了的。光凭借现有病历的信息去断定病人得了什么病对电脑来说就已经是一项极其艰苦的任务。医生在输入糖尿病编号的时候,可能忘了明确地标注毕竟是患者本人得了糖尿病,还是他的某个家人得了糖尿病。又或许他们光是输入了“胰岛素”三个字,而没有提到患者得了什么病,因为这对他们来说是再明显不过的事情。

医生用来诊断、开药和填写病人基础信息时会大批用到一套奇特的速记字体。即使让人类来破解它也要大为头痛,而对于电脑基础上是不可能完成的任务。比如科夏瓦杰提到有个医生在病历中写下“gpa”三个字母,让他百思不得其解。好在他创造后面不远处又写着“gma”三字,他才恍然大悟——本来它们是爷爷(grandpa)和奶奶(grandma)的缩写。

科夏瓦杰说:“我花了好半天才明确它们到底是什么意思。”

科夏瓦杰认为,解决数据“不干净”的终极方法之一是要给病历制定一套“数据纪律”。要训练医生养成正确录入信息的习惯,这样事后净化数据时才不至于乱得一团糟。科夏瓦杰表现,谷歌有一个很有用的工具,可以在用户进行输入时告诉他们如何拼写生僻字,这样的工具完整可以添加到电子病历工具中。电脑虽然可以挑出拼写毛病,速录公司,北京速记公司,但是让医生摒弃不良习惯才是朝着正确的方向迈出了一步。

科夏瓦杰的另一个建议是,在电子病历中设置更多标准化的域。这样电脑就会知道到哪里去找特定的信息,从而减少出错率。当然,实际操作起来并没有这么简略,因为很多病人同时身患好几种疾病。因此,一个标准的表格必须拥有足够的机动性,把这些复杂情况全部考虑进去。

但是出于诊疗的需要,医生有时需要在病历上记下一些自由行文的东西,这些内容确定不是一个小格子能装得下的。比如一个患者为什么会摔倒,如果不是受伤导致的,那么原因就非常重要。但是在没有高低文的条件下,软件对于自由行文的懂得只能用撞大运来形容。筛选数据的时候,如果人们用要害词搜索的话可能会做得更好些,但这样也难免会漏掉很多有关的记载。

当然,在有些案例中,速录公司,有些看起来不干净的数并不是真的不干净。博思艾伦咨询公司副总裁沙利文举例说,有一次他的团队为一家豪华连锁酒店分析顾客的人口统计数据,突然创造,数据显示一个富有的中东国家的青少年群体是这家酒店的常客。

沙利文回想道:“有一大群17岁的青少年在世界各地都住这家酒店,我们认为:‘这确定不是真的。’”

但做了一些发掘工作后,他们创造这个信息其实是正确的。这家酒店有大批的青少年顾客,甚至连酒店自己也没有意识到,而且酒店也没有针对这部分顾客做过任何促销和宣传。所有22岁以下的顾客都被这家公司的电脑主动列入“低收入”群体,酒店的高管们也从来没有考虑过这些孩子的腰包有多鼓。

沙利文说:“我认为如果没有离群值的话,构建模型会更难。”

作者:北京速记公司


现在致电 010-63797486 OR 查看更多联系方式 →

Go To Top 回顶部