风险值与专家算法

最近在看一本讲机器学习算法的书。书中介绍了分类算法和线性回归算法。正巧公司在做运行风险控制系统的合格审定,审定中对各种风险仍然是“专家打分”、“权重调整”、“合并计算”的方式,计算出某个航班的风险数值。但是实际运行中,总觉得和实际情况有些偏差。

我个人认为,原因是其中“专家打分”和“权重计算”就带有主观性。看了机器学习算法的书后,学到书中介绍的“分类算法”,可以根据现有的定性数据,训练出一个专家算法,用来给后续的新数据定性,或者说分类。

比如我想训练一个:某个机场带有TSRA预报和航班是否备降的专家算法。我就需要用1000个飞行计划数据和1000个气象预报报文,将气象预报的内容与航班是否备降建立联系。用来预测今后航班遇到雷雨时备降的风险值。

这样的做法,比简单地由某个人类专家,对机场雷雨的影响作出判断,来的更科学。

如果,公司可以把运行数据格式化,特别是把放行的要素格式化,运用现在热门的大数据和人工智能算法,计算运行风险值,那么这样的风险控制系统就变得更有意义了。

今天想说真话的愿望非常强烈

不知道为什么,这两天想说真话的愿望非常强烈。请允许我发两句牢骚。

最近又双叕搞大检查了。我个人认为这样检查没用,工作上的问题不是依靠检查出来的。在目前民航这种高压的安全环境下,没有哪个运行控制部门会傻到故意违反法规操作。工作可能被拿来说事的“问题”,都是被逼的,都是外部而来。

更别提什么“上报自查问题,并限期整改”之类的傻话了。就像我之前博客中说到过了,问题的cause不是在运行控制体系内部,运控体系只是own the problem。自查发现能解决的问题,早就自己解决了,还轮得着上报?自查发现不能解决的问题,上报了就解决得了。(我现在的想法,以后所有问题都上报,管他是否能解决。也许我会成为公司安全管理里的恶人或异类。)

以前有人告诉我,假话不能说,真话不能全说。但是最近发现民航的安全管理工作越走越歪。真话窝在心里不说,越来越难受。

Problem Ownership 与一条发错的报文

工作这些年,越来越感觉到,工作中的差错不是简单因为技术不到位,不是简单因为责任心不到位,而是因为群体性、制度性的懒惰、偏见、妥协造成的。

在讲述今天这个案例之前,先来说一下“Problem Ownership”的概念。

这个“Problem Ownership”的概念,是在我翻译一本讲安全管理的书的前言时学到的。在中国的文化中,如果你说“这个人有问题”,往往默认“问题”出自这个人自己身上。就如同说“这个人很有钱”一样。

但是,从逻辑上说,“Problem”,可以分为“Ownership”、“Fault”、“Responsibility”。简单举个例子:

你隔壁家的熊孩子打碎了你家的窗子。
你的窗子坏了,所以你“拥有问题”,“Ownership”。
熊孩子砸坏了窗,所以是熊孩子的“错”,“Fault”。
熊孩子的爸爸可以赔偿窗子的钱,所以熊爸有“责任”,“Responsibility”。

通过这种思路,大家不难发现,解决问题的关键,是找的“责任”。其他两个要素并不会让事情向好的方向发展。

假设没找到熊爸,熊爸不会主动承担责任,反正坏的窗子又不是熊爸家的。你可以对熊孩子百般职责,甚至惩罚“Punishment”。但是熊孩子可以不听啊,你能拿一个孩子怎么办呢。路人会说:“谁让你家的窗子那么易碎,你只能自认倒霉”。最后你无奈自己掏钱修好了玻璃,并且不得不加装了防撞网,窗子变得不像窗子了。或许发展到你心理变态,开始报复社会,用石头砸别人家的窗户。

综上所述,平时生活工作中,问题的“Ownership”和“Fault”是显而易见的,也是简单粗暴的,也被“领导”以为是“行之有效”的。而有责任解决问题的人“Responsibility”,往往躲在幕后。

==========================================================

案例是这样的:

某个航班机组手上的飞行计划航路和提交给ATC的FPL航路是不一样的,造成了航班飞错航路。

为什么飞行计划航路和FPL航路会不一样呢?
因为签派员在制作计划后,航路更改,自动生成了CHG报文,但是CHG报文发送前,签派员人工删除了CHG的第15项。造成飞行计划的航路没有与FPL报文相同。

为什么要发CHG报文,而不直接发一遍FPL报呢?
因为要使用CDM协调时间,提早3小时发送FPL报,等飞行计划计算完毕后,根据新的FPL生成CHG报。

为什么签派员手工删除CHG的15项呢?按理说直接发送自动生成的CHG报,就能够修改FPL的航路啊?
因为中南转报中心不接受CHG航路15项,必须发送CNL报文后重新发送FPL。如果发送CHG的15项,那么CHG报文会被REJECT。为了减少被REJECT的次数,制定了临时措施,要求签派员对比新老航路是否有区别,如果仅仅是高度的区别,那么可以删除第15项再发送CHG。避免一次REJECT。

正巧前一天使用了外籍机组航路,总成当天先发送的FPL模版报文和飞行计划航路真的不一样,系统成功的生成CHG报文,但是签派员习惯性地删除了其中的15项。造成发送的航路和系统不符。

首次FPL发送的航路:….G471 PLT A599 ELNEX G204….
飞行计划航路:….G471 XEBUL H22 DST B221 SHZ G204….

=============================================================

从上面的案例可以看,问题的Ownership在公司。问题的Fault在签派员没有认真比对航路,造成漏发CHG15项。

那么谁是问题的“Responsibility”呢?我觉得至少有:

1、CDM制度。个人觉得CDM仍然是个封闭、低效的系统,没能做到公平和开放,同时首次提交FPL的要求时间过早,实际飞行计划还没做好,公司为了抢时间,不得不先发送“模版”FPL,之后再次CHG。造成了存在“新旧报文”这样的怪胎。

2、中南转报中心。转报中心无法直接处理CHG航路15项的原因不得而知,但是我觉得既然CHG是合法报文,那么就应该处理。不处理CHG15项,反而REJECT报文的做法,是造成需要频繁对比“新旧报文”的原因。

3、内部流程的制定者。也许是无奈+偷懒,流程设计者将内部流程设计成依靠人力比对航路一致性。人总有疲劳、疏忽、懒惰的时候。

4、系统落后。系统假告警过多,造成签派员养成忽视问题的“习惯”。

===============================================================

感悟:

在我做部门的安全管理工作时,经常会发现类似的案例,或大或小。我有时也会因为无奈和偷懒,制定一些“无耻”的应对措施。因为我感到无力,难以发现、解决那个躲在幕后的Responsibility。这就是为什么我对国内的安全管理是持悲观态度的。

关于Safety Differently Human Factor for a New Era 的翻译说明

自从开始接手安全管理工作以来,自叹业务水平不足。想找本书充充电。所以我就想起了这本在国外培训时有人推荐过的书。顺便着手翻译一下。

结果,才翻译了半章序言,就死了大半脑细胞。我一直觉得国内做安全管理的人不说人话,原来国外安全管理也不说人话。文中充满了超长句、猥琐的词性变化、隐喻、约定俗成的词组。造成虽然每个单词都认识,但是连在一起就不知道说什么了。唉,毕竟我不是翻译科班出身。

为此,我把文中有“背景故事”的短语都留下了英文原文,如果要读懂,还要借助很多文化上的知识。也许还需要网上搜索一些背景知识。

我不确定我是否有勇气有时间继续翻译下去。也许我会挑选精彩的部分发上网。

Safety Differently Human Factor for a New Era 翻译 序1

    “人”是需要控制的一个麻烦,还是解决安全问题的途径?有大约半个世纪的时间,安全管理都被这样一种思想所统治:“人”是被管控的目标。“人为因素(human factor)”是研究有关人类个体的以及人类“精神、身体、道德品行“的科学。“人”的确是需要控制的一个麻烦。我们要小心地选择合适的“人”,不单单是考量此人的能力多强,而是考量这个人是否有缺陷或瑕疵。然后,把这个人塑造成能满足固定技术特点以及工作环境要求的人。解决安全问题是通过控制工作中的人来解决的。

     20世纪中叶,这种思想发生了标志性的变化。随着技术越来越复杂和科技变化的脚步越来越快,并伴随着对基本科学规律怀疑论的兴起以及行为主义心理学(behaviorist psychology)的实际作用,构建并带动了安全思想的很多基础意识形态的变化。新的“人为因素”就是在这一变化中萌芽的。它证明了人的工作不是一成不变的。相反地,无论个体差异如何,技术应该被用来适应每个人的强项和弱项。解决安全问题更多地是通过控制技术、环境和系统来解决的。

    最近的40年里,我们已经认识到,重大的灾难(如:炼油厂爆炸,航空事故)都和相关的组织机构的工作(或者不工作)脱不了关系。错误的开头并不是由“人”造成的。“人”只是收到了错误,并且“继承”了错误。建设并运行航空公司、燃气管道、医疗系统、航天飞机或客运船只的过程中会造就大量的组织机构网络,以便支撑整个系统的运转,并且推动、发展、控制和规范自身产业。当技术变得更复杂时,就离不开它的组织和机构。承运人、监管者、政府部门、制造商、分包人、维修机构、训练机构,所有的这些从道理上说都是用来保护和保证技术运转的。他们的各种限制,归纳起来就是阻止事故的发生。自从1978年的三里岛核电站(Three Mile Island)事故后,我们更加清楚地认识到,原先被认为对技术安全和稳定运转非常有效的组织(操作员、监管者,管理者,维护者),事实上成了事故的主要推手之一。如果没有他们的贡献,社会技术(Socio-technical)就不可能出现错误。

    这种认识已经很大程度上被推广和接受了。与其控制组织内的单个人为因素,不如把安全资源用于整个系统,用于整个组织,用于各种设计问题,用于造成问题或安全风险的运行和组织束缚,用于所有人。但是这种认识也有自己变化、反复、转化的种子。有人逐渐认为安全管理就是管理者的命令和管理的控制过程。在20世纪晚期,最流行的系统安全模型就是瑞士奶酪模型(Swiss Cheese Model)。这个模型认为,一个错误是由组织和管理层上许多前期的小错误发展而来的。由于它再次强调了,错误是因为系统内很多人造成的,而非只有一线的人,所以这一模型理论同样被加强并传播甚广。但是这个模型的问题是,它把风险具体化成了“牛顿化”的思维,风险就像储存着的能量,而且模型表述的因果关系是线性的。这种“牛顿化”的思维模式事实上阻碍了我们发展最初的“人为因素”新思维,这种原本的、不同以往的新思维可以应对即将到来的纷乱世界。而且,这种新思维并没有否认历史上“人需要控制”的论断。如果组织架构上的保护是有缺陷或瑕疵的,那么不但会造成糟糕的流程、不合适的设计,而且还会(用模型的话来说)造成违章操作、危险的行为、一连串的管理缺失、决策失误、缺乏监管。

    最重要的是,新思维描绘了一副现代思维的场景:一线工作的安全运行,是由上游系统(upstream system)的良好管理和先进技术来达到的。我们需要在上游系统中查找错误和填补漏洞,来避免一线的错误。我们要对官僚机构和管理者有信心。此外,也要对科技和技术有信心。这样做是正确的事,也是目前应该做的事。虽然,这样做加深了主要通过“计划、处理、书面工作、审计和监督检查”来达成安全的原有想法。这样做也造成了在安全管理系统中过度注重查摆(count and tabulate)在按章操作检查、监控过程中发现的“不符合项(negative events)”。因此,这样做也造成一线员工的新限制增多。这种解放的态度(emancipation),是伴随着20世纪中叶以来人的思想变化造成的,又被“人为因素”的新思维实体化了。不过,这种解放的态度招致了一种“反革新(counter-reformation)”。那就是,安全更多的时候意味着屈服于对责任的顾虑,对协议、保险重商主义(insurance mercantilism)的崇拜,对法规和诉讼的恐惧。在许多行业中,安全从运行的结果,渐渐变成一种管理手段。安全从“对于从事危险工作的员工的道德责任”,变成了“那些想要控制整体风险的人的是否对官僚机构尽责(bureaucratic accountability)”。所以,安全机构应运而生。安全机构越发展,离运行第一线越远,还往往被“防火墙”和负面指标围绕着。安全机构总是想罗列出一张“损失”、“控制”和“限制”的词汇表。“人”再一次地变成了被控制的目标。臃肿的安全机构会使得上层组织倾听技术建议和获得运行经验的机会慢慢变少,中层领导和监管层的力量会减弱。员工会再也感觉不到被鼓励或者有可能审视自己的不足。安全机构还扼杀了创造能力,限制了员工的主动性,转移了问题的本质(erode problem ownership)。

===========================

我个人觉得最后一段说的非常对,我深有体会。

Truth in Leasing

在国内运行规范的C0039模板中有这样一句话:

”C0039:批准航空承运人定期使用的正常机场必须已经获得运输部门的经营许可“

也就是说,如果公司没有从局方获得这个机场的经营权时,C0039中的这个机场,不能标成“R”。这是很容易想通的。

=========================湿租协议===========================

但是当公司与另一个公司有湿租协议时呢?事情就有点复杂了

假设S公司和D公司签订湿租协议。S公司提供飞机和机组,负责运行控制。D公司提供航班号和经营许可。

这会造成S公司没有这个机场的经营权。S公司的签派员在做运行控制时,S公司的运行规范中没有这个机场的标志。怎么办呢?

解决办法是在A0051中标明湿租航线起降机场。

并且,A0051中明确了,S公司开展湿租运行时应该遵守S公司的运行规范:

A0051按此湿租协议进行的所有运行都必须按照本运行规范中的批准、限制、条款以及相应湿租协议中的规定与条件进行。

所以,S公司应该依据自己的运行规范,来运行D公司的航线。

=====================C0039的其他问题=======================

S公司的运行规范C0039当中还存在一个问题。备降场要不要标识?C0039只限制正常机场有经营权,但是对备降场没有限制。

我认为,当S公司完成D公司的航线性能分析后,应该把报告中备降场加入S公司的C0039。这样的做法避免了后续很多问题。

=====================CAAC的咨询通告=======================

CAAC对于租赁有一个旧的20050315AC-121-62航空器租赁。(真没想到我有朝一日会用到这个AC)。文中没有对运行控制说什么,只说道:

8.5 湿租航空器的适航性责任和符合其所在国相应运行法规要求的责任由出租人承担,但承租人有责任确认其符合CCAR-121部的有关运行要求。

感觉这个AC更多的偏向飞机引进和机务维修方面。对我没什么参考意义。

=====================FAA的咨询通告=========================

在解决这个湿租问题时,我找到了FAA为湿租问题,发布的咨询通告AC91-73B,叫做“Truth in Leasing”(英语不好,不知道Truth in Leasing应该翻译成什么)。

发布这个咨询通告的目的就是为了明确“运行控制的责任方”。可见湿租过程中运行控制责任的明确是多么地重要。

the Federal Aviation Administration (FAA) prepared this AC to ensure any person who is seeking to lease an aircraft understands the meaning of operational control and does not enter into an agreement where operational control is not clearly maintained by the appropriate party.

===================生气可以减肥============================

我发现这个问题是因为一个员工报告的案例。某次湿租航线放行时,想选择一个不常用的备降场,却意外发现运规C0039中没有任何标志。

我将此事提出给负责部门后,却得到了意外的结果。生气得午饭都吃不下。

这个世界上除了“正确的事”、“错误的事”外,还有“灰色的事”。这点我虽然反感,但是承认。不过,你做灰色的事情,不能给第三方挖坑啊。再说了,灰色的事情不能天天做,年年做啊。

唉,反正我是不得其中要领,因此我也没想过要做“领导”,也搭不出官架子,更说不出“让你们领导给我打电话”这种屁话的。

免一个飞行部总经理,make the world a better place.

我好像没在博客上透露过,我从半年前开始接手部门的安全管理工作。在接手此项工作前,有人预言,我的“实”会成为我开展安全工作的障碍。我现在不得不说,预言成真的。

我先重复一下我对安全管理的理解吧。就像我前段时间发过的帖子,我认为安全文化是安全工作的基础,没有好的安全文化,后续的工作都是笑话。员工应该乐于告诉你,岗位上的风险,管理者有责任努力降低或消除这些风险。员工出现的错误,只要不是故意、盲目蛮干造成的,管理者应该不处罚。管理者在开发新流程时,应该以控制岗位上的风险,尽量不增加岗位疲劳程度为出发点。

我这半年来,一直以这种思想进行工作。不管是品质考核、现场检查,还是4D15航空器监控补充合格审定,我希望给岗位上的员工减负。把历史遗留的繁琐流程整理一下。把新发现的问题解决掉。

不过现实情况是,解决不了的事情,以安全管理的方式,仍然解决不了。一些事情,该以安全管理的角度去思维的,也没有按照安全管理的思路走下去。事件调查还没有完成,甚至事件经过还没有确认,就开始处罚了,这是安全管理应该有的态度吗?

所以,目前,我对中国民航安全管理的工作是悲观的。

西雅图之行Part1 – JUST CULTURE公平文化

根据课程安排,首先开始学习的是安全管理方面的课程。由于我目前工作慢慢转向运行控制的安全管理,因此我对这个课程比较感兴趣。

(下文中部分图片来自于课件PPT,版权归波音所有,只能用于学习,不能用于其他商业活动。)

老外很重视安全文化,老外以美国的安全文化历史为开篇,引出了一种新的安全文化:公平文化(JUST CURLTURE)。不知道在国内是否有公司开展过这个概念的推广,反正我是第一次听说。

just0

什么是公平文化呢?公平文化是相对于指责文化(Blame Corlture)来说的。公平文化的特点是:事先明确了哪些行为是可以接受的,哪些行为是不被接受的;相互信任的环境;分享安全信息;对行为负责。

光说概念没有用,为了说清楚指责文化和公平文化的区别,下面对比一下两者的不同:

1)公平文化的公司人文环境:

just1

Power Oriented(权力导向):隐瞒信息,推脱责任,不鼓励跨部门,掩盖失败,打压新想法。(感觉这是在描述集权或独裁体系);

Bureaucratic(官僚主义):以规则为导向,选择性忽略信息,划清责任,允许跨部门但不鼓励,新想法往往带来问题。(呵呵,这不就是在描述中国的公司吗);

Generative(有活力的):以效果为导向,寻找信息,分担责任,鼓励跨部门,深究错误,欢迎新想法。(我觉得有点乌托邦)

上课时,教员问我们,你们的公司属于哪种架构。所有同学异口同声说“官僚主义”。看来中国人还是很团结的,呵呵。

2)价值观:

指责文化:惩罚犯错者。公平文化:想办法纠正错误。

3)信念:

指责文化:将错误归结于一个人,无法容忍错误。公平文化:错误在所难免,并非故意犯错。

=============================================================

公平文化和指责文化会怎么影响安全呢?我们对比一下:

just2

指责文化:事件发生-》找到责任人-》指责(批评)-》惩罚犯错者。

公平文化:事件发生-》究竟发生了什么-》为啥会发生-》防止事件再次发生。

===============================================================

just3

用公平文化来识别四种行为:

人为差错:不小心做错了。

风险行为:不知道某个风险,或者自以为没啥风险,但是事实上做了有风险的事情。

轻率行为:有意识地忽视一个重大的、不明的风险。

故意行为:故意地造成事故或不安全事件。这很少见。

除了最后的“故意行为”不被接受外,其他三个都应该用公平文化来对待。

================================================================

培训期间,老外教员给我们讲了一个例子,有个737飞行员在纽约起飞后单发了。返场时,用了40度襟翼落地,明显违反了SOP。安全落地后,没有造成什么后果。老外教员顶着上级领导压力,决定不处罚、不责备这个机长。随后,他在模拟机上给这个机长演示了如果用40度襟翼落地时复飞的后果(40度襟翼单发复飞几乎没有爬升率,单发后应该用15度襟翼)。并且在公司内匿名地介绍了此后事件的前因后果。这样做的好处是,公司多了一个更有经验的机长,所有人都能看到公平文化所起的作用,更多的人愿意承认自己的错误。

老外教员承认当时压力很大,因为公平文化在美国是正在推广中的文化。如果此航班没有安全落地,或者此事上了CNN,牵涉到大众舆论,估计他也很难坚持下去。呵呵。

教员还让我们开展活动。比如,给我们一些公司的行为,让我们判断这种行为是指责文化还是公平文化。让我们选边站队,结果是很戏剧化的,因为有些行为是介于指责文化和公平文化之间的,很难一刀切地选边。实际工作中也是存在难度的。

========================写在最后==============================

我觉得国内还没有公平文化,从下至上都是这样,就算在小部门内可以这样做,但是到了公司管理层面,局方层面,甚至到国家管理层面,都还无法形成这样的安全文化。

回想培训开始前,老外教员表扬中国民航的安全记录很优秀,在航班量大增的环境下,做到这个成绩很不易。现在想想这是不是一种讽刺,因为国内深陷于指责文化中。

在指责文化下,人人都是在疲劳、高压、恐惧中工作。
在指责文化下,航班大量增加,没有良性循环,早晚会出大事故。
在指责文化下,开展的安全管理工作简直是一种笑话。(请原谅我的直白)。

我本来想把这篇文章加密的,因为牵涉到教材的版权问题。但是为了宣传公平文化,我还是决定把这篇文章公开。

西雅图之行

7月中旬在西雅图参加了一个运行控制领导力的培训,内容包括安全管理、新技术、参观波音工厂、参观西雅图机场。后续我会分享一些感受,还有一些花絮。

总体感觉,美国人遇到的问题和中国的一样的,比如安全管理与成本的矛盾,新技术推广的障碍,部门与部门之间的壁垒,应急情况时与机场和政府的配合等等。有的时候老美放PPT时显得很牛逼,说有多少先进的管理理念。但是课后我私下和教员沟通或提问时,教员也是两手一摊没办法。

举个简单的例子,说到不安全事件是否要和个人绩效挂钩?因为挂钩了,个人可能就会瞒报。老美在课上先说不建议挂钩,课后我再去问他时又说要“小心”地挂钩,最后我直接问他,你们现在挂钩吗?他无奈地说也是挂钩的。

再举个例子,说到员工自愿报告,不应该受到惩罚,公司需要培养“JUST”公正文化。鼓励员工多报告。但是教员也说,如果事情上了CNN,还是会处罚。哎,这还不是和中国一样么,区别只是在中国上CCTV。

另一方面,这次培训收获不少。后续会慢慢整理。

CCAR396R3和交通运输部

这两天在培训时说的4月4日刚生效的《CCAR-396-R3民用航空安全信息管理规定》发布情况,所有人都在吐槽(包括老师)。

因为现在民航局已经没有立法权,所有法规都归到交通运输部去发布。原本按照部号整理得好好的民航法规,被交通部变成了《中华人民共和国交通运输部令2016年第8号》。谁他妈的记得住这么多号啊。

本来民航局下载规章的网页已经比较简陋了,但至少还能用用。

现在交通运输部的首页真能体现泱泱大国的风范啊。我不得不在“水路”、“公路”、“港口”的五花八门的法规中间找到和民航相关的内容。主页上无法按部号排列或索引(因为部号已经消失了),我也无法看到哪些旧法规已经失效。这些规章也没有PDF版本下载。我不得不把网页复制到word里,再打印成PDF文件。

关于法规的生效时间。培训的老师说,以往法规实施的时间是和公司商量后得出的,会留出足够的时间给公司改手册或培训。而现在交通运输部直接自己定了一个月后就实施。比如CCAR-396-R3是3月4日签署,实施日期就是4月4日。并且,搞笑的是,网站上的文件是3月30日才发布的。所以,留给公司学习和培训的时间是6天!!!!