2021-07-05 数字广东公司

重磅 | 全力重保,众志成城!数字广东公司多措并举为疫情防控保驾护航(五)

2021-07-05 数字广东公司

  5月,新一波疫情爆发以来,全省上下各条战线的干部群众众志成城,同心戮力,齐抗疫魔,许多一线人员不辞辛劳,不畏艰险,日夜奋战在抗疫战场,与疫魔殊死搏斗,谱写了一曲曲可歌可泣的英雄颂歌。作为数字化防疫抗疫战线的主力军,数字广东公司坚决落实省委、省政府决策部署,在省政数局的统一指挥调度下,迅速集结多个部门,组建起千余人的疫情防控重保团队(以下简称“重保”),连续二十余个日夜奋力鏖战,全力以赴抗击疫情,确保粤康码和“粤系列”平台安全稳定运行,全力保障人民群众正常亮码、顺利出行,为精准防疫、科学抗疫做出了不可替代的重要贡献。   今天,让我们走近默默坚守在数字抗疫第一线的英雄们,认识这支由数字广东公司总体架构、建设运维、产品研发、数据平台和信息安全等多个部门组成的重保联合团队。

做最坏的打算 做最全的预案

  数据平台部是省政务大数据中心的建设运营主力军,人民群众手机上亮出的粤康码、核酸检测、疫苗接种状态等健康信息,都需要通过省政务大数据中心这个“神经中枢”进行推送。重保工作启动后,数据平台部将开发同学推至了一线运维保障,全面提升运维等级,加强运维体系串联。

  数据平台部研发中心负责人李文辉介绍,政务大数据中心为粤康码的应用提供数据访问的链路支撑,当遇到上游请求量、调用量激增,或者下游对接各部门接口不稳定的情况时,政务大数据中心对粤康码的服务支撑就会面临挑战,并直接影响用户的亮码体验。特别是高峰时段,响应稍慢可能导致用户反复刷新,造成流量突发激增,对系统造成更大冲击。“我们高标准落实公司领导对重保工作的指示要求,做最坏的打算,做最全的预案。”李文辉说。   

  为此,李文辉和同事们将数据链路上可能出现的情况一一列出来,提前推演预案中的每一个步骤,敲定执行人,确保在最短的时间内无缝启动应急预案,降低对用户使用的影响。团队进入到白+黑的工作模式,为了不影响群众正常出行,团队白天保障大数据服务的稳定运行,制定各种应急方案,晚上才能启动应急方案的开发、测试、实施工作。

  一套方案从资源申请、代码研发、联调测试、到最终的部署上线,留给重保团队的时间往往不足12小时。大家结束白天的重保工作后,又马不停蹄地投入到开发工作中。大家目标一致,相互打气,凌晨3、4点开发完成,5点顺利上线,趴在办公桌上稍作休息后,再次整装待发,准备迎接早上8点的流量高峰挑战。功夫不负有心人,“整个重保期间团队团结协作,确保了政务大数据中心服务的稳定,没有出现过任何问题。”每每提起自己的团队,李文辉脸上满是自豪。

李文辉与同事通宵加班后,在办公室简单休整

  如果说李文辉和同事们是在保障粤康码亮不亮得出,那数据平台部数据运营中心负责人周海军的团队要保障的就是粤康码亮不亮得对。

  疫情爆发以来,周海军带领倪峥、刘伟、林永亮等同事对省政务大数据中心数据共享进行升级完善,随时响应疫情防控的数据需求。建立起核酸检测结果、疫苗、集中隔离人员情况等疫情数据同步机制,每小时将对账结果通过邮件通知相关人员,并抽调支撑力量进行重点保障,确保粤康码所需的数据在1小时内完成汇聚、整合加工、共享使用。同时加强部门间数据共享沟通协调,开展核酸检测结果数据上报统计时延分析,提升检测机构数据上报效率。

  此外,周海军团队建立起7*24小时数据纠错保障机制,协调国家、省、市多个部门,第一时间响应处理群众反映的粤康码、核酸数据等问题。

周海军团队部署落实7*24小时数据共享服务保障机制和数据纠错保障机制

严防死守 保障系统稳定运行

  在本轮重保系列战役中,最艰难的一场战斗,发生在5月31日。当天早上8点左右,因防疫政策调整,粤康码访问量突然激增,高峰时,一分钟多达26万人访问,还有近十万人在排队等待。

  “尽管我们已提前制定出亮码扩容方案和重保方案等应对策略,但高峰期一度突破往日10倍的访问量,还是出现了群众亮码缓慢的情况。”总体架构部产品研发组负责人罗新良回忆说。

总体架构部在重保作战室中开会

  然而,解决这一问题并非易事。要保障粤康码系统稳定,重保团队必须确保整条链路上的各个环节都能精准无误地运行。最忙的时候,产品研发部负责人刘亚单为了协调处理各类问题,仅是在重保工作区来回奔忙,一天就要走近三万步。他说:“兄弟们工作这么拼命,都毫无怨言,团队靠的是荣誉感和使命感,这是信仰的力量。”

刘亚单与重保团队在开会讨论工作方案

  为保障群众顺畅亮码,重保团队立即对粤康码系统进行扩容处理。硬件资源紧缺,大家就马不停蹄从外地调配机器,通宵达旦对拿到的机器进行测试,一个晚上要处理200余台。

  为了提高工作效率,重保团队采取了“文档不动人动”的方式,工作计划清晰地整理出来,每个时间段要做的事非常明确,人员进入到白+黑工作模式,7*24小时严防死守,在最短时间内完成了对系统的优化扩容,网关每分钟可承载的访问量从原来的10万+提升至100万+,每天的调用量从原来的10亿+提升至100亿+,恢复了粤康码等关键应用的稳定运行。

  “5月31日攻坚之后,就开始为保障高考做准备了,根本没有休息的时间。”罗新良说。这段时间整个广报中心都是通宵灯火通明,到处都是重保团队联合作战的沟通、协调、喊话声音,根本想象不出这是凌晨三四点的场景。即使在半夜需要找其他同事协调,也都是随叫随到。15楼的重保作战室,不管几点钟都有人在讨论工作。“从没有一个人提出要退出重保,也没有人喊苦喊累,大家默默地坚守,形成了强大的力量。”

深夜灯火通明的数广重保工作区

粤康码上同步进行着另一场高考

  对于建设运维部质量管理中心负责人苏健聪来说,今年高考的紧张程度,比他自己高考那年更甚——今年他要对全省考生的入场情况负责,“这相当于自己参加了另一种形式的高考”。

  苏健聪所在的运维监控调度小组,在本次重保战役中担当了“侦察连”的作用。大家轮番上阵,昼夜不停,保持7*24小时在线监控,一旦粤康码出现问题,运维监控调度小组必须第一时间发现,向其它团队和上级领导及时汇报情况,并寻找解决途径,确保粤康码系统稳定运行。

  广东是人口大省,今年全省高考报名人数达78.3万人。为了保障考生、老师、家长顺利亮码通行,重保团队从6月1日开始就着手制定高考期间粤康码保障应急预案。

重保一线运维团队紧盯粤康码系统运行状态

  6月6日,高考首日。早上6点15分,苏健聪和朱镇弢、陈志祥等运维监控调度小组成员就已到达公司重保现场。这个时间比重保团队约定的集合时间提前了45分钟。

  6点45分,运维监控调度小组发现粤康码访问量开始快速攀升,“这应该是高考考生和家长在乘车。”苏健聪预判,他心里开始有些紧张。

  临近8点,粤康码访问进入高峰期,苏健聪担心的第一个意外出现了。7点47分,一个外部接口突然故障访问不了,部分用户亮码失败。大家沉着冷静,立即启动应急预案,迅速将有问题的接口下线,替换上预留的“替补”接口,切换时间不超过1分钟,系统随之恢复正常。

  8点15分,高考考生陆续顺利亮码进入考场,粤康码访问量每分钟达到65万次,达到历史峰值。

重保团队紧急排查粤康码亮码异常情况

  彼时,广报中心15楼重保作战室正紧张而有序的忙碌着。苏健聪忙着与粤省事、大数据、总体架构同事对接工作,在15楼里不停来回穿梭对接工作。一线监控同事紧紧盯着电脑屏幕看数据,二线技术人员操作和处理接口间转换,全力确保考生、老师、家长正常亮码。   

  8点30分,粤康码访问量开始回落。苏健聪说,应该是考生基本都入场了,高考保障第一波高峰顺利顶住了,可以准备保障9点上班人群的亮码需求了。

  9点左右,粤康码访问量维持在60万上下轻微波动。9点30分,访问量又回落到40万左右。苏健聪和同事们长舒一口气。

  回想起今年重保工作刚启动时,苏健聪表示,当时团队遇到人手不足、工作强度大等困难。投入运维监控的同事需要两班倒,每班工作时间在12小时以上。“哪怕连续工作了十几二十天,没有一个人有怨言。”苏健聪说,“我为能和这么优秀的团队共事而骄傲!”

红心向党 守牢安全底线

  6月28日,公司党委收到了来自重保一线的入党申请书。 

  “作为新时代的青年,千千万万个奋战在一线的防控人员中的一份子,在党组织和人民需要我的时候……我鼓起勇气怀着激动的心情递交入党申请书,决心在抗击疫情和今后工作岗位上勇挑重任、敢当先锋、英勇无畏、不惧牺牲,为祖国和人民作出应有的贡献……随时准备为党和人民牺牲一切。在疫情防控和七一重保第一线,请党组织考验我……”信息安全部副总经理张报明在他的入党申请书中如是写道。

  对于张报明带领的信息安全部来说,他们的安全重保工作从去年疫情刚爆发开始,从没间断过。据信息安全部安全运维组负责人陈伟洪介绍,安全重保涵盖确保粤系列产品业务稳定、防止攻击入侵、数据泄露、支持粤康码紧急扩容的VPN、堡垒机账号权限开通等多个方面。

张报明、陈伟洪、井兵等在信息安全部重保工作室讨论问题

  今年3月底,广东省疫苗接种任务启动。由于早期的疫苗系统架构存在一些不完善的地方,稳定性不足,面对高并发的接入量,容易出现VPN中断,影响各地接种任务顺利开展。为尽快补齐漏洞,张报明带队连续3晚通宵在机房进行VPN部署优化,完善后的疫苗系统至今未出现故障。

  5月,广东爆发新一轮疫情,粤康码和疫苗系统的流量暴涨,安全设备出现性能瓶颈,影响业务稳定的风险随之出现。安全重保团队紧急对网络入侵防御系统IPS进行扩容,5天内完成选品、采购、发货、部署测试和上线全流程,网络吞吐能力从30G提高至150G,防护引擎吞吐能力从10G提高至30G。

  疫情尚未结束,七一建党100周年安全重保工作又已启动,安全重保团队旋即制定了安全保障实施工作方案,开展了包括漏洞和弱口令扫描、内部攻防演练、收紧防护策略等一系列安全风险排查工作,确保系统7*24小时处在安全监控状态下。

信息安全部“七一”重保工作区

  凌晨下班、6点多起床,这对于肩负重保使命的信息安全部同事来说已是家常便饭。由于王耀坤的孩子还小,半夜会哭闹,为了不影响丈夫每日所剩不多的休息时间,王耀坤的妻子主动带着孩子回娘家住。

  在被问及如何看待这份高强度、常年无休的工作时,井兵、陈毓森、陈伟洪、王耀坤等同事纷纷表示,数字广东公司的安全防护具有特殊性,一般企业对抗的主要是针对经济利益的攻击,而数字广东公司捍卫的是数字政府的安全,这是对数广人特有的挑战,这更是数广人一份沉甸甸的责任和使命。

数广铁军 使命在肩

  “疫情结束后,你最想做的事是什么?”

  当被问及这一问题时,已经是抗疫老兵一一数据平台部的王必韧表示,想好好陪陪家人。去年新冠疫情席卷全国,王必韧不顾个人安危,奔赴湖北荆州,支持湖北省健康码数据与粤康码的使用推广,为湖北务工人员返粤复工提供帮助。今年5月30日,王必韧的妻子住院手术,但恰逢重保关键期,他还是咬着牙舍小家、顾大家,将妻子交给家人陪护,自己又返回到工作岗位坚守阵地。

  李文辉说,疫情结束后,他最想的就是请团队吃个饭,感谢身边这群90后、甚至95后拼搏的年轻人。整个重保期间,不论性别,对连轴转的工作都毫无怨言,困了喝杯咖啡、累了睡在地板。为了让住得远的同事能早点回家,住在附近的同事每天主动提出坚守得更久一些。

  而周海军想给团队放个假,让大家好好睡个觉,都能睡到自然醒。殊不知,2019年以来就没有休过假的周海军,曾经半夜连续接到20多个电话紧急处理异常“黄码”情况,由于长期加班熬夜导致严重咽炎,多说几句话就会不停地咳嗽。

  疫情当前,数广铁军义不容辞,重任在肩。接下来,数广团队将持续提高政治站位,强化作为数广人的荣誉感、责任感、使命感,充分发挥数字广东公司在疫情防控全省一盘棋中的重要作用,齐心协力、众志成城,继续发扬“特别能吃苦、特别能战斗、特别能奉献、特别能坚守”的数广铁军精神,全力支撑省委、省政府和全省人民打赢疫情防控的硬仗,守护好人民群众的生命安全和美好家园。

重保团队抗疫新闻链接:

重磅 | 全力重保,众志成城!数字广东公司多措并举为疫情防控保驾护航(一)

重磅 | 全力重保,众志成城!数字广东公司多措并举为疫情防控保驾护航(二)

重磅 | 全力重保,众志成城!数字广东公司多措并举为疫情防控保驾护航(三)

重磅 | 全力重保,众志成城!数字广东公司多措并举为疫情防控保驾护航(四)