1、中国科技期刊数据库 工业 A 5 开放环境下大数据安全开发利用的挑战和思考 王帅强 郑州市环境保护宣传教育中心,河南 郑州 450007 摘要:摘要:大数据时代,数据价值实现的前提是数据资源开放。面对海量且多样的数据,如何安全开发利用好这些数据成为大数据时代亟待解决的问题。中国信息通信研究院作为国家级科研机构,持续关注和研究大数据安全开发利用问题。本文从开放环境下大数据安全开发利用面临的挑战出发,分析了当前大数据应用发展面临的问题,并从技术、政策和行业规范等方面提出了保障大数据安全开发利用的对策建议,为推动大数据在经济社会各领域的创新应用提供参考。关键词:关键词:开放环境;大数据;安全;开发
2、中图分类号:中图分类号:TP3 0 引言 随着信息技术的发展,数据已经成为重要的生产要素,数据开放已成为推动数字经济发展的重要动力。大数据产业也正在从“技术驱动”向“数据驱动”转变。开放环境下,大数据安全面临着数据泄露、数据滥用、数据欺诈等问题,对此,亟需通过技术手段构建一个安全可信的开放环境,从源头上解决大数据安全问题。1 开放环境下数据开放利用面临的主要安全挑战 在开放环境下,数据开放利用不仅意味着对数据的开放和共享,更意味着对数据的共享和利用。一方面,数据是开放环境下实现资源价值最大化的核心要素,对其进行开放和共享利用,能够实现更大范围、更深层次的资源共享和利用;另一方面,数据资源在开放
3、环境下进行共享利用时,需要通过可信的第三方来进行授权访问,因此也面临着数据安全保障问题。具体而言,在数据开发利用中存在以下安全挑战:首先,数据泄露、滥用、欺诈等安全风险问题频发。在开放环境下,由于存在第三方的不可控风险因素,同时存在多方利益主体的博弈和制约,所以数据开放利用过程中存在着一定的安全风险。例如,在数据共享过程中,存在着用户信息泄露、敏感信息滥用等问题;在数据交易过程中,存在着恶意欺诈行为;在数据共享利用中存在着“数据黑市”、“数据黑产”等问题1。其次,大数据产业发展不成熟,对安全可信的重视程度不够。目前大数据产业还处于发展初期阶段,行业内部和外部环境都缺乏相应的安全机制来保障大数据
4、产业的安全开发利用。例如在信息安全方面缺乏统一的标准规范、安全保障机制、安全评估方法等;在开发利用方面也缺乏统一的平台来支撑相关业务。例如在金融行业中对个人信息保护和隐私保护措施不到位;在医疗行业中对个人医疗信息的使用缺乏统一的管理办法和标准规范。最后,技术手段薄弱、专业人才匮乏。由于大数据安全开发利用是一个系统性工程,因此需要采用系统化的手段来保障大数据安全。但是当前大数据开发利用过程中主要采用基于设备或系统、基于规则或模型、基于平台等方法来进行防护,对大数据开发利用所需的专业人才需求较大。同时也缺乏相关专业人才来保障开放环境下大数据安全开发利用过程中相关技术和方法的实施。2 大数据安全的技
5、术保障需求 首先,数据安全评估模型。构建大数据安全评估模型,对大数据环境进行全方位的分析和评估,以确定可能存在的安全风险。主要包括以下两个方面:一是在大数据环境中应用的技术;二是在开放环境中应用的技术。其次,数据隐私保护方案。随着大数据技术的快速发展,隐私保护技术也随之不断发展完善,隐私保护方案从最初的文件加密和数据脱敏发展到现在的可公开访问控制、数据访问控制和访问审计。针对不同应用场景,隐私保护方案可分为以下几种类型:(1)隐私计算。以密码学为基础,通过加密、签名、认证等算法,保护中国科技期刊数据库 工业 A 6 数据在传输和使用过程中不被泄露或篡改。主要包括密码技术(如基于同态加密的对称加
6、密、非对称加密等)和密码产品(如智能合约、云计算等)。(2)数据脱敏。将敏感信息进行模糊化处理,从而降低其被识别的概率。主要包括隐私计算、差分隐私等技术。(3)可信计算技术。以密码技术为基础,通过在系统中部署可信硬件设备、软件产品、区块链等,实现对系统的安全监控与审计,确保系统的安全性与不可篡改性。主要包括可信计算产品、可信平台模块等技术。(4)安全存储技术。从存储介质、存储策略及访问控制等方面构建一个完整的数据保护机制,确保数据在存储过程中不被窃取或篡改,从而提高数据安全度。主要包括磁盘加密、云存储安全、存储加密和密钥管理等技术2。最后,开放环境下大数据安全产品及解决方案。在大数据开发利用过
7、程中,为数据提供安全可信的环境是关键,因此需要通过相应的技术手段保障大数据安全开发利用过程中数据的机密性、完整性和可用性等信息安全需求。针对大数据安全开发利用过程中的数据机密性要求,可以使用密码学技术如数字签名、同态加密等实现敏感信息在传输过程中不被篡改;针对大数据安全开发利用过程中数据完整性要求,可以采用零知识证明、信任链等技术实现敏感信息不被篡改;针对大数据开发利用过程中数据可用性要求,可以使用区块链等技术实现敏感信息不被篡改和非法访问。3 云计算环境下大数据安全防御能力 云计算环境下,大数据安全开发利用的工作主要有两个方面,一是保障数据的开放共享,二是保护数据的隐私安全。在保障数据开放共
8、享方面,针对传统网络边界防护不足,大数据安全开发利用工作中主要是通过“隔离”的方式实现。即对用户访问行为进行监控,一旦发现访问异常行为则将其阻断,同时通过对大数据源进行监控,确保不会有新的大数据源被泄露。在这一方面,国内的云计算平台服务商已经提出了多种解决方案。例如,腾讯云采用了“数据脱敏”技术,通过脱敏后的数据才能被开发利用;阿里云则通过“云防火墙”实现了对用户访问行为的监控。在保障数据隐私安全方面,国内也有很多尝试,例如阿里云推出了“隐私计算”技术来解决大数据中隐私泄露问题。在保护数据隐私安全方面,由于大数据本身存在较强的敏感性和易失性等特点,一旦被不法分子利用、窃取和滥用,将会给企业带来
9、不可估量的损失。因此在大数据开发利用过程中需要格外重视数据安全问题。4 基于人工智能的大数据安全分析模型 该模型以大数据采集、存储、传输、应用等全过程为主线,实现对数据资产的全面感知与安全防护。该模型主要分为三个部分:数据资产感知层、安全威胁分析层和数据应用服务层。其中,数据资产感知层主要包含大数据采集和存储过程中的网络协议分析和数据流分析;安全威胁分析层主要基于人工智能算法对大数据应用场景下可能存在的风险进行建模与分析,通过机器学习算法对已知风险进行检测;数据应用服务层主要通过数据加密和脱敏处理,保障大数据在开放环境下的隐私和安全。该模型充分利用了人工智能技术的优势,既实现了对开放环境下大数
10、据的全面感知,也为后续的大数据安全开发利用提供了坚实的基础3。4.1 数据资产感知层 在数据资产感知层,主要是通过人工智能技术实现对数据资产的全面感知,从而实现对开放环境下大数据安全开发利用全过程的全面监测。在大数据采集和存储过程中,针对网络协议分析和数据流分析,结合机器学习算法和知识图谱等技术,可以有效识别并控制特定协议和特定数据的流量。同时,对于已知攻击方式的流量,可以通过特征提取与聚类分析等技术手段进行识别;对于未知攻击方式的流量,可以通过机器学习算法进行检测识别。在数据资产感知层,对采集到的大数据进行全面、实时、准确的感知与处理。一方面,可以通过机器学习算法对大数据进行分析和预测;另一
11、方面,可以根据安全威胁分析模型对已知攻击方式进行识别与检测。在此基础上,可以进一步对大数据应用场景下可能存在的安全风险进行建模与分析,并制定相应的安全策略。4.2 安全威胁分析层 开放环境下,数据开发利用需要面对诸多安全风险,因此需要采用机器学习算法对已知风险进行检测。在对数据资产进行感知后,通过安全威胁分析层进行风险检测。该层基于人工智能算法,针对开放环境下大数据的应用场景,构建不同的安全分析模型,进而实现对开放环境下大数据的风险检测。第一,数据采集与预处理:在数据采集过程中,通过网络协议分析和数据流分析,实现对数据采集、存储、中国科技期刊数据库 工业 A 7 传输等过程中存在的安全威胁进行
12、有效识别。其中,网络协议分析主要通过对网络流量和报文进行协议解析,从而实现对协议内容的全面检测。数据流分析主要通过对网络流量和报文进行流式处理,进而实现对大数据应用场景下可能存在的风险进行全面检测。第二,风险评估:基于机器学习算法构建风险评估模型,通过风险评估模型对已知风险进行检测,从而实现对开放环境下大数据应用场景的有效识别。5 开源大数据应用安全防护体系 开源大数据应用安全防护体系由开源大数据平台安全管理、开源大数据平台安全运行和开源大数据应用安全评估三部分组成。第一,开源大数据平台的安全管理:通过对平台进行漏洞扫描、性能监测等方式,及时发现漏洞和安全事件,对有潜在威胁的系统及时进行修复。
13、通过对大数据平台上的软件包进行漏洞扫描,并将扫描结果实时反馈给用户,提醒用户及时更新漏洞库,从而避免或减少由于软件缺陷导致的数据泄露和恶意攻击。此外,对存在高危漏洞的软件进行升级维护,保证其正常运行。第二,开源大数据平台的安全运行:通过部署基于主机、数据库、中间件等多项技术手段的监控系统,对平台的数据进行监控分析,发现并处理异常或非法操作,同时对应用服务器进行实时监控。当发现有非法操作时及时发出告警。通过部署日志审计系统、行为审计系统和数据库审计系统等手段对平台运行情况进行实时监控和审计。通过部署入侵检测系统、入侵防御系统、日志审计系统等手段对平台运行中的应用进行检测和防护。第三,开源大数据应
14、用安全评估:通过对开源大数据应用开展漏洞扫描、性能测试、安全性分析等工作,发现存在问题的开源大数据应用,并针对存在的问题提出优化建议,及时修复已知漏洞。通过上述三部分构建了完整的开源大数据平台安全防护体系,并在实际应用中取得了较好效果。然而,当前该体系仍然存在一些问题。首先,由于开源大数据平台数量众多且各平台之间不兼容性较强、功能较为复杂等原因造成了维护难度较大。其次,由于当前对开源大数据平台缺乏有效的监管手段和安全评估机制,开源大数据平台仍存在一定安全风险。最后,目前对开源大数据应用还缺乏有效的安全评估机制和规范。6 未来展望 随着大数据的广泛应用,数据价值在不断地被挖掘,数据开放成为必然趋
15、势。从数据的采集、存储、传输、处理和应用的各个环节,都需要把数据开放起来。我们需要进一步认识到,大数据安全开发利用面临的挑战不仅来自于外部,更有内部;不仅有信息安全技术本身的不足,也有管理机制不完善的问题。要在开放环境下确保大数据安全开发利用,我们要不断提升大数据安全开发利用技术,形成内外结合、多维度立体化的防御体系4。在技术层面上,不断提高大数据安全开发利用技术能力。当前大数据安全开发利用的重点领域包括:(1)身份认证及访问控制技术:包括数据脱敏、访问控制、隐私保护、多租户等技术;(2)数据脱敏技术:包括基于哈希函数、差分隐私等技术;(3)安全计算环境:包括多方安全计算、同态加密、多方安全通
16、信等技术;(4)区块链技术:包括分布式账本、智能合约等技术5。在管理机制上,要加强大数据开放环境下的数据保护和隐私保护。一方面,需要建立健全数据开放的监管制度体系和标准规范,加强对开放环境下数据使用行为的监管力度;另一方面,需要完善大数据安全治理机制和法律法规,探索建立数据交易平台、数据开放平台、隐私保护平台等数据治理平台,强化数据市场监管能力;同时也要加强大数据安全产业发展和人才培养,构建一个安全可信的开放环境。7 结语 综上所述,随着社会的不断发展,大数据开发利用也面临着更高的要求,尤其是在开放环境下的大数据安全,既面临着大数据开发利用的需求,也面临着大数据开放带来的挑战。要从源头上解决大
17、数据安全问题,需要加强大数据安全技术研究,探索建立可落地、可实施的安全防护体系。同时,要积极开展开放环境下大数据安全开发利用实践,探索数据共享与交换安全机制,推进数据分级分类管理,保障数据安全可控开放。此外,还需推动大数据安全行业标准的制定工作,为行业健康有序发展提供有力支撑。参考文献 1张帅领,汤殿华,胡华鹏.开放环境下大数据安全开发 利 用 的 挑 战 和 思 考 J.信 息 安 全 与 通 信 保中国科技期刊数据库 工业 A 8 密,2022(05):59-72.2邓建锋.数据安全开发治理与安全架构J.长江信息通信,2023,36(03):205-207.3荣智坤.基于大数据分析技术的远程网络攻击防御软件开发与设计J.数字通信世界,2022(09):62-64.4李金阳.图书馆大数据开发利用与安全发展的统筹路径基于数据安全法视角的分析J.图书馆界,2022(03):12-15.5唐会芳,翟婷婷.数据安全法指导下的数据安全发展之路J.中国信息安全,2021(07):78-80.