2017-07-27
隨著大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)商業(yè)價(jià)值的挖掘,用戶的精準(zhǔn)定位,大數(shù)據(jù)中蘊(yùn)藏的巨大商業(yè)價(jià)值被逐步挖掘出來(lái),但是同時(shí)也帶來(lái)了巨大的挑戰(zhàn)--個(gè)人隱私信息的保護(hù)。個(gè)人信息與個(gè)人行為(比如位置信息、消費(fèi)行為、網(wǎng)絡(luò)訪問(wèn)行為)等,這些都是人的隱私,也是我們所關(guān)注的一類敏感信息,在大數(shù)據(jù)價(jià)值挖掘的基礎(chǔ)上如何保護(hù)人的隱私信息,這是每一個(gè)大數(shù)據(jù)公司必須解決的問(wèn)題。
在數(shù)據(jù)安全問(wèn)題上,隱私數(shù)據(jù)的保護(hù)已成為許多監(jiān)管企業(yè)的法規(guī)之一。所謂的隱私數(shù)據(jù)又可稱為敏感數(shù)據(jù),例如:姓名、身份證號(hào)碼、地址、電話號(hào)碼、銀行賬號(hào)、郵箱地址、所屬城市、郵編、密碼類 ( 如賬戶查詢密碼、取款密碼、登錄密碼等 )、組織機(jī)構(gòu)名稱、營(yíng)業(yè)執(zhí)照號(hào)碼、銀行帳號(hào)、交易日期、交易金額等。
網(wǎng)絡(luò)安全事件頻發(fā)
5月12日晚,WanaCrypt0r
2.0勒索軟件在全球爆發(fā)(簡(jiǎn)稱 WCry2.0)。
在無(wú)需用戶任何操作的情況下,Wcry2.0即可掃描開(kāi)放445文件共享端口的Windows機(jī)器,從而植入惡意程序。目前,病毒已經(jīng)擴(kuò)散至全球上百個(gè)國(guó)家。全英國(guó)上下25家醫(yī)院遭到大范圍攻擊,中國(guó)眾多高校也紛紛中招。黑客則通過(guò)鎖定電腦文件來(lái)勒索用戶交贖金,而且只收比特幣。
近年來(lái),各個(gè)國(guó)家頻繁暴露出泄露個(gè)人隱私信息的事件,在互聯(lián)網(wǎng)時(shí)代黑客已經(jīng)不再是躲在地下室,為了一時(shí)的興趣進(jìn)行破壞,越來(lái)越多的黑客正在“商業(yè)化”,愈發(fā)成熟的黑產(chǎn)一次次的證明數(shù)據(jù)的價(jià)值。企業(yè)賴以生存的用戶信息都存其數(shù)據(jù)庫(kù)內(nèi),所以數(shù)據(jù)庫(kù)中數(shù)據(jù)的安全事關(guān)企業(yè)生死存亡。
在信息化時(shí)代,網(wǎng)絡(luò)已經(jīng)深刻地融入了經(jīng)濟(jì)社會(huì)生活的各個(gè)方面,網(wǎng)絡(luò)安全威脅也隨之向經(jīng)濟(jì)社會(huì)的各個(gè)層面滲透,網(wǎng)絡(luò)安全的重要性隨之不斷提高,在這樣的形勢(shì)下,我國(guó)于2016年11月7日通過(guò)了《中華人民共和國(guó)網(wǎng)絡(luò)安全法》,自2017年6月1日起施行,所以數(shù)據(jù)安全問(wèn)題尤為重要。
數(shù)據(jù)安全
對(duì)于隱私數(shù)據(jù)的保護(hù),個(gè)人認(rèn)為要點(diǎn)在于建立完善的安全機(jī)制,包括建立完善的數(shù)據(jù)訪問(wèn)機(jī)制、對(duì)關(guān)鍵數(shù)據(jù)加密,對(duì)敏感數(shù)據(jù)脫敏,多方面系統(tǒng)化解決問(wèn)題。
A、建立完善的數(shù)據(jù)訪問(wèn)機(jī)制
首先,在網(wǎng)絡(luò)層建立嚴(yán)格的網(wǎng)絡(luò)訪問(wèn)控制,建立有效的防火墻和白名單機(jī)制,對(duì)于每一個(gè)數(shù)據(jù)產(chǎn)品或服務(wù),只有經(jīng)過(guò)授權(quán)的人才能訪問(wèn),而對(duì)于一切可能的入侵者,將被阻擋在數(shù)據(jù)服務(wù)器之外,或者徹底物理隔斷網(wǎng)絡(luò),保證服務(wù)器的安全。
其次,建立分級(jí)的帳號(hào)體系,讓每個(gè)數(shù)據(jù)的訪問(wèn)者只能訪問(wèn)被允許訪問(wèn)的數(shù)據(jù),從而有效控制數(shù)據(jù)泄露的風(fēng)險(xiǎn)。
最后,建立嚴(yán)格的安全制度,在某個(gè)關(guān)鍵的信息保密上,建議有兩人共同負(fù)責(zé),一人了解原理但不允許直接操作,而另一人有權(quán)操作但不了解原理和密鑰,從而大大減少信息泄漏的風(fēng)險(xiǎn)。
B、數(shù)據(jù)加密
通過(guò)數(shù)據(jù)加密,即使入侵者侵入了數(shù)據(jù)服務(wù)器,也因?yàn)閿?shù)據(jù)已經(jīng)加密,而無(wú)法解讀,從而大大減少信息泄露的風(fēng)險(xiǎn)
目前常用的數(shù)據(jù)加密方式有:
對(duì)稱加密:數(shù)據(jù)發(fā)送方使用密鑰對(duì)數(shù)據(jù)加密,使用接收方使用同一密鑰對(duì)數(shù)據(jù)進(jìn)行解密,優(yōu)點(diǎn)是算法成熟,加解密速度快,缺點(diǎn)是密碼為雙方所知,容易泄露;目前最常用的對(duì)稱加密算法為DES、IDEA和AES。
非對(duì)稱加密:數(shù)據(jù)加解密使用一對(duì)配對(duì)的公鑰和私鑰來(lái)完成,數(shù)據(jù)發(fā)送方使用公鑰對(duì)數(shù)據(jù)進(jìn)行加密,數(shù)據(jù)接受方使用私鑰對(duì)數(shù)據(jù)進(jìn)行解密,該方法的優(yōu)點(diǎn)是解密的私鑰只為數(shù)據(jù)接受方一方所知,信息不容易泄露,目前最常用的非對(duì)稱算法為RSA算法。
不可逆加密:一般為hash加密,不需要密鑰,數(shù)據(jù)明文加密后,只要找到原來(lái)的明文重新加密后與之比對(duì),若一致則解出,該方法一般適用于兩機(jī)構(gòu)間的合作,一方將自身的數(shù)據(jù)hash加密后供另一方研究,目前常用的hash算法包括md5和sha算法。
C、數(shù)據(jù)脫敏
將生產(chǎn)上的海量數(shù)據(jù)拉到離線的分析環(huán)境進(jìn)行挖掘分析,
數(shù)據(jù)脫敏是個(gè)必然的過(guò)程。那么,常用的脫敏方法有那些呢?
名稱 |
描述 |
示例 |
優(yōu)缺點(diǎn) |
Hiding(隱藏) |
將數(shù)據(jù)替換為常量,常用作不需要該字段 |
2333-->0 433 -->0 |
該字段將沒(méi)有可識(shí)別性和區(qū)分度,可以直接拋棄 |
Hashing(哈希) |
將不定長(zhǎng)數(shù)據(jù)hash成定長(zhǎng)字段(不一定一一映射) |
|
有一定的識(shí)別性和區(qū)分度,但不嚴(yán)謹(jǐn)(非一一映射) |
Mask(掩碼) |
數(shù)據(jù)長(zhǎng)度不變,部分用掩碼掩蓋 |
15634323229-->1563423**** |
|
Floor |
將數(shù)值和時(shí)間字段按一定規(guī)則取整 |
29-->20 53-->50 2016-12-21 12:30:42 --> 20161221 |
該操作的具體邏輯需根據(jù)具體業(yè)務(wù)規(guī)則決定 |
加密 |
使用對(duì)稱和非對(duì)稱加密,保證一一映射 |
|
能保證數(shù)據(jù)的唯一性,方便統(tǒng)計(jì)和關(guān)聯(lián),一般會(huì)加大數(shù)據(jù)存儲(chǔ)的長(zhǎng)度 |
ID轉(zhuǎn)換 |
對(duì)每個(gè)不同的數(shù)據(jù)分配不同的id,id可能是整數(shù)或長(zhǎng)整數(shù) |
張三-->1 李四-->2 |
能保證數(shù)據(jù)的唯一性,方便統(tǒng)計(jì)和關(guān)聯(lián),不會(huì)加大數(shù)據(jù)存儲(chǔ)的長(zhǎng)度,但是對(duì)算法的性能和一致性有較高的要求 |
數(shù)據(jù)脫敏具體采用哪種算法,和具體的業(yè)務(wù)邏輯相關(guān)。一般來(lái)說(shuō),用戶隱私數(shù)據(jù)保護(hù)與挖掘用戶數(shù)據(jù)價(jià)值是兩個(gè)互相沖突的矛盾體,徹底的數(shù)據(jù)脫敏,抹去全部的用戶隱私信息,將會(huì)使得數(shù)據(jù)潛在的分析價(jià)值大大降低。另一方面,完全保留用戶隱私數(shù)據(jù)信息,可最大化數(shù)據(jù)的分析價(jià)值,但同時(shí)導(dǎo)致用戶隱私泄露的風(fēng)險(xiǎn)無(wú)法控制。
數(shù)據(jù)安全的目標(biāo)
大數(shù)據(jù)平臺(tái)安全的設(shè)計(jì)目標(biāo)并不是實(shí)現(xiàn)工具算法用來(lái)完全抹去全部的用戶隱私信息,而是包括如下幾個(gè)目標(biāo):
數(shù)據(jù)泄露風(fēng)險(xiǎn)可控。首先,實(shí)現(xiàn)基于大數(shù)據(jù)平臺(tái)的脫敏算法庫(kù),可并行,高效的按照脫敏規(guī)則對(duì)隱私數(shù)據(jù)進(jìn)行脫敏。其次,基于數(shù)據(jù)脫敏的理論基礎(chǔ),建立用戶隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)的衡量模型,可定性定量的準(zhǔn)確衡量數(shù)據(jù)可能發(fā)生泄露的風(fēng)險(xiǎn)。
可管理。結(jié)合大數(shù)據(jù)平臺(tái)的用戶認(rèn)證體系,權(quán)限管理體系,以及隱私數(shù)據(jù)不同保護(hù)級(jí)別的權(quán)限管理體系,實(shí)現(xiàn)對(duì)隱私數(shù)據(jù)基于審批的數(shù)據(jù)訪問(wèn)機(jī)制。結(jié)合公司制度,規(guī)范,法務(wù)等管理,實(shí)現(xiàn)在盡可能保護(hù)用戶隱私數(shù)據(jù),減少數(shù)據(jù)泄露風(fēng)險(xiǎn)的前提下,最大化保留數(shù)據(jù)分析挖掘的價(jià)值。
可審計(jì)。對(duì)數(shù)據(jù)的訪問(wèn)要保證可回溯,可審計(jì),當(dāng)發(fā)生數(shù)據(jù)泄露時(shí),要保證能夠通過(guò)審計(jì)日志找到對(duì)應(yīng)的泄露人員。
聚信立在數(shù)據(jù)安全上所做的工作
聚信立是一家風(fēng)控?cái)?shù)據(jù)提供商,主要是通過(guò)用戶授權(quán)獲取非傳統(tǒng)風(fēng)控?cái)?shù)據(jù),如通話信息、消費(fèi)數(shù)據(jù)等互聯(lián)網(wǎng)信息,對(duì)客戶風(fēng)險(xiǎn)特征進(jìn)行描述,并提供給金融機(jī)構(gòu),供其做相應(yīng)的后續(xù)決策。聚信立服務(wù)的金融機(jī)構(gòu)的金融機(jī)構(gòu)超過(guò)1300家,包括傳統(tǒng)的銀行、消費(fèi)金融公司、網(wǎng)貸信息平臺(tái)等,目前的日查詢量已經(jīng)近百萬(wàn),覆蓋的人群已經(jīng)超過(guò)8億。
我們?cè)跀?shù)據(jù)安全方面所做的工作包括但不限于:
1、完善的數(shù)據(jù)訪問(wèn)控制機(jī)制,通過(guò)云桌面、跳板機(jī)、防火墻的白名單、以及完善的帳號(hào)訪問(wèn)體系,保證每個(gè)員工均能安全的訪問(wèn)所需的數(shù)據(jù),防范數(shù)據(jù)泄露的風(fēng)險(xiǎn)。
2、數(shù)據(jù)的加密, 對(duì)于生產(chǎn)環(huán)境的敏感數(shù)據(jù),我們采用了RSA的非對(duì)稱加密方式,公鑰分發(fā)給需要加密敏感數(shù)據(jù)的各個(gè)生產(chǎn)線,而私鑰由特定的人員保管,同時(shí),解密的服務(wù)由特定的人員開(kāi)發(fā),然后由不清楚技術(shù)細(xì)節(jié)的IT人員部署,并使用防火墻的白名單限制訪問(wèn)IP,從而最大程度的防范安全風(fēng)險(xiǎn)。
3、數(shù)據(jù)脫敏,數(shù)據(jù)分析部門需要大量的數(shù)據(jù)進(jìn)行建模,這樣如何保證隱私敏感數(shù)據(jù)不被泄露,就是數(shù)據(jù)脫敏所做的工作了。這里我們一方面采用生產(chǎn)環(huán)境采用的RSA加密,另一方面為了減少磁盤和內(nèi)存存儲(chǔ),采用了轉(zhuǎn)ID的方法,將64字節(jié)的加密串轉(zhuǎn)換為只占4或8個(gè)字節(jié)的整數(shù)或長(zhǎng)整數(shù)進(jìn)行處理,同時(shí)不需要的敏感數(shù)據(jù)不選取。對(duì)于外部機(jī)構(gòu)的聯(lián)合建模,一般會(huì)采用hash方式進(jìn)行匹配,包括md5和sha算法。從而在最大程度上保證用戶的隱私,同時(shí)發(fā)掘潛藏在海量數(shù)據(jù)中的巨大價(jià)值。