聚信立 | 懂用戶,讓決策恰到好處

活動(dòng)新聞

在這里，你可以看到聚信立每天發(fā)生的點(diǎn)點(diǎn)滴滴。

大數(shù)據(jù)時(shí)代的數(shù)據(jù)安全

2017-07-27

隨著大數(shù)據(jù)時(shí)代的到來(lái)，大數(shù)據(jù)商業(yè)價(jià)值的挖掘，用戶的精準(zhǔn)定位，大數(shù)據(jù)中蘊(yùn)藏的巨大商業(yè)價(jià)值被逐步挖掘出來(lái)，但是同時(shí)也帶來(lái)了巨大的挑戰(zhàn)--個(gè)人隱私信息的保護(hù)。個(gè)人信息與個(gè)人行為(比如位置信息、消費(fèi)行為、網(wǎng)絡(luò)訪問(wèn)行為)等，這些都是人的隱私，也是我們所關(guān)注的一類敏感信息，在大數(shù)據(jù)價(jià)值挖掘的基礎(chǔ)上如何保護(hù)人的隱私信息，這是每一個(gè)大數(shù)據(jù)公司必須解決的問(wèn)題。

在數(shù)據(jù)安全問(wèn)題上，隱私數(shù)據(jù)的保護(hù)已成為許多監(jiān)管企業(yè)的法規(guī)之一。所謂的隱私數(shù)據(jù)又可稱為敏感數(shù)據(jù)，例如：姓名、身份證號(hào)碼、地址、電話號(hào)碼、銀行賬號(hào)、郵箱地址、所屬城市、郵編、密碼類 ( 如賬戶查詢密碼、取款密碼、登錄密碼等 )、組織機(jī)構(gòu)名稱、營(yíng)業(yè)執(zhí)照號(hào)碼、銀行帳號(hào)、交易日期、交易金額等。

網(wǎng)絡(luò)安全事件頻發(fā)
5月12日晚，WanaCrypt0r 2.0勒索軟件在全球爆發(fā)（簡(jiǎn)稱 WCry2.0）。在無(wú)需用戶任何操作的情況下，Wcry2.0即可掃描開(kāi)放445文件共享端口的Windows機(jī)器，從而植入惡意程序。目前，病毒已經(jīng)擴(kuò)散至全球上百個(gè)國(guó)家。全英國(guó)上下25家醫(yī)院遭到大范圍攻擊，中國(guó)眾多高校也紛紛中招。黑客則通過(guò)鎖定電腦文件來(lái)勒索用戶交贖金，而且只收比特幣。

近年來(lái)，各個(gè)國(guó)家頻繁暴露出泄露個(gè)人隱私信息的事件，在互聯(lián)網(wǎng)時(shí)代黑客已經(jīng)不再是躲在地下室，為了一時(shí)的興趣進(jìn)行破壞，越來(lái)越多的黑客正在“商業(yè)化”，愈發(fā)成熟的黑產(chǎn)一次次的證明數(shù)據(jù)的價(jià)值。企業(yè)賴以生存的用戶信息都存其數(shù)據(jù)庫(kù)內(nèi)，所以數(shù)據(jù)庫(kù)中數(shù)據(jù)的安全事關(guān)企業(yè)生死存亡。

在信息化時(shí)代，網(wǎng)絡(luò)已經(jīng)深刻地融入了經(jīng)濟(jì)社會(huì)生活的各個(gè)方面，網(wǎng)絡(luò)安全威脅也隨之向經(jīng)濟(jì)社會(huì)的各個(gè)層面滲透，網(wǎng)絡(luò)安全的重要性隨之不斷提高，在這樣的形勢(shì)下，我國(guó)于2016年11月7日通過(guò)了《中華人民共和國(guó)網(wǎng)絡(luò)安全法》，自2017年6月1日起施行，所以數(shù)據(jù)安全問(wèn)題尤為重要。

數(shù)據(jù)安全
對(duì)于隱私數(shù)據(jù)的保護(hù)，個(gè)人認(rèn)為要點(diǎn)在于建立完善的安全機(jī)制，包括建立完善的數(shù)據(jù)訪問(wèn)機(jī)制、對(duì)關(guān)鍵數(shù)據(jù)加密，對(duì)敏感數(shù)據(jù)脫敏，多方面系統(tǒng)化解決問(wèn)題。

A、建立完善的數(shù)據(jù)訪問(wèn)機(jī)制
首先，在網(wǎng)絡(luò)層建立嚴(yán)格的網(wǎng)絡(luò)訪問(wèn)控制，建立有效的防火墻和白名單機(jī)制，對(duì)于每一個(gè)數(shù)據(jù)產(chǎn)品或服務(wù)，只有經(jīng)過(guò)授權(quán)的人才能訪問(wèn)，而對(duì)于一切可能的入侵者，將被阻擋在數(shù)據(jù)服務(wù)器之外，或者徹底物理隔斷網(wǎng)絡(luò)，保證服務(wù)器的安全。

其次，建立分級(jí)的帳號(hào)體系，讓每個(gè)數(shù)據(jù)的訪問(wèn)者只能訪問(wèn)被允許訪問(wèn)的數(shù)據(jù)，從而有效控制數(shù)據(jù)泄露的風(fēng)險(xiǎn)。

最后，建立嚴(yán)格的安全制度，在某個(gè)關(guān)鍵的信息保密上，建議有兩人共同負(fù)責(zé)，一人了解原理但不允許直接操作，而另一人有權(quán)操作但不了解原理和密鑰，從而大大減少信息泄漏的風(fēng)險(xiǎn)。

B、數(shù)據(jù)加密
通過(guò)數(shù)據(jù)加密，即使入侵者侵入了數(shù)據(jù)服務(wù)器，也因?yàn)閿?shù)據(jù)已經(jīng)加密，而無(wú)法解讀，從而大大減少信息泄露的風(fēng)險(xiǎn)

目前常用的數(shù)據(jù)加密方式有：
對(duì)稱加密：數(shù)據(jù)發(fā)送方使用密鑰對(duì)數(shù)據(jù)加密，使用接收方使用同一密鑰對(duì)數(shù)據(jù)進(jìn)行解密，優(yōu)點(diǎn)是算法成熟，加解密速度快，缺點(diǎn)是密碼為雙方所知，容易泄露；目前最常用的對(duì)稱加密算法為DES、IDEA和AES。

非對(duì)稱加密：數(shù)據(jù)加解密使用一對(duì)配對(duì)的公鑰和私鑰來(lái)完成，數(shù)據(jù)發(fā)送方使用公鑰對(duì)數(shù)據(jù)進(jìn)行加密，數(shù)據(jù)接受方使用私鑰對(duì)數(shù)據(jù)進(jìn)行解密，該方法的優(yōu)點(diǎn)是解密的私鑰只為數(shù)據(jù)接受方一方所知，信息不容易泄露，目前最常用的非對(duì)稱算法為RSA算法。

不可逆加密：一般為hash加密，不需要密鑰，數(shù)據(jù)明文加密后，只要找到原來(lái)的明文重新加密后與之比對(duì)，若一致則解出，該方法一般適用于兩機(jī)構(gòu)間的合作，一方將自身的數(shù)據(jù)hash加密后供另一方研究，目前常用的hash算法包括md5和sha算法。

C、數(shù)據(jù)脫敏
將生產(chǎn)上的海量數(shù)據(jù)拉到離線的分析環(huán)境進(jìn)行挖掘分析，數(shù)據(jù)脫敏是個(gè)必然的過(guò)程。那么，常用的脫敏方法有那些呢？

名稱	描述	示例	優(yōu)缺點(diǎn)
Hiding（隱藏）	將數(shù)據(jù)替換為常量，常用作不需要該字段	2333-->0 433 -->0	該字段將沒(méi)有可識(shí)別性和區(qū)分度，可以直接拋棄
Hashing(哈希）	將不定長(zhǎng)數(shù)據(jù)hash成定長(zhǎng)字段（不一定一一映射）		有一定的識(shí)別性和區(qū)分度，但不嚴(yán)謹(jǐn)（非一一映射）
Mask(掩碼）	數(shù)據(jù)長(zhǎng)度不變，部分用掩碼掩蓋	15634323229-->1563423****
Floor	將數(shù)值和時(shí)間字段按一定規(guī)則取整	29-->20 53-->50 2016-12-21 12:30:42 --> 20161221	該操作的具體邏輯需根據(jù)具體業(yè)務(wù)規(guī)則決定
加密	使用對(duì)稱和非對(duì)稱加密，保證一一映射		能保證數(shù)據(jù)的唯一性，方便統(tǒng)計(jì)和關(guān)聯(lián)，一般會(huì)加大數(shù)據(jù)存儲(chǔ)的長(zhǎng)度
ID轉(zhuǎn)換	對(duì)每個(gè)不同的數(shù)據(jù)分配不同的id，id可能是整數(shù)或長(zhǎng)整數(shù)	張三-->1 李四-->2	能保證數(shù)據(jù)的唯一性，方便統(tǒng)計(jì)和關(guān)聯(lián)，不會(huì)加大數(shù)據(jù)存儲(chǔ)的長(zhǎng)度，但是對(duì)算法的性能和一致性有較高的要求

數(shù)據(jù)脫敏具體采用哪種算法，和具體的業(yè)務(wù)邏輯相關(guān)。一般來(lái)說(shuō)，用戶隱私數(shù)據(jù)保護(hù)與挖掘用戶數(shù)據(jù)價(jià)值是兩個(gè)互相沖突的矛盾體，徹底的數(shù)據(jù)脫敏，抹去全部的用戶隱私信息，將會(huì)使得數(shù)據(jù)潛在的分析價(jià)值大大降低。另一方面，完全保留用戶隱私數(shù)據(jù)信息，可最大化數(shù)據(jù)的分析價(jià)值，但同時(shí)導(dǎo)致用戶隱私泄露的風(fēng)險(xiǎn)無(wú)法控制。

數(shù)據(jù)安全的目標(biāo)
大數(shù)據(jù)平臺(tái)安全的設(shè)計(jì)目標(biāo)并不是實(shí)現(xiàn)工具算法用來(lái)完全抹去全部的用戶隱私信息，而是包括如下幾個(gè)目標(biāo)：

數(shù)據(jù)泄露風(fēng)險(xiǎn)可控。首先，實(shí)現(xiàn)基于大數(shù)據(jù)平臺(tái)的脫敏算法庫(kù)，可并行，高效的按照脫敏規(guī)則對(duì)隱私數(shù)據(jù)進(jìn)行脫敏。其次，基于數(shù)據(jù)脫敏的理論基礎(chǔ)，建立用戶隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)的衡量模型，可定性定量的準(zhǔn)確衡量數(shù)據(jù)可能發(fā)生泄露的風(fēng)險(xiǎn)。

可管理。結(jié)合大數(shù)據(jù)平臺(tái)的用戶認(rèn)證體系，權(quán)限管理體系，以及隱私數(shù)據(jù)不同保護(hù)級(jí)別的權(quán)限管理體系，實(shí)現(xiàn)對(duì)隱私數(shù)據(jù)基于審批的數(shù)據(jù)訪問(wèn)機(jī)制。結(jié)合公司制度，規(guī)范，法務(wù)等管理，實(shí)現(xiàn)在盡可能保護(hù)用戶隱私數(shù)據(jù)，減少數(shù)據(jù)泄露風(fēng)險(xiǎn)的前提下，最大化保留數(shù)據(jù)分析挖掘的價(jià)值。

可審計(jì)。對(duì)數(shù)據(jù)的訪問(wèn)要保證可回溯，可審計(jì)，當(dāng)發(fā)生數(shù)據(jù)泄露時(shí)，要保證能夠通過(guò)審計(jì)日志找到對(duì)應(yīng)的泄露人員。

聚信立在數(shù)據(jù)安全上所做的工作

聚信立是一家風(fēng)控?cái)?shù)據(jù)提供商，主要是通過(guò)用戶授權(quán)獲取非傳統(tǒng)風(fēng)控?cái)?shù)據(jù)，如通話信息、消費(fèi)數(shù)據(jù)等互聯(lián)網(wǎng)信息，對(duì)客戶風(fēng)險(xiǎn)特征進(jìn)行描述，并提供給金融機(jī)構(gòu)，供其做相應(yīng)的后續(xù)決策。聚信立服務(wù)的金融機(jī)構(gòu)的金融機(jī)構(gòu)超過(guò)1300家，包括傳統(tǒng)的銀行、消費(fèi)金融公司、網(wǎng)貸信息平臺(tái)等，目前的日查詢量已經(jīng)近百萬(wàn)，覆蓋的人群已經(jīng)超過(guò)8億。

我們?cè)跀?shù)據(jù)安全方面所做的工作包括但不限于：
1、完善的數(shù)據(jù)訪問(wèn)控制機(jī)制，通過(guò)云桌面、跳板機(jī)、防火墻的白名單、以及完善的帳號(hào)訪問(wèn)體系，保證每個(gè)員工均能安全的訪問(wèn)所需的數(shù)據(jù)，防范數(shù)據(jù)泄露的風(fēng)險(xiǎn)。

2、數(shù)據(jù)的加密，對(duì)于生產(chǎn)環(huán)境的敏感數(shù)據(jù)，我們采用了RSA的非對(duì)稱加密方式，公鑰分發(fā)給需要加密敏感數(shù)據(jù)的各個(gè)生產(chǎn)線，而私鑰由特定的人員保管，同時(shí)，解密的服務(wù)由特定的人員開(kāi)發(fā)，然后由不清楚技術(shù)細(xì)節(jié)的IT人員部署，并使用防火墻的白名單限制訪問(wèn)IP，從而最大程度的防范安全風(fēng)險(xiǎn)。

3、數(shù)據(jù)脫敏，數(shù)據(jù)分析部門需要大量的數(shù)據(jù)進(jìn)行建模，這樣如何保證隱私敏感數(shù)據(jù)不被泄露，就是數(shù)據(jù)脫敏所做的工作了。這里我們一方面采用生產(chǎn)環(huán)境采用的RSA加密，另一方面為了減少磁盤和內(nèi)存存儲(chǔ)，采用了轉(zhuǎn)ID的方法，將64字節(jié)的加密串轉(zhuǎn)換為只占4或8個(gè)字節(jié)的整數(shù)或長(zhǎng)整數(shù)進(jìn)行處理，同時(shí)不需要的敏感數(shù)據(jù)不選取。對(duì)于外部機(jī)構(gòu)的聯(lián)合建模，一般會(huì)采用hash方式進(jìn)行匹配，包括md5和sha算法。從而在最大程度上保證用戶的隱私，同時(shí)發(fā)掘潛藏在海量數(shù)據(jù)中的巨大價(jià)值。