数据存储总结

综合考虑上面三种存储方式的优势和不足。推荐系统根据应用访问数据的特点把数据分布到了不同的存储机制中。

对于需要提供事务、锁,数据量不特别大的场景中,采用基于B-TREE的存储机制,例如合约签订,合约执行等业务需要数据库提供多行的事物处理,而且数据量和交易量不是特别大,把数据保持在传统关系型数据库中,也正好利用了B-TREE的优点。

对于访问数据量,以及每日新增、修改量特别大的场景,采用LSM&SSTable作为存储引擎,例如客户的标签数据,数据量达到百亿级,每日增量也可达上亿记录,数据保存在HBase数据库中,可以较为轻松,在数十分钟之内就可完成批量更新,而查询响应时间也没有随着数据量的增加而变慢,仍然保证在几毫秒以内。

最后是列式存储,它适合于数据分析类场景,如进行客户流动性预测、客户投资方案生成这类分析场景中,需要对于数据进行反复遍历的操作,最终采用的方案是把数据从原来的产品数据库中导出后存到Hadoop集群的HDFS中采用Parquet格式存储数据,后继采用Spark来访问时,遍历数据的时间可以控制在数分钟级别。

关于存储技术就介绍完了,您有什么想法可以联系小编。