大(dà)數據分(fēn)析技術研究 – 南京普而摩網絡技術有限公司

論之語是國内技術領先的(de)行業大(dà)數據應用(yòng)解決方案提供商，基于開放的(de)POISE大(dà)數據應用(yòng)平台，可(kě)以爲行業客戶提供定制化(huà)的(de)大(dà)數據應用(yòng)解決方案。

Pioneer/先驅

2006年，Hadoop正式誕生，而早在2001年，我們的(de)技術團隊已經在幫助我們的(de)行業客戶處理(lǐ)每天超過10億條的(de)海量數據，基于定制化(huà)的(de)分(fēn)布式數據庫和(hé)搜索技術，我們可(kě)以輕松處理(lǐ)、存儲和(hé)分(fēn)析這(zhè)些規模龐大(dà)的(de)異構數據。到2008年，我們幫助客戶搭建的(de)最大(dà)的(de)一個(gè)大(dà)數據集群節點數量已經達到1000個(gè)，同時(shí)期，Yahoo!構建的(de)全球最大(dà)的(de)Hadoop集群節點數量爲2000個(gè)。

早期對(duì)大(dà)數據技術的(de)深度應用(yòng)研究爲我們擁抱Hadoop生态圈打下(xià)了(le)良好的(de)基礎，時(shí)至今日，我們已經成爲了(le)行業内Hadoop生态圈應用(yòng)的(de)先行者，在POISE大(dà)數據應用(yòng)平台上，您将可(kě)以看到Hadoop生态圈最新技術在行業中的(de)實際落地應用(yòng)。

Open/開放

不同于其它商業大(dà)數據基礎平台廠商，論之語POISE大(dà)數據應用(yòng)平台以應用(yòng)爲導向，采取完全開放的(de)态度，底層基于開源Hadoop/Spark架構，可(kě)以無縫兼容Cloudera、Hortonworks等國際主流商業Hadoop發行版，快(kuài)速低成本遷移到華爲FusionInsight、阿裏飛(fēi)天平台等國内主流大(dà)數據基礎平台之上。

基于采用(yòng)Kafka的(de)數據總線技術，POISE大(dà)數據應用(yòng)平台可(kě)以爲上層第三方應用(yòng)提供簡單查詢、批量導出和(hé)複制分(fēn)發等數據支撐。

基于采用(yòng)WebService的(de)服務總線技術，POISE大(dà)數據應用(yòng)平台可(kě)以爲應用(yòng)平台内部之間以及應用(yòng)平台外部應用(yòng)提供服務交互能力支撐。

Intelligent/智能

從IBM深藍到Google AlphaGo，借助大(dà)數據+深度學習(xí)技術，Google人(rén)工智能震驚了(le)世界。論之語POISE大(dà)數據應用(yòng)平台全面引入機器學習(xí)技術，讓您的(de)大(dà)數據應用(yòng)更智能。

以内容分(fēn)析爲例，POISE結合Deep Learning和(hé)NLP技術，可(kě)以通(tōng)過大(dà)數據訓練實現自動語種識别、要素信息提取等内容深度分(fēn)析功能。

以關系分(fēn)析爲例，POISE結合Deep Learning和(hé)Monte Carlo Tree Search算(suàn)法，利用(yòng)預測和(hé)反饋機制，可(kě)以大(dà)大(dà)提高(gāo)概率計算(suàn)的(de)準确性。

Safety/安全

我們深刻理(lǐ)解數據安全對(duì)客戶的(de)重要性，在POISE大(dà)數據應用(yòng)平台上，通(tōng)過管理(lǐ)總線我們提供貫穿整個(gè)大(dà)數據應用(yòng)平台的(de)數據安全保護機制。

數據加密：爲所有進入POISE大(dà)數據應用(yòng)平台的(de)數據提供高(gāo)效、透明(míng)的(de)數據加密保護。

數據備份：根據數據存儲形式的(de)不同，提供節點間備份、離線增量備份等完善的(de)數據備份機制。

訪問控制：提供基于數據類型表級和(hé)要素數據字段級細粒度訪問控制和(hé)基于角色的(de)授權控制。

安全治理(lǐ)：提供全面審計、多(duō)級審批、數據沿襲和(hé)生命周期管理(lǐ)。

Efficient/高(gāo)效

POISE大(dà)數據應用(yòng)平台秉承“即查即得(de)”的(de)設計原則，通(tōng)過在分(fēn)布式計算(suàn)框架（MapReduce/Spark Streaming/Spark SQL/Storm）中結合大(dà)量的(de)算(suàn)法優化(huà)、高(gāo)性能計算(suàn)(HPC)和(hé)預計算(suàn)(Pre-computing)技術應用(yòng)，可(kě)以實現PB數據量級下(xià)的(de)實時(shí)/準實時(shí)交互響應。

針對(duì)超大(dà)規模數據的(de)處理(lǐ)與應用(yòng)場(chǎng)景，集成并深度優化(huà)了(le)”Bigtable+Lucence“框架，可(kě)以完美(měi)支撐萬億級異構數據的(de)高(gāo)效查詢與存儲需求。以某地工業大(dà)數據項目爲例，其數據種類200餘種，涉及運行監測、生産制造、設備運營等業務，平均單條數據大(dà)小爲300字節。基于我司的(de)混合處理(lǐ)框架，單節點普通(tōng)PC服務器每天可(kě)高(gāo)效處理(lǐ)50億條以上數據，單節點最大(dà)存儲記錄數高(gāo)達5000億，且可(kě)同時(shí)保證數據的(de)随機檢索延遲不超過3秒。

大(dà)數據，大(dà)未來(lái)，論之語，您的(de)大(dà)數據處理(lǐ)專家！