聯系人: 華南理工大學
所在地: 廣東廣州市
摘要:本發明公開了一種基于流式實時分布式大數據的數據采集方法及系統,主要是采用分布式云集群的方式來處理數據采集,提高數據采集的處理性能和提供一定的可擴展性;構建分區關聯的任務隊列,不需要首先完成數據累計和落地,實時檢測業務數據的變化,采用內存模型來高效存儲增量收集的數據,減少本地臨時文件保存時所占的空間,避免數據堆積和丟失,同時在基于內存模型的基礎上,將數據塊進行流化處理,直接在內存中對數據流進行并行處理并實時更新到分析數據集。本發明充分發揮了云集群的高效處理性能,同時利用基于內存的高效存儲模型完成數據的收集和歸類操作,為后續的實時數據分析提供數據基礎,保證了實時數據采集可得到實時的反饋分析結果。