個人VIP

登錄丨注冊

我的試題籃

首頁章節(jié)組卷智能組卷找試卷同步測試中考題庫

專題資訊教案作文

會員特權(quán)

· 全站終身VIP

199元

一次性購買，終身無限制使用

立刻搶購

限時立減100元

· 全站年VIP

179元/年

全站14007325+權(quán)威精品試題
1年無限制使用

立刻搶購

全站VIP包含以下所有學科分類會員：

高中

語文

數(shù)學

英語

物理

化學

生物

地理

政治

歷史

初中

語文

數(shù)學

英語

物理

化學

生物

地理

政治

歷史

小學

語文

數(shù)學

英語

道德與法治

科學

查看更多特權(quán)

當前位置：

網(wǎng)站首頁

題庫

大數(shù)據(jù)的利用過程是

題目

大數(shù)據(jù)的利用過程是（）。

A:采集—統(tǒng)計—清洗—挖掘

B:采集—清洗—統(tǒng)計—挖掘

C:采集—挖掘—清洗—統(tǒng)計

D:采集—清洗—挖掘—統(tǒng)計

可圈可點用戶

2022-01-13 09:58

優(yōu)質(zhì)解答

答案

解析

大數(shù)據(jù)處理：采集、導入/預處理、統(tǒng)計/分析、挖掘

擴展知識

1、大數(shù)據(jù)時代處理數(shù)據(jù)理念的三大轉(zhuǎn)變：要全體不要抽樣，要效率不要絕對精確，要相關(guān)不要因果。

2、具體的大數(shù)據(jù)處理方法確實有很多，但是根據(jù)筆者長時間的實踐，總結(jié)了一個普遍適用的大數(shù)據(jù)處理流程，并且這個流程應該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個處理流程可以概括為四步，分別是采集、導入和預處理、統(tǒng)計和分析，最后是數(shù)據(jù)挖掘。

3、在大數(shù)據(jù)的采集過程中，其主要特點和挑戰(zhàn)是并發(fā)數(shù)高，因為同時有可能會有成千上萬的用戶來進行訪問和操作，比如火車票售票網(wǎng)站和淘寶，它們并發(fā)的訪問量在峰值時達到上百萬，所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深入的思考和設(shè)計。

4、導入與預處理過程的特點和挑戰(zhàn)主要是導入的數(shù)據(jù)量大，每秒鐘的導入量經(jīng)常會達到百兆，甚至千兆級別。

5、統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大，其對系統(tǒng)資源，特別是I/O會有極大的占用。

6、與前面統(tǒng)計和分析過程不同的是，數(shù)據(jù)挖掘一般沒有什么預先設(shè)定好的主題，主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算，從而起到預測（Predict）的效果，從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學習的SVM和用于分類的NaiveBayes，主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜，并且計算涉及的數(shù)據(jù)量和計算量都很大，常用數(shù)據(jù)挖掘算法都以單線程為主。

查看答案

可圈可點用戶

2022-01-13 14:58

相關(guān)題庫

槍戰(zhàn)射擊
視頻播放
金融理財
漫畫閱讀

下載試題

復制試題

又大又粗又硬又爽又黄毛片,国产精品亚洲第一区在线观看,国产男同GAYA片大全,一二三四视频社区5在线高清

答案

解析