2019年10月16日

摘要:1 前言 在使用Kylin的時候,最重要的一步就是創建cube的模型定義,即指定度量和維度以及一些附加信息,然后對cube進行build,當然我們也可以根據原始表中的某一個string字段(這個字段的格式必須是日期格式,表示日期的含義)設定分區字段,這樣一個cube就可以進行多次build,每一次的 閱讀全文
posted @ 2019-10-16 13:36 XIAO的博客 閱讀 (84) 評論 (0) 編輯

2019年10月14日

摘要:1 Kylin是什么 今天,隨著移動互聯網、物聯網、AI等技術的快速興起,數據成為了所有這些技術背后最重要,也是最有價值的“資產”。如何從數據中獲得有價值的信息?這個問題驅動了相關技術的發展,從最初的基于文件的檢索、分析程序,到數據倉庫理念的誕生,再到基于數據庫的商業智能分析。而現在,這一問題已經變 閱讀全文
posted @ 2019-10-14 13:47 XIAO的博客 閱讀 (266) 評論 (0) 編輯

2019年10月12日

摘要:前面的文章中我們講道,像趣頭條類的APP對于收徒和閱讀行為給予用戶現金獎勵的方式勢必會受到大量羊毛黨黑產的注意,其實單個用戶能薅到的錢是沒有多少的,為了達到利益最大化,黑產肯定會利用各種手段構建大量賬號來薅APP運營企業的羊毛,因為收徒的獎勵遠高于閱讀,所以賺取收徒獎勵就成了最嚴重的薅羊毛手段。前文 閱讀全文
posted @ 2019-10-12 10:19 XIAO的博客 閱讀 (255) 評論 (0) 編輯

2019年10月10日

摘要:隨著移動互聯網的發展,萬物互聯成為了可能,這種互聯所產生的數據也在爆發式地增長,而這些數據恰好可以作為分析關系的有效原料。如果說以往的智能分析專注在每一個個體上,在移動互聯網時代則除了個體,這種個體之間的關系也必然成為我們需要深入分析的很重要一部分。在一項任務中,只要有關系分析的需求,知識圖譜就“有 閱讀全文
posted @ 2019-10-10 14:17 XIAO的博客 閱讀 (319) 評論 (0) 編輯

2019年10月9日

摘要:首先我們來看一個典型的互聯網大數據平臺的架構,如下圖所示: 在這張架構圖中,大數據平臺里面向用戶的在線業務處理組件用褐色標示出來,這部分是屬于互聯網在線應用的部分,其他藍色的部分屬于大數據相關組件,使用開源大數據產品或者自己開發相關大數據組件。 你可以看到,大數據平臺由上到下,可分為三個部分:數據采 閱讀全文
posted @ 2019-10-09 16:22 XIAO的博客 閱讀 (296) 評論 (0) 編輯

2019年9月30日

摘要:今天我們來看一下淘寶、美團和滴滴的大數據平臺,一方面進一步學習大廠大數據平臺的架構,另一方面也學習大廠的工程師如何畫架構圖。通過大廠的這些架構圖,你就會發現,不但這些知名大廠的大數據平臺設計方案大同小異,架構圖的畫法也有套路可以尋覓。 淘寶大數據平臺 淘寶可能是中國互聯網業界較早搭建了自己大數據平臺 閱讀全文
posted @ 2019-09-30 11:51 XIAO的博客 閱讀 (1172) 評論 (1) 編輯

2019年9月27日

摘要:Driver spark.driver.cores driver端分配的核數,默認為1,thriftserver是啟動thriftserver服務的機器,資源充足的話可以盡量給多。 spark.driver.memory driver端分配的內存數,默認為1g,同上。 spark.driver.ma 閱讀全文
posted @ 2019-09-27 13:08 XIAO的博客 閱讀 (78) 評論 (0) 編輯

2019年9月20日

摘要:Spark 編程讀取hive,hbase, 文本等外部數據生成dataframe后,一般我們都會map遍歷get數據的每個字段,此時如果原始數據為null時,如果不進行判斷直接轉化為string,就會報空指針異常 java.lang.NullPointerException 示例代碼如下: shel 閱讀全文
posted @ 2019-09-20 18:38 XIAO的博客 閱讀 (59) 評論 (0) 編輯

2019年7月31日

摘要:上一篇文章 "知識圖譜在大數據中的應用" 我們介紹了知識圖譜的一些概念和應用場景,今天我們就來看一個具體的應用案例了解下知識圖譜的應用。用戶增長對于一個APP的生存起到了至關重要的作用,沒有持續的用戶增長,再好的APP也不會走的長遠,為了獲得更多的用戶,APP運營商往往會鼓勵老用戶拉新并給與獎勵,比 閱讀全文
posted @ 2019-07-31 10:49 XIAO的博客 閱讀 (372) 評論 (0) 編輯

2019年7月29日

摘要:隨著移動互聯網的發展,萬物互聯成為了可能,這種互聯所產生的數據也在爆發式地增長,而這些數據恰好可以作為分析關系的有效原料。如果說以往的智能分析專注在每一個個體上,在移動互聯網時代則除了個體,這種個體之間的關系也必然成為我們需要深入分析的很重要一部分。在一項任務中,只要有關系分析的需求,知識圖譜就“有 閱讀全文
posted @ 2019-07-29 10:50 XIAO的博客 閱讀 (654) 評論 (2) 編輯

導航

統計