應(yīng)該如何從數(shù)據(jù)分析師進階為數(shù)據(jù)科學家呢?很簡單,分三步:

1. 打開LinkedIn,登錄。
2. 點擊“編輯我的個人資料”。
3. 找到“數(shù)據(jù)分析師”,并用“數(shù)據(jù)科學家”替代。

完成!非常容易吧。

不幸的是,現(xiàn)實并不那么簡單。

掌握必備的技能,從或多或少的數(shù)據(jù)中得出分析見解,這些都并非易事。

關(guān)于如何進入數(shù)據(jù)科學領(lǐng)域的文章有很多,但是關(guān)于從數(shù)據(jù)分析師轉(zhuǎn)化為數(shù)據(jù)科學家的文章卻很少。

在此之前,我們有必要分別給出這兩個職業(yè)的定義。

數(shù)據(jù)分析師
對結(jié)構(gòu)化數(shù)據(jù)進行收集、處理并應(yīng)用統(tǒng)計算法,從而產(chǎn)生效益和改進決策。

數(shù)據(jù)科學家
有類似的目標,但需要更強的能力,從而能處理大量的非結(jié)構(gòu)化數(shù)據(jù),很多情況下需要實時處理。

數(shù)據(jù)科學家需要發(fā)現(xiàn)重要信息,能夠?qū)Σ煌瑏碓吹臄?shù)據(jù)進行數(shù)據(jù)清理、處理并運行高級算法。同時,需要很強的溝通描述能力,以及可視化技能。

我經(jīng)常會遇到許多優(yōu)秀的數(shù)據(jù)分析師,他們非常想進階為數(shù)據(jù)科學家,但苦于沒有機會,或不知道該如何開始。這也是促使我寫本文的原因之一。

為什么要成為數(shù)據(jù)科學家?

原因有很多,主要分為以下幾點:

* 影響力
可能帶來巨大的商業(yè)利益。更有機會得到領(lǐng)導(dǎo)層青睞,能夠更好地提升發(fā)展方向。

* 精通
在快速發(fā)展的數(shù)據(jù)科學領(lǐng)域中,有許多問題需要被解決。例如,構(gòu)建圖像識別器或文本分類器識別社交媒體上的發(fā)布的違規(guī)言論。

* 相關(guān)性
有人預(yù)測人工智能最終將取代人類的工作。為了保證自己工作,應(yīng)該不斷創(chuàng)新,而不是等待被自動化取代。

* 加薪與發(fā)展機會
薪水和發(fā)展機會會得到提升,優(yōu)秀的數(shù)據(jù)科學家很少,需求量很大。
數(shù)據(jù)科學——需要學習很多技能
機器人取代人類工作

如何成為數(shù)據(jù)科學家?
大多數(shù)數(shù)據(jù)分析師都有很好的基礎(chǔ),但是應(yīng)用先進的方法處理大型數(shù)據(jù)集需要多年的學習和經(jīng)驗積累。

那么,數(shù)據(jù)科學家需要哪些技能?

這個問題可能沒有正確的答案,復(fù)雜的數(shù)據(jù)科學項目涉及到許多專業(yè)技能。在投入數(shù)據(jù)科學領(lǐng)域的最初幾年,最好掌握以下技能:

數(shù)據(jù)科學語言:Python / R

關(guān)系數(shù)據(jù)庫:MySQL、Postgress

非關(guān)系數(shù)據(jù)庫:MongoDB

機器學習模型:回歸、提升樹支持向量機(Boosted Trees SVM), 神經(jīng)網(wǎng)絡(luò)

繪圖:Neo4J、GraphX

分布式計算:Hadoop、Spark

云:GCP / AWS / Azure

API 交互 :OAuth、Rest

數(shù)據(jù)可視化和網(wǎng)頁應(yīng)用:D3、RShiny

專業(yè)領(lǐng)域:自然語言處理、OCR和計算機視覺


數(shù)據(jù)分析師的自我修養(yǎng)丨如何進階為數(shù)據(jù)科學家



提升樹模型在數(shù)據(jù)科學競賽中很受歡迎


數(shù)據(jù)分析師的自我修養(yǎng)丨如何進階為數(shù)據(jù)科學家



RShiny儀表板是不錯的探索數(shù)據(jù)交互方式。

掌握這些技能需要大量的時間(可能比獲得專業(yè)學位更久)。但每個人都不能滿足現(xiàn)狀,必須不斷學習。如果我們每天能進步一點,那么在未來某天就能達到自己的預(yù)期目標。

決心和堅韌有時比聰明才智能有用。

行動計劃

首先我們需要一些基本技能:

1. 從正確的理念開始

十年前,等待數(shù)據(jù)課程的資料可能需要數(shù)周的時間,但那些日子已經(jīng)一去不回。如今到處都有很棒的學習資源,我們需要不斷學習,不斷提升技能。

2. 學習一門語言并培養(yǎng)數(shù)學技能

可以選擇學習Python或R語言。Coursera和Udemy等網(wǎng)站上有大量免費課程。吳恩達的機器學習課程和斯坦福大學的神經(jīng)網(wǎng)絡(luò)課程都非常棒,而且很有趣。

許多Python用戶喜歡使用Anaconda和Jupyter Notebook。許多R用戶喜歡用R Studio。

3. 解決實際問題

嘗試解決工作中的實際問題,與商業(yè)專家和數(shù)據(jù)工程師一起工作。

4. 參加Kaggle比賽

Kaggle任務(wù)有一定范圍,而且數(shù)據(jù)比較干凈,但能很好的提高建立模型技能,同時能與幾千人一起解決挑戰(zhàn)性的數(shù)據(jù)問題。不要擔心排名,從零開始。

5. 了解行業(yè)大神的動向

可以關(guān)注Geoffrey Hinton、吳恩達、Yann LeCun、Rachel Thomas、Jeremy Howard等人。

6. 使用高效的工作方式

積累一定基礎(chǔ)后,使用GitHub等版本控制系統(tǒng)改進自己的工作流程,以便進行部署和代碼維護,還可以使用Docker。

7. 有效地溝通

我們需要展現(xiàn)自己的工作成果,在跟領(lǐng)導(dǎo)層匯報工作時,需要有效地利用演示文稿等中。

良好的工作環(huán)境

即使你掌握了許多技能,但所在的公司沒有合適的工具和環(huán)境,那么開展工作也是很困難的。工作環(huán)境中總會存在些不可控的因素,因此我們要考慮哪些因素可以改善和利用。

1. 轉(zhuǎn)到合適的團隊

大多數(shù)大中型企業(yè)至少有一個小型數(shù)據(jù)科學團隊,因此要選擇合適的企業(yè)。

2. 與合適的人合作

如果換工作不太現(xiàn)實,那么設(shè)法與出色的數(shù)據(jù)科學家合作。例如,發(fā)現(xiàn)相關(guān)問題,與專業(yè)人員合作解決,而不是委托他們解決。

3. 適當?shù)墓ぞ吆铜h(huán)境

企業(yè)有時不太明確該如何數(shù)據(jù)科學工具進行投入。有些企業(yè)制定計劃和投入過程比較繁瑣,因此只會優(yōu)先考慮收益明顯的商業(yè)案例。抓住機會,倡導(dǎo)對分析環(huán)境、工具、相關(guān)培訓(xùn)的投入。

4. 制定明確的用例

了解公司的業(yè)務(wù)以及能如何應(yīng)用數(shù)據(jù)科學,將這兩者聯(lián)系起來,制定明確的用例。

5. 與更優(yōu)秀的人合作

努力成為優(yōu)秀團隊中的一員,你不僅會收獲地更多,還能學到很多自己為掌握的知識。

結(jié)語

現(xiàn)在就是開始的最佳機會,立即開始學習,盡快解決實際問題。在學習的過程中,你會不斷提升自己,最終讓自己大吃一驚,要珍惜每個機會。

應(yīng)該如何從數(shù)據(jù)分析師進階為數(shù)據(jù)科學家呢?很簡單,分三步:

1. 打開LinkedIn,登錄。
2. 點擊“編輯我的個人資料”。
3. 找到“數(shù)據(jù)分析師”,并用“數(shù)據(jù)科學家”替代。

完成!非常容易吧。

不幸的是,現(xiàn)實并不那么簡單。

掌握必備的技能,從或多或少的數(shù)據(jù)中得出分析見解,這些都并非易事。

關(guān)于如何進入數(shù)據(jù)科學領(lǐng)域的文章有很多,但是關(guān)于從數(shù)據(jù)分析師轉(zhuǎn)化為數(shù)據(jù)科學家的文章卻很少。

在此之前,我們有必要分別給出這兩個職業(yè)的定義。

數(shù)據(jù)分析師
對結(jié)構(gòu)化數(shù)據(jù)進行收集、處理并應(yīng)用統(tǒng)計算法,從而產(chǎn)生效益和改進決策。

數(shù)據(jù)科學家
有類似的目標,但需要更強的能力,從而能處理大量的非結(jié)構(gòu)化數(shù)據(jù),很多情況下需要實時處理。

數(shù)據(jù)科學家需要發(fā)現(xiàn)重要信息,能夠?qū)Σ煌瑏碓吹臄?shù)據(jù)進行數(shù)據(jù)清理、處理并運行高級算法。同時,需要很強的溝通描述能力,以及可視化技能。

我經(jīng)常會遇到許多優(yōu)秀的數(shù)據(jù)分析師,他們非常想進階為數(shù)據(jù)科學家,但苦于沒有機會,或不知道該如何開始。這也是促使我寫本文的原因之一。

為什么要成為數(shù)據(jù)科學家?

原因有很多,主要分為以下幾點:

* 影響力
可能帶來巨大的商業(yè)利益。更有機會得到領(lǐng)導(dǎo)層青睞,能夠更好地提升發(fā)展方向。

* 精通
在快速發(fā)展的數(shù)據(jù)科學領(lǐng)域中,有許多問題需要被解決。例如,構(gòu)建圖像識別器或文本分類器識別社交媒體上的發(fā)布的違規(guī)言論。

* 相關(guān)性
有人預(yù)測人工智能最終將取代人類的工作。為了保證自己工作,應(yīng)該不斷創(chuàng)新,而不是等待被自動化取代。

* 加薪與發(fā)展機會
薪水和發(fā)展機會會得到提升,優(yōu)秀的數(shù)據(jù)科學家很少,需求量很大。
數(shù)據(jù)科學——需要學習很多技能
機器人取代人類工作

如何成為數(shù)據(jù)科學家?
大多數(shù)數(shù)據(jù)分析師都有很好的基礎(chǔ),但是應(yīng)用先進的方法處理大型數(shù)據(jù)集需要多年的學習和經(jīng)驗積累。

那么,數(shù)據(jù)科學家需要哪些技能?

這個問題可能沒有正確的答案,復(fù)雜的數(shù)據(jù)科學項目涉及到許多專業(yè)技能。在投入數(shù)據(jù)科學領(lǐng)域的最初幾年,最好掌握以下技能:

數(shù)據(jù)科學語言:Python / R

關(guān)系數(shù)據(jù)庫:MySQL、Postgress

非關(guān)系數(shù)據(jù)庫:MongoDB

機器學習模型:回歸、提升樹支持向量機(Boosted Trees SVM), 神經(jīng)網(wǎng)絡(luò)

繪圖:Neo4J、GraphX

分布式計算:Hadoop、Spark

云:GCP / AWS / Azure

API 交互 :OAuth、Rest

數(shù)據(jù)可視化和網(wǎng)頁應(yīng)用:D3、RShiny

專業(yè)領(lǐng)域:自然語言處理、OCR和計算機視覺

提升樹模型在數(shù)據(jù)科學競賽中很受歡迎

應(yīng)該如何從數(shù)據(jù)分析師進階為數(shù)據(jù)科學家呢?很簡單,分三步:

1. 打開LinkedIn,登錄。
2. 點擊“編輯我的個人資料”。
3. 找到“數(shù)據(jù)分析師”,并用“數(shù)據(jù)科學家”替代。

完成!非常容易吧。

不幸的是,現(xiàn)實并不那么簡單。

掌握必備的技能,從或多或少的數(shù)據(jù)中得出分析見解,這些都并非易事。

關(guān)于如何進入數(shù)據(jù)科學領(lǐng)域的文章有很多,但是關(guān)于從數(shù)據(jù)分析師轉(zhuǎn)化為數(shù)據(jù)科學家的文章卻很少。

在此之前,我們有必要分別給出這兩個職業(yè)的定義。

數(shù)據(jù)分析師
對結(jié)構(gòu)化數(shù)據(jù)進行收集、處理并應(yīng)用統(tǒng)計算法,從而產(chǎn)生效益和改進決策。

數(shù)據(jù)科學家
有類似的目標,但需要更強的能力,從而能處理大量的非結(jié)構(gòu)化數(shù)據(jù),很多情況下需要實時處理。

數(shù)據(jù)科學家需要發(fā)現(xiàn)重要信息,能夠?qū)Σ煌瑏碓吹臄?shù)據(jù)進行數(shù)據(jù)清理、處理并運行高級算法。同時,需要很強的溝通描述能力,以及可視化技能。

我經(jīng)常會遇到許多優(yōu)秀的數(shù)據(jù)分析師,他們非常想進階為數(shù)據(jù)科學家,但苦于沒有機會,或不知道該如何開始。這也是促使我寫本文的原因之一。

為什么要成為數(shù)據(jù)科學家?

原因有很多,主要分為以下幾點:

* 影響力
可能帶來巨大的商業(yè)利益。更有機會得到領(lǐng)導(dǎo)層青睞,能夠更好地提升發(fā)展方向。

* 精通
在快速發(fā)展的數(shù)據(jù)科學領(lǐng)域中,有許多問題需要被解決。例如,構(gòu)建圖像識別器或文本分類器識別社交媒體上的發(fā)布的違規(guī)言論。

* 相關(guān)性
有人預(yù)測人工智能最終將取代人類的工作。為了保證自己工作,應(yīng)該不斷創(chuàng)新,而不是等待被自動化取代。

* 加薪與發(fā)展機會
薪水和發(fā)展機會會得到提升,優(yōu)秀的數(shù)據(jù)科學家很少,需求量很大。
數(shù)據(jù)科學——需要學習很多技能
機器人取代人類工作

如何成為數(shù)據(jù)科學家?
大多數(shù)數(shù)據(jù)分析師都有很好的基礎(chǔ),但是應(yīng)用先進的方法處理大型數(shù)據(jù)集需要多年的學習和經(jīng)驗積累。

那么,數(shù)據(jù)科學家需要哪些技能?

這個問題可能沒有正確的答案,復(fù)雜的數(shù)據(jù)科學項目涉及到許多專業(yè)技能。在投入數(shù)據(jù)科學領(lǐng)域的最初幾年,最好掌握以下技能:

數(shù)據(jù)科學語言:Python / R

關(guān)系數(shù)據(jù)庫:MySQL、Postgress

非關(guān)系數(shù)據(jù)庫:MongoDB

機器學習模型:回歸、提升樹支持向量機(Boosted Trees SVM), 神經(jīng)網(wǎng)絡(luò)

繪圖:Neo4J、GraphX

分布式計算:Hadoop、Spark

云:GCP / AWS / Azure

API 交互 :OAuth、Rest

數(shù)據(jù)可視化和網(wǎng)頁應(yīng)用:D3、RShiny

專業(yè)領(lǐng)域:自然語言處理、OCR和計算機視覺


數(shù)據(jù)分析師的自我修養(yǎng)丨如何進階為數(shù)據(jù)科學家



提升樹模型在數(shù)據(jù)科學競賽中很受歡迎


數(shù)據(jù)分析師的自我修養(yǎng)丨如何進階為數(shù)據(jù)科學家



RShiny儀表板是不錯的探索數(shù)據(jù)交互方式。

掌握這些技能需要大量的時間(可能比獲得專業(yè)學位更久)。但每個人都不能滿足現(xiàn)狀,必須不斷學習。如果我們每天能進步一點,那么在未來某天就能達到自己的預(yù)期目標。

決心和堅韌有時比聰明才智能有用。

行動計劃

首先我們需要一些基本技能:

1. 從正確的理念開始

十年前,等待數(shù)據(jù)課程的資料可能需要數(shù)周的時間,但那些日子已經(jīng)一去不回。如今到處都有很棒的學習資源,我們需要不斷學習,不斷提升技能。

2. 學習一門語言并培養(yǎng)數(shù)學技能

可以選擇學習Python或R語言。Coursera和Udemy等網(wǎng)站上有大量免費課程。吳恩達的機器學習課程和斯坦福大學的神經(jīng)網(wǎng)絡(luò)課程都非常棒,而且很有趣。

許多Python用戶喜歡使用Anaconda和Jupyter Notebook。許多R用戶喜歡用R Studio。

3. 解決實際問題

嘗試解決工作中的實際問題,與商業(yè)專家和數(shù)據(jù)工程師一起工作。

4. 參加Kaggle比賽

Kaggle任務(wù)有一定范圍,而且數(shù)據(jù)比較干凈,但能很好的提高建立模型技能,同時能與幾千人一起解決挑戰(zhàn)性的數(shù)據(jù)問題。不要擔心排名,從零開始。

5. 了解行業(yè)大神的動向

可以關(guān)注Geoffrey Hinton、吳恩達、Yann LeCun、Rachel Thomas、Jeremy Howard等人。

6. 使用高效的工作方式

積累一定基礎(chǔ)后,使用GitHub等版本控制系統(tǒng)改進自己的工作流程,以便進行部署和代碼維護,還可以使用Docker。

7. 有效地溝通

我們需要展現(xiàn)自己的工作成果,在跟領(lǐng)導(dǎo)層匯報工作時,需要有效地利用演示文稿等中。

良好的工作環(huán)境

即使你掌握了許多技能,但所在的公司沒有合適的工具和環(huán)境,那么開展工作也是很困難的。工作環(huán)境中總會存在些不可控的因素,因此我們要考慮哪些因素可以改善和利用。

1. 轉(zhuǎn)到合適的團隊

大多數(shù)大中型企業(yè)至少有一個小型數(shù)據(jù)科學團隊,因此要選擇合適的企業(yè)。

2. 與合適的人合作

如果換工作不太現(xiàn)實,那么設(shè)法與出色的數(shù)據(jù)科學家合作。例如,發(fā)現(xiàn)相關(guān)問題,與專業(yè)人員合作解決,而不是委托他們解決。

3. 適當?shù)墓ぞ吆铜h(huán)境

企業(yè)有時不太明確該如何數(shù)據(jù)科學工具進行投入。有些企業(yè)制定計劃和投入過程比較繁瑣,因此只會優(yōu)先考慮收益明顯的商業(yè)案例。抓住機會,倡導(dǎo)對分析環(huán)境、工具、相關(guān)培訓(xùn)的投入。

4. 制定明確的用例

了解公司的業(yè)務(wù)以及能如何應(yīng)用數(shù)據(jù)科學,將這兩者聯(lián)系起來,制定明確的用例。

5. 與更優(yōu)秀的人合作

努力成為優(yōu)秀團隊中的一員,你不僅會收獲地更多,還能學到很多自己為掌握的知識。

結(jié)語

現(xiàn)在就是開始的最佳機會,立即開始學習,盡快解決實際問題。在學習的過程中,你會不斷提升自己,最終讓自己大吃一驚,要珍惜每個機會。

應(yīng)該如何從數(shù)據(jù)分析師進階為數(shù)據(jù)科學家呢?很簡單,分三步:

1. 打開LinkedIn,登錄。
2. 點擊“編輯我的個人資料”。
3. 找到“數(shù)據(jù)分析師”,并用“數(shù)據(jù)科學家”替代。

完成!非常容易吧。

不幸的是,現(xiàn)實并不那么簡單。

掌握必備的技能,從或多或少的數(shù)據(jù)中得出分析見解,這些都并非易事。

關(guān)于如何進入數(shù)據(jù)科學領(lǐng)域的文章有很多,但是關(guān)于從數(shù)據(jù)分析師轉(zhuǎn)化為數(shù)據(jù)科學家的文章卻很少。

在此之前,我們有必要分別給出這兩個職業(yè)的定義。

數(shù)據(jù)分析師
對結(jié)構(gòu)化數(shù)據(jù)進行收集、處理并應(yīng)用統(tǒng)計算法,從而產(chǎn)生效益和改進決策。

數(shù)據(jù)科學家
有類似的目標,但需要更強的能力,從而能處理大量的非結(jié)構(gòu)化數(shù)據(jù),很多情況下需要實時處理。

數(shù)據(jù)科學家需要發(fā)現(xiàn)重要信息,能夠?qū)Σ煌瑏碓吹臄?shù)據(jù)進行數(shù)據(jù)清理、處理并運行高級算法。同時,需要很強的溝通描述能力,以及可視化技能。

我經(jīng)常會遇到許多優(yōu)秀的數(shù)據(jù)分析師,他們非常想進階為數(shù)據(jù)科學家,但苦于沒有機會,或不知道該如何開始。這也是促使我寫本文的原因之一。

為什么要成為數(shù)據(jù)科學家?

原因有很多,主要分為以下幾點:

* 影響力
可能帶來巨大的商業(yè)利益。更有機會得到領(lǐng)導(dǎo)層青睞,能夠更好地提升發(fā)展方向。

* 精通
在快速發(fā)展的數(shù)據(jù)科學領(lǐng)域中,有許多問題需要被解決。例如,構(gòu)建圖像識別器或文本分類器識別社交媒體上的發(fā)布的違規(guī)言論。

* 相關(guān)性
有人預(yù)測人工智能最終將取代人類的工作。為了保證自己工作,應(yīng)該不斷創(chuàng)新,而不是等待被自動化取代。

* 加薪與發(fā)展機會
薪水和發(fā)展機會會得到提升,優(yōu)秀的數(shù)據(jù)科學家很少,需求量很大。
數(shù)據(jù)科學——需要學習很多技能
機器人取代人類工作

如何成為數(shù)據(jù)科學家?
大多數(shù)數(shù)據(jù)分析師都有很好的基礎(chǔ),但是應(yīng)用先進的方法處理大型數(shù)據(jù)集需要多年的學習和經(jīng)驗積累。

那么,數(shù)據(jù)科學家需要哪些技能?

這個問題可能沒有正確的答案,復(fù)雜的數(shù)據(jù)科學項目涉及到許多專業(yè)技能。在投入數(shù)據(jù)科學領(lǐng)域的最初幾年,最好掌握以下技能:

數(shù)據(jù)科學語言:Python / R

關(guān)系數(shù)據(jù)庫:MySQL、Postgress

非關(guān)系數(shù)據(jù)庫:MongoDB

機器學習模型:回歸、提升樹支持向量機(Boosted Trees SVM), 神經(jīng)網(wǎng)絡(luò)

繪圖:Neo4J、GraphX

分布式計算:Hadoop、Spark

云:GCP / AWS / Azure

API 交互 :OAuth、Rest

數(shù)據(jù)可視化和網(wǎng)頁應(yīng)用:D3、RShiny

專業(yè)領(lǐng)域:自然語言處理、OCR和計算機視覺

提升樹模型在數(shù)據(jù)科學競賽中很受歡迎


應(yīng)該如何從數(shù)據(jù)分析師進階為數(shù)據(jù)科學家呢?很簡單,分三步:

1. 打開LinkedIn,登錄。
2. 點擊“編輯我的個人資料”。
3. 找到“數(shù)據(jù)分析師”,并用“數(shù)據(jù)科學家”替代。

完成!非常容易吧。

不幸的是,現(xiàn)實并不那么簡單。

掌握必備的技能,從或多或少的數(shù)據(jù)中得出分析見解,這些都并非易事。

關(guān)于如何進入數(shù)據(jù)科學領(lǐng)域的文章有很多,但是關(guān)于從數(shù)據(jù)分析師轉(zhuǎn)化為數(shù)據(jù)科學家的文章卻很少。

在此之前,我們有必要分別給出這兩個職業(yè)的定義。

數(shù)據(jù)分析師
對結(jié)構(gòu)化數(shù)據(jù)進行收集、處理并應(yīng)用統(tǒng)計算法,從而產(chǎn)生效益和改進決策。

數(shù)據(jù)科學家
有類似的目標,但需要更強的能力,從而能處理大量的非結(jié)構(gòu)化數(shù)據(jù),很多情況下需要實時處理。

數(shù)據(jù)科學家需要發(fā)現(xiàn)重要信息,能夠?qū)Σ煌瑏碓吹臄?shù)據(jù)進行數(shù)據(jù)清理、處理并運行高級算法。同時,需要很強的溝通描述能力,以及可視化技能。

我經(jīng)常會遇到許多優(yōu)秀的數(shù)據(jù)分析師,他們非常想進階為數(shù)據(jù)科學家,但苦于沒有機會,或不知道該如何開始。這也是促使我寫本文的原因之一。

為什么要成為數(shù)據(jù)科學家?

原因有很多,主要分為以下幾點:

* 影響力
可能帶來巨大的商業(yè)利益。更有機會得到領(lǐng)導(dǎo)層青睞,能夠更好地提升發(fā)展方向。

* 精通
在快速發(fā)展的數(shù)據(jù)科學領(lǐng)域中,有許多問題需要被解決。例如,構(gòu)建圖像識別器或文本分類器識別社交媒體上的發(fā)布的違規(guī)言論。

* 相關(guān)性
有人預(yù)測人工智能最終將取代人類的工作。為了保證自己工作,應(yīng)該不斷創(chuàng)新,而不是等待被自動化取代。

* 加薪與發(fā)展機會
薪水和發(fā)展機會會得到提升,優(yōu)秀的數(shù)據(jù)科學家很少,需求量很大。
數(shù)據(jù)科學——需要學習很多技能
機器人取代人類工作

如何成為數(shù)據(jù)科學家?
大多數(shù)數(shù)據(jù)分析師都有很好的基礎(chǔ),但是應(yīng)用先進的方法處理大型數(shù)據(jù)集需要多年的學習和經(jīng)驗積累。

那么,數(shù)據(jù)科學家需要哪些技能?

這個問題可能沒有正確的答案,復(fù)雜的數(shù)據(jù)科學項目涉及到許多專業(yè)技能。在投入數(shù)據(jù)科學領(lǐng)域的最初幾年,最好掌握以下技能:

數(shù)據(jù)科學語言:Python / R

關(guān)系數(shù)據(jù)庫:MySQL、Postgress

非關(guān)系數(shù)據(jù)庫:MongoDB

機器學習模型:回歸、提升樹支持向量機(Boosted Trees SVM), 神經(jīng)網(wǎng)絡(luò)

繪圖:Neo4J、GraphX

分布式計算:Hadoop、Spark

云:GCP / AWS / Azure

API 交互 :OAuth、Rest

數(shù)據(jù)可視化和網(wǎng)頁應(yīng)用:D3、RShiny

專業(yè)領(lǐng)域:自然語言處理、OCR和計算機視覺


數(shù)據(jù)分析師的自我修養(yǎng)丨如何進階為數(shù)據(jù)科學家



提升樹模型在數(shù)據(jù)科學競賽中很受歡迎


數(shù)據(jù)分析師的自我修養(yǎng)丨如何進階為數(shù)據(jù)科學家



RShiny儀表板是不錯的探索數(shù)據(jù)交互方式。

掌握這些技能需要大量的時間(可能比獲得專業(yè)學位更久)。但每個人都不能滿足現(xiàn)狀,必須不斷學習。如果我們每天能進步一點,那么在未來某天就能達到自己的預(yù)期目標。

決心和堅韌有時比聰明才智能有用。

行動計劃

首先我們需要一些基本技能:

1. 從正確的理念開始

十年前,等待數(shù)據(jù)課程的資料可能需要數(shù)周的時間,但那些日子已經(jīng)一去不回。如今到處都有很棒的學習資源,我們需要不斷學習,不斷提升技能。

2. 學習一門語言并培養(yǎng)數(shù)學技能

可以選擇學習Python或R語言。Coursera和Udemy等網(wǎng)站上有大量免費課程。吳恩達的機器學習課程和斯坦福大學的神經(jīng)網(wǎng)絡(luò)課程都非常棒,而且很有趣。

許多Python用戶喜歡使用Anaconda和Jupyter Notebook。許多R用戶喜歡用R Studio。

3. 解決實際問題

嘗試解決工作中的實際問題,與商業(yè)專家和數(shù)據(jù)工程師一起工作。

4. 參加Kaggle比賽

Kaggle任務(wù)有一定范圍,而且數(shù)據(jù)比較干凈,但能很好的提高建立模型技能,同時能與幾千人一起解決挑戰(zhàn)性的數(shù)據(jù)問題。不要擔心排名,從零開始。

5. 了解行業(yè)大神的動向

可以關(guān)注Geoffrey Hinton、吳恩達、Yann LeCun、Rachel Thomas、Jeremy Howard等人。

6. 使用高效的工作方式

積累一定基礎(chǔ)后,使用GitHub等版本控制系統(tǒng)改進自己的工作流程,以便進行部署和代碼維護,還可以使用Docker。

7. 有效地溝通

我們需要展現(xiàn)自己的工作成果,在跟領(lǐng)導(dǎo)層匯報工作時,需要有效地利用演示文稿等中。

良好的工作環(huán)境

即使你掌握了許多技能,但所在的公司沒有合適的工具和環(huán)境,那么開展工作也是很困難的。工作環(huán)境中總會存在些不可控的因素,因此我們要考慮哪些因素可以改善和利用。

1. 轉(zhuǎn)到合適的團隊

大多數(shù)大中型企業(yè)至少有一個小型數(shù)據(jù)科學團隊,因此要選擇合適的企業(yè)。

2. 與合適的人合作

如果換工作不太現(xiàn)實,那么設(shè)法與出色的數(shù)據(jù)科學家合作。例如,發(fā)現(xiàn)相關(guān)問題,與專業(yè)人員合作解決,而不是委托他們解決。

3. 適當?shù)墓ぞ吆铜h(huán)境

企業(yè)有時不太明確該如何數(shù)據(jù)科學工具進行投入。有些企業(yè)制定計劃和投入過程比較繁瑣,因此只會優(yōu)先考慮收益明顯的商業(yè)案例。抓住機會,倡導(dǎo)對分析環(huán)境、工具、相關(guān)培訓(xùn)的投入。

4. 制定明確的用例

了解公司的業(yè)務(wù)以及能如何應(yīng)用數(shù)據(jù)科學,將這兩者聯(lián)系起來,制定明確的用例。

5. 與更優(yōu)秀的人合作

努力成為優(yōu)秀團隊中的一員,你不僅會收獲地更多,還能學到很多自己為掌握的知識。

結(jié)語

現(xiàn)在就是開始的最佳機會,立即開始學習,盡快解決實際問題。在學習的過程中,你會不斷提升自己,最終讓自己大吃一驚,要珍惜每個機會。

應(yīng)該如何從數(shù)據(jù)分析師進階為數(shù)據(jù)科學家呢?很簡單,分三步:

1. 打開LinkedIn,登錄。
2. 點擊“編輯我的個人資料”。
3. 找到“數(shù)據(jù)分析師”,并用“數(shù)據(jù)科學家”替代。

完成!非常容易吧。

不幸的是,現(xiàn)實并不那么簡單。

掌握必備的技能,從或多或少的數(shù)據(jù)中得出分析見解,這些都并非易事。

關(guān)于如何進入數(shù)據(jù)科學領(lǐng)域的文章有很多,但是關(guān)于從數(shù)據(jù)分析師轉(zhuǎn)化為數(shù)據(jù)科學家的文章卻很少。

在此之前,我們有必要分別給出這兩個職業(yè)的定義。

數(shù)據(jù)分析師
對結(jié)構(gòu)化數(shù)據(jù)進行收集、處理并應(yīng)用統(tǒng)計算法,從而產(chǎn)生效益和改進決策。

數(shù)據(jù)科學家
有類似的目標,但需要更強的能力,從而能處理大量的非結(jié)構(gòu)化數(shù)據(jù),很多情況下需要實時處理。

數(shù)據(jù)科學家需要發(fā)現(xiàn)重要信息,能夠?qū)Σ煌瑏碓吹臄?shù)據(jù)進行數(shù)據(jù)清理、處理并運行高級算法。同時,需要很強的溝通描述能力,以及可視化技能。

我經(jīng)常會遇到許多優(yōu)秀的數(shù)據(jù)分析師,他們非常想進階為數(shù)據(jù)科學家,但苦于沒有機會,或不知道該如何開始。這也是促使我寫本文的原因之一。

為什么要成為數(shù)據(jù)科學家?

原因有很多,主要分為以下幾點:

* 影響力
可能帶來巨大的商業(yè)利益。更有機會得到領(lǐng)導(dǎo)層青睞,能夠更好地提升發(fā)展方向。

* 精通
在快速發(fā)展的數(shù)據(jù)科學領(lǐng)域中,有許多問題需要被解決。例如,構(gòu)建圖像識別器或文本分類器識別社交媒體上的發(fā)布的違規(guī)言論。

* 相關(guān)性
有人預(yù)測人工智能最終將取代人類的工作。為了保證自己工作,應(yīng)該不斷創(chuàng)新,而不是等待被自動化取代。

* 加薪與發(fā)展機會
薪水和發(fā)展機會會得到提升,優(yōu)秀的數(shù)據(jù)科學家很少,需求量很大。
數(shù)據(jù)科學——需要學習很多技能
機器人取代人類工作

如何成為數(shù)據(jù)科學家?
大多數(shù)數(shù)據(jù)分析師都有很好的基礎(chǔ),但是應(yīng)用先進的方法處理大型數(shù)據(jù)集需要多年的學習和經(jīng)驗積累。

那么,數(shù)據(jù)科學家需要哪些技能?

這個問題可能沒有正確的答案,復(fù)雜的數(shù)據(jù)科學項目涉及到許多專業(yè)技能。在投入數(shù)據(jù)科學領(lǐng)域的最初幾年,最好掌握以下技能:

數(shù)據(jù)科學語言:Python / R

關(guān)系數(shù)據(jù)庫:MySQL、Postgress

非關(guān)系數(shù)據(jù)庫:MongoDB

機器學習模型:回歸、提升樹支持向量機(Boosted Trees SVM), 神經(jīng)網(wǎng)絡(luò)

繪圖:Neo4J、GraphX

分布式計算:Hadoop、Spark

云:GCP / AWS / Azure

API 交互 :OAuth、Rest

數(shù)據(jù)可視化和網(wǎng)頁應(yīng)用:D3、RShiny

專業(yè)領(lǐng)域:自然語言處理、OCR和計算機視覺

提升樹模型在數(shù)據(jù)科學競賽中很受歡迎


111222333