中文字幕综合一区,伊人av网,欧美中日韩在线,亚洲国产香蕉视频,黄视频在线免费,天天操天天爱天天爽,狠狠躁天天躁

軟題庫 培訓課程
當前位置:信管網(wǎng) >> >> 文章內(nèi)容
微軟亞洲研究院鄭宇:人工智能和深度學習,怎么管好大數(shù)據(jù)下的大城市?
來源:源碼資本 2017年05月04日 【所有評論 分享到微信

AI和大數(shù)據(jù)在爭分奪秒深入到商業(yè)和生活中。未來每一家公司都可能是一家大數(shù)據(jù)公司,一家AI人工智能公司,正如現(xiàn)在每一家公司都是互聯(lián)網(wǎng)公司一樣。

了解人工智能在城市管理和商業(yè)領(lǐng)域的應用,將有助于每個創(chuàng)業(yè)者在實踐中為自己的產(chǎn)品和商業(yè)模式賦能。

微軟亞洲研究院“城市計算”領(lǐng)域負責人鄭宇博士在源碼資本2017年碼會上,分享了人工智能在城市計算領(lǐng)域的進展。

微軟亞洲研究院鄭宇:人工智能和深度學習,怎么管好大數(shù)據(jù)下的大城市?

鄭宇博士

微軟亞洲研究院資深研究員、“城市計算”領(lǐng)域負責人,ACM數(shù)據(jù)挖掘中國分會(KDDChina)秘書長、上海交通大學講座教授、香港科技大學客座教授、人工智能國際權(quán)威期刊(SCI一區(qū)刊物)ACMTIST主編。他主持開發(fā)了多個城市大數(shù)據(jù)系統(tǒng),其中UrbanAir首次利用大數(shù)據(jù)來監(jiān)測和預報細粒度空氣質(zhì)量,該服務(wù)覆蓋了中國的300多個城市,并被中國環(huán)境保護部采用。他主持了城市大數(shù)據(jù)平臺的設(shè)計和實施,并成功在中國大數(shù)據(jù)示范基地貴陽市部署。2013年被MIT科技評論評為“全球杰出青年創(chuàng)新者”(TR35),并作為現(xiàn)代創(chuàng)新者代表登上了美國《時代》周刊。2014年,由于他主導的城市計算具有巨大的商業(yè)前景和改變行業(yè)格局的潛力,他被《財富》評選為中國40位40歲以下商界精英。2016年被評為美國計算機學會杰出科學家(ACMDistinguishedScientist)。

以下是鄭宇博士在2017年碼會上的演講原文:

非常高興有機會能夠跟大家分享我們在城市計算(UrbanComputing)領(lǐng)域的工作。大家平時聽到很多人工智能用于語音、圖象、文本的場景。怎么樣用人工智能和大數(shù)據(jù)技術(shù)改變我們的生活,我圍繞這個主題探討一下,人工智能在城市領(lǐng)域的進展。

做好人工智能在城市領(lǐng)域的應用需要四個方面的技能:

1、理解城市文化本身,數(shù)據(jù)科學家純粹的理論無法代替行業(yè)知識;

2、理解數(shù)據(jù)本身,不僅僅要了解數(shù)據(jù)的表征,也要了解數(shù)據(jù)背后蘊含了什么樣的知識;

3、掌握數(shù)據(jù)科學的模型,包括數(shù)據(jù)管理,數(shù)據(jù)挖掘,機器學習,還有可視化;

4、懂得如何利用云平臺,把算法高效部署在平臺上解決問題。

在城市領(lǐng)域,以上四點也有應用上的不同之處:

可以想象到城市里面數(shù)據(jù)特別多,鏈家的、搜房的,從地理信息到人流量,好像千差萬別上百種、上千種的數(shù)據(jù)。實際上按照數(shù)據(jù)的結(jié)構(gòu)來分的話有兩種數(shù)據(jù),一種點的數(shù)據(jù),一種網(wǎng)的數(shù)據(jù)。按照數(shù)據(jù)關(guān)聯(lián)的時空屬性來分,可以分為三類。所以總共有六種數(shù)據(jù)。這六種中最為復雜的就是軌跡數(shù)據(jù),因為物體的位置和在每個位置上的屬性都在不斷的隨著時間改變,而且點和點之間存在著關(guān)聯(lián)。像摩拜和滴滴的車的軌跡都屬于這種類型。

我不希望來了一千種數(shù)據(jù)要建一千種模型和算法,使得系統(tǒng)變得非常復雜。我們希望只要定義好這個模型之后,不管你來什么數(shù)據(jù),可以高效利用平臺,利用對應的分析和挖掘算法去處理。

城市領(lǐng)域有大規(guī)模的數(shù)據(jù),多元、多模,變化非??欤@么復雜的數(shù)據(jù)怎樣快速更新,以及大規(guī)模的應用?必須要有一個平臺。大家自然會想到,我們就用云平臺把它連接到一起。可惜的是,不管哪家商用云平臺都無法做好時空大數(shù)據(jù),對城市大數(shù)據(jù)支持的并不是很好。

現(xiàn)有云平臺處理城市大數(shù)據(jù)的限制,與MSRA的實踐:

1、數(shù)據(jù)結(jié)構(gòu)很不一樣,跟圖象文本結(jié)構(gòu)不一樣。

2、查詢方式不一樣。例如我們在找滴滴的時候,希望是找周邊這個時間段內(nèi)有沒有空車經(jīng)過,而不是關(guān)鍵詞進去匹配一個文本出來。

3、真正我們做城市計算的時候我們往往用到多個數(shù)據(jù)源,而不是單一數(shù)據(jù)。比如說空氣質(zhì)量預測的時候我們需要用到氣象、交通、地理信息以及人的移動數(shù)據(jù),怎么樣把這些數(shù)據(jù)多元管理起來?這是一個難題,這個技術(shù)是缺失的。所以基于它的原因,現(xiàn)在已有的云平臺并不能很好的支持時空大數(shù)據(jù)。

受限于已有云平臺的現(xiàn)實限制,微軟亞洲研究院去年在洛陽市落地了中國第一個城市大數(shù)據(jù)平臺。

它首先定義了六種數(shù)據(jù)模型,然后利用了現(xiàn)有微軟云計算平臺的存儲資源。接著我們做了一層中間件,針對不同的數(shù)據(jù)結(jié)構(gòu)設(shè)計了時空索引算法,并針對不同數(shù)據(jù)設(shè)計了混合式索引算法。然后把時空索引集成到Hadoop、Spark和Storm等分布式計算環(huán)境中。

這里面不光有分布式計算環(huán)境,也有時空索引算法,兩者的結(jié)合把數(shù)據(jù)的訪問和管理存儲變得非常高效。最后向上層的機器學習和人工智能算法提供API,使得我們的機器學習算法能夠快速訪問下面的一些數(shù)據(jù)。想象一下,如果沒有這一層的話很多機器學習算法根本不能上線,根本不能做大規(guī)模的訪問和應用。

下面幾個應用案例可以看到這個城市大數(shù)據(jù)平臺所產(chǎn)生的實際效應。

1.城市充電樁與廣告牌布局

通過城市大數(shù)據(jù)平臺在貴陽市決定應該在什么位置放置充電樁,才能最大化覆蓋整個城市的車流量。最終選取出五個路口,使得覆蓋不同出租車的GPS軌跡數(shù)量最大化。

以前做這個工作需要一天?,F(xiàn)在我們只需要2-3秒的計算結(jié)果。我們發(fā)現(xiàn)在商業(yè)應用中,我們部署一個東西除了需要數(shù)據(jù)科學支持還需要行業(yè)知識支持,不僅要考慮車流量最大化的問題,還是考慮周邊是不是商城,有沒有配套。車主充電的兩小時等待時間里,周邊要有餐飲、娛樂機構(gòu)供人休閑。

我們通過可視交互的分析方法實現(xiàn)人的智慧與人工智能的結(jié)合。人工智能先用簡單的規(guī)則,用算法反饋一個初步結(jié)果讓行業(yè)專家判斷,行業(yè)專家認為這個點不合適可以刪掉,或者保留這個點再計算,實現(xiàn)了一個迭代式的交互挖掘。

這個案例體現(xiàn)了平臺的威力,性能的威力,也體現(xiàn)了真正把機器智能跟人的智能結(jié)合在一起。

除了充電樁,這個模型還可以分析商業(yè)門店選址、廣告牌選址,這些案例體現(xiàn)出城市大數(shù)據(jù)平臺的數(shù)據(jù)管理威力。

2.房價評估

在我們的這個城市大數(shù)據(jù)平臺里還有一個專門的數(shù)據(jù)分析層面,包含三個子層面:最普通的機器學習算法,專門針對時空數(shù)據(jù)設(shè)計的機器學習算法,以及多元數(shù)據(jù)融合算法。

我們看一下這個例子,我們想對房屋價值進行相應的排序,并不是預測價格。也就是說北京同樣一個市場,如果漲的話誰漲的比較多,如果跌的話誰跌的相對比較慢?

在相同環(huán)境下,摒棄政策因素和環(huán)境因素。根據(jù)漲幅比將房子排序,排完序把房子排好12345等,一類房最好,五類房最差(漲的最慢,跌的最快)。李嘉誠說過,房子價值由三個方面決定,一是地段,二是地段,三還是地段。這三個地段其實可以用數(shù)據(jù)量化。

第一地段就是周邊各類設(shè)施配套水平,交通,商場,學校等等這些數(shù)據(jù)都可以從路網(wǎng)、POI學到。同樣是學區(qū),重點學區(qū)和普通學校對房價影響非常大,好的商場比破舊的商場對這個地段的價值拉動差距很大。

所以有第二個地段:Popularity,比如人們出行規(guī)律非常重要。人們出行的規(guī)律已經(jīng)刻畫了這個地方的價值,一個地段坐公交地鐵出去,另外一個地段基本上以開車打車出去,你覺得哪地段更高端一點,人的行為可以刻畫這個地段的形式。

第三個地段是房子所在的商圈,并不意味著每一個望京區(qū)域的房子都是好房子,而要用7-8種數(shù)據(jù)刻畫這個地段的價值。

從每一個數(shù)據(jù)里面可以提取出來很多的特征,再進行計算。比如說這個房子周邊有幾個公交車站,離他最近的公交車站多遠,離他最近的地鐵車站多遠,然后可以把它變成排序的問題。這里面體現(xiàn)了不是一個簡單的算法就可以解決的問題,很多特征是冗余性,并不是完全獨立的,相關(guān)性非常大,而且很多特征不是線性的,因此我們要加很多的約束做這個事情。

怎么做驗證呢?用2013-2014年的房屋數(shù)據(jù)預測2015年的排序,2015年過完之后自然知道這個結(jié)果怎么樣。用搜房網(wǎng)解決這個事情準確率非常高。NDC基本上達到95%以上,這是一個非常好的結(jié)果。

這個技術(shù)還被應用到上?;疱伒甑倪x址以及對城市綜合商業(yè)體的價值評估。中國一線城市的商業(yè)品牌,像萬達以及保利商場等等,這些綜合商業(yè)的評估是非常困難的,但用我們的方法來做是有價值的。2016年的數(shù)據(jù)已經(jīng)顯示,北京100多個綜合商業(yè)體哪個漲幅最快,最值得投入,并且形成排序。這個排序也應用于銀行業(yè)信貸評估,幫助銀行業(yè)評估綜合商業(yè)體的價值,決定以后貸多少錢,抵多少錢,通過人工智能評估長期價格增勢。

3.AI+共享拼車

滴滴以及摩拜,這兩個案例與AI聯(lián)系非常緊密。

先講拼車,電召車行業(yè)做到拼車才是真正的共享化,所以拼車是最終目標。發(fā)明拼車的初衷是城市車輛過多與打車難之間的矛盾。在希望車輛總量不增加的前提下,出現(xiàn)了拼車的想法。為了保證用戶體驗,拼車必須保證滿足用戶希望什么時間到達目的地的要求。

通過AI找到一輛車接這個人,并且他真正距離最小,這是一個最優(yōu)的方案。但現(xiàn)在是不是還有別的車,可以滿足乘客的到達時間,同時也要征求乘客的拼車意愿?如果可以使乘客的到達時間稍微推遲五分鐘,但是可以省五塊錢,你愿不愿意?在拼車方案中,保證乘客在規(guī)定時間到達,這個是關(guān)鍵的。

通過對車輛距離、預期到達時間與價格之間的動態(tài)平衡匹配,最大化滿足用戶的需求,是一個很困難的問題。這些需求已經(jīng)超過了人類自己思考可以實現(xiàn),必須要人工智能后面重新調(diào)度。

使用AI技術(shù)模擬,把出租車換成一個卡車,把一個人看成貨物,上車點是取貨地點,乘客下車地點是送貨地點。我們把這些應用于順豐合作,可以在不增加人員的情況把順豐的吞吐效率提高5%-10%。

實現(xiàn)了當下的優(yōu)化以后,對未來的優(yōu)化更加重要。這將涉及到深度學習。

以物流業(yè)為例,未來的物流一要看預測,二要看累計最優(yōu),三要加時空索引,這三個東西要加在一起。

假設(shè)我們把一公里分成很多格子,可以預測未來有多少人進有多少人出,可以預測未來有多少人請求摩拜,有多少人請求滴滴,有多少人訂餓了么。我們在貴陽已經(jīng)開始做這種預測了,在貴陽預測的是每個格子里面有多少出租車進有多少出租車出。能夠預測出未來這個地方有多少人請求餓了么的訂單。用這種數(shù)據(jù)來驗證我模型的正確性。

做深度學習預測人流、訂單量最開始的動機來自于上海市的踩踏事件。踩踏事件發(fā)生之后我很痛心地寫了一個微博,我說,這個事情可以通過人工智能做預測提前避免,如果提前兩三個小時知道未來有多少人去那個地方,就可以從源頭分流,不要等到大家都去了去疏解。如果政府能夠提前預測量級,可以提前預備安全措施。

類似的公共需求也適用于北京地鐵,商業(yè)需求則適用于滴滴、摩拜和餓了么等。

但是預測人流量是一個困難的工作,因為相關(guān)因素非常多。同時,時間空間數(shù)據(jù)不同于文本,空間有距離,有層次,時間有周期性,還有趨勢性。

比如說交通容量每天都有變化,我們一定要考慮到時間的周期、趨勢、臨近性,考慮到空間的遠近性,把不同的數(shù)據(jù)進行融合,以及不同的影響因子在不同層次融合。最后得到好的結(jié)果。這個數(shù)據(jù)在北京的出租車得到印證,在美國的自行車租賃系統(tǒng)得到印證,現(xiàn)在拿摩拜進行印證,效果都比以前的方法好很多。

4.城市計算在空氣質(zhì)量領(lǐng)域的應用

微軟亞洲研究院曾經(jīng)用大數(shù)據(jù)和人工智能的算法預測全國200多個城市的空氣質(zhì)量。

因為空氣質(zhì)量受很多復雜的影響,包括周邊的樓房密度,周邊的交通擁堵情況,周邊的擴散情況,導致整個城市空氣質(zhì)量不均勻。

我們把京津冀、珠三角、長三角城市群數(shù)據(jù)放在一起,做大尺度的系列預測和分析。有了這個信息之后,你會發(fā)現(xiàn)每次空氣質(zhì)量從好變壞過程中,你就知道哪里先變壞,哪里后變壞,知道它的傳播過程。政府是明確需要知道非常細的空氣質(zhì)量的數(shù)據(jù),甚至要細到賓館級,因為有的時候我們領(lǐng)導人就住在某個賓館。

預測未來。我的預測是系列預測,空氣質(zhì)量預測既要看天還要看人,是個很困難的事情。如果你要看細,細到西直門、東直門怎么樣?這非常困難。還有空氣質(zhì)量拐點的預測,我們知道當刮大風和下大雨時,空氣質(zhì)量從500瞬間就變成了50,這個拐點的出現(xiàn)對政府來說是極關(guān)重要的。

可是,空氣質(zhì)量的拐點為什么那么重要呢?舉例說明,政府曾經(jīng)做了很多措施限流限行,關(guān)閉了河北的工廠,以北京為中心畫一個圓,把圓里面所有的工廠全關(guān)掉,使得我們的空氣質(zhì)量保持在100以下。但如果你知道明天是拐點,明天會下降干嘛去關(guān)它?這一個決策就能夠幫國家避免上百億上千億的損失。

微軟亞洲研究院還在貴陽落地中國第一個交通流量圖。這個地方顯示的是車的流量不是簡單的速度,對政府的管理、規(guī)劃它一定要知道有多少車經(jīng)過,即流量。有了流量之后就能算出速度、油耗,每個路段上面都可以算出來,進而可以看出來每個路段實時排放的PM2.5有多少,現(xiàn)在能把車的尾氣排放算出來,結(jié)合空氣中測點的讀數(shù),我們知道空氣中尾氣排放和PM2.5結(jié)合在一起,我們就能夠正確回答空氣中汽車尾氣排放和PM2.5到底占多少,這個對政府的指導具有重要的意義。

5.做好真正智能城市的四個關(guān)鍵

第一,要理解行業(yè)知識。如果我不懂環(huán)境,不跟環(huán)境學家交流,也不知道他們做了什么東西,那么他們行業(yè)里面也無法接受大數(shù)據(jù)的分析結(jié)果。

最近我搞了兩年多環(huán)境,現(xiàn)在清華大學環(huán)境學院每年請我給他們環(huán)境學院的學生研究生上課,只有達到這個程度之后,才能跟別的行業(yè)融合。

第二,對數(shù)據(jù)的理解很重要。路面上的出租車交通軌跡不光反映了出租車交通容量,也反映了人們的出行規(guī)律。出行規(guī)律反映的是功能、經(jīng)濟、環(huán)境狀況,如果這樣想的話,你會發(fā)現(xiàn)我們的數(shù)據(jù)永遠不缺,大數(shù)據(jù)時代我們不缺數(shù)據(jù),缺的是心不夠開放。大數(shù)據(jù)的價值把多個數(shù)據(jù)融合在一起,做到1+1大于2的結(jié)果,這才是它的特點和魅力。

第三,深度學習。我們看到各種各樣的算法不只是機器學習,有深度學習、機器學習、數(shù)據(jù)挖掘還有數(shù)據(jù)庫,很多方法索引加學習加模擬結(jié)合在一起,很多是把數(shù)據(jù)融合在一塊。

第四,數(shù)據(jù)科學家。數(shù)據(jù)科學家非常難培養(yǎng),培養(yǎng)這個人至少7-10年,很多項目只要有了這一個人,就能把這一個東西傳到一塊,一個好的數(shù)據(jù)科學家站在云平臺上面,看問題想數(shù)據(jù)觀模型,然后把模型部署到云平臺上面,才能解決鮮活的問題,這才是數(shù)據(jù)科學家。

掃碼關(guān)注公眾號

溫馨提示:因考試政策、內(nèi)容不斷變化與調(diào)整,信管網(wǎng)網(wǎng)站提供的以上信息僅供參考,如有異議,請以權(quán)威部門公布的內(nèi)容為準!

信管網(wǎng)致力于為廣大信管從業(yè)人員、愛好者、大學生提供專業(yè)、高質(zhì)量的課程和服務(wù),解決其考試證書、技能提升和就業(yè)的需求。

信管網(wǎng)軟考課程由信管網(wǎng)依托10年專業(yè)軟考教研傾力打造,官方教材參編作者和資深講師坐鎮(zhèn),通過深研歷年考試出題規(guī)律與考試大綱,深挖核心知識與高頻考點,為學員考試保駕護航。面授、直播&錄播,多種班型靈活學習,滿足不同學員考證需求,降低課程學習難度,使學習效果事半功倍。

相關(guān)內(nèi)容

發(fā)表評論  查看完整評論  

推薦文章