社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘是計算機學科相關(guān)研究中的熱點。
近年來,以微博、微信等為代表的在線社會媒體逐漸成為人們發(fā)布、傳播和獲取信息的主要媒介。在社交網(wǎng)絡(luò)中匯聚了大量的用戶關(guān)系數(shù)據(jù)和信息傳播數(shù)據(jù),對社交網(wǎng)絡(luò)數(shù)據(jù)的研究和挖掘?qū)槲覀兞私夂脱芯咳祟惿鐣⒔?jīng)濟、商業(yè)等的潛在規(guī)律提供極大的幫助。
那么在海量的社交網(wǎng)絡(luò)數(shù)據(jù)下面存在著什么樣的特點和規(guī)律呢?在線社交網(wǎng)絡(luò)的信息傳播與物理社交網(wǎng)絡(luò)的信息傳播有什么樣異同呢?如何挖掘社交網(wǎng)絡(luò)的數(shù)據(jù)以從中發(fā)現(xiàn)一些潛在的社會、經(jīng)濟和商業(yè)規(guī)律呢?社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘的前沿研究方向在哪里呢?
不管你是青年愛好者、計算機科學工作者,還是社會科學研究人員或者企事業(yè)單位的管理人員,對這些問題的探討和學習,都會對你的工作、學習、研究有極大的幫助。
12月22日-24日,由中國計算機學會(CCF)主辦的第87期CCF學科前沿講習班(CCF-ADL)將以《社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘》為主題,邀請數(shù)位來自國內(nèi)外該領(lǐng)域重量級的專家學者對這些問題做一系列主題報告。雷鋒網(wǎng) (公眾號:雷鋒網(wǎng)) 作為全力合作媒體,也將到場聆聽大牛分享,并對講習班內(nèi)容進行全程報道。
他們將對社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘的基礎(chǔ)理論、關(guān)鍵技術(shù)方法以及當前熱點問題進行深入淺出的介紹,并對如何開展該領(lǐng)域前沿技術(shù)研究等進行探討,以及分享近幾年在在線社會媒體中的信息傳播預(yù)測方面的研究成果。相信與會者必然能夠從中了解到社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘領(lǐng)域的重點和熱點,給自己的學習、研究和工作帶來新啟發(fā)。
(雷鋒網(wǎng)編者注:CCF-ADL系列開班以來,主題涉及深度學習、類腦計算、區(qū)塊鏈技術(shù)、城市計算、計算機視覺等各大領(lǐng)域,邀請了學術(shù)界、工業(yè)界包括微軟研究員鄭宇、360首席科學家顏水成、港科大楊強教授等,聚集產(chǎn)學研各界人士,給數(shù)千人分享了學術(shù)前沿成果和應(yīng)用方法。 雷鋒網(wǎng)作為全力合作媒體,將對講習班進行深入報道,無法到達現(xiàn)場的同學,雷鋒網(wǎng)·AI慕課學院也會呈上已獲授權(quán)的 全 網(wǎng)全力在線視頻(http://www.mooc.ai/course/307) 以供學習。
下面雷鋒網(wǎng)對課程內(nèi)容作以簡要介紹,詳細內(nèi)容請 參閱AI慕課學院介紹 。
特邀講者
Philip S. Yu:通過社交網(wǎng)絡(luò)信息融合的“Broad Learning”
Philip S. Yu,ACM/IEEE院士、美國伊利諾伊大學芝加哥分校特聘教授、清華大學軟件學院客座教授。
報告簡介:
在大數(shù)據(jù)時代,以各種格式存在的數(shù)據(jù)資源非常豐富。一種有意思的想法就是將這些不同格式的資源融合在一起,來協(xié)同挖掘數(shù)據(jù)背后的信息,這將比單一的數(shù)據(jù)資源獲得更多有價值的結(jié)果?!癇road Learning”正是這樣一種新型的學習任務(wù)。但BL在將不同的數(shù)據(jù)資源有效融合的過程中仍然存在著巨大的挑戰(zhàn),這不僅取決于數(shù)據(jù)源的相關(guān)性,還取決于目標應(yīng)用問題。在本次報告中,我們將探討如何融合社交網(wǎng)絡(luò)信息來改善各種應(yīng)用場景中數(shù)據(jù)挖掘的效果。
唐杰:社會影響力與行為預(yù)測
唐杰,清華計算機系副教授、博導、CCF杰出會員、清華-工程院知識智能聯(lián)合實驗室主任。主持研發(fā)了研究者社會網(wǎng)絡(luò)挖掘系統(tǒng)AMiner,從億級文獻數(shù)據(jù)挖掘科技知識,吸引了220個國家/地區(qū)800多萬獨立IP訪問;核心技術(shù)應(yīng)用于國家科技部、自然科學基金委、中國工程院、ACM、美國艾倫人工智能研究所、搜狗、阿里巴巴、騰訊等單位。
摘要:
社會網(wǎng)絡(luò)已經(jīng)成為溝通真實物理世界和虛擬互聯(lián)空間的橋梁。我們在互聯(lián)網(wǎng)絡(luò)中的行為直接反映了我們在真實世界的活動和情感。我將介紹在大規(guī)模真實網(wǎng)絡(luò)中(如:微信、微博、Twitter、 AMiner等網(wǎng)絡(luò))如何分析用戶之間的交互影響力和基于網(wǎng)絡(luò)拓撲的結(jié)構(gòu)影響力,并基于影響力預(yù)測用戶行為。模型同時考慮了網(wǎng)絡(luò)結(jié)構(gòu)、用戶屬性和網(wǎng)絡(luò)用戶的偏好。并設(shè)計了針對大規(guī)模網(wǎng)絡(luò)的并行學習算法。在實際真實在線社交系統(tǒng)中得到了驗證。
沈華偉:在線社交媒體中的信息傳播預(yù)測
沈華偉,博士,中國科學院計算技術(shù)研究所研究員,中國中文信息學會社會媒體處理專委會副主任。
摘要:
近年來,以微博、微信等為代表的在線社會媒體逐漸成為人們發(fā)布、傳播和獲取信息的主要媒介。社會媒體匯聚了大量的用戶關(guān)系數(shù)據(jù)和信息傳播數(shù)據(jù),為分析和研究人類社會活動提供了彌足珍貴的數(shù)據(jù)資源。社會媒體中數(shù)據(jù)多源異構(gòu)、個體間關(guān)系繁雜、信息傳播突發(fā)等特點給社會媒體分析提出了科學技術(shù)挑戰(zhàn)。分析社交網(wǎng)絡(luò)的結(jié)構(gòu)規(guī)律、挖掘用戶行為的固有模式、探索網(wǎng)絡(luò)信息傳播的內(nèi)在機理、研究高效的社交網(wǎng)絡(luò)分析與網(wǎng)絡(luò)信息傳播預(yù)測方法,有利于提升對在線社會媒體的科學認知水平和有效利用能力。報告將從網(wǎng)絡(luò)結(jié)構(gòu)分析、網(wǎng)絡(luò)表達學習、網(wǎng)絡(luò)信息傳播預(yù)測等幾個方面介紹報告人近幾年在在線社會媒體中的信息傳播預(yù)測方面的研究成果。
宋國杰:社會網(wǎng)絡(luò)信息傳播影響最大化挖掘
宋國杰,北京大學信息科學技術(shù)學院副教授,智能交通系統(tǒng)研究中心副主任。
摘要:
網(wǎng)絡(luò)信息傳播挖掘研究是近年來社交網(wǎng)絡(luò)分析領(lǐng)域的熱點問題。報告將重點介紹兩方面的研究工作:傳播影響最大化(Influence Maximization)和網(wǎng)絡(luò)推斷(Network Inference)。前者主要研究在既定傳播模型下,如何高效尋找社交網(wǎng)絡(luò)中信息傳播影響力最大的Top-k節(jié)點集合,而后者則是在給定觀測到信息傳播級聯(lián)數(shù)據(jù)集的基礎(chǔ)上,推斷出隱藏的、不可直接觀測的社交網(wǎng)絡(luò)拓撲結(jié)構(gòu)。報告將重點介紹這兩類工作的代表性研究成果,并對未來發(fā)展進行展望。
Wei Wang:動態(tài)網(wǎng)絡(luò)的系統(tǒng)建模
Wei Wang,加州大學洛杉磯分校計算機科學Leonard Kleinrock首席教授,ScAi研究所主任,NIH BD2K中央合作中心的聯(lián)合主任。
摘要:
含時網(wǎng)絡(luò)(Temporal networks,即在網(wǎng)絡(luò)中加入時間的成分)可以說是無處不在,因為眾多的應(yīng)用程序(包括微信、微博、twitter等)主要就是以時間依賴的方式生成的網(wǎng)絡(luò)結(jié)構(gòu)。近年來,在進化網(wǎng)絡(luò)分析領(lǐng)域已經(jīng)有了大量的研究工作,例如異常檢車、鏈路預(yù)測、節(jié)點分類等。針對這些問題已經(jīng)存在許多單獨的解決方案,但是要想更廣泛地解決類似的問題,我們需要考慮的是:我們是否可以直接把網(wǎng)絡(luò)結(jié)構(gòu)描述成時間的一個函數(shù)?在不同的應(yīng)用環(huán)境中使用網(wǎng)絡(luò)結(jié)構(gòu)時,將其描述為時間的函數(shù)至關(guān)重要,因為這樣的描述可以捕獲非常豐富的關(guān)于底層網(wǎng)絡(luò)結(jié)構(gòu)的信息。在報告中,我將展示動態(tài)網(wǎng)絡(luò)建模的一些困難以及我們的解決方案。
胡祥恩:語義表示和分析(SRA)以及潛在的應(yīng)用
胡先根博士是孟菲斯大學(UOFM)心理學系,電氣與計算機工程與計算機科學系教授,UofM智能系統(tǒng)研究所(IIS)高級研究員,華中師范大學心理學院院長,UOFM高級分布式學習(ADL)合作實驗室主任,中國教育部青少年網(wǎng)絡(luò)心理與行為重點實驗室高級研究員。
摘要:
語義表示分析(SRA)是基于向量的語義分析的一般框架。 在這個框架內(nèi),自然語言的語義以誘導語義結(jié)構(gòu)的形式表示。 SRA在信息檢索、文本分析和智能輔導系統(tǒng)中有很大的應(yīng)用。 在這個講座中,我將會:1)介紹一個SRA的數(shù)學模型;2)介紹和展示一種生成個性化的、領(lǐng)域特定的、上下文敏感的語義表示的方法;3)介紹和展示作為局部學生模型的學習者特征曲線以及它在智能輔導系統(tǒng)中的應(yīng)用。
石川:異質(zhì)信息網(wǎng)絡(luò)建模與分析
石川,博士、北京郵電大學計算機學院教授、博士研究生導師、智能通信軟件與多媒體北京市重點實驗室副主任。
摘要:
當前的社會網(wǎng)絡(luò)分析主要針對同質(zhì)網(wǎng)絡(luò)(即網(wǎng)絡(luò)中結(jié)點類型相同),但是現(xiàn)實世界中的網(wǎng)絡(luò)化數(shù)據(jù)通常包含不同類型的對象,并且對象之間的關(guān)聯(lián)表示不同的語義關(guān)系。構(gòu)建異質(zhì)信息網(wǎng)絡(luò)(即包含不同類型的結(jié)點或邊的網(wǎng)絡(luò))可以包含更加完整的對象之間的關(guān)聯(lián)信息,因此分析這類網(wǎng)絡(luò)有希望挖掘更加準確的模式。本課題以異質(zhì)信息網(wǎng)絡(luò)為對象,深入分析異質(zhì)網(wǎng)絡(luò)的復雜結(jié)構(gòu)和豐富語義對數(shù)據(jù)挖掘帶來的挑戰(zhàn)。本報告將介紹異質(zhì)信息網(wǎng)絡(luò)的基本概念、特點、和分析方法,以及在實際問題中的應(yīng)用。
崔鵬:網(wǎng)絡(luò)嵌入:在向量空間中啟用網(wǎng)絡(luò)分析和推理
崔鵬,清華大學副教授。
摘要:
現(xiàn)在,在應(yīng)用當中出現(xiàn)越來越大的網(wǎng)絡(luò),網(wǎng)絡(luò)數(shù)據(jù)也變得越來越具有復雜性和挑戰(zhàn)性。為了有效地處理圖譜數(shù)據(jù),先進個關(guān)鍵的挑戰(zhàn)就是如何表示網(wǎng)絡(luò)數(shù)據(jù),即如何正確表示網(wǎng)絡(luò)以便在時間和空間上高效地進行模式發(fā)現(xiàn)、分析、預(yù)測等高級分析任務(wù)。 在這個報告中,我將回顧一下網(wǎng)絡(luò)嵌入的較新思想和研究成果。 更具體地說就是,將討論網(wǎng)絡(luò)嵌入中的一系列基本問題,包括為什么需要重新考慮網(wǎng)絡(luò)表示,網(wǎng)絡(luò)嵌入的研究目標是什么,網(wǎng)絡(luò)嵌入如何學習以及網(wǎng)絡(luò)嵌入的主要未來方向。
劉知遠:語言表示學習與計算社會科學
劉知遠,清華大學計算機系助理教授。
摘要:
語言是人類交流的工具、人類文化的載體,是了解人類社會的重要視角。近年來隨著表示學習在自然語言處理中的應(yīng)用,語言表示學習也為社會科學研究提供了全新的技術(shù)工具,特別是面向在線社會媒體的大規(guī)模用戶產(chǎn)生內(nèi)容進行用戶和內(nèi)容分析,具有很大優(yōu)勢。本報告將介紹語言表示學習技術(shù)在計算社會科學方面的較新動態(tài),探討該方向的未來發(fā)展趨勢。
韓家煒:大規(guī)模語料庫的多維分析
韓家煒,ACM院士和IEEE院士,伊利諾伊大學厄巴納 - 香檳分校計算機科學系A(chǔ)bel Bliss教授。
摘要:
現(xiàn)實世界的大數(shù)據(jù)在很大程度上是以自然語言文本形式存在的非結(jié)構(gòu)性的、相互關(guān)聯(lián)的數(shù)據(jù)。對于這樣的海量文本數(shù)據(jù),從多維角度觀看和分析是非常理想的。不過這也提出了一個重大的挑戰(zhàn),即如何將非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化文本然后在多維空間中去分析這些數(shù)據(jù)。為了促進這樣的分析,我們提出了一種文本立方體(textcube)建模方法,并討論了如何從大量文本語料庫構(gòu)建這樣的立方體,以及如何使用這種文本立方體進行多維OLAP分析。在過去的幾年里,我們開發(fā)出一種文本挖掘方法,這種方法只需要遠程的或最小的監(jiān)督,而不是依靠大量數(shù)據(jù)。 在這個報告中,我將展示:
(1)從海量文本數(shù)據(jù)中挖掘出高質(zhì)量的短語;
(2)通過遠程監(jiān)督從海量文本數(shù)據(jù)中提取類型;
(3)通過元路徑定向模式發(fā)現(xiàn)實體、屬性和值;
(4)從大量的語料庫中構(gòu)建分面分類法;
(5)從大量文本構(gòu)建文本立方體;
(6)對這些立方體進行多維分析。
這里我們展示的范例——將大量的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化和有用的知識——將是一個非常有希望的方向。
趙鑫:面向社交媒體平臺的商業(yè)數(shù)據(jù)挖掘
趙鑫,中國人民大學計算機副教授。
摘要:
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,各種社交媒體平臺都得到了廣泛的使用。社交網(wǎng)絡(luò)平臺中蘊含大量的用戶信息,包括用戶個人屬性信息(如年齡、性別等等)、用戶所發(fā)表的內(nèi)容信息等等。如何充分利用社交媒體平臺的信息來加強用戶個性化建模,從而推動商業(yè)數(shù)據(jù)挖掘成了一個研究熱點。本次報告試圖系統(tǒng)梳理一些重要的商業(yè)大數(shù)據(jù)應(yīng)用問題,如用戶意圖檢測、用戶畫像構(gòu)建以及推薦算法等。
楊洋:移民的城市夢——上海移民融合
楊洋,浙江大學計算機科學與技術(shù)學院助理教授。
摘要:
前所未有的人類流動推動了全球高速的城市化進程。在中國,1978年至2012年間,城市人口居住比例從17.9%上升到52.6%。這種大規(guī)模的移民對政策制定者和研究人員來說既是重大的挑戰(zhàn),又是重要的問題。在這個報告中,我將介紹我們對移民融合過程的研究。
具體而言,我們采用了上海一個月的電信元數(shù)據(jù)完整的數(shù)據(jù)集,其中擁有5400萬用戶和6.98億個通話記錄。我們發(fā)現(xiàn)本地人和移民在移動通信網(wǎng)絡(luò)和地理位置上存在有系統(tǒng)的差異。例如移民在定居后相比本地人會有更多的社會接觸,在城市中的移動半徑要大于本地人。通過區(qū)分新移民(最近移居上海)和定居的移民(在上海待了一段時間),我們發(fā)現(xiàn)了新移民在前三周的融合過程。此外,我們進一步調(diào)查了移民在先進周的行為,特別是他們的行為與最終提早離開之間的關(guān)系。我們發(fā)現(xiàn)最終離開的移民,在頭幾個星期往往都沒有發(fā)展處多樣性的聯(lián)系,也沒有在城市周圍移動;他們活動區(qū)域的住房價格也高于那些最終留下來的移民的住房價格。
學術(shù)主任:唐杰、劉知遠
時間:2017年12月22日-24日
地點 :中科院計算所一層報告廳(北京市海淀區(qū)中關(guān)村科學院南路6號)
報名方式:
1)現(xiàn)場聽課:即日起至2017年12月20日,報名請 登錄 http://jinshuju.net/f/yxdpPx
2)線上聽課: 點擊 報名鏈接 ,雷鋒網(wǎng)AI慕課學院已獲全力視頻授權(quán),或者掃描下圖二維碼報名
雷鋒網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見 轉(zhuǎn)載須知 。
