從一開始的Google搜索,到現(xiàn)在的聊天機(jī)器人、大數(shù)據(jù)風(fēng)控、證券投資、智能醫(yī)療、自適應(yīng)教育、推薦系統(tǒng),無一不跟知識(shí)圖譜相關(guān)。 隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,萬物互聯(lián)成為了可能,這種互聯(lián)所產(chǎn)生的數(shù)據(jù)也在爆發(fā)式地增長,而且這些數(shù)據(jù)恰好可以作為分析關(guān)系的有效原料。如果說以往的智能分析專注在每一個(gè)個(gè)體上,在移動(dòng)互聯(lián)網(wǎng)時(shí)代則除了個(gè)體,這種個(gè)體之間的關(guān)系也必然成為我們需要深入分析的很重要一部分。 在一項(xiàng)任務(wù)中,只要有關(guān)系分析的需求,知識(shí)圖譜就“有可能”派的上用場。 知識(shí)圖譜的表示 知識(shí)圖譜應(yīng)用的前提是已經(jīng)構(gòu)建好了知識(shí)圖譜,也可以把它認(rèn)為是一個(gè)知識(shí)庫。這也是為什么它可以用來回答一些搜索相關(guān)問題的原因,比如在Google搜索引擎里輸入“Who is the wife of Bill Gates?”,我們直接可以得到答案-“Melinda Gates”。這是因?yàn)槲覀冊谙到y(tǒng)層面上已經(jīng)創(chuàng)建好了一個(gè)包含“Bill Gates”和“Melinda Gates”的實(shí)體以及他倆之間關(guān)系的知識(shí)庫。所以,當(dāng)我們執(zhí)行搜索的時(shí)候,就可以通過關(guān)鍵詞提。"Bill Gates", "Melinda Gates", "wife")以及知識(shí)庫上的匹配可以直接獲得最終的答案。這種搜索方式跟傳統(tǒng)的搜索引擎是不一樣的,一個(gè)傳統(tǒng)的搜索引擎它返回的是網(wǎng)頁、而不是最終的答案,所以就多了一層用戶自己篩選并過濾信息的過程。 在現(xiàn)實(shí)世界中,實(shí)體和關(guān)系也會(huì)擁有各自的屬性,比如人可以有“姓名”和“年齡”。當(dāng)一個(gè)知識(shí)圖譜擁有屬性時(shí),我們可以用屬性圖(Property Graph)來表示。下面的圖表示一個(gè)簡單的屬性圖。李明和李飛是父子關(guān)系,并且李明擁有一個(gè)138開頭的電話號,這個(gè)電話號開通時(shí)間是2018年,其中2018年就可以作為關(guān)系的屬性。類似的,李明本人也帶有一些屬性值比如年齡為25歲、職位是總經(jīng)理等。 這種屬性圖的表達(dá)很貼近現(xiàn)實(shí)生活中的場景,也可以很好地描述業(yè)務(wù)中所包含的邏輯。除了屬性圖,知識(shí)圖譜也可以用RDF來表示,它是由很多的三元組(Triples)來組成。RDF在設(shè)計(jì)上的主要特點(diǎn)是易于發(fā)布和分享數(shù)據(jù),但不支持實(shí)體或關(guān)系擁有屬性,如果非要加上屬性,則在設(shè)計(jì)上需要做一些修改。目前來看,RDF主要還是用于學(xué)術(shù)的場景,在工業(yè)界我們更多的還是采用圖數(shù)據(jù)庫(比如用來存儲(chǔ)屬性圖)的方式。感興趣的讀者可以參考RDF的相關(guān)文獻(xiàn),在文本里不多做解釋。 知識(shí)抽取 知識(shí)圖譜的構(gòu)建是后續(xù)應(yīng)用的基礎(chǔ),而且構(gòu)建的前提是需要把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來。對于垂直領(lǐng)域的知識(shí)圖譜來說,它們的數(shù)據(jù)源主要來自兩種渠道:一種是業(yè)務(wù)本身的數(shù)據(jù),這部分?jǐn)?shù)據(jù)通常包含在公司內(nèi)的數(shù)據(jù)庫表并以結(jié)構(gòu)化的方式存儲(chǔ);另一種是網(wǎng)絡(luò)上公開、抓取的數(shù)據(jù),這些數(shù)據(jù)通常是以網(wǎng)頁的形式存在所以是非結(jié)構(gòu)化的數(shù)據(jù)。 前者一般只需要簡單預(yù)處理即可以作為后續(xù)AI系統(tǒng)的輸入,但后者一般需要借助于自然語言處理等技術(shù)來提取出結(jié)構(gòu)化信息。比如在上面的搜索例子里,Bill Gates和Malinda Gate的關(guān)系就可以從非結(jié)構(gòu)化數(shù)據(jù)中提煉出來,比如維基百科等數(shù)據(jù)源。 信息抽取的難點(diǎn)在于處理非結(jié)構(gòu)化數(shù)據(jù)。在下面的圖中,我們給出了一個(gè)實(shí)例。左邊是一段非結(jié)構(gòu)化的英文文本,右邊是從這些文本中抽取出來的實(shí)體和關(guān)系。在構(gòu)建類似的圖譜過程當(dāng)中,主要涉及以下幾個(gè)方面的自然語言處理技術(shù): a. 實(shí)體命名識(shí)別(Name Entity Recognition) b. 關(guān)系抽。≧elation Extraction) c. 實(shí)體統(tǒng)一(Entity Resolution) d. 指代消解(Coreference Resolution) 知識(shí)圖譜的存儲(chǔ) 知識(shí)圖譜主要有兩種存儲(chǔ)方式:一種是基于RDF的存儲(chǔ);另一種是基于圖數(shù)據(jù)庫的存儲(chǔ)。它們之間的區(qū)別如下圖所示。RDF一個(gè)重要的設(shè)計(jì)原則是數(shù)據(jù)的易發(fā)布以及共享,圖數(shù)據(jù)庫則把重點(diǎn)放在了高效的圖查詢和搜索上。其次,RDF以三元組的方式來存儲(chǔ)數(shù)據(jù)而且不包含屬性信息,但圖數(shù)據(jù)庫一般以屬性圖為基本的表示形式,所以實(shí)體和關(guān)系可以包含屬性,這就意味著更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場景。 根據(jù)最新的統(tǒng)計(jì)(2018年上半年),圖數(shù)據(jù)庫仍然是增長最快的存儲(chǔ)系統(tǒng)。相反,關(guān)系型數(shù)據(jù)庫的增長基本保持在一個(gè)穩(wěn)定的水平。同時(shí),我們也列出了常用的圖數(shù)據(jù)庫系統(tǒng)以及他們最新使用情況的排名。 其中Neo4j系統(tǒng)目前仍是使用率最高的圖數(shù)據(jù)庫,它擁有活躍的社區(qū),而且系統(tǒng)本身的查詢效率高,但唯一的不足就是不支持準(zhǔn)分布式。相反,OrientDB和JanusGraph(原Titan)支持分布式,但這些系統(tǒng)相對較新,社區(qū)不如Neo4j活躍,這也就意味著使用過程當(dāng)中不可避免地會(huì)遇到一些刺手的問題。如果選擇使用RDF的存儲(chǔ)系統(tǒng),Jena或許一個(gè)比較不錯(cuò)的選擇。 知識(shí)圖譜在其他行業(yè)中的應(yīng)用 除了金融領(lǐng)域,知識(shí)圖譜的應(yīng)用可以涉及到很多其他的行業(yè),包括醫(yī)療、教育、證券投資、推薦等等。其實(shí),只要有關(guān)系存在,則有知識(shí)圖譜可發(fā)揮價(jià)值的地方。 在這里簡單舉幾個(gè)垂直行業(yè)中的應(yīng)用。 比如對于教育行業(yè),我們經(jīng)常談?wù)搨(gè)性化教育、因材施教的理念。其核心在于理解學(xué)生當(dāng)前的知識(shí)體系,而且這種知識(shí)體系依賴于我們所獲取到的數(shù)據(jù)比如交互數(shù)據(jù)、評測數(shù)據(jù)、互動(dòng)數(shù)據(jù)等等。為了分析學(xué)習(xí)路徑以及知識(shí)結(jié)構(gòu),我們則需要針對于一個(gè)領(lǐng)域的概念知識(shí)圖譜,簡單來講就是概念拓?fù)浣Y(jié)構(gòu)。在下面的圖中,我們給出了一個(gè)非常簡單的概念圖譜:比如為了學(xué)習(xí)邏輯回歸則需要先理解線性回歸;為了學(xué)習(xí)CNN,得對神經(jīng)網(wǎng)絡(luò)有所理解等等。所有對學(xué)生的評測、互動(dòng)分析都離不開概念圖譜這個(gè)底層的數(shù)據(jù)。 在證券領(lǐng)域,我們經(jīng)常會(huì)關(guān)心比如“一個(gè)事件發(fā)生了,對哪些公司產(chǎn)生什么樣的影響?” 比如有一個(gè)負(fù)面消息是關(guān)于公司1的高管,而且我們知道公司1和公司2有種很密切的合作關(guān)系,公司2有個(gè)主營產(chǎn)品是由公司3提供的原料基礎(chǔ)上做出來的。 其實(shí)有了這樣的一個(gè)知識(shí)圖譜,我們很容易回答哪些公司有可能會(huì)被這次的負(fù)面事件所影響。當(dāng)然,僅僅是“有可能”,具體會(huì)不會(huì)有強(qiáng)相關(guān)性必須由數(shù)據(jù)來驗(yàn)證。所以在這里,知識(shí)圖譜的好處就是把我們所需要關(guān)注的范圍很快給我們?nèi)Χ。接下來的問題會(huì)更復(fù)雜一些,比如既然我們知道公司3有可能被這次事件所影響,那具體影響程度有多大? 對于這個(gè)問題,光靠知識(shí)圖譜是很難回答的,必須要有一個(gè)影響模型、以及需要一些歷史數(shù)據(jù)才能在知識(shí)圖譜中做進(jìn)一步推理以及計(jì)算。 實(shí)踐上的幾點(diǎn)建議 首先,知識(shí)圖譜是一個(gè)比較新的工具,它的主要作用還是在于分析關(guān)系,尤其是深度的關(guān)系。所以在業(yè)務(wù)上,首先要確保它的必要性,其實(shí)很多問題可以用非知識(shí)圖譜的方式來解決。 知識(shí)圖譜領(lǐng)域一個(gè)最重要的話題是知識(shí)的推理。 而且知識(shí)的推理是走向強(qiáng)人工智能的必經(jīng)之路。但很遺憾的,目前很多語義網(wǎng)絡(luò)的角度討論的推理技術(shù)(比如基于深度學(xué)習(xí),概率統(tǒng)計(jì))很難在實(shí)際的垂直應(yīng)用中落地。其實(shí)目前最有效的方式還是基于一些規(guī)則的方法論,除非我們有非常龐大的數(shù)據(jù)集。 最后,還是要強(qiáng)調(diào)一點(diǎn),知識(shí)圖譜工程本身還是業(yè)務(wù)為重心,以數(shù)據(jù)為中心。不要低估業(yè)務(wù)和數(shù)據(jù)的重要性。 總之知識(shí)圖譜是一個(gè)既充滿挑戰(zhàn)而且非常有趣的領(lǐng)域。只要有正確的應(yīng)用場景,對于知識(shí)圖譜所能發(fā)揮的價(jià)值還是可以期待的。我相信在未來不到2,3年時(shí)間里,知識(shí)圖譜技術(shù)會(huì)普及到各個(gè)領(lǐng)域當(dāng)中。 分享安排 一、知識(shí)圖譜概論 1.1知識(shí)圖譜的起源和歷史 1.2知識(shí)圖譜的發(fā)展史——從框架、本體論、語義網(wǎng)、鏈接數(shù)據(jù)到知識(shí)圖譜 1.3知識(shí)圖譜的本質(zhì)和價(jià)值 1.4知識(shí)圖譜VS傳統(tǒng)知識(shí)庫VS關(guān)系數(shù)據(jù)庫 1.5經(jīng)典的知識(shí)圖譜 1.5.1經(jīng)典的CYC, WordNnet, WikiData, DBpedia, YAGO, NELL等知識(shí)庫 1.5.2行業(yè)知識(shí)圖譜: Google知識(shí)圖譜,微軟實(shí)體圖,阿里知識(shí)圖譜,醫(yī)學(xué)知識(shí)圖譜,基因知識(shí)圖譜等知識(shí)圖譜項(xiàng)目 二、知識(shí)圖譜應(yīng)用 2.1知識(shí)圖譜應(yīng)用場景 2.2知識(shí)圖譜應(yīng)用簡介 2.2.1知識(shí)圖譜在數(shù)字圖書館上的應(yīng)用 2.2.2知識(shí)圖譜在國防、情報(bào)、公安上的應(yīng)用 2.2.3知識(shí)圖譜在金融上的應(yīng)用 2.2.4知識(shí)圖譜在電子商務(wù)中的應(yīng)用 2.2.5知識(shí)圖譜在農(nóng)業(yè)、醫(yī)學(xué)、法律等領(lǐng)域的應(yīng)用 2.2.6知識(shí)圖譜在制造行業(yè)的應(yīng)用 2.2.7知識(shí)圖譜在大數(shù)據(jù)融合中的應(yīng)用 2.2.8知識(shí)圖譜在人機(jī)交互(智能問答)中的應(yīng)用 三、知識(shí)表示與知識(shí)建模 3.1知識(shí)表示概念 3.2 知識(shí)表示方法 a.語義網(wǎng)絡(luò) b.產(chǎn)生式規(guī)則 c.框架系統(tǒng) d.描述邏輯 e.本體 f.RDF和RDFS g.OWL和OWL2 Fragments h.SPARQL查詢語言 i.Json-LD、RDFa、HTML5 MicroData等新型知識(shí)表示 3.3典型知識(shí)庫項(xiàng)目的知識(shí)表示 3.4知識(shí)建模方法學(xué) 3.5知識(shí)表示和知識(shí)建模實(shí)踐 1.三國演義知識(shí)圖譜的表示和建模實(shí)踐案例 2.學(xué)術(shù)知識(shí)圖譜等 四、知識(shí)抽取與挖掘 4.1知識(shí)抽取基本問題 a.實(shí)體識(shí)別 b.關(guān)系抽取 c.事件抽取 4.2數(shù)據(jù)采集和獲取 4.3面向結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取 a.D2RQ b.R2RML 4.4面向半結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取 a.基于正則表達(dá)式的方法 b.基于包裝器的方法 4.5.面向非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取 a.實(shí)體識(shí)別技術(shù)(基于規(guī)則、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、預(yù)訓(xùn)練等方法) b.關(guān)系抽取技術(shù)(基于模板、監(jiān)督、遠(yuǎn)程監(jiān)督、深度學(xué)習(xí)等方法) c.事件抽取技術(shù)(基于規(guī)則、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法) 4.6.知識(shí)挖掘 a.實(shí)體消歧b.實(shí)體鏈接c.類型推斷 d.知識(shí)表示學(xué)習(xí) 4.7知識(shí)抽取上機(jī)實(shí)踐 A.面向半結(jié)構(gòu)化數(shù)據(jù)的三國演義知識(shí)抽取 B.面向文本的三國演義知識(shí)抽取 C.人物關(guān)系抽取 五、知識(shí)融合 5.1知識(shí)融合背景 5.2知識(shí)異構(gòu)原因分析 5.3知識(shí)融合解決方案分析 5.4.本體對齊基本流程和常用方法 a.基于文本的匹配 b.基于圖結(jié)構(gòu)的匹配 c.基于外部知識(shí)庫的匹配 e.不平衡本體匹配 d.跨語言本體匹配 f.弱信息本體匹配 5.5實(shí)體匹配基本流程和常用方法 a.基于相似度的實(shí)例匹配 b.基于規(guī)則或推理的實(shí)體匹配 c.基于機(jī)器學(xué)習(xí)的實(shí)例匹配 d.大規(guī)模知識(shí)圖譜的實(shí)例匹配 (1)基于分塊的實(shí)例匹配 (2)無需分塊的實(shí)例匹配 (3)大規(guī)模實(shí)例匹配的分布式處理 5.6 知識(shí)融合上機(jī)實(shí)踐 1.百科知識(shí)融合 2.OAEI知識(shí)融合任務(wù) 六、存儲(chǔ)與檢索 6.1.知識(shí)圖譜的存儲(chǔ)與檢索概述 6.2.知識(shí)圖譜的存儲(chǔ) a.基于表結(jié)構(gòu)的存儲(chǔ) b.基于圖結(jié)構(gòu)的存儲(chǔ) 6.3.知識(shí)圖譜的檢索 a.關(guān)系數(shù)據(jù)庫查詢:SQL語言 b數(shù)據(jù)庫查詢:SPARQL語言 6.4.上機(jī)實(shí)踐案例:利用GraphDB完成知識(shí)圖譜的存儲(chǔ)與檢索 七、知識(shí)推理 7.1.知識(shí)圖譜中的推理技術(shù)概述 7.2.歸納推理:學(xué)習(xí)推理規(guī)則 a.歸納邏輯程設(shè)計(jì)Øb.關(guān)聯(lián)規(guī)則挖掘 c.路徑排序算法 上機(jī)實(shí)踐案例:利用AMIE+算法完成Freebase數(shù)據(jù)上的關(guān)聯(lián)規(guī)則挖掘 7.3.演繹推理:推理具體事實(shí) Ø a.馬爾可夫邏輯網(wǎng) b.概率軟邏輯 7.4.基于分布式表示的推理 a. TransE模型及其變種 b.RESCAL模型及其變種 c.(深度)神經(jīng)網(wǎng)絡(luò)模型介紹 d.表示學(xué)習(xí)模型訓(xùn)練 7.5.上機(jī)實(shí)踐案例:利用分布式知識(shí)表示技術(shù)完成Freebase上的鏈接預(yù)測 八、語義搜索 8.1.語義搜索概述 8.2.搜索關(guān)鍵技術(shù) a.索引技術(shù):倒排索引 b.排序算法:BM25及其擴(kuò)展 8.3.知識(shí)圖譜搜索 a.實(shí)體搜索 b.關(guān)聯(lián)搜索 8.4.知識(shí)可視化 a.摘要技術(shù) 8.5.上機(jī)實(shí)踐案例:SPARQL搜索 九、知識(shí)問答 9.1.知識(shí)問答概述 9.2.知識(shí)問答基本流程 9.3.相關(guān)測試集:QALD、WebQuestions等 9.4.知識(shí)問答關(guān)鍵技術(shù) a.基于模板的方法 b.語義解析 c.基于深度學(xué)習(xí)的方法 9.5.上機(jī)實(shí)踐案例:DeepQA、TemplateQA 學(xué)習(xí)和關(guān)注人工智能技術(shù)與咨詢,了解更多資訊。! |