欧美不卡黄色电影_亚洲乱码免费伦视频_最近中文字幕亚洲电影_日韩精品日韩无码你懂的

在線咨詢
免費報價
免費評估
免費規(guī)劃

資本都在瘋投的向量數(shù)據(jù)庫到底是啥?能做啥?

來源:博觀科技日期:2023-07-24 15:30:45

騰訊云的向量數(shù)據(jù)庫是一種針對處理高維向量數(shù)據(jù)而設(shè)計的云數(shù)據(jù)庫服務(wù)。它基于騰訊云自主研發(fā)的分布式存儲和計算技術(shù),在處理大規(guī)模向量數(shù)據(jù)時提供高效的存儲、索引和查詢能力。


向量數(shù)據(jù)庫在人工智能、圖像識別、推薦系統(tǒng)等領(lǐng)域具有廣泛應(yīng)用。它能夠高效存儲和處理海量的高維向量數(shù)據(jù),如圖像特征、文本嵌入等。同時,向量數(shù)據(jù)庫還支持基于向量相似性的快速查詢和檢索,可以方便地進行相似向量搜索、推薦算法等操作。


向量數(shù)據(jù)庫


騰訊云的向量數(shù)據(jù)庫提供了可擴展的存儲、高效的索引機制和快速的查詢性能,能夠滿足用戶對大規(guī)模高維向量數(shù)據(jù)管理和處理的需求。它為開發(fā)者提供了簡單易用的API接口和工具,以便更方便地集成和應(yīng)用于各種應(yīng)用場景。


向量數(shù)據(jù)庫在大模型時代中展現(xiàn)出了巨大的商業(yè)機會。向量數(shù)據(jù)庫市場空間巨大,目前處于從0-1階段。預(yù)測到2030年,全球向量數(shù)據(jù)庫市場規(guī)模有望達到500億美元,國內(nèi)向量數(shù)據(jù)庫市場規(guī)模有望超過600億人民幣。


1、向量數(shù)據(jù)庫怎么就火了


近期,許多具備大模型技術(shù)棧研發(fā)實力的企業(yè),都會不約而同地提及“應(yīng)用語言向量檢索技術(shù)用于模型訓(xùn)練”。


在技術(shù)界,向量檢索并不是一個新名詞。但它的發(fā)展與人工智能浪潮的推動高度綁定。


向量,顧名思義Embedding,最開始的用于文本表達的詞向量,到后來可用于表達圖片、視頻、語音等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化的深層語義,通過數(shù)據(jù)向量化可被計算機識別、使用,且在轉(zhuǎn)化的過程中不丟失信息。一開始,向量技術(shù)也基本使用于互聯(lián)網(wǎng)大公司的業(yè)務(wù)場景中。


例如,微軟Bing搜索引擎,在2000年就曾宣布使用向量實現(xiàn)搜索引擎的增強,可處理2000多億張網(wǎng)頁的向量數(shù)據(jù)。在那個時代,這個數(shù)據(jù)已經(jīng)非常龐大了,但在更多的工業(yè)界或?qū)嶒炇依铮蛄繑?shù)據(jù)仍處于小規(guī)模驗證的階段。


真正的改變則來自于2017年前后,伴隨深度學(xué)習(xí)在工業(yè)界的廣泛落地,實際應(yīng)用場景下的數(shù)據(jù)量級開始直線增加。這一年,F(xiàn)AIR研究人員開源了(FAISS,F(xiàn)acebook AI Similarity Search)AI向量相似性檢索庫,在十億級數(shù)據(jù)集上創(chuàng)建了鄰近搜索、且運行于GPU的k-selection算法。2020年7月,谷歌研究院開源了向量相似性搜索庫ScaNN,提出新的數(shù)據(jù)集向量壓縮技術(shù),以提高向量檢索的準(zhǔn)確性。


實際上,在此期間,國內(nèi)的互聯(lián)網(wǎng)公司也沒閑著,據(jù)說阿里巴巴自研了Proxima,對于更多的企業(yè),包括創(chuàng)業(yè)廠商在內(nèi),也會使用向量相似性檢索技術(shù)的相關(guān)開源組件如Faiss、Nmslib和Annoy等ANN庫,京東零售基于Faiss的Vearch也已經(jīng)在各自規(guī)模化業(yè)務(wù)場景中投入使用。


創(chuàng)業(yè)公司Zilliz從2018年開始布局做向量數(shù)據(jù)庫,2019年開源了Milvus,單獨作為一個品類進行研發(fā)創(chuàng)新。其做法比較明確:開源Milvus向量數(shù)據(jù)庫,持續(xù)運營積累大量社區(qū)開發(fā)者使用;在商業(yè)化方面,推出云端全托管數(shù)據(jù)庫服務(wù)Zilliz Cloud,并與Milvus形成插件化集成,與國產(chǎn)大模型進行對接。


不過,不同于2017年前后在行業(yè)風(fēng)口和資本熱錢影響下成立的一批AI公司,一開始就瞄準(zhǔn)向量數(shù)據(jù)庫創(chuàng)業(yè)賽道的企業(yè)其實寥寥無幾。即便Zilliz也并非是從創(chuàng)業(yè)之初錨定向量數(shù)據(jù)庫——Zilliz創(chuàng)始人星爵在去年9月與鈦媒體交流時曾解釋:“AI時代,數(shù)據(jù)處理的類型和計算體系架構(gòu)都發(fā)生了較大變化,但當(dāng)時團隊對最終產(chǎn)品形態(tài)是什么,并不是很清晰。不斷交流的過程中,我們意識到企業(yè)對海量非結(jié)構(gòu)化數(shù)據(jù)管理的需求?!?/p>


總結(jié)起來,在向量數(shù)據(jù)庫的發(fā)展過程中,技術(shù)進展和創(chuàng)新起到了重要的推動作用。


首先在數(shù)據(jù)層面,向量作為一個新型數(shù)據(jù)處理單元,其數(shù)據(jù)量達到了一定規(guī)模,需要一個專用的管理系統(tǒng),對管理的復(fù)雜度如分布式、高可用性、數(shù)據(jù)的一致性和備份等要求也越來越高。


其次,數(shù)據(jù)庫系統(tǒng)的研究者和工程師們不斷改進和優(yōu)化向量數(shù)據(jù)庫的存儲引擎、索引結(jié)構(gòu)和查詢算法,提高了向量數(shù)據(jù)的存儲效率和查詢性能。


此外,隨著硬件技術(shù)的發(fā)展,如GPU、FPGA、ARM架構(gòu)芯片的應(yīng)用,也為向量數(shù)據(jù)庫的性能提升帶來了新的機會。


這三點因素共同促使了向量數(shù)據(jù)庫系統(tǒng)的誕生——想要高效處理這些海量的向量數(shù)據(jù),就需要更細分、更專業(yè)的數(shù)據(jù)基礎(chǔ)設(shè)施,為向量構(gòu)建專門的數(shù)據(jù)庫處理系統(tǒng)。


2、向量數(shù)據(jù)庫在當(dāng)下的應(yīng)用價值


從上面我們可以看到,向量數(shù)據(jù)庫的價值其實是伴隨著整個大模型的發(fā)展而發(fā)展的,只要大模型在不斷發(fā)展,那么向量數(shù)據(jù)庫也會不斷發(fā)展,因為它們就像 CPU 和存儲一樣。


而向量數(shù)據(jù)庫在當(dāng)下的應(yīng)用,第一個就是讓大模型可以利用企業(yè)或者個人的私域數(shù)據(jù),實現(xiàn)信息數(shù)據(jù)的連接;或者反過來說,讓那些擁有大量數(shù)據(jù)和應(yīng)用場景的企業(yè)利用大模型的能力幫它解決問題,同時還能保持自己對于數(shù)據(jù)的掌控力。


我們都知道大模型是基于公開數(shù)據(jù)進行預(yù)訓(xùn)練的,它的訓(xùn)練周期也比較長,無法獲取當(dāng)下的實時信息以及企業(yè)內(nèi)部的私域數(shù)據(jù),因此需要通過向量數(shù)據(jù)庫這個存儲來實現(xiàn)模型與這些數(shù)據(jù)的連接,此時只需把你的私域數(shù)據(jù)通過向量數(shù)據(jù)庫進行索引即可。


而為了保護企業(yè)的私有數(shù)據(jù)產(chǎn)權(quán),大模型不能將你的私有數(shù)據(jù)占為己有,它只能在那一刻使用,用它的模型能力把你的數(shù)據(jù)處理完并把結(jié)果返回給你,它不能存儲,也不能將這些數(shù)據(jù)拿來訓(xùn)練優(yōu)化其母模型,使用完即刪除。


在美國,這一點是在法律上得到保證的,因此大家可以無所畏懼的跟 ChatGPT 等大模型進行合作,而不用擔(dān)心自己的私域數(shù)據(jù)被這些大模型占為己有(需要說明的是,并非這些大模型沒有這個能力,而是法律不允許。這也解答了我對于大模型的一些疑惑,之前以為像 ChatGPT 這樣的通用大模型會吃掉所有能吃掉的服務(wù),因為它能不斷吸收企業(yè)的私域數(shù)據(jù),現(xiàn)在看來這點無需擔(dān)憂了,或許也正是這種明確的保護機制,促進了 ChatGPT 的誕生)。


同理,其第二個應(yīng)用就是大模型對于(人類)新知識的利用,人類每天都在產(chǎn)生新的知識新的數(shù)據(jù),大模型本身無論如何都無法實時將這些信息納入其模型的訓(xùn)練,一方面在于其訓(xùn)練周期,另一方面每時每刻產(chǎn)生的這些新知識是一個龐大的數(shù)據(jù)量,這在成本上也不可行。


如何讓大模型的能力應(yīng)用于新知識?和私域數(shù)據(jù)一樣,需要通過向量數(shù)據(jù)庫這個存儲實現(xiàn)信息的連接與索引。無論是私域數(shù)據(jù)還是新知識的利用,向量數(shù)據(jù)庫在這里起到的本質(zhì)作用都是解決記憶存儲的問題。


而第三個應(yīng)用價值,則和當(dāng)下最熱門的 AutoGPT 或者 BabyAGI 這樣的 Agent 智能體有關(guān),它們和前面的私域數(shù)據(jù)以及新知識不同,它面向的是 AI 自己生成的知識,而不是人類創(chuàng)造的知識。這些智能體會把自己創(chuàng)造的知識保存下來,進而進行不斷的迭代演化,這會導(dǎo)致數(shù)據(jù)以指數(shù)級增長,這些智能體必需要求助于向量數(shù)據(jù)庫,因為這么大體量的數(shù)據(jù)是無法通過模型本身來存儲的。


目前大家對于類似 AutoGPT 和 BabyAGI 這樣的智能體的認(rèn)知還處于玩具階段,但是它們很可能是 ChatGPT 后新的 Killer APP,前面的智能體只是對人類已有知識(包括私域數(shù)據(jù)和人類新知識)的記載,但 BabyAGI 這樣的智能體可能逐漸會與人類的知識變得毫無關(guān)聯(lián)。


如果說這些智能體的部署和生產(chǎn)的成本越來越低的話,他們甚至可能會產(chǎn)生人類的數(shù)據(jù),這也就是很多人認(rèn)為我們?nèi)祟愐呀?jīng)到了造物主這個時刻。以前本質(zhì)上這個世界的信息都是人類的生產(chǎn)經(jīng)營活動造成的,但以后人類會創(chuàng)造一個東西,這個東西是自己的自我演化,會產(chǎn)生遠比人類更多的數(shù)據(jù),那么數(shù)據(jù)會爆炸,非結(jié)構(gòu)化數(shù)據(jù)會爆炸,存儲數(shù)據(jù)也會爆炸,這也就是向量數(shù)據(jù)庫未來的巨大機會所在。


盡管在當(dāng)下我們還想不到這類智能體的具體應(yīng)用場景,以及人類是否需要那么多智能體,但是或許到某一天可能我們每個人都需要大量這樣的 Agent,而每個 Agent 都伴隨著向量數(shù)據(jù)庫。


3、從技術(shù)棧的角度理解向量數(shù)據(jù)庫


如果從技術(shù)棧的角度來看,AI 時代的技術(shù)棧是 CVP( ChatGPT-Vector Database-Prompt ),這里的 C 是指以 ChatGPT 為代表的大模型,Vector Database 就是向量數(shù)據(jù)庫,Prompt 也就是提示詞。在實際應(yīng)用過程中,真正需要用到向量數(shù)據(jù)庫的并不是這些大模型本身或者說它們的需求量很小,而是基于大模型做開發(fā)的開發(fā)者。


如果我們將其對應(yīng)到移動互聯(lián)網(wǎng)時代,開發(fā)者平臺 iOS 和 Android 就相當(dāng)于 CVP 里的 C,而 mongoDB和 Firebase 這樣的數(shù)據(jù)庫就對應(yīng)于 CVP 里的 V,各種前端應(yīng)用對應(yīng)于 CVP 里的 Prompt。


在每一個技術(shù)時代,都是類似的技術(shù)棧,都需要相應(yīng)的數(shù)據(jù)庫,而使用這些數(shù)據(jù)庫的并非類似 iOS 和 Android 這樣的平臺,而是開發(fā)者,這也就是為什么數(shù)據(jù)庫的市場如此大的原因,因為最終的平臺可能也就幾家,但是開發(fā)者成千上萬甚至上億。


而當(dāng)下中間層非常火的 Langchain 和 LlamaIndex 等產(chǎn)品,其角色是把 CVP 串聯(lián)起來,如果放到上一個時代的話,它有點類似 IDE,讓開發(fā)者可以更簡單地開發(fā)應(yīng)用。


無論怎樣,外界正在意識到向量數(shù)據(jù)庫作為一種新型數(shù)據(jù)庫存在的價值。不過,理解大模型只是AI的其中一種形態(tài),泛化能力變強,場景通用性也更強,以大模型助力AI落地變得更順暢的過程中,還有很多可優(yōu)化空間。


鄭州博觀電子科技有限公司是一家提供科技類物聯(lián)網(wǎng)開發(fā)軟硬件定制化方案服務(wù)商、也是中原地區(qū)領(lǐng)先的物聯(lián)網(wǎng)終端設(shè)備解決方案提供商。致力共享換電柜、智能充電樁、共享洗車機、物聯(lián)網(wǎng)軟硬件等服務(wù)平臺的方案開發(fā)與運維??偛课挥诤幽鲜∴嵵菔懈咝聟^(qū),已取得國家高新技術(shù)企業(yè)認(rèn)證證書。經(jīng)過10多年的業(yè)務(wù)開拓,公司已經(jīng)形成了以中原地區(qū)為中心、業(yè)務(wù)遍布全國的經(jīng)營格局。