中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

phpstudy 網(wǎng)站空白百度怎么推廣廣告

phpstudy 網(wǎng)站空白,百度怎么推廣廣告,網(wǎng)站 設(shè)計(jì)報(bào)價(jià),王野天圖片圖片來(lái)自Shutterstock上的Bakhtiar Zein 多年來(lái),以Elasticsearch為代表的基于全文檢索的搜索方案,一直是搜索和推薦引擎等信息檢索系統(tǒng)的默認(rèn)選擇。但傳統(tǒng)的全文搜索只能提供基于關(guān)鍵字匹配的精確結(jié)果,例如找到包含特殊名詞“Python3.9”的文…

5010ec6e3c4867144ff20c114c4ea384.png

e88aba3f86d5bf29c9831eb00a7827f7.png

圖片來(lái)自Shutterstock上的Bakhtiar Zein

多年來(lái),以Elasticsearch為代表的基于全文檢索的搜索方案,一直是搜索和推薦引擎等信息檢索系統(tǒng)的默認(rèn)選擇。但傳統(tǒng)的全文搜索只能提供基于關(guān)鍵字匹配的精確結(jié)果,例如找到包含特殊名詞“Python3.9”的文檔,或是找到帶“花”字,“雨”字,“雪”字的古詩(shī)詞。

但在實(shí)際需求中,我們有時(shí)候需要的,不只是古詩(shī)詞中帶“雪”字,還要找到表示雪很大這樣意向的古詩(shī)詞。比如,初高中語(yǔ)文課里學(xué)到的“忽如一夜春風(fēng)來(lái),千樹(shù)萬(wàn)樹(shù)梨花開(kāi)”這句詩(shī),雖然沒(méi)有雪字,卻精準(zhǔn)表達(dá)了雪很大這樣的意向。

再以照片檢索為例,我們不僅需要1:1精準(zhǔn)搜索出圖像對(duì)應(yīng)的原圖,往往也需要對(duì)圖像的特征、關(guān)鍵信息提取后,去檢索具備類(lèi)似特征的圖像,完成以圖搜圖或者內(nèi)容推薦等任務(wù)。

如何通過(guò)檢索得到以上結(jié)果?

基于稠密向量打造的語(yǔ)義搜索就發(fā)揮了作用。通常來(lái)說(shuō),語(yǔ)義檢索,通過(guò)將我們輸入的詞匯、圖片、語(yǔ)音等原始數(shù)據(jù)轉(zhuǎn)化為向量,進(jìn)而捕捉不同數(shù)據(jù)之間的語(yǔ)義關(guān)系(例如知道“老師”和“教師”其實(shí)是一個(gè)意思),可以更精準(zhǔn)的理解用戶的搜索意圖,從而提供更準(zhǔn)確、更相關(guān)的搜索結(jié)果。

但如何實(shí)現(xiàn)語(yǔ)義檢索?Embedding模型和向量數(shù)據(jù)庫(kù)在其中的作用至關(guān)重要。前者主要完成原始信息的向量化,后者則提供對(duì)向量化信息的存儲(chǔ)、檢索等服務(wù)。目前,檢索增強(qiáng)生成(RAG)與多模態(tài)搜索,是語(yǔ)義檢索的核心應(yīng)用場(chǎng)景之一。

但通常來(lái)說(shuō),在實(shí)踐中,全文檢索與語(yǔ)義檢索不是非此即彼的關(guān)系。我們需要同時(shí)兼顧語(yǔ)義理解和精確的關(guān)鍵字匹配。比如學(xué)術(shù)論文的寫(xiě)作中,用戶不僅希望在搜索結(jié)果看到與搜索查詢相關(guān)的概念,同時(shí)也希望保留查詢中使用的原始信息返回搜索結(jié)果,比如基于一些特殊術(shù)語(yǔ)和名稱。

因此,許多搜索應(yīng)用正在采用混合搜索方法,結(jié)合兩種方法的優(yōu)勢(shì),以平衡靈活的語(yǔ)義相關(guān)性和可預(yù)測(cè)的精確關(guān)鍵字匹配。

01.

混合搜索挑戰(zhàn)

實(shí)現(xiàn)混合搜索的常見(jiàn)方法如下:

先使用像開(kāi)源Milvus這樣的專用向量數(shù)據(jù)庫(kù),進(jìn)行高效和可擴(kuò)展的語(yǔ)義搜索;

然后使用像Elasticsearch或OpenSearch這樣的傳統(tǒng)搜索引擎進(jìn)行全文搜索。

兩兩搭配雖然效果不錯(cuò),但也引入了新的復(fù)雜性:首先,搭配兩套不同的搜索系統(tǒng),也就意味著我們要同時(shí)管理不同的基礎(chǔ)設(shè)施、配置和維護(hù)任務(wù)。這會(huì)造成更重的運(yùn)營(yíng)負(fù)擔(dān)并增加潛在的集成問(wèn)題。

305db12d460d7eb43f892c04d72991ae.png

在此基礎(chǔ)上,混合檢索統(tǒng)一解決方案橫空出世。

混合搜索的統(tǒng)一解決方案將提供許多好處:

  • 減少基礎(chǔ)設(shè)施維護(hù):管理一個(gè)系統(tǒng)而不是兩個(gè)系統(tǒng)大大降低了操作復(fù)雜性,節(jié)省了時(shí)間和資源。這也意味著更少的上下文切換和掌握兩組不同API的算力開(kāi)銷(xiāo)。

  • 合并數(shù)據(jù)管理:統(tǒng)一的表結(jié)構(gòu)允許用戶將密集(基于向量)和稀疏(基于關(guān)鍵字)數(shù)據(jù)與共享元數(shù)據(jù)標(biāo)簽一起存儲(chǔ)。使用兩個(gè)單獨(dú)的系統(tǒng),則需要將元數(shù)據(jù)標(biāo)簽存儲(chǔ)兩次,以便雙方能夠進(jìn)行元數(shù)據(jù)過(guò)濾。

  • 簡(jiǎn)化查詢:單個(gè)請(qǐng)求可以執(zhí)行語(yǔ)義和全文搜索任務(wù),無(wú)需對(duì)單獨(dú)的系統(tǒng)進(jìn)行兩次API調(diào)用。

  • 增強(qiáng)的安全性和權(quán)限改造:統(tǒng)一的方法可以實(shí)現(xiàn)更直接和更強(qiáng)大的安全管理,因?yàn)樗性L問(wèn)控制都可以在向量數(shù)據(jù)庫(kù)中集中管理,從而提高安全性合規(guī)性和一致性。

02.

如何使用統(tǒng)一的向量方法簡(jiǎn)化混合搜索

在語(yǔ)義搜索中,機(jī)器學(xué)習(xí)模型會(huì)根據(jù)文本的含義將文本“嵌入”為高維空間中的點(diǎn)(稱為密集向量) 。具有相似語(yǔ)義的文本在此空間中,彼此的距離會(huì)更接近。例如,“蘋(píng)果”和“水果”就比“蘋(píng)果”和“汽車(chē)”更接近。這使得我們能夠通過(guò)使用近似最近鄰 (ANN)算法計(jì)算每個(gè)點(diǎn)之間的距離來(lái)快速找到語(yǔ)義相關(guān)的文本。

這種方法也可以通過(guò)將文檔和查詢編碼為稀疏向量,進(jìn)而應(yīng)用于全文搜索。

在稀疏向量中,每個(gè)維度代表一個(gè)術(shù)語(yǔ),值表示每個(gè)術(shù)語(yǔ)在文檔中的重要性。

文檔中不存在的術(shù)語(yǔ)的值為零。由于任何給定的文檔通常只使用詞匯表中所有可能術(shù)語(yǔ)的一小部分,因此,大多數(shù)術(shù)語(yǔ)不會(huì)出現(xiàn)在文檔中。這也就意味著生成的向量是稀疏的——因?yàn)樗鼈兊拇蠖鄶?shù)值為零。例如,在通常用于評(píng)估信息檢索任務(wù)的MS-MARCO數(shù)據(jù)集中,雖然大約有 900 萬(wàn)個(gè)文檔,100 萬(wàn)個(gè)詞,但大多數(shù)文檔只覆蓋不足幾百個(gè)詞,生成的向量中絕大多數(shù)維度值為零。

這種極端稀疏性對(duì)于我們高效存儲(chǔ)和處理這些向量具有重要意義。比如,我們可以將其用于優(yōu)化搜索性能,同時(shí)保持準(zhǔn)確性。

最初為密集向量設(shè)計(jì)的向量數(shù)據(jù)庫(kù),其實(shí)也可以高效處理這些稀疏向量。例如,開(kāi)源向量數(shù)據(jù)庫(kù)Milvus剛剛發(fā)布了使用Sparse-BM25的原生全文搜索功能。

Sparse-BM25 由 Milvus提出,其原理類(lèi)似 Elasticsearch 和其他全文搜索系統(tǒng)中常用的BM25算法,但針對(duì)稀疏向量設(shè)計(jì),可以實(shí)現(xiàn)相同效果的全文搜索功能:

  • 具有數(shù)據(jù)剪枝功能的高效檢索算法:通過(guò)剪枝來(lái)丟棄搜索查詢中的低值稀疏向量,向量數(shù)據(jù)庫(kù)可以顯著減小索引大小并以最小的質(zhì)量損失達(dá)成最優(yōu)的性能。

  • 帶來(lái)進(jìn)一步的性能優(yōu)化:將詞頻表示為稀疏向量而不是倒排索引,可以實(shí)現(xiàn)其他基于向量的優(yōu)化。比如:用圖索引替代暴力掃描,實(shí)現(xiàn)更有效的搜索;乘積量化(PQ)/標(biāo)量量化(SQ),進(jìn)一步減少內(nèi)存占用。

除了這些優(yōu)化之外,Sparse-BM25還繼承了高性能向量數(shù)據(jù)庫(kù)Milvus的幾個(gè)系統(tǒng)級(jí)優(yōu)勢(shì):

  • 高效的底層實(shí)現(xiàn)和內(nèi)存管理:Milvus 的核心向量索引引擎采用 C++ 實(shí)現(xiàn),可以提供比基于Java的系統(tǒng)(如Elasticsearch)更高效的內(nèi)存管理。與基于JVM的方法相比,僅此一項(xiàng)就節(jié)省了數(shù) GB 的內(nèi)存占用。

  • 對(duì)MMap的支持:與Elasticsearch在內(nèi)存和磁盤(pán)中使用page-cache進(jìn)行索引存儲(chǔ)類(lèi)似,Milvus支持內(nèi)存映射(MMap)以在索引超過(guò)可用內(nèi)存時(shí)擴(kuò)展內(nèi)存容量。

03.

為什么傳統(tǒng)搜索引擎在向量搜索方面有先天不足

Elasticsearch是為傳統(tǒng)的倒排索引構(gòu)建的,在不根本改變架構(gòu)的情況下,支持向量索引具有非常大的挑戰(zhàn)。這導(dǎo)致其相比于專用向量數(shù)據(jù)庫(kù)有非常大的性能差異:即使只有100萬(wàn)個(gè)向量,Elasticsearch也需要200毫秒(在全托管的 Elastic Cloud 上測(cè)試)才能返回搜索結(jié)果,而在Milvus上(在全托管的Zilliz Cloud上測(cè)試)需要6毫秒——性能差異超過(guò)30倍。

每秒查詢率(QPS)測(cè)量的吞吐量也有3倍的差異,Zilliz Cloud上性能最高的實(shí)例運(yùn)行在6,000QPS,而Elastic Cloud最多為1,900QPS。此外,Zilliz Cloud在加載向量數(shù)據(jù)和構(gòu)建索引方面比Elastic Cloud快15倍。

此外,Elasticsearch的Java/JVM實(shí)現(xiàn)導(dǎo)致其性能的可擴(kuò)展性也弱于基于 C++/Go 實(shí)現(xiàn)的向量數(shù)據(jù)庫(kù)。而且,Elasticsearch缺乏高級(jí)的向量搜索功能,如基于磁盤(pán)的索引(DiskANN、MMap)、優(yōu)化的元數(shù)據(jù)過(guò)濾和range search。

dc23e39ee16180fab3f1e3cebffba037.png

04.

結(jié)論

Milvus 作為性能領(lǐng)先的向量數(shù)據(jù)庫(kù),通過(guò)無(wú)縫結(jié)合語(yǔ)義搜索和全文搜索,將稠密向量搜索與優(yōu)化的稀疏向量技術(shù)相結(jié)合,提供了卓越的性能、可擴(kuò)展性和效率,并簡(jiǎn)化了基礎(chǔ)設(shè)施的部署難度,降低成本的同時(shí)還增強(qiáng)了搜索能力。

展望未來(lái),我們相信基于向量數(shù)據(jù)庫(kù)的新型基礎(chǔ)設(shè)施,將有望超越Elasticsearch成為混合搜索的標(biāo)準(zhǔn)解決方案。

作者介紹

20bebd16340baeb53ed3860f994aaa12.jpeg

陳將

Zilliz 生態(tài)和 AI 平臺(tái)負(fù)責(zé)人

推薦閱讀

273cffe03551c82b5ac14b111ff8ea11.png

262e47c1f22d5891d238bc91c145df2f.png

70ec2eb41c6fe3f867ee9510c654520e.png

096d76e59609d55aea6bb6083acd6552.png

http://www.risenshineclean.com/news/57135.html

相關(guān)文章:

  • 網(wǎng)絡(luò)公司經(jīng)營(yíng)范圍能寫(xiě)建材嗎鄭州網(wǎng)站優(yōu)化seo
  • 碼云可以做博客網(wǎng)站嗎百度客服投訴中心
  • 大連科技網(wǎng)站制作網(wǎng)絡(luò)營(yíng)銷(xiāo)的常用工具
  • 賭博網(wǎng)站開(kāi)發(fā)軟件百度應(yīng)用市場(chǎng)
  • 做電影網(wǎng)站怎么接廣告建網(wǎng)站的公司排名
  • 大慶油田app下載安裝關(guān)鍵詞seo排名怎么做的
  • wordpress文章圖片顯示錯(cuò)誤引擎優(yōu)化seo
  • 企業(yè)網(wǎng)站開(kāi)發(fā)建設(shè)葉濤網(wǎng)站推廣優(yōu)化
  • 徐州百姓網(wǎng)發(fā)布信息seo內(nèi)部?jī)?yōu)化方案
  • 宣漢網(wǎng)站建設(shè)滕州百度推廣
  • 網(wǎng)站在線客服代碼下載百度競(jìng)價(jià)排名價(jià)格
  • wordpress顯示作者seo站長(zhǎng)網(wǎng)怎么下載
  • 網(wǎng)站建設(shè)q-9seo發(fā)貼軟件
  • 電商網(wǎng)站開(kāi)發(fā)設(shè)計(jì)方案如何被百度收錄
  • 各類(lèi)網(wǎng)站排行在線磁力搜索神器
  • 河南汝州文明建設(shè)門(mén)戶網(wǎng)站谷歌搜索優(yōu)化seo
  • 加強(qiáng)關(guān)工委網(wǎng)站建設(shè)seo廣告優(yōu)化
  • 做外匯都要看什么網(wǎng)站吉林seo管理平臺(tái)
  • 房地產(chǎn)網(wǎng)站做編輯剛剛?cè)胄芯W(wǎng)頁(yè)設(shè)計(jì)與制作作業(yè)成品
  • 網(wǎng)站開(kāi)發(fā)需要的工具google adwords關(guān)鍵詞工具
  • 日本人做爰過(guò)程網(wǎng)站百度統(tǒng)計(jì)收費(fèi)嗎
  • 夏津網(wǎng)站建設(shè)電話百度提升排名
  • 新站快速收錄盤(pán)古百度推廣靠譜嗎
  • 天津做網(wǎng)站公司哪家好百度 指數(shù)
  • 交友網(wǎng)站app推廣網(wǎng)站引流推廣軟件
  • 網(wǎng)頁(yè)設(shè)計(jì)軟件應(yīng)用廣州seo公司哪個(gè)比較好
  • 做企業(yè)網(wǎng)站收費(fèi)多少seo三人行網(wǎng)站
  • 網(wǎng)站左側(cè)浮動(dòng)代碼備案查詢站長(zhǎng)工具
  • 怎么做空包網(wǎng)站軟件外包公司好不好
  • 網(wǎng)站美工要求數(shù)字營(yíng)銷(xiāo)策劃