中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

西湖專業(yè)網(wǎng)站設(shè)計(jì)公司網(wǎng)站策劃書的撰寫流程

西湖專業(yè)網(wǎng)站設(shè)計(jì)公司,網(wǎng)站策劃書的撰寫流程,wordpress商業(yè)模板,建立網(wǎng)站的詳細(xì)步驟圖解譯者注: Embedding 直接翻譯為嵌入似乎不太恰當(dāng),于是問了一下 ChatGPT,它的回復(fù)如下: 在自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域,"embeddings" 是指將單詞、短語或文本轉(zhuǎn)換成連續(xù)向量空間的過程。這個(gè)向量空間通常被稱…

譯者注:

Embedding 直接翻譯為嵌入似乎不太恰當(dāng),于是問了一下 ChatGPT,它的回復(fù)如下:

在自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域,"embeddings" 是指將單詞、短語或文本轉(zhuǎn)換成連續(xù)向量空間的過程。這個(gè)向量空間通常被稱為嵌入空間(embedding space),而生成的向量則稱為嵌入向量(embedding vector)或向量嵌入(vector embedding)。

嵌入向量可以捕獲單詞、短語或文本的語義信息,使得它們可以在數(shù)學(xué)上進(jìn)行比較和計(jì)算。這種比較和計(jì)算在自然語言處理和機(jī)器學(xué)習(xí)中經(jīng)常被用于各種任務(wù),例如文本分類、語義搜索、詞語相似性計(jì)算等。

在中文語境下,"embeddings" 通常被翻譯為 "詞向量" 或者 "向量表示"。這些翻譯強(qiáng)調(diào)了嵌入向量的特點(diǎn),即將詞匯轉(zhuǎn)換成向量,并表示為嵌入空間中的點(diǎn)。

在本文檔中,Embedding 表示名詞時(shí)大部多沒有翻譯直接用了英文,embedding vector 翻譯為了“嵌入向量”,表示動(dòng)詞時(shí)翻譯為了“向量表示”,翻譯的比較倉促,如果有不恰當(dāng)?shù)牡胤?#xff0c;歡迎評(píng)論指正。

本篇文檔翻譯時(shí)間為 20230403,請(qǐng)注意時(shí)效性。

其他已翻譯文檔鏈接:

  • IvyLee:OpenAI ChatGPT API 指南之 Chat Completion Beta 版
  • IvyLee:OpenAI ChatGPT API 指南之語音轉(zhuǎn)文字 Beta 版
  • IvyLee:OpenAI ChatGPT API 文檔之生產(chǎn)最佳實(shí)踐
  • IvyLee:OpenAI ChatGPT API 文檔之 Embedding
  • IvyLee:OpenAI ChatGPT API 文檔之 Fine-tuning(微調(diào))

什么是 Embedding?

OpenAI 中的文本 Embedding 衡量文本字符串之間的相關(guān)性。Embedding 通常用于以下場(chǎng)景:

  • 搜索(結(jié)果按查詢字符串的相關(guān)性進(jìn)行排序)
  • 聚類(將文本字符串按相似性分組)
  • 推薦(推薦具有相關(guān)文本字符串的項(xiàng)目)
  • 異常檢測(cè)(識(shí)別相關(guān)性較小的異常值)
  • 多樣性測(cè)量(分析相似度分布)
  • 分類(文本字符串按其最相似的標(biāo)簽進(jìn)行分類)

Embedding 是一個(gè)浮點(diǎn)數(shù)向量(列表)。兩個(gè)向量之間的距離用于測(cè)量它們之間的相關(guān)性。較小距離表示高相關(guān)性,較大距離表示低相關(guān)性。

請(qǐng)?jiān)L問我們的定價(jià)頁面了解 Embedding 的定價(jià)。請(qǐng)求的計(jì)費(fèi)基于發(fā)送的輸入中的?token 數(shù)。

要了解 Embedding 的實(shí)際應(yīng)用,請(qǐng)查看我們的代碼示例(瀏覽示例

  • 分類
  • 主題聚類
  • 搜索
  • 推薦

如何獲取 Embedding

要獲取 Embedding,將文本字符串和選定的 Embedding 模型 ID(例如?text-embedding-ada-002)發(fā)送到?Embedding API 端點(diǎn)。獲得的響應(yīng)中將包含一個(gè) Embedding,你可以提取、保存和使用。

請(qǐng)求示例:

response = openai.Embedding.create(input="Your text string goes here",model="text-embedding-ada-002"
)
embeddings = response['data'][0]['embedding']

響應(yīng)示例:

{"data": [{"embedding": [-0.006929283495992422,-0.005336422007530928,...-4.547132266452536e-05,-0.024047505110502243],"index": 0,"object": "embedding"}],"model": "text-embedding-ada-002","object": "list","usage": {"prompt_tokens": 5,"total_tokens": 5}
}

在?OpenAI Cookbook?中可以找到更多 Python 代碼示例。

使用 OpenAI Embedding 時(shí),請(qǐng)注意其限制和風(fēng)險(xiǎn)。

Embedding 模型

OpenAI 提供了一個(gè)第二代 Embedding 模型(在模型 ID 中標(biāo)記為?-002)和 16 個(gè)第一代模型(在模型 ID 中標(biāo)記為?-001)。

幾乎所有用例我們都推薦使用?text-embedding-ada-002。這一模型更好、更便宜、更簡(jiǎn)單易用。相關(guān)信息可以閱讀博客文章中的公告。

模型版本分詞器最大輸入 token 數(shù)知識(shí)截?cái)嗳掌?/th>
V2cl100k_base8191Sep 2021
V1GPT-2/GPT-32046Aug 2020

按輸入 token 計(jì)費(fèi),費(fèi)率為每 1000 個(gè) token 0.0004 美元,約為每美元 3000 頁(假設(shè)每頁約 800 個(gè) token):

模型每美元大約頁數(shù)在 BEIR 搜索評(píng)估中的示例性能
text-embedding-ada-002300053.9
davinci-001652.8
curie-0016050.9
babbage-00124050.4
ada-00130049.0

第二代模型

模型名稱分詞器最大輸入 token 數(shù)輸出維度
text-embedding-ada-002cl100k_base81911536

第一代模型(不推薦使用)

所有第一代模型(以?-001?結(jié)尾的模型)均使用?GPT-3 分詞器,最大輸入為 2046 個(gè) token。

第一代 Embedding 由五種不同的模型系列生成,針對(duì)三種不同的任務(wù)進(jìn)行調(diào)整:文本搜索、文本相似度和代碼搜索。其中搜索模型都有兩個(gè):一個(gè)用于短查詢,一個(gè)用于長(zhǎng)文檔。每個(gè)系列包括不同質(zhì)量和速度的四個(gè)模型:

模型輸出維度
Ada1024
Babbage2048
Curie4096
Davinci12288

Davinci 是能力最強(qiáng)的,但比起其他模型來,更慢更昂貴。Ada 能力最弱,但明顯更快更便宜。

相似性模型

相似性模型最擅長(zhǎng)捕捉文本之間的語義相似性。

使用場(chǎng)景可用模型
Clustering, regression, anomaly detection, visualizationtext-similarity-ada-001
text-similarity-babbage-001
text-similarity-curie-001
text-similarity-davinci-001

文本搜索模型

文本搜索模型有助于衡量哪些長(zhǎng)文檔與短搜索查詢最相關(guān)。使用兩種模型:一種用于將搜索查詢向量表示,另一種用于將要排序的文檔向量表示。與查詢 Embedding 最接近的文檔 Embedding 應(yīng)該是最相關(guān)的。

使用場(chǎng)景可用模型
Search, context relevance, information retrievaltext-search-ada-doc-001
text-search-ada-query-001
text-search-babbage-doc-001
text-search-babbage-query-001
text-search-curie-doc-001
text-search-curie-query-001
text-search-davinci-doc-001
text-search-davinci-query-001

代碼搜索模型

與搜索模型一樣,有兩種類型:一種用于向量表示自然語言搜索查詢,另一種用于向量表示代碼片段以進(jìn)行檢索。

使用場(chǎng)景可用模型
Code search and relevancecode-search-ada-code-001
code-search-ada-text-001
code-search-babbage-code-001
code-search-babbage-text-001
對(duì)于? -001?文本 Embedding(不是? -002?,也不是代碼 Embedding),建議將輸入中的換行符(? \n)替換為一個(gè)空格,因?yàn)槲覀儼l(fā)現(xiàn)存在換行符時(shí),結(jié)果會(huì)更差。

使用場(chǎng)景

這里展示了一些典型的使用場(chǎng)景,我們將在以下示例中使用亞馬遜美食評(píng)論數(shù)據(jù)集。

獲取 Embedding

該數(shù)據(jù)集包含截至 2012 年 10 月,亞馬遜用戶留下的共計(jì) 568454 條食品評(píng)論。我們將使用最近的 1000 條評(píng)論作為示例。這些評(píng)論是用英文撰寫的,傾向有積極有消極。每個(gè)評(píng)論都有一個(gè)產(chǎn)品 ID、用戶 ID、評(píng)分(SCORE)、評(píng)論標(biāo)題(SUMMARY)和評(píng)論正文(TEXT)。例如:

PRODUCT IDUSER IDSCORESUMMARYTEXT
B001E4KFG0A3SGXH7AUHU8GW5Good Quality Dog FoodI have bought several of the Vitality canned...
B00813GRG4A1D87F6ZCVE5NK1Not as AdvertisedProduct arrived labeled as Jumbo Salted Peanut...

我們把評(píng)論摘要和評(píng)論文本合并為一個(gè)組合文本。模型將對(duì)這一組合文本進(jìn)行編碼,輸出一個(gè)向量 Embedding。

Obtain_dataset.ipynb

def get_embedding(text, model="text-embedding-ada-002"):text = text.replace("\\n", " ")return openai.Embedding.create(input = [text], model=model)['data'][0]['embedding']df['ada_embedding'] = df.combined.apply(lambda x: get_embedding(x, model='text-embedding-ada-002'))
df.to_csv('output/embedded_1k_reviews.csv', index=False)

要從已保存的文件中加載數(shù)據(jù),可以運(yùn)行以下命令:

import pandas as pddf = pd.read_csv('output/embedded_1k_reviews.csv')
df['ada_embedding'] = df.ada_embedding.apply(eval).apply(np.array)

二維數(shù)據(jù)可視化

Visualizing_embeddings_in_2D.ipynb

Embedding 的大小隨著底層模型的復(fù)雜性而變化。為了可視化這些高維數(shù)據(jù),我們使用 t-SNE 算法將數(shù)據(jù)轉(zhuǎn)換為二維數(shù)據(jù)。

根據(jù)評(píng)價(jià)者所給出的星級(jí)評(píng)分來給評(píng)論著色:

  • 1星:紅色
  • 2星:橙色
  • 3星:金色
  • 4星:青綠色
  • 5星:深綠色

可視化似乎產(chǎn)生了大約 3 個(gè)集群,其中一個(gè)集群的大部分都是負(fù)面評(píng)論。

import pandas as pd
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import matplotlibdf = pd.read_csv('output/embedded_1k_reviews.csv')
matrix = df.ada_embedding.apply(eval).to_list()# Create a t-SNE model and transform the data
tsne = TSNE(n_components=2, perplexity=15, random_state=42, init='random', learning_rate=200)
vis_dims = tsne.fit_transform(matrix)colors = ["red", "darkorange", "gold", "turquiose", "darkgreen"]
x = [x for x,y in vis_dims]
y = [y for x,y in vis_dims]
color_indices = df.Score.values - 1colormap = matplotlib.colors.ListedColormap(colors)
plt.scatter(x, y, c=color_indices, cmap=colormap, alpha=0.3)
plt.title("Amazon ratings visualized in language using t-SNE")

將 Embedding 用作 ML 算法的文本特征編碼器

Regression_using_embeddings.ipynb

Embedding 可以被用作機(jī)器學(xué)習(xí)模型中的通用自由文本特征編碼器。如果一些相關(guān)輸入是自由文本,將 Embedding 加入模型會(huì)提高機(jī)器學(xué)習(xí)模型的性能。Embedding 也可以被用作機(jī)器學(xué)習(xí)模型中的分類特征編碼器。如果分類變量的名稱有意義且數(shù)量眾多,比如“工作職稱”,這將會(huì)增加最大的價(jià)值。相似性 Embedding 通常比搜索 Embedding 在這個(gè)任務(wù)上表現(xiàn)更好。

我們觀察到向量表示通常都非常豐富和信息密集。使用 SVD 或 PCA 將輸入的維度降低 10%,通常會(huì)導(dǎo)致特定任務(wù)的下游性能變差。

這段代碼將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,將用于以下兩個(gè)案例,即回歸和分類。

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(list(df.ada_embedding.values),df.Score,test_size = 0.2,random_state=42
)

使用 Embedding 特征進(jìn)行回歸

Embedding 提供了一種優(yōu)雅的方法來預(yù)測(cè)數(shù)值。在這個(gè)例子中,我們基于評(píng)論文本預(yù)測(cè)評(píng)論者的星級(jí)評(píng)分。由于 Embedding 內(nèi)包含的語義信息很高,即使只有很少的評(píng)論,預(yù)測(cè)結(jié)果也很不錯(cuò)。

我們假設(shè)分?jǐn)?shù)是在 1 到 5 之間的連續(xù)變量,允許算法預(yù)測(cè)浮點(diǎn)數(shù)值。機(jī)器學(xué)習(xí)算法通過最小化預(yù)測(cè)值與真實(shí)分?jǐn)?shù)之間的距離,實(shí)現(xiàn)了平均絕對(duì)誤差為 0.39,這意味著還不到半個(gè)星級(jí)。

from sklearn.ensemble import RandomForestRegressorrfr = RandomForestRegressor(n_estimators=100)
rfr.fit(X_train, y_train)
preds = rfr.predict(X_test)

使用 Embedding 特征進(jìn)行分類

使用 Embedding 進(jìn)行分類.ipynb

這次,不是讓算法預(yù)測(cè) 1 到 5 之間的任意值,而是嘗試將評(píng)價(jià)的精確星級(jí)分類為 5 個(gè) bucket,從 1 星到 5 星。

經(jīng)過訓(xùn)練后,模型可以學(xué)習(xí)到更好地預(yù)測(cè) 1 星和 5 星的評(píng)論,因?yàn)檫@兩者情感表達(dá)更加極端,對(duì)于情感比較微妙的評(píng)論(2-4 星),可能學(xué)習(xí)效果較差。

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_scoreclf = RandomForestClassifier(n_estimators=100)
clf.fit(X_train, y_train)
preds = clf.predict(X_test)

零樣本分類

使用 Embedding 進(jìn)行零樣本分類.ipynb

我們可以使用 Embedding 進(jìn)行零樣本分類,無需任何標(biāo)記的訓(xùn)練數(shù)據(jù)。對(duì)于每個(gè)類別,我們將類別名稱或類別的簡(jiǎn)短描述進(jìn)行向量表示。要以零樣本的方式對(duì)一些新文本進(jìn)行分類,只需要將新文本的 Embedding 與所有類別 Embedding 進(jìn)行比較,預(yù)測(cè)具有最高相似度的類別。

from openai.embeddings_utils import cosine_similarity, get_embeddingdf= df[df.Score!=3]
df['sentiment'] = df.Score.replace({1:'negative', 2:'negative', 4:'positive', 5:'positive'})labels = ['negative', 'positive']
label_embeddings = [get_embedding(label, model=model) for label in labels]def label_score(review_embedding, label_embeddings):return cosine_similarity(review_embedding, label_embeddings[1]) - cosine_similarity(review_embedding, label_embeddings[0])prediction = 'positive' if label_score('Sample Review', label_embeddings) > 0 else 'negative'

獲取用戶和產(chǎn)品的 Embedding 用于冷啟動(dòng)推薦

User_and_product_embeddings.ipynb

可以通過對(duì)某一用戶的所有評(píng)論進(jìn)行平均來獲得該用戶的 Embedding,通過對(duì)有關(guān)某產(chǎn)品的所有評(píng)論進(jìn)行平均來獲得該產(chǎn)品的 Embedding。為了展示這種方法的實(shí)用性,我們使用了包含 50k 個(gè)評(píng)論的子集以覆蓋更多用戶和產(chǎn)品的評(píng)論。

我們?cè)趩为?dú)的測(cè)試集上評(píng)估這些 Embedding 的有用性,將用戶和產(chǎn)品 Embedding 的相似性繪制為評(píng)分的函數(shù)。有趣的是,基于這種方法,在用戶收到產(chǎn)品之前,我們就可以預(yù)測(cè)他們是否會(huì)喜歡該產(chǎn)品,獲得比隨機(jī)預(yù)測(cè)更好的結(jié)果。

user_embeddings = df.groupby('UserId').ada_embedding.apply(np.mean)
prod_embeddings = df.groupby('ProductId').ada_embedding.apply(np.mean)

聚類

聚類.ipynb

聚類是理解大量文本數(shù)據(jù)的一種方法。Embedding 對(duì)于此任務(wù)很有用,因?yàn)樗鼈兲峁┟總€(gè)文本的語義有意義的向量表示。因此,在無監(jiān)督的方式下,聚類將揭示數(shù)據(jù)集中的隱藏分組。

在此示例中,我們發(fā)現(xiàn)四個(gè)不同的聚類:一個(gè)關(guān)注狗糧,一個(gè)關(guān)注負(fù)面評(píng)論,兩個(gè)關(guān)注正面評(píng)論。

import numpy as np
from sklearn.cluster import KMeansmatrix = np.vstack(df.ada_embedding.values)
n_clusters = 4kmeans = KMeans(n_clusters = n_clusters, init='k-means++', random_state=42)
kmeans.fit(matrix)
df['Cluster'] = kmeans.labels_

使用 Embedding 進(jìn)行文本搜索

使用 Embedding 進(jìn)行語義文本搜索.ipynb

為了檢索出最相關(guān)的文檔,我們使用查詢嵌入向量和文檔嵌入向量之間的余弦相似度,返回得分最高的文檔。

from openai.embeddings_utils import get_embedding, cosine_similaritydef search_reviews(df, product_description, n=3, pprint=True):embedding = get_embedding(product_description, model='text-embedding-ada-002')df['similarities'] = df.ada_embedding.apply(lambda x: cosine_similarity(x, embedding))res = df.sort_values('similarities', ascending=False).head(n)return resres = search_reviews(df, 'delicious beans', n=3)

使用 Embedding 代碼搜索

Code_search.ipynb

代碼搜索類似于基于 Embedding 的文本搜索。我們提供了一種從給定代碼庫的所有 Python 文件中提取 Python 函數(shù)的方法。然后每個(gè)函數(shù)都通過?text-embedding-ada-002?模型進(jìn)行索引。

為了執(zhí)行代碼搜索,我們使用相同的模型以自然語言將查詢進(jìn)行向量表示。然后,計(jì)算查詢結(jié)果 Embedding 和每個(gè)函數(shù) Embedding 之間的余弦相似度。余弦相似度最高的結(jié)果最相關(guān)。

from openai.embeddings_utils import get_embedding, cosine_similaritydf['code_embedding'] = df['code'].apply(lambda x: get_embedding(x, model='text-embedding-ada-002'))def search_functions(df, code_query, n=3, pprint=True, n_lines=7):embedding = get_embedding(code_query, model='text-embedding-ada-002')df['similarities'] = df.code_embedding.apply(lambda x: cosine_similarity(x, embedding))res = df.sort_values('similarities', ascending=False).head(n)return res
res = search_functions(df, 'Completions API tests', n=3)

使用 Embedding 進(jìn)行推薦

Recommendation_using_embeddings.ipynb

因?yàn)榍度胂蛄恐g的距離越短,表示它們之間的相似性越大,所以 Embedding 可以用于推薦系統(tǒng)。

下面我們展示一個(gè)基本的推薦系統(tǒng)。它接受一個(gè)字符串列表和一個(gè) source 字符串,計(jì)算它們的嵌入向量,然后返回一個(gè)排序列表,從最相似到最不相似。上面鏈接的 Notebook 文件中,應(yīng)用了這個(gè)函數(shù)的一個(gè)版本來處理?AG 新聞數(shù)據(jù)集(采樣到 2000 個(gè)新聞文章描述),返回與任何給定 source 文章最相似的前 5 篇文章。

def recommendations_from_strings(strings: List[str],index_of_source_string: int,model="text-embedding-ada-002",
) -> List[int]:"""Return nearest neighbors of a given string."""# get embeddings for all stringsembeddings = [embedding_from_string(string, model=model) for string in strings]# get the embedding of the source stringquery_embedding = embeddings[index_of_source_string]# get distances between the source embedding and other embeddings (function from embeddings_utils.py)distances = distances_from_embeddings(query_embedding, embeddings, distance_metric="cosine")# get indices of nearest neighbors (function from embeddings_utils.py)indices_of_nearest_neighbors = indices_of_nearest_neighbors_from_distances(distances)return indices_of_nearest_neighbors

限制和風(fēng)險(xiǎn)

我們的 Embedding 模型在某些情況下可能不可靠或存在社會(huì)風(fēng)險(xiǎn),并且在沒有緩解措施的情況下可能會(huì)造成傷害。

社會(huì)偏見

限制:模型可能存在某些社會(huì)偏見,比如對(duì)某些群體的刻板印象或負(fù)面情緒。

我們通過運(yùn)行 SEAT(May et al,2019)和 Winogender(Rudinger et al,2018)基準(zhǔn)測(cè)試發(fā)現(xiàn)了模型存在偏見的證據(jù)。這些基準(zhǔn)測(cè)試共包含 7 個(gè),衡量模型在應(yīng)用于性別化名稱、國(guó)家和地區(qū)名稱和一些刻板印象時(shí)是否包含隱含的偏見。

例如,我們發(fā)現(xiàn)我們的模型更強(qiáng)烈地將(a)歐洲裔美國(guó)人的名字與非洲裔美國(guó)人的名字相比,更容易與積極情感聯(lián)系在一起,以及(b)將負(fù)面刻板印象與黑人女性聯(lián)系在一起。

這些基準(zhǔn)測(cè)試在多個(gè)方面存在限制:(a)它們可能不適用于你特定的使用場(chǎng)景,(b)它們只測(cè)試了可能的社會(huì)偏見的極小部分。

這些測(cè)試只是初步的,我們建議你運(yùn)行針對(duì)自己特定用例的測(cè)試。這些結(jié)果應(yīng)被視為該現(xiàn)象存在的證據(jù),而不是針對(duì)你的用例的確定性描述。更多詳細(xì)信息和指導(dǎo),請(qǐng)參閱我們的使用政策。

如果你有任何問題,請(qǐng)通過聊天聯(lián)系我們的支持團(tuán)隊(duì)。

缺乏對(duì)近期事件的認(rèn)知

限制:模型缺乏對(duì) 2020 年 8 月之后發(fā)生事件的了解。

我們模型的訓(xùn)練數(shù)據(jù),只包含 2020 年 8 月之前的現(xiàn)實(shí)世界事件信息。如果你依賴于表示近期事件的模型,那么我們的模型可能會(huì)表現(xiàn)欠佳。

常見問題

如何在 Embedding 之前知道一個(gè)字符串有多少個(gè) token?

在 Python 中,你可以使用 OpenAI 的分詞器?tiktoken?將字符串拆分為 token。

示例代碼:

import tiktokendef num_tokens_from_string(string: str, encoding_name: str) -> int:"""Returns the number of tokens in a text string."""encoding = tiktoken.get_encoding(encoding_name)num_tokens = len(encoding.encode(string))return num_tokensnum_tokens_from_string("tiktoken is great!", "cl100k_base")

對(duì)于像?text-embedding-ada-002?這樣的第二代 Embedding 模型,請(qǐng)使用?cl100k_base?編碼。

更多細(xì)節(jié)和示例代碼在 OpenAI Cookbook 指南如何使用 tiktoken 計(jì)算 token 數(shù)中。

如何快速檢索 K 個(gè)最近的嵌入向量?

為了快速搜索許多向量,我們建議使用向量數(shù)據(jù)庫。你可以在 GitHub 上的?OpenAI Cookbook?中找到使用向量數(shù)據(jù)庫和 OpenAI API 的示例。

向量數(shù)據(jù)庫選項(xiàng)包括:

  • Pinecone,完全托管的向量數(shù)據(jù)庫
  • Weaviate,開源向量搜索引擎
  • Redis,向量數(shù)據(jù)庫
  • Qdrant,向量搜索引擎
  • Milvus,用于可擴(kuò)展相似性搜索的向量數(shù)據(jù)庫
  • Chroma,開源的嵌入向量存儲(chǔ)

我應(yīng)該使用哪種距離函數(shù)?

我們建議使用余弦相似度。距離函數(shù)的選擇通常不太重要。

OpenAI Embedding 已標(biāo)準(zhǔn)化為長(zhǎng)度 1,這意味著:

  • 余弦相似度可以使用點(diǎn)積更快地計(jì)算
  • 余弦相似度和歐幾里得距離將產(chǎn)生相同的排名

我能在網(wǎng)上分享我的 Embedding 嗎?

客戶有模型輸入和輸出的所有權(quán),對(duì)于 Embedding 也一樣。你有責(zé)任確保你輸入到 API 的內(nèi)容不違反任何適用的法律或我們的《使用條款》。

http://www.risenshineclean.com/news/3349.html

相關(guān)文章:

  • 網(wǎng)站定制文章列表項(xiàng)怎么做盤古搜索
  • shopify可以用來做B2B網(wǎng)站嗎百度網(wǎng)頁版電腦版入口
  • 做門窗投標(biāo)網(wǎng)站seo課程在哪培訓(xùn)好
  • 公司名詞解釋百度關(guān)鍵詞排名優(yōu)化
  • web網(wǎng)站開發(fā)完整教程線下推廣公司
  • wordpress安裝在vps百度seo公司興田德潤(rùn)
  • 平面設(shè)計(jì)主要學(xué)什么哪些軟件seo產(chǎn)品推廣
  • 網(wǎng)站設(shè)計(jì)與制作教程1百度搜索引擎優(yōu)化怎么做
  • 網(wǎng)站logo如何做鏈接免費(fèi)b2b網(wǎng)站推廣有哪些
  • 做國(guó)際網(wǎng)站要多少錢友情鏈接你會(huì)回來感謝我
  • 做pc端網(wǎng)站什么開頭必應(yīng)站長(zhǎng)平臺(tái)
  • 網(wǎng)站出現(xiàn)的的問題搜索引擎優(yōu)化的完整過程
  • 做ppt好的網(wǎng)站有哪些方面汕頭網(wǎng)站建設(shè)推廣
  • 有哪些國(guó)外網(wǎng)站做的好的效果圖培訓(xùn)網(wǎng)站有哪些
  • 渭南建網(wǎng)站seo首頁關(guān)鍵詞優(yōu)化
  • 有人知道做網(wǎng)站嗎?廣告公司排名
  • 高清做視頻在線觀看網(wǎng)站網(wǎng)絡(luò)開發(fā)
  • 網(wǎng)站建設(shè)收費(fèi)標(biāo)準(zhǔn)域名查詢 站長(zhǎng)查詢
  • 公司兩個(gè)網(wǎng)站如何都備案專業(yè)培訓(xùn)
  • 網(wǎng)站做多個(gè)單頁鏈接學(xué)校網(wǎng)站模板
  • 做化妝刷的外貿(mào)網(wǎng)站長(zhǎng)春網(wǎng)站優(yōu)化體驗(yàn)
  • 網(wǎng)站數(shù)據(jù)分析指標(biāo)武漢網(wǎng)站推廣公司排名
  • 網(wǎng)站設(shè)置價(jià)格錯(cuò)誤不愿意發(fā)貨軟文發(fā)布平臺(tái)
  • 簡(jiǎn)單php企業(yè)網(wǎng)站源碼網(wǎng)絡(luò)廣告策劃方案范文
  • 2018做網(wǎng)站用什么開發(fā)上海百網(wǎng)優(yōu)seo優(yōu)化公司
  • 網(wǎng)站維護(hù) 公司簡(jiǎn)介谷歌seo軟件
  • 日本人性劇情片電影專業(yè)seo站長(zhǎng)工具全面查詢網(wǎng)站
  • 哪個(gè)網(wǎng)站使用vue 做的建網(wǎng)站教程
  • 手機(jī)網(wǎng)站php源碼營(yíng)銷網(wǎng)絡(luò)的建設(shè)
  • 網(wǎng)站建設(shè)找美橙互聯(lián)百度關(guān)鍵詞怎么刷上去