當(dāng)前位置：首頁 > news >正文

西湖專業(yè)網(wǎng)站設(shè)計(jì)公司網(wǎng)站策劃書的撰寫流程

news 2025/7/6 2:45:38

西湖專業(yè)網(wǎng)站設(shè)計(jì)公司,網(wǎng)站策劃書的撰寫流程,wordpress商業(yè)模板,建立網(wǎng)站的詳細(xì)步驟圖解譯者注： Embedding 直接翻譯為嵌入似乎不太恰當(dāng)，于是問了一下 ChatGPT，它的回復(fù)如下： 在自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域，"embeddings" 是指將單詞、短語或文本轉(zhuǎn)換成連續(xù)向量空間的過程。這個(gè)向量空間通常被稱…

譯者注：

Embedding 直接翻譯為嵌入似乎不太恰當(dāng)，于是問了一下 ChatGPT，它的回復(fù)如下：

在自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域，"embeddings" 是指將單詞、短語或文本轉(zhuǎn)換成連續(xù)向量空間的過程。這個(gè)向量空間通常被稱為嵌入空間（embedding space），而生成的向量則稱為嵌入向量（embedding vector）或向量嵌入（vector embedding）。

嵌入向量可以捕獲單詞、短語或文本的語義信息，使得它們可以在數(shù)學(xué)上進(jìn)行比較和計(jì)算。這種比較和計(jì)算在自然語言處理和機(jī)器學(xué)習(xí)中經(jīng)常被用于各種任務(wù)，例如文本分類、語義搜索、詞語相似性計(jì)算等。

在中文語境下，"embeddings" 通常被翻譯為 "詞向量" 或者 "向量表示"。這些翻譯強(qiáng)調(diào)了嵌入向量的特點(diǎn)，即將詞匯轉(zhuǎn)換成向量，并表示為嵌入空間中的點(diǎn)。

在本文檔中，Embedding 表示名詞時(shí)大部多沒有翻譯直接用了英文，embedding vector 翻譯為了“嵌入向量”，表示動(dòng)詞時(shí)翻譯為了“向量表示”，翻譯的比較倉促，如果有不恰當(dāng)?shù)牡胤?#xff0c;歡迎評(píng)論指正。

本篇文檔翻譯時(shí)間為 20230403，請(qǐng)注意時(shí)效性。

其他已翻譯文檔鏈接：

IvyLee：OpenAI ChatGPT API 指南之 Chat Completion Beta 版
IvyLee：OpenAI ChatGPT API 指南之語音轉(zhuǎn)文字 Beta 版
IvyLee：OpenAI ChatGPT API 文檔之生產(chǎn)最佳實(shí)踐
IvyLee：OpenAI ChatGPT API 文檔之 Embedding
IvyLee：OpenAI ChatGPT API 文檔之 Fine-tuning（微調(diào)）

什么是 Embedding？

OpenAI 中的文本 Embedding 衡量文本字符串之間的相關(guān)性。Embedding 通常用于以下場(chǎng)景：

搜索（結(jié)果按查詢字符串的相關(guān)性進(jìn)行排序）
聚類（將文本字符串按相似性分組）
推薦（推薦具有相關(guān)文本字符串的項(xiàng)目）
異常檢測(cè)（識(shí)別相關(guān)性較小的異常值）
多樣性測(cè)量（分析相似度分布）
分類（文本字符串按其最相似的標(biāo)簽進(jìn)行分類）

Embedding 是一個(gè)浮點(diǎn)數(shù)向量（列表）。兩個(gè)向量之間的距離用于測(cè)量它們之間的相關(guān)性。較小距離表示高相關(guān)性，較大距離表示低相關(guān)性。

請(qǐng)?jiān)L問我們的定價(jià)頁面了解 Embedding 的定價(jià)。請(qǐng)求的計(jì)費(fèi)基于發(fā)送的輸入中的?token 數(shù)。

要了解 Embedding 的實(shí)際應(yīng)用，請(qǐng)查看我們的代碼示例（瀏覽示例）

分類
主題聚類
搜索
推薦

如何獲取 Embedding

要獲取 Embedding，將文本字符串和選定的 Embedding 模型 ID（例如?text-embedding-ada-002）發(fā)送到?Embedding API 端點(diǎn)。獲得的響應(yīng)中將包含一個(gè) Embedding，你可以提取、保存和使用。

請(qǐng)求示例：

response = openai.Embedding.create(input="Your text string goes here",model="text-embedding-ada-002"
)
embeddings = response['data'][0]['embedding']

響應(yīng)示例：

{"data": [{"embedding": [-0.006929283495992422,-0.005336422007530928,...-4.547132266452536e-05,-0.024047505110502243],"index": 0,"object": "embedding"}],"model": "text-embedding-ada-002","object": "list","usage": {"prompt_tokens": 5,"total_tokens": 5}
}

在?OpenAI Cookbook?中可以找到更多 Python 代碼示例。

使用 OpenAI Embedding 時(shí)，請(qǐng)注意其限制和風(fēng)險(xiǎn)。

Embedding 模型

OpenAI 提供了一個(gè)第二代 Embedding 模型（在模型 ID 中標(biāo)記為?-002）和 16 個(gè)第一代模型（在模型 ID 中標(biāo)記為?-001）。

幾乎所有用例我們都推薦使用?text-embedding-ada-002。這一模型更好、更便宜、更簡(jiǎn)單易用。相關(guān)信息可以閱讀博客文章中的公告。

模型版本	分詞器	最大輸入 token 數(shù)	知識(shí)截?cái)嗳掌?/th>
V2	cl100k_base	8191	Sep 2021
V1	GPT-2/GPT-3	2046	Aug 2020

按輸入 token 計(jì)費(fèi)，費(fèi)率為每 1000 個(gè) token 0.0004 美元，約為每美元 3000 頁（假設(shè)每頁約 800 個(gè) token）：

模型	每美元大約頁數(shù)	在 BEIR 搜索評(píng)估中的示例性能
text-embedding-ada-002	3000	53.9
davinci-001	6	52.8
curie-001	60	50.9
babbage-001	240	50.4
ada-001	300	49.0

第二代模型

模型名稱	分詞器	最大輸入 token 數(shù)	輸出維度
text-embedding-ada-002	cl100k_base	8191	1536

第一代模型（不推薦使用）

所有第一代模型（以?-001?結(jié)尾的模型）均使用?GPT-3 分詞器，最大輸入為 2046 個(gè) token。

第一代 Embedding 由五種不同的模型系列生成，針對(duì)三種不同的任務(wù)進(jìn)行調(diào)整：文本搜索、文本相似度和代碼搜索。其中搜索模型都有兩個(gè)：一個(gè)用于短查詢，一個(gè)用于長(zhǎng)文檔。每個(gè)系列包括不同質(zhì)量和速度的四個(gè)模型：

模型	輸出維度
Ada	1024
Babbage	2048
Curie	4096
Davinci	12288

Davinci 是能力最強(qiáng)的，但比起其他模型來，更慢更昂貴。Ada 能力最弱，但明顯更快更便宜。

相似性模型

相似性模型最擅長(zhǎng)捕捉文本之間的語義相似性。

使用場(chǎng)景	可用模型
Clustering, regression, anomaly detection, visualization	text-similarity-ada-001 text-similarity-babbage-001 text-similarity-curie-001 text-similarity-davinci-001

文本搜索模型

文本搜索模型有助于衡量哪些長(zhǎng)文檔與短搜索查詢最相關(guān)。使用兩種模型：一種用于將搜索查詢向量表示，另一種用于將要排序的文檔向量表示。與查詢 Embedding 最接近的文檔 Embedding 應(yīng)該是最相關(guān)的。

使用場(chǎng)景	可用模型
Search, context relevance, information retrieval	text-search-ada-doc-001 text-search-ada-query-001 text-search-babbage-doc-001 text-search-babbage-query-001 text-search-curie-doc-001 text-search-curie-query-001 text-search-davinci-doc-001 text-search-davinci-query-001

代碼搜索模型

與搜索模型一樣，有兩種類型：一種用于向量表示自然語言搜索查詢，另一種用于向量表示代碼片段以進(jìn)行檢索。

使用場(chǎng)景	可用模型
Code search and relevance	code-search-ada-code-001 code-search-ada-text-001 code-search-babbage-code-001 code-search-babbage-text-001

對(duì)于? -001?文本 Embedding（不是? -002?，也不是代碼 Embedding），建議將輸入中的換行符（? \n）替換為一個(gè)空格，因?yàn)槲覀儼l(fā)現(xiàn)存在換行符時(shí)，結(jié)果會(huì)更差。

使用場(chǎng)景

這里展示了一些典型的使用場(chǎng)景，我們將在以下示例中使用亞馬遜美食評(píng)論數(shù)據(jù)集。

獲取 Embedding

該數(shù)據(jù)集包含截至 2012 年 10 月，亞馬遜用戶留下的共計(jì) 568454 條食品評(píng)論。我們將使用最近的 1000 條評(píng)論作為示例。這些評(píng)論是用英文撰寫的，傾向有積極有消極。每個(gè)評(píng)論都有一個(gè)產(chǎn)品 ID、用戶 ID、評(píng)分（SCORE）、評(píng)論標(biāo)題（SUMMARY）和評(píng)論正文（TEXT）。例如：

PRODUCT ID	USER ID	SCORE	SUMMARY	TEXT
B001E4KFG0	A3SGXH7AUHU8GW	5	Good Quality Dog Food	I have bought several of the Vitality canned...
B00813GRG4	A1D87F6ZCVE5NK	1	Not as Advertised	Product arrived labeled as Jumbo Salted Peanut...

我們把評(píng)論摘要和評(píng)論文本合并為一個(gè)組合文本。模型將對(duì)這一組合文本進(jìn)行編碼，輸出一個(gè)向量 Embedding。

Obtain_dataset.ipynb

def get_embedding(text, model="text-embedding-ada-002"):text = text.replace("\\n", " ")return openai.Embedding.create(input = [text], model=model)['data'][0]['embedding']df['ada_embedding'] = df.combined.apply(lambda x: get_embedding(x, model='text-embedding-ada-002'))
df.to_csv('output/embedded_1k_reviews.csv', index=False)

要從已保存的文件中加載數(shù)據(jù)，可以運(yùn)行以下命令：

import pandas as pddf = pd.read_csv('output/embedded_1k_reviews.csv')
df['ada_embedding'] = df.ada_embedding.apply(eval).apply(np.array)

二維數(shù)據(jù)可視化

Visualizing_embeddings_in_2D.ipynb

Embedding 的大小隨著底層模型的復(fù)雜性而變化。為了可視化這些高維數(shù)據(jù)，我們使用 t-SNE 算法將數(shù)據(jù)轉(zhuǎn)換為二維數(shù)據(jù)。

根據(jù)評(píng)價(jià)者所給出的星級(jí)評(píng)分來給評(píng)論著色：

1星：紅色
2星：橙色
3星：金色
4星：青綠色
5星：深綠色

可視化似乎產(chǎn)生了大約 3 個(gè)集群，其中一個(gè)集群的大部分都是負(fù)面評(píng)論。

import pandas as pd
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import matplotlibdf = pd.read_csv('output/embedded_1k_reviews.csv')
matrix = df.ada_embedding.apply(eval).to_list()# Create a t-SNE model and transform the data
tsne = TSNE(n_components=2, perplexity=15, random_state=42, init='random', learning_rate=200)
vis_dims = tsne.fit_transform(matrix)colors = ["red", "darkorange", "gold", "turquiose", "darkgreen"]
x = [x for x,y in vis_dims]
y = [y for x,y in vis_dims]
color_indices = df.Score.values - 1colormap = matplotlib.colors.ListedColormap(colors)
plt.scatter(x, y, c=color_indices, cmap=colormap, alpha=0.3)
plt.title("Amazon ratings visualized in language using t-SNE")

將 Embedding 用作 ML 算法的文本特征編碼器

Regression_using_embeddings.ipynb

Embedding 可以被用作機(jī)器學(xué)習(xí)模型中的通用自由文本特征編碼器。如果一些相關(guān)輸入是自由文本，將 Embedding 加入模型會(huì)提高機(jī)器學(xué)習(xí)模型的性能。Embedding 也可以被用作機(jī)器學(xué)習(xí)模型中的分類特征編碼器。如果分類變量的名稱有意義且數(shù)量眾多，比如“工作職稱”，這將會(huì)增加最大的價(jià)值。相似性 Embedding 通常比搜索 Embedding 在這個(gè)任務(wù)上表現(xiàn)更好。

我們觀察到向量表示通常都非常豐富和信息密集。使用 SVD 或 PCA 將輸入的維度降低 10％，通常會(huì)導(dǎo)致特定任務(wù)的下游性能變差。

這段代碼將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集，將用于以下兩個(gè)案例，即回歸和分類。

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(list(df.ada_embedding.values),df.Score,test_size = 0.2,random_state=42
)

使用 Embedding 特征進(jìn)行回歸

Embedding 提供了一種優(yōu)雅的方法來預(yù)測(cè)數(shù)值。在這個(gè)例子中，我們基于評(píng)論文本預(yù)測(cè)評(píng)論者的星級(jí)評(píng)分。由于 Embedding 內(nèi)包含的語義信息很高，即使只有很少的評(píng)論，預(yù)測(cè)結(jié)果也很不錯(cuò)。

我們假設(shè)分?jǐn)?shù)是在 1 到 5 之間的連續(xù)變量，允許算法預(yù)測(cè)浮點(diǎn)數(shù)值。機(jī)器學(xué)習(xí)算法通過最小化預(yù)測(cè)值與真實(shí)分?jǐn)?shù)之間的距離，實(shí)現(xiàn)了平均絕對(duì)誤差為 0.39，這意味著還不到半個(gè)星級(jí)。

from sklearn.ensemble import RandomForestRegressorrfr = RandomForestRegressor(n_estimators=100)
rfr.fit(X_train, y_train)
preds = rfr.predict(X_test)

使用 Embedding 特征進(jìn)行分類

使用 Embedding 進(jìn)行分類.ipynb

這次，不是讓算法預(yù)測(cè) 1 到 5 之間的任意值，而是嘗試將評(píng)價(jià)的精確星級(jí)分類為 5 個(gè) bucket，從 1 星到 5 星。

經(jīng)過訓(xùn)練后，模型可以學(xué)習(xí)到更好地預(yù)測(cè) 1 星和 5 星的評(píng)論，因?yàn)檫@兩者情感表達(dá)更加極端，對(duì)于情感比較微妙的評(píng)論（2-4 星），可能學(xué)習(xí)效果較差。

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_scoreclf = RandomForestClassifier(n_estimators=100)
clf.fit(X_train, y_train)
preds = clf.predict(X_test)

零樣本分類

使用 Embedding 進(jìn)行零樣本分類.ipynb

我們可以使用 Embedding 進(jìn)行零樣本分類，無需任何標(biāo)記的訓(xùn)練數(shù)據(jù)。對(duì)于每個(gè)類別，我們將類別名稱或類別的簡(jiǎn)短描述進(jìn)行向量表示。要以零樣本的方式對(duì)一些新文本進(jìn)行分類，只需要將新文本的 Embedding 與所有類別 Embedding 進(jìn)行比較，預(yù)測(cè)具有最高相似度的類別。

from openai.embeddings_utils import cosine_similarity, get_embeddingdf= df[df.Score!=3]
df['sentiment'] = df.Score.replace({1:'negative', 2:'negative', 4:'positive', 5:'positive'})labels = ['negative', 'positive']
label_embeddings = [get_embedding(label, model=model) for label in labels]def label_score(review_embedding, label_embeddings):return cosine_similarity(review_embedding, label_embeddings[1]) - cosine_similarity(review_embedding, label_embeddings[0])prediction = 'positive' if label_score('Sample Review', label_embeddings) > 0 else 'negative'

獲取用戶和產(chǎn)品的 Embedding 用于冷啟動(dòng)推薦

User_and_product_embeddings.ipynb

可以通過對(duì)某一用戶的所有評(píng)論進(jìn)行平均來獲得該用戶的 Embedding，通過對(duì)有關(guān)某產(chǎn)品的所有評(píng)論進(jìn)行平均來獲得該產(chǎn)品的 Embedding。為了展示這種方法的實(shí)用性，我們使用了包含 50k 個(gè)評(píng)論的子集以覆蓋更多用戶和產(chǎn)品的評(píng)論。

我們?cè)趩为?dú)的測(cè)試集上評(píng)估這些 Embedding 的有用性，將用戶和產(chǎn)品 Embedding 的相似性繪制為評(píng)分的函數(shù)。有趣的是，基于這種方法，在用戶收到產(chǎn)品之前，我們就可以預(yù)測(cè)他們是否會(huì)喜歡該產(chǎn)品，獲得比隨機(jī)預(yù)測(cè)更好的結(jié)果。

user_embeddings = df.groupby('UserId').ada_embedding.apply(np.mean)
prod_embeddings = df.groupby('ProductId').ada_embedding.apply(np.mean)

聚類

聚類.ipynb

聚類是理解大量文本數(shù)據(jù)的一種方法。Embedding 對(duì)于此任務(wù)很有用，因?yàn)樗鼈兲峁┟總€(gè)文本的語義有意義的向量表示。因此，在無監(jiān)督的方式下，聚類將揭示數(shù)據(jù)集中的隱藏分組。

在此示例中，我們發(fā)現(xiàn)四個(gè)不同的聚類：一個(gè)關(guān)注狗糧，一個(gè)關(guān)注負(fù)面評(píng)論，兩個(gè)關(guān)注正面評(píng)論。

import numpy as np
from sklearn.cluster import KMeansmatrix = np.vstack(df.ada_embedding.values)
n_clusters = 4kmeans = KMeans(n_clusters = n_clusters, init='k-means++', random_state=42)
kmeans.fit(matrix)
df['Cluster'] = kmeans.labels_

使用 Embedding 進(jìn)行文本搜索

使用 Embedding 進(jìn)行語義文本搜索.ipynb

為了檢索出最相關(guān)的文檔，我們使用查詢嵌入向量和文檔嵌入向量之間的余弦相似度，返回得分最高的文檔。

from openai.embeddings_utils import get_embedding, cosine_similaritydef search_reviews(df, product_description, n=3, pprint=True):embedding = get_embedding(product_description, model='text-embedding-ada-002')df['similarities'] = df.ada_embedding.apply(lambda x: cosine_similarity(x, embedding))res = df.sort_values('similarities', ascending=False).head(n)return resres = search_reviews(df, 'delicious beans', n=3)

使用 Embedding 代碼搜索

Code_search.ipynb

代碼搜索類似于基于 Embedding 的文本搜索。我們提供了一種從給定代碼庫的所有 Python 文件中提取 Python 函數(shù)的方法。然后每個(gè)函數(shù)都通過?text-embedding-ada-002?模型進(jìn)行索引。

為了執(zhí)行代碼搜索，我們使用相同的模型以自然語言將查詢進(jìn)行向量表示。然后，計(jì)算查詢結(jié)果 Embedding 和每個(gè)函數(shù) Embedding 之間的余弦相似度。余弦相似度最高的結(jié)果最相關(guān)。

from openai.embeddings_utils import get_embedding, cosine_similaritydf['code_embedding'] = df['code'].apply(lambda x: get_embedding(x, model='text-embedding-ada-002'))def search_functions(df, code_query, n=3, pprint=True, n_lines=7):embedding = get_embedding(code_query, model='text-embedding-ada-002')df['similarities'] = df.code_embedding.apply(lambda x: cosine_similarity(x, embedding))res = df.sort_values('similarities', ascending=False).head(n)return res
res = search_functions(df, 'Completions API tests', n=3)

使用 Embedding 進(jìn)行推薦

Recommendation_using_embeddings.ipynb

因?yàn)榍度胂蛄恐g的距離越短，表示它們之間的相似性越大，所以 Embedding 可以用于推薦系統(tǒng)。

下面我們展示一個(gè)基本的推薦系統(tǒng)。它接受一個(gè)字符串列表和一個(gè) source 字符串，計(jì)算它們的嵌入向量，然后返回一個(gè)排序列表，從最相似到最不相似。上面鏈接的 Notebook 文件中，應(yīng)用了這個(gè)函數(shù)的一個(gè)版本來處理?AG 新聞數(shù)據(jù)集（采樣到 2000 個(gè)新聞文章描述），返回與任何給定 source 文章最相似的前 5 篇文章。

def recommendations_from_strings(strings: List[str],index_of_source_string: int,model="text-embedding-ada-002",
) -> List[int]:"""Return nearest neighbors of a given string."""# get embeddings for all stringsembeddings = [embedding_from_string(string, model=model) for string in strings]# get the embedding of the source stringquery_embedding = embeddings[index_of_source_string]# get distances between the source embedding and other embeddings (function from embeddings_utils.py)distances = distances_from_embeddings(query_embedding, embeddings, distance_metric="cosine")# get indices of nearest neighbors (function from embeddings_utils.py)indices_of_nearest_neighbors = indices_of_nearest_neighbors_from_distances(distances)return indices_of_nearest_neighbors

限制和風(fēng)險(xiǎn)

我們的 Embedding 模型在某些情況下可能不可靠或存在社會(huì)風(fēng)險(xiǎn)，并且在沒有緩解措施的情況下可能會(huì)造成傷害。

社會(huì)偏見

限制：模型可能存在某些社會(huì)偏見，比如對(duì)某些群體的刻板印象或負(fù)面情緒。

我們通過運(yùn)行 SEAT（May et al，2019）和 Winogender（Rudinger et al，2018）基準(zhǔn)測(cè)試發(fā)現(xiàn)了模型存在偏見的證據(jù)。這些基準(zhǔn)測(cè)試共包含 7 個(gè)，衡量模型在應(yīng)用于性別化名稱、國(guó)家和地區(qū)名稱和一些刻板印象時(shí)是否包含隱含的偏見。

例如，我們發(fā)現(xiàn)我們的模型更強(qiáng)烈地將（a）歐洲裔美國(guó)人的名字與非洲裔美國(guó)人的名字相比，更容易與積極情感聯(lián)系在一起，以及（b）將負(fù)面刻板印象與黑人女性聯(lián)系在一起。

這些基準(zhǔn)測(cè)試在多個(gè)方面存在限制：（a）它們可能不適用于你特定的使用場(chǎng)景，（b）它們只測(cè)試了可能的社會(huì)偏見的極小部分。

這些測(cè)試只是初步的，我們建議你運(yùn)行針對(duì)自己特定用例的測(cè)試。這些結(jié)果應(yīng)被視為該現(xiàn)象存在的證據(jù)，而不是針對(duì)你的用例的確定性描述。更多詳細(xì)信息和指導(dǎo)，請(qǐng)參閱我們的使用政策。

如果你有任何問題，請(qǐng)通過聊天聯(lián)系我們的支持團(tuán)隊(duì)。

缺乏對(duì)近期事件的認(rèn)知

限制：模型缺乏對(duì) 2020 年 8 月之后發(fā)生事件的了解。

我們模型的訓(xùn)練數(shù)據(jù)，只包含 2020 年 8 月之前的現(xiàn)實(shí)世界事件信息。如果你依賴于表示近期事件的模型，那么我們的模型可能會(huì)表現(xiàn)欠佳。

常見問題

如何在 Embedding 之前知道一個(gè)字符串有多少個(gè) token？

在 Python 中，你可以使用 OpenAI 的分詞器?tiktoken?將字符串拆分為 token。

示例代碼：

import tiktokendef num_tokens_from_string(string: str, encoding_name: str) -> int:"""Returns the number of tokens in a text string."""encoding = tiktoken.get_encoding(encoding_name)num_tokens = len(encoding.encode(string))return num_tokensnum_tokens_from_string("tiktoken is great!", "cl100k_base")

對(duì)于像?text-embedding-ada-002?這樣的第二代 Embedding 模型，請(qǐng)使用?cl100k_base?編碼。

更多細(xì)節(jié)和示例代碼在 OpenAI Cookbook 指南如何使用 tiktoken 計(jì)算 token 數(shù)中。

如何快速檢索 K 個(gè)最近的嵌入向量？

為了快速搜索許多向量，我們建議使用向量數(shù)據(jù)庫。你可以在 GitHub 上的?OpenAI Cookbook?中找到使用向量數(shù)據(jù)庫和 OpenAI API 的示例。

向量數(shù)據(jù)庫選項(xiàng)包括：

Pinecone，完全托管的向量數(shù)據(jù)庫
Weaviate，開源向量搜索引擎
Redis，向量數(shù)據(jù)庫
Qdrant，向量搜索引擎
Milvus，用于可擴(kuò)展相似性搜索的向量數(shù)據(jù)庫
Chroma，開源的嵌入向量存儲(chǔ)

我應(yīng)該使用哪種距離函數(shù)？

我們建議使用余弦相似度。距離函數(shù)的選擇通常不太重要。

OpenAI Embedding 已標(biāo)準(zhǔn)化為長(zhǎng)度 1，這意味著：

余弦相似度可以使用點(diǎn)積更快地計(jì)算
余弦相似度和歐幾里得距離將產(chǎn)生相同的排名

我能在網(wǎng)上分享我的 Embedding 嗎？

客戶有模型輸入和輸出的所有權(quán)，對(duì)于 Embedding 也一樣。你有責(zé)任確保你輸入到 API 的內(nèi)容不違反任何適用的法律或我們的《使用條款》。

查看全文

http://www.risenshineclean.com/news/3349.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网