當(dāng)前位置：首頁(yè) > news >正文

請(qǐng)問(wèn)網(wǎng)上有沒(méi)有比較好的網(wǎng)站可以做照片書的呀?要求質(zhì)量比較好的!品牌推廣方案ppt

news 2025/7/12 7:48:24

請(qǐng)問(wèn)網(wǎng)上有沒(méi)有比較好的網(wǎng)站可以做照片書的呀?要求質(zhì)量比較好的!,品牌推廣方案ppt,電腦怎么做最新系統(tǒng)下載網(wǎng)站,零食天堂專做零食推薦的網(wǎng)站目錄介紹數(shù)據(jù)集設(shè)置準(zhǔn)備數(shù)據(jù) 將電影評(píng)分?jǐn)?shù)據(jù)轉(zhuǎn)換為序列定義元數(shù)據(jù) 創(chuàng)建用于訓(xùn)練和評(píng)估的 tf.data.Dataset 創(chuàng)建模型輸入輸入特征編碼創(chuàng)建 BST 模型開(kāi)展培訓(xùn)和評(píng)估實(shí)驗(yàn) 政安晨的個(gè)人主頁(yè)：政安晨歡迎 👍點(diǎn)贊?評(píng)論?收藏希望政安晨的…

介紹

數(shù)據(jù)集

設(shè)置

準(zhǔn)備數(shù)據(jù)

將電影評(píng)分?jǐn)?shù)據(jù)轉(zhuǎn)換為序列

定義元數(shù)據(jù)

創(chuàng)建用于訓(xùn)練和評(píng)估的 tf.data.Dataset

創(chuàng)建模型輸入

輸入特征編碼

創(chuàng)建 BST 模型

開(kāi)展培訓(xùn)和評(píng)估實(shí)驗(yàn)

政安晨的個(gè)人主頁(yè)：政安晨

歡迎?👍點(diǎn)贊?評(píng)論?收藏

希望政安晨的博客能夠?qū)δ兴砸?#xff0c;如有不足之處，歡迎在評(píng)論區(qū)提出指正！

本文目標(biāo)：在 Movielens 上使用行為序列轉(zhuǎn)換器（BST）模型預(yù)測(cè)評(píng)級(jí)率。

介紹

本示例使用 Movielens 數(shù)據(jù)集演示了陳啟偉等人的行為序列轉(zhuǎn)換器（BST）模型。 BST 模型利用用戶觀看電影和給電影評(píng)分的順序行為，以及用戶資料和電影特征，來(lái)預(yù)測(cè)用戶對(duì)目標(biāo)電影的評(píng)分。

更確切地說(shuō)，BST 模型旨在通過(guò)接受以下輸入來(lái)預(yù)測(cè)目標(biāo)電影的評(píng)分：

用戶觀看過(guò)的電影的固定長(zhǎng)度序列。
用戶觀看過(guò)的電影評(píng)分的固定長(zhǎng)度序列。
輸入序列中每部電影和目標(biāo)電影的類型集。
輸入序列中每部電影和目標(biāo)電影的類型集。
要預(yù)測(cè)評(píng)分的 target_movie_id。

該示例以下列方式修改了原始 BST 模型：

1. 我們?cè)谔幚磔斎胄蛄兄械拿坎侩娪昂湍繕?biāo)電影的嵌入過(guò)程中都加入了電影特征（流派），而不是將其視為轉(zhuǎn)換層之外的 "其他特征"。

2. 我們利用輸入序列中電影的評(píng)分以及它們?cè)谛蛄兄械奈恢脕?lái)更新它們，然后再將它們輸入自我關(guān)注層。

（請(qǐng)注意，本示例應(yīng)在 TensorFlow 2.4 或更高版本中運(yùn)行。）

數(shù)據(jù)集

我們使用的是 Movielens 數(shù)據(jù)集的 1M 版本。該數(shù)據(jù)集包含 6000 名用戶對(duì) 4000 部電影的約 100 萬(wàn)個(gè)評(píng)分，以及一些用戶特征和電影類型。此外，數(shù)據(jù)集還提供了每個(gè)用戶對(duì)電影評(píng)分的時(shí)間戳，這樣就可以按照 BST 模型的預(yù)期，為每個(gè)用戶創(chuàng)建電影評(píng)分序列。

設(shè)置

import osos.environ["KERAS_BACKEND"] = "tensorflow"import math
from zipfile import ZipFile
from urllib.request import urlretrieveimport keras
import numpy as np
import pandas as pd
import tensorflow as tf
from keras import layers
from keras.layers import StringLookup

準(zhǔn)備數(shù)據(jù)

下載并準(zhǔn)備數(shù)據(jù)框

首先，讓我們下載 movielens 數(shù)據(jù)。

下載的文件夾將包含三個(gè)數(shù)據(jù)文件：users.dat、movies.dat 和 ratings.dat。

urlretrieve("http://files.grouplens.org/datasets/movielens/ml-1m.zip", "movielens.zip")
ZipFile("movielens.zip", "r").extractall()

然后，我們用正確的列名將數(shù)據(jù)加載到 pandas DataFrames 中。

users = pd.read_csv("ml-1m/users.dat",sep="::",names=["user_id", "sex", "age_group", "occupation", "zip_code"],encoding="ISO-8859-1",engine="python",
)ratings = pd.read_csv("ml-1m/ratings.dat",sep="::",names=["user_id", "movie_id", "rating", "unix_timestamp"],encoding="ISO-8859-1",engine="python",
)movies = pd.read_csv("ml-1m/movies.dat",sep="::",names=["movie_id", "title", "genres"],encoding="ISO-8859-1",engine="python",
)

在此，我們進(jìn)行一些簡(jiǎn)單的數(shù)據(jù)處理，以固定列的數(shù)據(jù)類型。

users["user_id"] = users["user_id"].apply(lambda x: f"user_{x}")
users["age_group"] = users["age_group"].apply(lambda x: f"group_{x}")
users["occupation"] = users["occupation"].apply(lambda x: f"occupation_{x}")movies["movie_id"] = movies["movie_id"].apply(lambda x: f"movie_{x}")ratings["movie_id"] = ratings["movie_id"].apply(lambda x: f"movie_{x}")
ratings["user_id"] = ratings["user_id"].apply(lambda x: f"user_{x}")
ratings["rating"] = ratings["rating"].apply(lambda x: float(x))

每部電影都有多種類型。我們將它們分成電影 DataFrame 中的不同列。

genres = ["Action", "Adventure", "Animation", "Children's", "Comedy", "Crime"]
genres += ["Documentary", "Drama", "Fantasy", "Film-Noir", "Horror", "Musical"]
genres += ["Mystery", "Romance", "Sci-Fi", "Thriller", "War", "Western"]for genre in genres:movies[genre] = movies["genres"].apply(lambda values: int(genre in values.split("|")))

將電影評(píng)分?jǐn)?shù)據(jù)轉(zhuǎn)換為序列

首先，我們使用 unix_timestamp 對(duì)評(píng)分?jǐn)?shù)據(jù)進(jìn)行排序，然后按用戶 ID 對(duì)電影 ID 值和評(píng)分值進(jìn)行分組。

ratings_group = ratings.sort_values(by=["unix_timestamp"]).groupby("user_id")ratings_data = pd.DataFrame(data={"user_id": list(ratings_group.groups.keys()),"movie_ids": list(ratings_group.movie_id.apply(list)),"ratings": list(ratings_group.rating.apply(list)),"timestamps": list(ratings_group.unix_timestamp.apply(list)),}
)

現(xiàn)在，讓我們把 movie_ids 列表拆分成一組固定長(zhǎng)度的序列。我們對(duì)評(píng)分也做同樣的處理。設(shè)置 sequence_length 變量可改變模型輸入序列的長(zhǎng)度。您還可以改變 step_size 來(lái)控制為每個(gè)用戶生成的序列數(shù)量。

sequence_length = 4
step_size = 2def create_sequences(values, window_size, step_size):sequences = []start_index = 0while True:end_index = start_index + window_sizeseq = values[start_index:end_index]if len(seq) < window_size:seq = values[-window_size:]if len(seq) == window_size:sequences.append(seq)breaksequences.append(seq)start_index += step_sizereturn sequencesratings_data.movie_ids = ratings_data.movie_ids.apply(lambda ids: create_sequences(ids, sequence_length, step_size)
)ratings_data.ratings = ratings_data.ratings.apply(lambda ids: create_sequences(ids, sequence_length, step_size)
)del ratings_data["timestamps"]

然后，我們對(duì)輸出進(jìn)行處理，使每個(gè)序列在 DataFrame 中都有單獨(dú)的記錄。此外，我們還將用戶特征與評(píng)分?jǐn)?shù)據(jù)結(jié)合起來(lái)。

ratings_data_movies = ratings_data[["user_id", "movie_ids"]].explode("movie_ids", ignore_index=True
)
ratings_data_rating = ratings_data[["ratings"]].explode("ratings", ignore_index=True)
ratings_data_transformed = pd.concat([ratings_data_movies, ratings_data_rating], axis=1)
ratings_data_transformed = ratings_data_transformed.join(users.set_index("user_id"), on="user_id"
)
ratings_data_transformed.movie_ids = ratings_data_transformed.movie_ids.apply(lambda x: ",".join(x)
)
ratings_data_transformed.ratings = ratings_data_transformed.ratings.apply(lambda x: ",".join([str(v) for v in x])
)del ratings_data_transformed["zip_code"]ratings_data_transformed.rename(columns={"movie_ids": "sequence_movie_ids", "ratings": "sequence_ratings"},inplace=True,
)

在 sequence_length 為 4、step_size 為 2 的情況下，我們最終得到了 498 623 個(gè)序列。最后，我們將數(shù)據(jù)分成訓(xùn)練和測(cè)試兩個(gè)部分，分別包含 85% 和 15% 的實(shí)例，并將它們存儲(chǔ)到 CSV 文件中。

random_selection = np.random.rand(len(ratings_data_transformed.index)) <= 0.85
train_data = ratings_data_transformed[random_selection]
test_data = ratings_data_transformed[~random_selection]train_data.to_csv("train_data.csv", index=False, sep="|", header=False)
test_data.to_csv("test_data.csv", index=False, sep="|", header=False)