當(dāng)前位置：首頁 > news >正文

北京做網(wǎng)站公司推薦seo工具軟件

news 2025/7/8 21:13:29

北京做網(wǎng)站公司推薦,seo工具軟件,湖南智能網(wǎng)站建設(shè)報價,義烏網(wǎng)站搭建[醫(yī)學(xué)分割大模型系列] -3- SAM-Med3D 分割大模型解析 1. 特點2. 背景3. 訓(xùn)練數(shù)據(jù)集3.1 數(shù)據(jù)集收集3.2 數(shù)據(jù)清洗3.3 模型微調(diào)數(shù)據(jù)集 4. 模型結(jié)構(gòu)4.1 3D Image Encoder4.2 3D Prompt Encoder4.3 3D mask Decoder4.4 模型權(quán)重 5. 評估5.1 評估數(shù)據(jù)集5.2 Quantitative Evaluation5.…

[醫(yī)學(xué)分割大模型系列] -3- SAM-Med3D 分割大模型解析

1. 特點
2. 背景
3. 訓(xùn)練數(shù)據(jù)集
- 3.1 數(shù)據(jù)集收集
- 3.2 數(shù)據(jù)清洗
- 3.3 模型微調(diào)數(shù)據(jù)集
4. 模型結(jié)構(gòu)
- 4.1 3D Image Encoder
- 4.2 3D Prompt Encoder
- 4.3 3D mask Decoder
- 4.4 模型權(quán)重
5. 評估
- 5.1 評估數(shù)據(jù)集
- 5.2 Quantitative Evaluation
- 5.3 可視化
6. 結(jié)論

論文地址：SAM-Med3D

開源地址：https://github.com/uni-medical/SAM-Med3D

發(fā)表日期：2023年10月

參考資料：

王皓宇（上海交通大學(xué)）SAM-Med3D基于SAM構(gòu)建3D醫(yī)學(xué)影像通用分割模型
SAM-Med3D：三維醫(yī)學(xué)圖像上的通用分割模型，醫(yī)療版三維 SAM 開源了！
SAM-Med3D (SJTU 2024)

1. 特點

通用分割能力：在各種3D目標上精準分割，效果明顯優(yōu)于SAM，SAM-Med2D（相對于切片進行2D分割）
更高的效率：比現(xiàn)有通用分割模型更快，提示需求更少（相對于切片進行2D分割）
遷移能力：作為預(yù)訓(xùn)練模型，在多個任務(wù)上效果良好
模型輸入：要分割的圖像和一個/幾個提示點（提示點越多，效果越好）
模型輸出：分割結(jié)果
數(shù)據(jù)集：SAM-Med3D-130K數(shù)據(jù)集，擁有 131K 3D mask和 247 個類別
網(wǎng)絡(luò)結(jié)構(gòu)：類SAM，將結(jié)構(gòu)換成3D版本
分割對象：3D醫(yī)學(xué)圖像

2. 背景

3D醫(yī)學(xué)圖像：體素形式的3D圖像和標注，以不同分布的灰度圖像為主
任務(wù)特定模型的局限：
- 沉重的訓(xùn)練負擔(dān)：使用U-Net，UNETR等分割網(wǎng)絡(luò)在醫(yī)學(xué)數(shù)據(jù)集上訓(xùn)練，使用A100也需要2-7天
- 泛化性弱
  使用特定數(shù)據(jù)集訓(xùn)練出來的模型（左列）在其他數(shù)據(jù)集上的表現(xiàn)（行）不佳
SAM在3D醫(yī)學(xué)分割的局限：
- 由于醫(yī)學(xué)圖像知識的嚴重不足，將 SAM 直接應(yīng)用于醫(yī)學(xué)領(lǐng)域的有效性有限。解決這個問題的一種直接的方法是：將醫(yī)學(xué)知識融入到 SAM 中。比如，MedSAM 是一種典型示例，它通過使用110萬個掩碼（mask）對SAM 的解碼器（Mask Decoder）進行微調(diào)，從而使 SAM 能夠通過邊界框（Bounding Box）作為提示來更好地分割醫(yī)學(xué)影像；SAM-Med2D 則引入了適配器（Adapter）和約2000萬個掩碼（mask）對 SAM 進行了充分微調(diào)，從而在醫(yī)學(xué)圖像分割中表現(xiàn)出了卓越的性能。
- 然而，這些方法必須采用逐切片（slice）的方法來處理三維醫(yī)學(xué)圖像，也即，將三維數(shù)據(jù)從某個維度分解為二維切片，然后獨立處理每個切片，最后將二維分割結(jié)果匯總為三維分割結(jié)果。這種方法忽略了切片之間的三維空間信息，因此在三維醫(yī)學(xué)影像上表現(xiàn)不佳，這一問題可以從上圖中的結(jié)果看出。SAM和SAM-Med2D都是一張張切片進行分割，每張切片都需要一個提示，所以總共需要N個提示。對于一些切片，他們的表現(xiàn)不佳，從而導(dǎo)致空間信息的不連貫。
- 除了將 SAM 直接應(yīng)用于三維數(shù)據(jù)，一些研究人員希望通過引入二維到三維的適配器（Adapter）來捕捉三維空間信息。這些方法通常在保持編碼器（Image Encoder）不變的同時引入了三維適配器（Adapter），以使模型能夠從三維圖像中學(xué)習(xí)到三維空間信息。然而，這些方法存在兩個主要限制：（1）數(shù)據(jù)規(guī)模有限：這些方法的模型通常只在有限的數(shù)據(jù)規(guī)模下進行訓(xùn)練（通常在1K到25K個mask范圍內(nèi)），并且只針對有限的目標類型。這限制了模型的泛化性能和適用范圍。（2）凍結(jié)的二維編碼器：現(xiàn)有的三維 SAM-based 模型一直堅守著凍結(jié)原始二維 SAM 編碼器（Image Encoder）的設(shè)計范式，這限制了模型全面建模三維空間信息的能力，大大限制了 SAM 在三維醫(yī)學(xué)圖像處理領(lǐng)域的發(fā)展?jié)摿Α?/li>

3. 訓(xùn)練數(shù)據(jù)集

3.1 數(shù)據(jù)集收集

在這里插入圖片描述作者進行了三維醫(yī)學(xué)圖像數(shù)據(jù)集的廣泛收集和標準化工作，整合了116個公開和私有的三維醫(yī)學(xué)圖像數(shù)據(jù)集，經(jīng)過4輪數(shù)據(jù)篩選和清晰，創(chuàng)建了迄今為止規(guī)模最大的三維醫(yī)學(xué)圖像分割數(shù)據(jù)集。該數(shù)據(jù)集包含了 2.1 萬個三維醫(yī)學(xué)圖像（病人數(shù)量）和 13.1 萬個三維掩碼（mask）。從下表可以清晰地看出，這一數(shù)據(jù)集的規(guī)模遠遠超過了現(xiàn)有最大的三維醫(yī)學(xué)圖像分割數(shù)據(jù)集，如 TotalSegmentator 和 BraTS21，其規(guī)模擴大了 10 倍以上。
在這里插入圖片描述
該數(shù)據(jù)集涵蓋 27 種模態(tài)（CT 和 26 種MRI 序列）和 7 種解剖結(jié)構(gòu)。如下圖所?，共涵蓋了 247 個不同的類別，包括器官和病變。

3.2 數(shù)據(jù)清洗

在這里插入圖片描述
四步數(shù)據(jù)清洗：

基于元信息的數(shù)據(jù)清理 我們首先總結(jié)了所收集數(shù)據(jù)的元信息，包括每張醫(yī)學(xué)影像的深度、寬度和高度。我們刪除了所有物理尺寸小于 1 立方厘米或任何單個尺寸小于 1.5 厘米的病例，以確保目標mask的可見性。
基于連接域的掩碼清理 在計算連通域的過程中，我們首先將原始的多類mask分割成多個類別的單擊格式。然后，我們計算每個單擊掩碼的前 5 個最大連通域的大小和背景。根據(jù)這些掩碼的匯總信息，我們會刪除背景占整個體積 99% 以上的mask。
基于連接域的標簽質(zhì)量改進 對于過濾后的mask，我們設(shè)計了一個基于連接域的pipeline來提高標簽質(zhì)量。根據(jù)每個mask的前 5 個最大連通域的匯總信息，我們只需刪除小于這 5 個連通域的任何其他域，以減少噪音。
基于對稱性的標簽質(zhì)量改進 最后，我們將一些對稱目標的mask拆分為不同類別的成對mask。例如，我們將 "腎 "的mask分為 "左腎 "和 “右腎”。這一步的目的是加強不同類別mask的語義一致性，防止模型分不清是分割整個結(jié)構(gòu)還是只分割單個的左右部分。為了解決這個問題，SAM 為每個提示生成多個預(yù)測，并采用額外的頭部生成分數(shù)，以方便選擇最合適的預(yù)測。鑒于醫(yī)學(xué)圖像的mask通常不那么模糊，我們選擇直接處理數(shù)據(jù)來消除這種模糊性，從而增強mask類別之間的語義一致性，降低網(wǎng)絡(luò)訓(xùn)練的復(fù)雜性。

3.3 模型微調(diào)數(shù)據(jù)集

目前SAM-Med3D-turbo是現(xiàn)已發(fā)布經(jīng)過微調(diào)的 SAM-Med3D 的最新版本checkpoint。在SAM-Med3D的基礎(chǔ)上又在 44 個數(shù)據(jù)集 ( 以下list )上對其進行了微調(diào)以提高性能。

AMOS2022
ATM2022
AbdomenCT1K
BTCV_Cervix
BraTS2020
BraTS2021
BrainTumour
Brain_PTM
CAUSE07
CHAOS_Task_4
COSMOS2022
COVID19CTscans
CTPelvic1k
CT_ORG
FLARE21
FLARE22
Heart_Seg_MRI
ISLES_SISS
ISLES_SPES
KiPA22
KiTS
KiTS2021
LAScarQS22_task1
LAScarQS22_task2
LITS
MMWHS
MSD_Colon
MSD_HepaticVessel
MSD_Liver
MSD_Pancreas
MSD_Prostate
MSD_Spleen
PROMISE12
Parse22
Promise09
Prostate_MRI_Segmentation_Dataset
SLIVER07
STACOM_SLAWT
SegThor
Totalsegmentator_dataset
VESSEL2012
VerSe19
VerSe20
WORD

4. 模型結(jié)構(gòu)

在這里插入圖片描述
基于SAM修改后SAM-Med3D 的 3D 架構(gòu)。原始2D組件被轉(zhuǎn)換為3D對應(yīng)組件，包括3D Image Encoder、3D Prompt Encoder 和3D mask Decoder。采用3D卷積、3D位置編碼（PE）和3D layer norm來構(gòu)建3D模型。

4.1 3D Image Encoder

在 3D 圖像編碼器中，首先使用內(nèi)核大小為 (16, 16, 16) 的 3D 卷積嵌入塊生成embedding，并與可學(xué)習(xí)的 3D 絕對位置編碼 absolute Positional Encoding (PE) 配對。這種編碼是通過自然地將附加維度擴展到 SAM 的 2D PE 來獲得的。然后將補丁的嵌入輸入到 3D 注意力塊中。對于 3D 注意力模塊，我們將 3D 相關(guān) PE 合并到 SAM 的多頭自注意力（MHSA）模塊中，使其能夠直接捕獲空間細節(jié)。

class PatchEmbed3D(nn.Module):"""Image to Patch Embedding."""def __init__(self,kernel_size: Tuple[int, int] = (16, 16, 16),stride: Tuple[int, int] = (16, 16, 16),padding: Tuple[int, int] = (0, 0, 0),in_chans: int = 1,embed_dim: int = 768,) -> None:"""Args:kernel_size (Tuple): kernel size of the projection layer.stride (Tuple): stride of the projection layer.padding (Tuple): padding size of the projection layer.in_chans (int): Number of input image channels.embed_dim (int): Patch embedding dimension."""super().__init__()self.proj = nn.Conv3d(in_chans, embed_dim, kernel_size=kernel_size, stride=stride, padding=padding)def forward(self, x: torch.Tensor) -> torch.Tensor:x = self.proj(x)# B C X Y Z -> B X Y Z Cx = x.permute(0, 2, 3, 4, 1)return x

class Attention(nn.Module):"""Multi-head Attention block with relative position embeddings."""def __init__(self,dim: int,num_heads: int = 8,qkv_bias: bool = True,use_rel_pos: bool = False,rel_pos_zero_init: bool = True,input_size: Optional[Tuple[int, int, int]] = None,) -> None:"""Args:dim (int): Number of input channels.num_heads (int): Number of attention heads.qkv_bias (bool):  If True, add a learnable bias to query, key, value.rel_pos (bool): If True, add relative positional embeddings to the attention map.rel_pos_zero_init (bool): If True, zero initialize relative positional parameters.input_size (tuple(int, int) or None): Input resolution for calculating the relativepositional parameter size."""super().__init__()self.num_heads = num_headshead_dim = dim // num_headsself.scale = head_dim**-0.5self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)self.proj = nn.Linear(dim, dim)self.use_rel_pos = use_rel_posif self.use_rel_pos:assert (input_size is not None), "Input size must be provided if using relative positional encoding."# initialize relative positional embeddingsself.rel_pos_d = nn.Parameter(torch.zeros(2 * input_size[0] - 1, head_dim))self.rel_pos_h = nn.Parameter(torch.zeros(2 * input_size[1] - 1, head_dim))self.rel_pos_w = nn.Parameter(torch.zeros(2 * input_size[2] - 1, head_dim))def forward(self, x: torch.Tensor) -> torch.Tensor:B, D, H, W, _ = x.shape# qkv with shape (3, B, nHead, H * W, C)qkv = self.qkv(x).reshape(B, D * H * W, 3, self.num_heads, -1).permute(2, 0, 3, 1, 4)# q, k, v with shape (B * nHead, H * W, C)q, k, v = qkv.reshape(3, B * self.num_heads, D * H * W, -1).unbind(0)attn = (q * self.scale) @ k.transpose(-2, -1)if self.use_rel_pos:attn = add_decomposed_rel_pos(attn, q, self.rel_pos_d, self.rel_pos_h, self.rel_pos_w, (D, H, W), (D, H, W))attn = attn.softmax(dim=-1)x = (attn @ v).view(B, self.num_heads, D, H, W, -1).permute(0, 2, 3, 4, 1, 5).reshape(B, D, H, W, -1)x = self.proj(x)return x

4.2 3D Prompt Encoder

在提示編碼器中，稀疏提示利用 3D 位置編碼來表示 3D 空間細微差別，而密集提示則通過 3D 卷積進行處理。

class PromptEncoder3D(nn.Module):def __init__(self,embed_dim: int,image_embedding_size: Tuple[int, int, int],input_image_size: Tuple[int, int, int],mask_in_chans: int,activation: Type[nn.Module] = nn.GELU,) -> None:"""Encodes prompts for input to SAM's mask decoder.Arguments:embed_dim (int): The prompts' embedding dimensionimage_embedding_size (tuple(int, int)): The spatial size of theimage embedding, as (H, W).input_image_size (int): The padded size of the image as inputto the image encoder, as (H, W).mask_in_chans (int): The number of hidden channels used forencoding input masks.activation (nn.Module): The activation to use when encodinginput masks."""super().__init__()self.embed_dim = embed_dimself.input_image_size = input_image_sizeself.image_embedding_size = image_embedding_sizeself.pe_layer = PositionEmbeddingRandom3D(embed_dim // 3)self.num_point_embeddings: int = 2  # pos/neg pointpoint_embeddings = [nn.Embedding(1, embed_dim) for i in range(self.num_point_embeddings)]self.point_embeddings = nn.ModuleList(point_embeddings)self.not_a_point_embed = nn.Embedding(1, embed_dim)self.mask_input_size = (image_embedding_size[0], image_embedding_size[1], image_embedding_size[2])self.mask_downscaling = nn.Sequential(nn.Conv3d(1, mask_in_chans // 4, kernel_size=2, stride=2),LayerNorm3d(mask_in_chans // 4),activation(),nn.Conv3d(mask_in_chans // 4, mask_in_chans, kernel_size=2, stride=2),LayerNorm3d(mask_in_chans),activation(),nn.Conv3d(mask_in_chans, embed_dim, kernel_size=1),)self.no_mask_embed = nn.Embedding(1, embed_dim)def get_dense_pe(self) -> torch.Tensor:"""Returns the positional encoding used to encode point prompts,applied to a dense set of points the shape of the image encoding.Returns:torch.Tensor: Positional encoding with shape1x(embed_dim)x(embedding_h)x(embedding_w)"""return self.pe_layer(self.image_embedding_size).unsqueeze(0)  # 1xXxYxZdef _embed_points(self,points: torch.Tensor,labels: torch.Tensor,pad: bool,) -> torch.Tensor:"""Embeds point prompts."""points = points + 0.5  # Shift to center of pixelif pad:padding_point = torch.zeros((points.shape[0], 1, 3), device=points.device)padding_label = -torch.ones((labels.shape[0], 1), device=labels.device)points = torch.cat([points, padding_point], dim=1)labels = torch.cat([labels, padding_label], dim=1)point_embedding = self.pe_layer.forward_with_coords(points, self.input_image_size)point_embedding[labels == -1] = 0.0point_embedding[labels == -1] += self.not_a_point_embed.weightpoint_embedding[labels == 0] += self.point_embeddings[0].weightpoint_embedding[labels == 1] += self.point_embeddings[1].weightreturn point_embeddingdef _embed_boxes(self, boxes: torch.Tensor) -> torch.Tensor:"""Embeds box prompts."""boxes = boxes + 0.5  # Shift to center of pixelcoords = boxes.reshape(-1, 2, 2)corner_embedding = self.pe_layer.forward_with_coords(coords, self.input_image_size)corner_embedding[:, 0, :] += self.point_embeddings[2].weightcorner_embedding[:, 1, :] += self.point_embeddings[3].weightreturn corner_embeddingdef _embed_masks(self, masks: torch.Tensor) -> torch.Tensor:"""Embeds mask inputs."""mask_embedding = self.mask_downscaling(masks)return mask_embeddingdef _get_batch_size(self,points: Optional[Tuple[torch.Tensor, torch.Tensor]],boxes: Optional[torch.Tensor],masks: Optional[torch.Tensor],) -> int:"""Gets the batch size of the output given the batch size of the input prompts."""if points is not None:return points[0].shape[0]elif boxes is not None:return boxes.shape[0]elif masks is not None:return masks.shape[0]else:return 1def _get_device(self) -> torch.device:return self.point_embeddings[0].weight.devicedef forward(self,points: Optional[Tuple[torch.Tensor, torch.Tensor]],boxes: Optional[torch.Tensor],masks: Optional[torch.Tensor],) -> Tuple[torch.Tensor, torch.Tensor]:"""Embeds different types of prompts, returning both sparse and denseembeddings.Arguments:points (tuple(torch.Tensor, torch.Tensor) or none): point coordinatesand labels to embed.boxes (torch.Tensor or none): boxes to embedmasks (torch.Tensor or none): masks to embedReturns:torch.Tensor: sparse embeddings for the points and boxes, with shapeBxNx(embed_dim), where N is determined by the number of input pointsand boxes.torch.Tensor: dense embeddings for the masks, in the shapeBx(embed_dim)x(embed_H)x(embed_W)"""bs = self._get_batch_size(points, boxes, masks)sparse_embeddings = torch.empty((bs, 0, self.embed_dim), device=self._get_device())if points is not None:coords, labels = pointspoint_embeddings = self._embed_points(coords, labels, pad=(boxes is None))sparse_embeddings = torch.cat([sparse_embeddings, point_embeddings], dim=1)if boxes is not None:box_embeddings = self._embed_boxes(boxes)sparse_embeddings = torch.cat([sparse_embeddings, box_embeddings], dim=1)if masks is not None:dense_embeddings = self._embed_masks(masks)else:dense_embeddings = self.no_mask_embed.weight.reshape(1, -1, 1, 1, 1).expand(bs, -1, self.image_embedding_size[0], self.image_embedding_size[1], self.image_embedding_size[2])return sparse_embeddings, dense_embeddings

4.3 3D mask Decoder

3D mask Decoder與 3D 上采樣集成，采用 3D 轉(zhuǎn)置卷積。

class TwoWayAttentionBlock3D(nn.Module):def __init__(self,embedding_dim: int,num_heads: int,mlp_dim: int = 2048,activation: Type[nn.Module] = nn.ReLU,attention_downsample_rate: int = 2,skip_first_layer_pe: bool = False,) -> None:"""A transformer block with four layers: (1) self-attention of sparseinputs, (2) cross attention of sparse inputs to dense inputs, (3) mlpblock on sparse inputs, and (4) cross attention of dense inputs to sparseinputs.Arguments:embedding_dim (int): the channel dimension of the embeddingsnum_heads (int): the number of heads in the attention layersmlp_dim (int): the hidden dimension of the mlp blockactivation (nn.Module): the activation of the mlp blockskip_first_layer_pe (bool): skip the PE on the first layer"""super().__init__()self.self_attn = Attention(embedding_dim, num_heads)self.norm1 = nn.LayerNorm(embedding_dim)self.cross_attn_token_to_image = Attention(embedding_dim, num_heads, downsample_rate=attention_downsample_rate)self.norm2 = nn.LayerNorm(embedding_dim)self.mlp = MLPBlock3D(embedding_dim, mlp_dim, activation)self.norm3 = nn.LayerNorm(embedding_dim)self.norm4 = nn.LayerNorm(embedding_dim)self.cross_attn_image_to_token = Attention(embedding_dim, num_heads, downsample_rate=attention_downsample_rate)self.skip_first_layer_pe = skip_first_layer_pedef forward(self, queries: Tensor, keys: Tensor, query_pe: Tensor, key_pe: Tensor) -> Tuple[Tensor, Tensor]:# Self attention blockif self.skip_first_layer_pe:queries = self.self_attn(q=queries, k=queries, v=queries)else:q = queries + query_peattn_out = self.self_attn(q=q, k=q, v=queries)queries = queries + attn_outqueries = self.norm1(queries)# Cross attention block, tokens attending to image embeddingq = queries + query_pek = keys + key_peattn_out = self.cross_attn_token_to_image(q=q, k=k, v=keys)queries = queries + attn_outqueries = self.norm2(queries)# MLP blockmlp_out = self.mlp(queries)queries = queries + mlp_outqueries = self.norm3(queries)# Cross attention block, image embedding attending to tokensq = queries + query_pek = keys + key_peattn_out = self.cross_attn_image_to_token(q=k, k=q, v=queries)keys = keys + attn_outkeys = self.norm4(keys)return queries, keys

4.4 模型權(quán)重

測試了三種訓(xùn)練策略，結(jié)果表明從頭訓(xùn)練效果最好

沿用2d sam，加上3d adapter進行改造。
將2d sam的權(quán)重改造成 3d 結(jié)構(gòu)可以使用的權(quán)重（對3d層采用權(quán)重復(fù)制策略）。以卷積為例，我們將二維卷積的核復(fù)制D次并將它們堆疊起來形成三維卷積，其中D表示第三維中核的大小。
使用3d數(shù)據(jù)從頭訓(xùn)練。

5. 評估

對于2D切片分割和3D體積分割，我們從前景中隨機采樣一個點作為第一個提示，并從誤差區(qū)域中隨機選擇以下點。值得注意的是，2D SAM 方法（SAM、SAM-Med2D）是逐片推斷的，而我們的 SAM-Med3D 使用基于補丁的推斷方法進行操作。這與 nnUNet 等最先進的醫(yī)學(xué)圖像分割方法一致，賦予 SAM-Med3D 在推理時間方面的優(yōu)勢。此外，2D方法在推斷3D醫(yī)學(xué)圖像時對每個切片進行獨立交互，而3D方法僅在體積上進行全局交互。這意味著2D執(zhí)行的交互次數(shù)實際上是3D的N倍（N表示包含對象的切片數(shù)量，通常范圍為10到200）。盡管 2D 方法采用了更多的提示點，但其固有的片間交互缺乏造成了明顯的性能上限，特別是在相對復(fù)雜的 3D 結(jié)構(gòu)上。

5.1 評估數(shù)據(jù)集

在評估階段，我們選擇了 13 個公共基準數(shù)據(jù)集來審查各種臨床場景，并納入了 MICCAI2023 挑戰(zhàn)賽中的 2 個額外數(shù)據(jù)集來驗證不同模型的性能。該驗證集包含七個重要的解剖結(jié)構(gòu)，例如胸部和腹部器官、大腦結(jié)構(gòu)、骨骼等。它還包括醫(yī)學(xué)領(lǐng)域非常感興趣的五種病變類型，以及一系列體積測量模式，包括 CT、US（超聲）和八個 MRI 序列。此外，它還包含具有挑戰(zhàn)性的、以前未見過的目標，最終形成了不同類別的 153 個不同目標。驗證集有三部分：
在這里插入圖片描述

5.2 Quantitative Evaluation

整體表現(xiàn)
SAM-Med3D在使用更少點擊次數(shù)的情況下，獲得了更好的性能。N表示待分割目標包含的切片（slice）數(shù)目，通常10 ≤ N ≤ 200。 $T_{inf}$ 為N =100時所需的推理時間 (Inference time) 。
從解剖結(jié)構(gòu)和病變角度進行評估
A&T 表示腹部和胸部。SAM-Med3D 只需10個提示點（最后一行）即可取得比 SAM 和 SAM-Med2D 更好的性能，而后兩者往往需要上百個提示點。在評估中，我們考慮了各種?法中可見和不可見（zero-shot）的病變。對于不可見的病變，當(dāng)提示有限時，表現(xiàn)次優(yōu)。

左側(cè)三張圖展示了不同模型在不同模態(tài)下的性能對比，其中SAM-Med3D在所有模態(tài)下均展現(xiàn)出優(yōu)異性能。即使SAM-Med3D沒有使用超聲(US)圖像訓(xùn)練，其性能仍與 SAM-Med2D相當(dāng)。
遷移性評估
作者將 SAM-Med3D 預(yù)訓(xùn)練的 ViT 圖像編碼器遷移到 UNETR 中進行使用，發(fā)現(xiàn)能夠獲得效果上的提升，證明了作者提出的 SAM-Med3D 具有遷移能力，這將能夠?qū)θS醫(yī)學(xué)圖像領(lǐng)域的發(fā)展提供幫助。據(jù)我們所知，SAM-Med3D 可能被定位為第一個基于 ViT 的 3D 醫(yī)學(xué)圖像基礎(chǔ)模型。

5.3 可視化

圖五：在不同的解剖結(jié)構(gòu)中，針對不同數(shù)量的點，對SAM、SAM-Med2D和SAM-Med3D進行可視化。作者同時展示了軸切片和冠狀切片/矢狀切片來全面說明三維結(jié)果。
圖六：在各種模態(tài)下，針對不同的點數(shù)，對SAM、SAM-Med2D和SAM-Med3D進行可視化。作者同時展示了軸切片和冠狀/矢狀切片來全面說明三維結(jié)果。
在這里插入圖片描述

6. 結(jié)論

在這項研究中，作者提出了 SAM-Med3D，這是一種專門用于3D體素醫(yī)學(xué)圖像分割的三維 SAM 模型。SAM-Med3D 在大規(guī)模的三維醫(yī)學(xué)圖像數(shù)據(jù)集上從頭訓(xùn)練，其在不同組件中都采用了三維位置編碼，直接整合三維空間信息，這使得它在體素醫(yī)學(xué)圖像分割任務(wù)中表現(xiàn)出卓越的性能。具體而言，SAM-Med3D 在提供僅一個提示點的情況下，相較于 SAM 在每個切片上提供一個提示點來說，性能提高了32.90%。這表明它能夠在更少的提示點的情況下，在體素醫(yī)學(xué)圖像分割任務(wù)中取得更好的結(jié)果，這證明了它出色的可用性。
此外，作者還從多個角度廣泛評估了 SAM-Med3D 的能力。對于不同的解剖結(jié)構(gòu)，如骨骼、心臟和肌肉，在提供有限提示點的情況下，SAM-Med3D 明顯優(yōu)于其他方法。在不同的圖像模態(tài)下，特別是核磁共振圖像，通常需要比CT圖像更多的提示點才能達到相同的性能，但 SAM-Med3D 在各種模態(tài)（包括核磁共振圖像）、器官和病變下始終表現(xiàn)出色。此外，SAM-Med3D 的可遷移性也在不同的基準任務(wù)上經(jīng)過了驗證，該模型表現(xiàn)出了很強的潛力，因此 SAM-Med3D 有望成為一種強大的三維醫(yī)學(xué)圖像 Transformer 的預(yù)訓(xùn)練模型。
需要強調(diào)的是，不僅僅在數(shù)值結(jié)果方面，在可視化的結(jié)果中，SAM-Med3D 模型也表現(xiàn)出了更好的切片間的一致性和可用性。然而，三維模型在體積圖像中的提示點變得更加稀疏，這增加了訓(xùn)練的難度。因此，如何更好地訓(xùn)練三維SAM仍然是需要進一步探索的領(lǐng)域，但這項研究為這一領(lǐng)域的未來發(fā)展提供了有力的方向和工具。

查看全文

http://www.risenshineclean.com/news/22500.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网