asp系統(tǒng)專業(yè)seo排名優(yōu)化費用
Facebook 近日開源了數(shù)據(jù)增強庫 AugLy,包含四個子庫,每個子庫對應不同的模態(tài),每個庫遵循相同的接口。支持四種模態(tài):文本、圖像、音頻和視頻。
最近,Facebook 開源了一個新的 Python 庫——AugLy,該庫旨在幫助 AI 研究人員使用數(shù)據(jù)增強來評估和改進機器學習模型的可用性。AugLy 提供了復雜的數(shù)據(jù)增強工具,可以創(chuàng)建樣本來訓練和測試不同的系統(tǒng)。
項目地址:GitHub - facebookresearch/AugLy: A data augmentations library for audio, image, text, and video.
該庫基于 Facebook 和 Instagram 等平臺上的真實圖片和視頻提供了 100 多種數(shù)據(jù)增強功能,因此對于處理與社交媒體應用程序相關的模型或數(shù)據(jù)的研究工作特別有用。
目前 AugLy 支持四個模態(tài):文本、圖像、音頻和視頻。使用真實世界的數(shù)據(jù)進行數(shù)據(jù)增強能夠幫助機器更好地理解復雜的任務。以文本短語「love the way you smell today」為例,該文本想要表達的意思是喜歡,但是將此短語應用到臭鼬的圖片上時,想要表達的意思全部變了。AugLy 更類似于人們?yōu)榱肆私庵車氖澜缍鴱亩喾N感官獲取信息的方式。隨著數(shù)據(jù)集和模型變得越來越具有多模態(tài),在一個統(tǒng)一的庫和 API 下轉換項目的所有數(shù)據(jù)是非常有必要的。
對于該數(shù)據(jù)增強庫,機器學習界的大佬 Yann LeCun 也轉推推薦。
AugLy 如何工作
AugLy 包含四個子庫,每個子庫對應不同的模態(tài),每個庫遵循相同的接口:AugLy 提供了基于函數(shù)和類格式的轉換,并提供強度函數(shù),幫助了解轉換的強度(基于給定參數(shù))。AugLy 還可以生成有用的元數(shù)據(jù),以幫助了解數(shù)據(jù)轉換過程。
此外,該庫已經(jīng)聚合了許多擴展,以及以前從未存在過的擴展。例如,增強功能將圖像或視頻疊加到社交媒體界面上,使其看起來像是用戶在 Facebook 等社交網(wǎng)絡上截屏的圖像或視頻,然后重新共享。這對于許多用例來說是一個有用的補充,因為 Facebook 上的用戶通常會以這種方式重新共享內容。
AugLy 為何如此重要
數(shù)據(jù)增強對于確保 AI 模型的魯棒性至關重要。如果可以教會模型對數(shù)據(jù)中不重要的屬性擾動具有魯棒性,那么模型將學會關注特定用例中數(shù)據(jù)的重要屬性。
在 Facebook 中,一個重要的應用程序是檢測特定內容的「相似副本」。例如,同一條信息可能以不同的形式重復出現(xiàn)。又例如圖像經(jīng)過修改后被裁剪了幾個像素,或者用過濾器或新的文本覆蓋進行了增強。通過使用 AugLy 數(shù)據(jù)增強 AI 模型,它們可以在上傳已知侵權內容 (如歌曲或視頻) 時識別出來。
使用 AugLy 訓練模型來檢測相似內容意味著我們可以主動阻止用戶上傳已知侵權的內容。例如 SimSearchNet,一個基于卷積神經(jīng)網(wǎng)絡的模型,可以專門用來檢測精確復制內容,該模型是用 AugLy 增強訓練的。
除了使用 AugLy 訓練模型外,該庫還可用于確定模型相對于一組增強的魯棒性。事實上,AugLy 已經(jīng)被用來評估 deepfake 檢測模型在「Deepfake 檢測挑戰(zhàn)賽」(Deepfake Detection Challenge)中的魯棒性,最終影響了前五名獲勝者。
AugLy 支持圖像增強,如裁剪、填充圖像、截屏和重新共享照片。數(shù)據(jù)增強的用途是廣泛的,AugLy 可以幫助研究人員從事各種工作,從物體檢測模型到識別仇恨言論再到語音識別。
參考鏈接:
https://ai.facebook.com/blog/augly-a-new-data-augmentation-library-to-help-build-more-robust-ai-models/
Facebook AI Open Sources AugLy: A New Python Library For Data Augmentation To Develop Robust Machine Learning Models - MarkTechPost