由中國創業公司深度求索開發的大語言模型 DeepSeek 令業界震驚,亦令美國 IT 相關版塊價大幅調整。要開發出大語言模型,當然需要大量資料,所有 IT 企業開發時都會從不同渠道獲得數據集,包括在應用程式中收集用戶的使用數據。DeepSeek 亦有 AI 助理應用程式,那麼他們的服務又收集了哪些個人資料呢?
深度求索除了在 Hugging Face 和 GitHub 開源 DeepSeek 和 Janus-Pro 模型之外,還推出網頁版聊天機械人、圖像生成服務和手機應用程式《DeepSeek AI Assistant》,該應用一推出就在 Apple App Store 和 Google Play 登上榜首,超越《ChatGPT》。
據 DeepSeek 的私隱政策聲明指出,DeepSeek 所收集的資料包括:
- 用戶檔案資料:用戶創建帳戶時所提供的資料,包括用戶名、電郵地址、手機號碼、出生日期和密碼;
- 用戶輸入的資枓:包括文字和語音、提示句、上傳的檔案、回應、聊天紀錄與及用戶向 DeepSeek 模型和深度求索服務提供的資料;
- 用戶聯繫深度求索時所提供的資料:包括身份與年齡證明,回應和請求,與及違反服務條款時的資料;
- 技術資料:包括裝置型號、作業系統、按鍵模式或節奏、IP 地址和系統語言等,此外還有偵錯和效能相關的紀錄;
- 用戶資料:包括用戶使用哪些功能和進行了哪些動作;
- Cookies
- 付款資料:使用收費服務時所提供的交易資料
除了用戶直接使用深度求索服務和應用時所提供的資料,該公司還會從第三方收集用戶的個人資料,包括透過第三方服務如 Apple 或 Google 來登入 DeepSeek 時的資料,或者將第三方服務連結到 DeepSeek 服務時的資料,如訪問令牌 (Access Token);他們又會透過廣告商、測量和其他合作夥伴等第三方來源收集用戶資料。
深度求索指所收集到的資料是用來提供服務、開發和改善服務等,而資料是會保存在位於中國的安全伺服器裡,但就沒有很明確指出各種資料會保留多久。
深度求索有在該私隱政策聲明中提供電郵地址,讓用戶提出刪除資料的請求。而使用瀏覽器登入聊天機械人和文生圖服務的話,就可以透過瀏覽器的功能來攔截 Cookies。