21-01-2024, 16:08

Olimlar AI modellarini aldashga o‘rgatish mumkinligini aniqladilar

Sun’iy intellekt modellarini aldashga o‘rgatish mumkin, ammo undan himoyalanish hali "samarasiz", deyiladi yangi tadqiqotda, deb xabar beradi Kazinform agentligi Euronewsga tayanib.

AQShning Anthropic kompaniyasi tadqiqotchilari sun’iy intellekt modellarini aldashga o‘rgatish mumkinligini va xavfsizlikni o‘rgatishning mavjud usullari buning oldini olishda "samarasiz"ligini aniqlashdi.

Tadqiqotning maqsadi sun’iy intellekt (AI) modellarini odamlarga o‘xshab aldashga o‘rgatish mumkinligini aniqlashdir.

Tadqiqot davomida ishtirokchilar AI modellarini aldashga o‘rgatish mumkinligini bilib oldilar. Ular ma’lum kirish signallari tomonidan qo‘zg‘atiladigan va juda xavfli bo‘lishi mumkin bo‘lgan «bekdor» deb ataladigan xatti-harakatni yaratish orqali AI modellarini aldashga o‘rgata oldilar.

Tadqiqot ishtirokchilari AI modellari nafaqat aldashni o‘rganibgina qolmay, balki aldashga moyilligini ham yashira olishini aniqlashdi.

Tadqiqot mualliflari lingvistik modellar (LLM) uchun katta xavf tug‘dirishi mumkin bo‘lgan ikkita o‘ziga xos tahdidni ko‘rib chiqdilar: firibgarlar tomonidan ishga tushirilgan modelning ixtirosi va firibgar modelning tabiiy ravishda paydo bo‘lishi.