14دقیقه خواندن
فیلترینگ حبابی گوگل
سنجش «فیلترینگ حبابی»: چگونه گوگل بر آنچه کلیک میکنید، تأثیر میگذارد

در طول سالها، مشکل «فیلترینگ حبابی» گوگل به طور قابل توجهی مورد بحث و بررسی بوده است. به بیان ساده، فیلترینگ حبابی دستکاری نتایج جستجوی شما بر اساس دادههای شخصی شماست. در عمل، این بدین معنی است که لینکها به بالا و پایین منتقل میشوند یا به نتایج جستجوی شما اضافه میشوند که این امر در مجموع مستلزم فیلترینگ سایر نتایج جستجو است. این نتایح ویرایش شده به وسیله اطلاعات شخصی شما که در نزد گوگل موجود است (مانند سوابق جستجو، وب گردی و خریدهای شما)، اطلاع داده میشوند و بر اساس آنچه الگوریتمهای گوگل تشخیص میدهند شما به احتمال زیاد بر روی آن کلیک میکنید، شما را در داخل حبابی قرار میدهد.
فیلترینگ حبابی به طور خاص در زمانی که مباحث سیاسی جستجو میشوند، آسیب میرساند. این بدین دلیل است که رأی دهندههای مردّد و پی جو برای انجام جستجوی اولیه در خصوص اطلاعات نامزدها و موضوعات در زمان بحرانی که آنها در حال نتیجه گیری در مورد این نامزدها هستند، به موتورهای جستجو متوسل میشوند. اگر آنها به دلیل فیلترینگ حبابی شخصی خود به اطلاعاتی دست پیدا کنند که متمایل به یک طرف باشد، آنگاه، این امر در مجموع میتواند تأثیر بسزائی بر نتایج سیاسی داشته باشد.
در سال 2012، بر اساس بررسیهایی که انجام دادیم، مشخص شد که احتمالاً فیلترینگ حبابی گوگل با وارد کردن دهها میلیون لینک بیشتر به نفع اوباما نسبت به رامنی در آستانه انتخابات یاد شده تأثیر قابل توجهی بر انتخابات ریاست جمهوری سال 2012 آمریکا داشته است. تحقیقات ما باعث شد تا بررسی مستقل توسط مجله وال استریت جورنال (Wall Street Journal) انجام شود (محدودیت دسترسی). بر اساس بررسی که توسط مجله وال استریت جورنال انجام شد، مشخص شد که موتور جستجو اغلب نتایج جستجوی افرادی که اخیراً در مورد «اوباما» جستجو کردهاند، شخصی سازی میکند اما این کار را در مورد نتایج جستجوی افرادی که در مورد «رامنی» جستجو کردهاند، انجام نمیدهد.
در حال حاضر و بعد از انتخابات ریاست جمهوری سال 2016 آمریکا و سایر انتخابات اخیر، تمایل جدید و قابل قبولی به بررسی شیوههایی که به صورت آنلاین میتوانند مردم را به لحاظ سیاسی تحت تأثیر قرار دهند، وجود دارد. در این راستا، مطالعه دیگری را به منظور بررسی وضعیت مشکل فیلترینگ حبابی گوگل در سال 2018 انجام دادیم.
خلاصهای از یافتهها
گوگل ادعا کرده است که اقداماتی را به منظور کاهش مشکل فیلترینگ حبابی خود انجام داده است اما تازهترین تحقیقات ما حکایت از وجود داستان بسیار متفاوتی در این زمینه دارد. بر اساس مطالعه و بررسی افرادی که همزمان عبارتهای جستجوی یکسانی را وارد میکنند، به نتایج ذیل دست یافتیم:
- اغلب شرکت کنندهها در این کار مطالعاتی شاهد نتایج جستجوی منحصربفرد برای خود بودند. وجود این تفاوتها را نمیتوان با تغییر در مکان، زمان، با وارد شدن در گوگل یا با تغییرات الگوریتم تشخیصی گوگل به زیرمجموعه کوچکی از کاربران توضیح داد.
- در صفحه نخست نتایج جستجو، گوگل لینکهایی را برای برخی شرکت کنندهها درج کرده بود که برای سایر شرکت کننده درج نکرده بود؛ حتی زمانی که کاربران از حساب گوگل خود خارج و در حالت وب گردی خصوصی بودند.
- نتایج در جعبه اطلاعات اخبار و ویدئوها نیز به طور قابل توجهی متفاوت بودند. علیرغم این که افراد به طور همزمان کار جستجو را انجام داده بودند، حتی بس از تعیین موقعیت مکانی با منابع متفاوت مواجه شده بودند.
- در حالت وب گردی خصوصی و خارج شدن از حساب گوگل، مصونیت بسیار اندکی در برابر فیلترینگ حبابی ایجاد میشود. این تاکتیکها در عمل بر خلاف انتظار اغلب باعث ناشناس بود افراد نمیشود. در حقیقت، به سادگی نمیتوان از جستجوی گوگل استفاده کرد و در عین حال، از مسئله فیلترینگ حبابی اجتناب کرد.
کسانی که علاقمند به دریافت جزییات بیشتر در این زمینه هستند، در ادامه جزییات را توضیح دادهایم و همچنین دادهها و کد اصلی را ارائه کردهایم. امیدواریم که این کار باعث تشویق بیشتر افراد برای مطالعه و بررسی این موضوع مهم شود.
روش کار
ما از داوطلبان در آمریکا درخواست کردیم که عبارتهای «کنترل اسلحه»، «مهاجرت» و «واکسیناسیون» را (به همین ترتیب) در ساعت 9 صبح (ET) روز یکشنبه مورخ 24 ژوئن 2018 جستجو کنند. آنها این عبارتها را ابتدا در حالت وب گردی خصوصی و خارج از حساب گوگل جستجو کردند و سپس، عبارتهای مذکور را دوباره در حالت غیر خصوصی (یعنی حالت «عادی») جستجو کردند. 87 مجموعه کامل نتایج (76 مورد در رایانه رومیزی و 11 مورد در موبایل) را جمع آوری کردیم. توجه داشته باشید که ما بررسی خود را به ایالات متحده آمریکا محدود کردیم زیرا کشورهای مختلف از ایندکسهای جستجوی مختلف برخوردار هستند.
در جریان آنالیز نتایج جستجو، تنها دامنههای سطح بالای سایتها را بررسی کردیم و به عنوان مثال، هر دو آدرس www.cdc.gov/features/vaccines-travel و www.cdc.gov/vaccines/adults را صرفاً به صورت cdc.gov مورد بحث قرار دادیم.
یافته 1: اغلب افراد حتی در زمانی که خارج از حساب گوگل و در حالت وب گردی خصوصی بودند، شاهد نتایج منحصربفرد برای خود بودند.
به منظور شمارش انواع نتایج، ترتیب عناصر اصلی را ذکر کردیم: لینکهای طبیعی (منظم)، جعبه اطلاعات اخبار (اخبار روز) و جعبه اطلاعات ویدئوها. تبلیغات، بخشهای حاوی جستجوهای مرتبط و سایر جعبههای اطلاعات را نادیده گرفتیم. وجود اختلاف در اینها نیز مشهود بود اما ما آنها را در نظر نگرفتیم. مروری سریع بر ترتیب لینکها: ممکن است تصور کنید که تا زمانی که لینکهای یکسان برای کاربران نشان داده شوند، ترتیب آنها نسبتاًٌ فاقد اهمیت است اما این طور نیست. یک لینک مشخص نسبت به لینک قبل از خود صرفاً به اندازه نصف و نسبت به لینک بعدی دو برابر کلیک میخورد. به عبارت دیگر، ترتیب لینکها بسیار مهم است زیرا افراد بر روی اولین لینک بسیار بیشتر از لینک دوم و لینکهای بعدی کلیک میکنند. فهرست حجم تغییراتی که برای هر عبارت جستجو مشاهده کردیم، در ادامه ارائه شده است. برای این بخش از بررسی، نتایج جستجوی موبایل را حذف کردیم زیرا تعداد جعبههای اطلاعاتی که در موبایل و رایانه رومیزی نمایش داده میشوند، تفاوت قابل توجهی باهم دارند. به همین دلیل است که تعداد شرکت کنندهها به جای 87 نفر 76 نفر ذکر میشود. عنصر موقعیت مکانی را نیز کنترل کردیم (جزییات بیشتر در این مورد در ادامه ارائه میشود). حالت وب گردی خصوصی (و حالت خارج از حساب گوگل):
- «کنترل اسلحه»: 62 مورد اختلاف که 52 نفر از میان 76 شرکت کننده (68%) شاهد نتایج منحصربفرد بودند.
- «مهاجرت»: 57 مورد اختلاف که 43 نفر از بین 76 شرکت کننده (57%) شاهد نتایج منحصربفرد بودند.
- «واکسیناسیون»: 73 مورد اختلاف که 70 نفر از بین 76 شرکت کننده (92%) شاهد نتایج منحصربفرد بودند.
حالت عادی:
- «کنترل اسلحه»: 58 مورد اختلاف که 45 نفر از میان 76 شرکت کننده (59%) شاهد نتایج منحصربفرد بودند.
- «مهاجرت»: 59 مورد اختلاف که 48 نفر از میان 76 شرکت کننده (63%) شاهد نتایج منحصربفرد بودند.
- «واکسیناسیون»: 73 مورد اختلاف که 70 نفر از میان 76 شرکت کننده (92%) شاهد نتایج منحصربفرد بودند.
با عدم وجود فیلترینگ حبابی، انتظار میرود که تغییر بسیار اندک در صفحات نتیجه جستجو مشاهده شود- تقریباً همه افراد شاهد مجموعه واحدی از نتایج هستند. این چیزی نیست که ما به آن دست یافتیم. در عوض، اغلب افراد شاهد نتایج منحصربفرد برای خود بودند. در ضمن، ما شاهد تغییر یکسان در نتایج جستجو در حالت وب گردی خصوصی و خارج از حساب گوگل نسبت به حالت عادی بودیم. اکنون، انتظار میرود که به دلیل وجود دو عامل که آنها را کنترل کردیم، شاهد مقداری تغییر در نتیجه جستجو باشیم. اولاً، نتایج جستجو در گذر زمان مانند درج لینکهای حساس به زمان میتوانند تغییر کنند. ما با درخواست از همگان برای جستجوی همزمان این عامل را کنترل کردیم.
دوماً، نتایج جستجو میتوانند بر اساس موقعیت مکانی مانند درج مقالات خبری محلی تغییر کنند. ما با بررسی دستی کلیه لینکها به جهت وقوع این احتمال این عامل را کنترل کردیم و این کار را با مقایسه آنها با شهر و ایالت داوطلب انجام دادیم. ما شاهد تعداد بسیار اندکی لینک محلی برای عبارت کنترل اسلحه (1 لینک طبیعی، 1 لینک جعبه اطلاعات اخبار) و مهاجرت (0) بودیم؛ هر چند که تعداد لینکها برای عبارت واکسیناسیون (15 لینک طبیعی، 4 لینک جعبه اطلاعات اخبار) بیشتر بود.
به منظور کنترل این لینکهای محلی، کلیه این لینکها را با پلیس هلدر (placeholder) یکسان (localdomain.com برای لینکهای طبیعی و «local source» برای جعبههای اطلاعات) در کل آنالیز خود جایگزین کردیم. این تنظیمات به این معنی است که دو کاربر که نتایج جستجوی آنها صرفاً به واسطه دامنه متفاوت محلی در یک اسلات متفاوت بودند، متفاوت به حساب نمیآیند. جالب اینجاست که این تنظیمات تأثیر قابل توجهی بر تغییر کلی نداشته است.
دلیل دیگری که ممکن است شما انتظار وجود اندکی تغییر در نتایج داشته باشید، تشخیص الگوریتم جستجو است که در این مورد، شما شاهد نتایج اندکی متفاوت برای افراد مختلف هستید. در آن حالت، شما انتظار دارید که اغلب افراد شاهد نتایج یکسان باشند و تعداد اندکی از افراد شاهد تفاوتهای اندک در نتایج باشند.
یافته 2: گوگل لینکهایی را برای برخی شرکت کنندهها درج کرده بود که آنها را برای برخی افراد درج نکرده بود.
نتایج جستجوی گوگل نوعاً دارای ده لینک طبیعی هستند. در حالی که ترتیب لینکهای یاد شده واقعاً حائز اهمیت است (یعنی، لینک 1 به میزان 40 درصد، لینک 2 به میزان 20 درصد، لینک 3 به میزان 10 کلیکها را دریافت میکند و به همین ترتیب ادامه مییابد)، ما همچنین میخواستیم بدانیم که چه تعداد دامنه مختلف نمایش داده میشود.
با عدم وجود فیلترینگ حبابی، این انتظار وجود دارد که تعداد کل دامنهها حدود 10 مورد باشد. ما به طور قابل توجهی شاهد تعداد بیشتری بودیم. در حالت وب گردی خصوصی، خارج از حساب گوگل، و با جایگزین شدن دامنههای محلی با دامنه localdomain.com، تعداد کل دامنههای مختلف به شرح زیر میباشد:
- «کنترل اسلحه»: 19 دامنه مختلف
- «مهاجرت»: 16 دامنه مختلف
- «واکسیناسیون»: 22 دامنه مختلف
همان طور که به طور وضوح در تصویر فوق ملاحظه میشود، برخی افراد نسبت به سایر شرکت کنندهها با مجموعهای بسیار غیرعادی از نتایج مواجه شدند که این مسئله حاکی از این است که برخی دامنهها توسط هیچ کس دیگر مشاهده نشده بودند. اگر شما به جای یکی از این افراد بودید، امکان نداشت متوجه شوید که چه چیزی را از دست دادهاید.
یافته 3: ما شاهد تفاوت قابل توجه در نتایج در جعبههای اطلاعات اخبار و ویدئوها بودیم.
ما همچنین به دنبال بررسی تفاوت نتیجه در جعبههای اطلاعات اخبار (خبرهای روز) و ویدئوها بودیم. درضمن، ما شاهد تفاوت قابل توجه در این جعبههای اطلاعات بودیم؛ هر چند که تنها سه اسلات وجود دارند. باز هم، اینها برای حالت وب گردی خصوصی، خارج از حساب گوگل و با جایگزین شدن دامنه محلی با «منبع محلی» هستند.
جعبه اطلاعات اخبار:
- «کنترل اسلحه»: 3 نتیجه متفاوت از 5 منبع که برای 75 نفر از 76 شرکت کننده ظاهر میشوند. متداولترین نتیجه متفاوت توسط 69 نفر دیده شده بود (90%)
- «مهاجرت»: 6 نتیجه متفاوت از 7 منبع که برای 76 نفر از 76 شرکت کننده ظاهر میشوند. متداولترین نتیجه متفاوت توسط 35 نفر دیده شده بود (46%)
- «واکسیناسیون»: 2 نتیجه متفاوت از 3 منبع که برای 2 نفر از 76 شرکت کننده ظاهر میشوند. هر نتیجه متفاوت توسط یک نفر دیده شده بود (1%)
جعبه اطلاعات ویدئو:
- «کنترل اسلحه»: 12 نتیجه متفاوت از 7 منبع که برای 75 نفر از 76 شرکت کننده ظاهر میشوند. متداولترین نتیجه متفاوت توسط 24 نفر دیده شده بود (32%)
- «مهاجرت»: 6 نتیجه متفاوت از 6 منبع که برای 75 نفر از 76 شرکت کننده ظاهر میشوند. متداولترین نتیجه متفاوت توسط 42 نفر دیده شده بود (55%)
- «واکسیناسیون»: در نتایج جستجو نمایش داده نشد.
به عنوان یک مثال، جعبه اطلاعات ویدئو برای جستجوی عبارت «مهاجرت» شش نتیجه مختلف زیر را نشان میداد. در مورد نتایج جستجوی طبیعی، ترتیب در اینجا حائز اهمیت است زیرا اسلات های دوم و سوم تعداد کلیکهای بسیار کمتری را دریافت میکنند.
- Today، MSNBC، NBC News (برای 42 نفر نشان داده شده بود)
- NSNBC، Today، NBC News (برای 26 نفر نشان داده شده بود)
- Today، MSNBC، MSNBC (برای 4 نفر نشان داده شده بود)
- MSNBC، Today، Today (برای 1 نفر نشان داده شده بود)
- New York Times، CNN، MSNBC (برای 1 نفر نشان داده شده بود)
- Today، MSNBC، RealClearPolitics (برای 1 نفر نشان داده شده بود)
به خاطر داشته باشید که ما از افراد خواسته بودیم که به طور همزمان کار جستجو را انجام دهند و ما همه لینکهای محلی را تغییر دادیم تا یکسان باشند. بنابراین، وجود این تفاوت بر اساس زمان یا مکان توضیح داده نمیشود. و بار دیگر، برخی افراد واقعاً خارج از محدوده بودند. در حقیقت، برخی افراد جعبههای اطلاعات را هرگز مشاهده نکرده بودند.
یافته 4: حالت وب گردی خصوصی و خارج از حساب گوگل تقریباً فاقد حفاظت در برابر فیلترینگ حبابی بودند.
سرانجام، ما دیدیم که تفاوت در نتایج در حالت وب گردی خصوصی (که به حالت ناشناس نیز معروف است) و حالت خارج از حساب گوگل تا حدودی به اندازه حالت عادی است. اغلب افراد انتظار دارند که هر دو حالت خارج از حساب گوگل و حالت ناشناس باعث ناشناس بودن کاربر شوند. متأسفانه، این یک تصور غلط رایج است زیرا سایتها از آدرسهای IP و انگشت نگاری مرورگر به منظور شناسایی افرادی که خارج از حساب گوگل یا در حالت وب گردی خصوصی هستند، استفاده میکنند. اگر نتایج جستجو در این حالتها ناشناختهتر میبود، آنگاه انتظار میرفت که نتایج حالت وب گردی خصوصی همه اشخاص مشابه باشند. البته این چیزی نبود که با آن مواجه شدیم. به منظور آزمایش دقیقتر این موضوع، نتایج طبیعی را گرفتیم و تبلیغات و جعبههای اطلاعات را از آنها حذف کردیم و:
- یک حرف به هر دامنه اختصاص دادیم (مثلاً، برای دامنه nytimes.com حرف A و برای دامنه wsj.com حرف B و غیره).
- یک رشته از حروف را برای نتایج هر شخص ایجاد کردیم؛ به عنوان مثال، ABDFJKMSL.
- این رشتهها را باهم مقایسه کردیم تا ببینیم که چقدر آنها به هم شبیه هستند.
به منظور انجام این مقایسه، تغییرات دامنه بین مجموعههای متفاوتی از نتایج جستجو را حساب کردیم و به این ترتیب، تفاوتها به یک عدد کاهش یافت. به عنوان مثال، ABC->ACB یک تغییر است. (به لحاظ فنی، از یک حرف برای هر دامنه در هر نتیجه جستجو استفاده کردیم و فاصله ویرایش لوناشتاین (Damerau-Levenshtein) بین آنها را محاسبه کردیم.
کنترل اسلحه:
- میانگین وب گردی حالت معمولی و خصوصی یک کاربر : 1.03
- میانگین وب گردی حالت خصوصی کاربر تصادفی : 2.89
- میانگین وب گردی حالت خصوصی از پنج کاربر نزدیک به هم : 2.65
مهاجرت:
- میانگین وب گردی حالت معمولی و خصوصی یک کاربر : 1.38
- میانگین وب گردی حالت خصوصی کاربر تصادفی : 3.28
- میانگین وب گردی حالت خصوصی از پنج کاربر نزدیک به هم : 2.80
واکسیناسیون:
- میانگین وب گردی حالت معمولی و خصوصی یک کاربر : 2.23
- میانگین وب گردی حالت خصوصی کاربر تصادفی : 4.97
- میانگین وب گردی حالت خصوصی از پنج کاربر نزدیک به هم : 4.25
ما معمولاً از این سؤ تفاهم میشنویم که وب گردی حالت خصوصی باعث ناشناس ماندن ما در وب میشود، اما این تحقیق نشان میدهد که گوگل نتایج جستجو را بر مبنای حالت وب گردی شما نشان نمیدهد. مردم نباید با دیدن حالت هایی به اسم «incognito» حس کاذب امنیت پیدا کنند و فکر کنند که این حالت ها آنها را ناشناس نگاه میدارد.
منبع : https://spreadprivacy.com/google-filter-bubble-study/
نظرات