پایگاه خبری تحلیلی دیوانگاه | نسخه چاپی پاسخی علمی به توئیت شریفی زارچی

به گزارش دیوانگاه ،این توئیت حیرت‌آورمشخص میکند او که خود را متخصص هوش مصنوعی معرفی می‌کند،تفاوت بین ثبت‌نام و کامنت گذاشتن را نمیداند .زیرا وجود ۴ میلیون شناسهٔ یکتا در جدول کامنت‌ها صرفاً یعنی ۴ میلیون نفر کامنت گذاشته‌اند، نه آنکه ثبت‌نام کرده‌اند. هرچند نیازی به پاسخ علمی نیست، اما به احترام مخاطب، پاسخ را به صورت علمی ارائه می‌دهیم.

♦️بررسی‌های فنی نشان می‌دهد که این استدلال دچار#چندینخطای بنیادی در حوزه مهندسی نرم‌افزار و تحلیل داده است:۱. خلط مبحث میان «جدول کامنت‌ها» و «جدول کاربران»۲. نادیده گرفتن ماهیت فنی APIهای عمومی و محدودیت نمایش (Pagination)۳. استناد به آدرسی (Endpoint) که در حال حاضر از دسترس خارج است و امکان بازتولید مستقل ادعا را سلب می‌کند.♦️دلیل اول: تفکیک موجودیت‌ها (Entity Separation)در طراحی پایگاه داده (Database Design)، اطلاعات کاربران در یک جدول و کامنت‌های آن‌ها در جدولی دیگر ذخیره می‌شود. هر کامنت دارای یک user_id است.وجود ۴ میلیون شناسه‌ی یکتا در جدول کامنت‌ها، تنها ثابت می‌کند که ۴ میلیون نفر «کامنت گذاشته‌اند».لزوماً همه کسانی که در یک پویش ثبت‌نام می‌کنند، اقدام به گذاشتن کامنت نمی‌کنند. بنابراین، آمار جدول کامنت‌ها همواره زیرمجموعه‌ای از آمار کل کاربران است و نمی‌تواند سقف کل ثبت‌نامی‌ها را تعیین کند.♦️دلیل دوم: خطای صفحه‌بندی (Pagination) و کش (Caching)در سیستم‌های با ترافیک بالا، فراخوانی داده‌ها از طریق دستوراتی مثل getComments هرگز کل دیتابیس را یک‌جا بر نمی‌گرداند.مکانیزم فنی: APIها معمولاً داده‌ها را در دسته‌های کوچک (مثلاً ۲۰ تایی) ارسال می‌کنند. شناسه‌هایی که در یک فراخوانی ساده مشاهده می‌شوند، مربوط به آخرین فعالیت‌ها یا دسته‌ای خاص هستند.نتیجه: بدون پیمایش (Iteration) تمام صفحات API و استخراج کل دیتای یکتا، ادعای تعیین سقف عددی دیتابیس از نظر علمی فاقد اعتبار است.

♦️دلیل سوم: عدم امکان راستی‌آزمایی (Reproducibility)یکی از اصول فکت‌چکینگ، قابلیت بازتولید نتیجه است. در حال حاضر دستور ارائه‌شده (curl) خطای 404 Not Found یا 403 Forbidden بازمی‌گرداند.استناد به یک خروجی که دیگر وجود ندارد یا در لحظه‌ای خاص ثبت شده، بدون داشتن مستندات کامل از معماری سمت سرور (Backend)، نمی‌تواند به عنوان یک سند قطعی برای رد یک آمار رسمی استفاده شود.♦️دلیل چهارم: شناسه‌های ترتیبی و شکاف‌ها (Gaps)ادعا شده که فواصل شناسه‌ها نشان‌دهنده تعداد واقعی است. در سیستم‌های توزیع‌شده (Distributed Systems)، شناسه‌ها لزوماً پشت سر هم نیستند. حذف کاربران، تلاش‌های ناموفق برای ثبت‌نام، یا استفاده از روش‌های تخصیص شناسه به صورت دسته‌ای (High-Low sequence)، باعث ایجاد شکاف در اعداد می‌شود که تخمین دقیق را از روی ظاهرِ اعداد غیرممکن می‌کند.

نتیجه‌گیری

استدلال شریفی زارچی بر پایه یک «خطای تعمیم» استوار است؛ یعنی تعمیم آمار یک بخش فرعی (کامنت) به کل سامانه (ثبت‌نام). از منظر مهندسی نرم‌افزار، تعداد موجودیت‌های یک جدولِ مرتبط، نشان‌دهنده سقف موجودیت‌های جدول اصلی نیست.