با رشد مدل‌های زبانی بزرگ (LLMs) مثل GPT، Claude و Gemini، یکی از بزرگ‌ترین چالش‌ها در دنیای هوش مصنوعی، بهینه‌سازی داده‌های ورودی و خروجی است.
هرچه داده‌ها فشرده‌تر و ساختارمندتر باشند، مدل سریع‌تر آموزش می‌بیند و هزینه محاسباتی کاهش می‌یابد.
در همین راستا، پروژه‌ای جدید به نام Toon معرفی شده که هدفش ایجاد یک فرمت داده‌ی بهینه برای مدل‌های زبانی است — فرمتـی ساده، فشرده و هوشمند که می‌تواند جایگزین JSON در بسیاری از کاربردهای AI شود.

فرمت Toon چیست؟

Toon یک فرمت متن‌باز برای ذخیره‌سازی و تبادل داده‌هاست که با تمرکز بر کاهش تعداد توکن‌ها و افزایش خوانایی برای مدل‌های زبانی طراحی شده است.
در حالی‌که JSON یا YAML در برنامه‌نویسی رایج هستند، این فرمت‌ها برای مدل‌های زبانی بهینه نیستند چون شامل کاراکترهای اضافی مانند براکت، کوتیشن و ویرگول هستند که هم تعداد توکن‌ها را زیاد می‌کند و هم فهم داده را برای مدل دشوارتر می‌سازد.

Toon با حذف همین موارد اضافه، ساختاری ایجاد کرده که برای مدل‌های زبانی و هوش مصنوعی مدرن بسیار بهینه‌تر است.

ساختار کلی Toon

در Toon، داده‌ها بر پایه‌ی تورفتگی (Indentation) سازمان‌دهی می‌شوند، نه براکت و آکولاد.
به‌جای {} یا []، از خطوط با تورفتگی برای تعیین سطح سلسله‌مراتب استفاده می‌شود.
به‌عنوان مثال، داده‌ای که در JSON به این صورت تعریف می‌شود:

{
  "name": "Shahin Banoo",
  "services": ["Chef", "Cultural Content", "Catering"]
}

در Toon به شکل زیر نمایش داده می‌شود:

name: Shahin Banoo
services:
  - Chef
  - Cultural Content
  - Catering

همان‌طور که می‌بینی، ساختار خواناتر است، اما مهم‌تر از آن، تعداد توکن‌ها در مدل‌های زبانی تا ۳۰ تا ۶۰ درصد کاهش می‌یابد.

مقایسه فنی Toon با JSON

ویژگی‌ها JSON Toon
حجم داده زیاد (کاراکترهای اضافی) فشرده و بهینه
خوانایی برای انسان متوسط بالا
خوانایی برای مدل زبانی پایین بسیار بالا
ساختاردهی داده‌ها براکت‌محور تورفتگی‌محور
هزینه توکن در API بالا تا ۵۰٪ کمتر
مناسب برای اپلیکیشن‌های سنتی مدل‌های زبانی و هوش مصنوعی

چطور Toon هزینه توکن را کاهش می‌دهد؟

در مدل‌های زبانی، هر کاراکتر و نشانه (مثل ویرگول، براکت یا کوتیشن) به عنوان یک توکن جداگانه محاسبه می‌شود.
بنابراین هرچه داده شامل نشانه‌های بیشتری باشد، تعداد توکن‌ها و هزینه پردازش بیشتر می‌شود.

فرمت Toon با طراحی ساده و بدون نویز، این مشکل را حل کرده است.
بر اساس تست‌های اولیه، داده‌ای که در JSON حدود ۴۵۰۰ توکن داشت، در Toon تنها ۲۶۰۰ توکن مصرف کرده — یعنی حدود نصف هزینه‌ی API در مدل‌هایی مثل GPT یا Claude. ⚡️

ساختار تورفتگی‌محور و آرایه‌های جدولی

یکی از ویژگی‌های جذاب Toon استفاده از ساختار جدولی برای آرایه‌ها و داده‌های تکراری است.
در JSON، آرایه‌ها معمولاً با براکت‌ها تعریف می‌شوند و مدل باید چند سطح از تو در تو بودن را تحلیل کند.
اما در Toon، این ساختارها به‌صورت فهرست‌های تورفتگی‌دار و خطی نمایش داده می‌شوند که هم خوانایی بیشتر و هم سرعت پردازش بالاتری دارد.

برای مثال:

users:
  - name: Ali
    role: Developer
  - name: Sara
    role: Designer

در این ساختار، مدل زبانی می‌تواند بدون نیاز به بازکردن چند براکت، مستقیماً روابط داده‌ای را درک کند.

چرا Toon برای مدل‌های زبانی ایده‌آل است؟

Toon برخلاف JSON، نه‌تنها برای انسان‌ها بلکه برای مدل‌های زبانی طراحی شده است.
این یعنی ساختار و قالب داده دقیقاً متناسب با شیوه‌ی درک مدل‌های زبانی از متن طراحی شده تا مراحل رمزگشایی، درک و پاسخ‌دهی سریع‌تر انجام شود.

مزایای کلیدی Toon برای LLMها عبارتند از:

  • کاهش چشمگیر تعداد توکن‌ها در ورودی و خروجی
  • سازگاری با پردازش زبانی طبیعی مدل‌ها (text-based parsing)
  • ساده‌سازی انتقال داده میان APIها و مدل‌ها
  • کاهش هزینه و زمان inference در کاربردهای تجاری

نمونه کاربردهای Toon در هوش مصنوعی

فرمت Toon به‌ویژه در حوزه‌هایی مفید است که داده‌ها ساختارمند و تکراری‌اند اما نیاز به پردازش سریع دارند.

نمونه‌هایی از کاربردهای عملی:

  1. پاسخ‌های API در چت‌بات‌ها – کاهش هزینه درخواست‌ها در مدل‌های LLM.
  2. گزارش‌های تحلیلی – انتقال داده‌های ساختاریافته بدون اتلاف توکن.
  3. ذخیره‌سازی نتایج مدل‌ها – برای مقایسه خروجی مدل‌های مختلف در مقیاس بزرگ.
  4. آموزش مدل‌های سفارشی – کاهش حجم داده‌های آموزشی برای fine-tuning.

آینده Toon و تأثیر آن بر داده‌محوری در AI

پروژه Toon گامی در جهت Data-centric AI است — یعنی تمرکز بر کیفیت و ساختار داده، نه صرفاً افزایش اندازه مدل‌ها.
با افزایش اندازه مدل‌های زبانی، هزینه ذخیره و پردازش داده‌ها به یکی از بزرگ‌ترین چالش‌ها تبدیل شده است.
Toon با کاهش حجم داده‌ها، می‌تواند هم هزینه را پایین بیاورد و هم بازدهی سیستم‌های هوش مصنوعی را بالا ببرد.

به احتمال زیاد، در آینده شاهد خواهیم بود که شرکت‌های بزرگ فناوری مثل OpenAI، Google و Anthropic از فرمت‌های مشابه Toon برای بهینه‌سازی ارتباط بین مدل‌ها و داده‌ها استفاده کنند.

جمع بندی

Toon فقط یک فرمت داده جدید نیست — بلکه راهی برای بازاندیشی در نحوه تعامل مدل‌های زبانی با داده‌هاست.
این فرمت با حذف نشانه‌های اضافی، ساختار تورفتگی‌محور و طراحی ساده، توانسته هم خوانایی داده را افزایش دهد و هم هزینه پردازش را کاهش دهد.
در جهانی که سرعت و بهره‌وری در هوش مصنوعی حرف اول را می‌زند، Toon می‌تواند به استانداردی تازه برای ذخیره‌سازی و تبادل داده‌های زبانی تبدیل شود.