در سال‌های اخیر، نیاز به تحلیل احساسات متن فارسی با هوش مصنوعی به شدت افزایش یافته است. کاربران شبکه‌های اجتماعی روزانه میلیون‌ها متن و توییت تولید می‌کنند که سرشار از احساساتی مانند شادی، غم و خشم هستند. برای ساخت مدل‌های هوش مصنوعی و ابزارهای NLP فارسی، وجود یک مجموعه داده معتبر و دقیق ضروری است. دیتاست Persian Sentiment and Emotion یکی از مهم‌ترین منابع در این حوزه است که شامل ۱۲ هزار توییت فارسی با برچسب‌های عاطفی است. این دیتاست می‌تواند نقطه شروعی برای توسعه ابزارهای تحلیل احساسات فارسی، چت‌بات‌های هوشمند و حتی ابزارهای پایش شبکه‌های اجتماعی باشد.

مشخصات دیتاست

این مجموعه داده ویژگی‌های زیر را دارد:

  • شامل ۱۲,۰۰۰ نمونه واقعی از توییتر فارسی
  • فرمت اصلی داده‌ها به صورت CSV
  • برچسب‌گذاری شده با احساساتی چون شادی، غم و خشم
  • قابل استفاده برای یادگیری ماشین، یادگیری عمیق و الگوریتم‌های پردازش زبان طبیعی فارسی

لینک دیتاست: Persian Sentiment and Emotion

چرا این دیتاست اهمیت دارد؟

بسیاری از پژوهشگران در جستجوی یک مجموعه داده اخبار جعلی یا دیتاست احساسات فارسی با کیفیت بالا بوده‌اند. با وجود دیتاست Persian Sentiment and Emotion، امکان آموزش مدل‌هایی فراهم می‌شود که می‌توانند متن‌های فارسی را در سطوح مختلف تحلیل کنند. این قابلیت به سازمان‌ها کمک می‌کند تا:

  • نظر مشتریان را از روی شبکه‌های اجتماعی تحلیل کنند
  • پایش اخبار و شایعات در فضای مجازی انجام دهند
  • احساسات عمومی درباره یک محصول، برند یا رویداد را بررسی کنند

ساختار پروژه در GitHub

در مخزن GitHub مربوط به این دیتاست، ابزارها و اسکریپت‌هایی برای پردازش و تحلیل داده‌ها قرار داده شده‌اند. این پروژه به صورت مرحله‌به‌مرحله طراحی شده و شامل بخش‌های زیر است:

پیش‌پردازش داده‌ها

  • 01_sentiment_dataset_cleaning.py: پاک‌سازی و آماده‌سازی دیتاست احساسات همراه با نمودارها
  • 02_emotion_dataset_cleaning_p1.py و 03_emotion_dataset_cleaning_p2.py: پاک‌سازی دیتاست هیجانات در دو بخش مختلف
  • 04_sentiment_dataset_sampling.py: نمونه‌گیری و متعادل‌سازی داده‌های احساسات
  • 05_emotion_dataset_sampling.py: نمونه‌گیری و متعادل‌سازی داده‌های هیجانات

پیاده‌سازی مدل‌های هوش مصنوعی

  • Claude 3.7 Sonnet برای تحلیل احساسات و تشخیص هیجان
  • DeepSeek-V3 برای مدل‌های NLP فارسی
  • Gemini 2.0 Flash برای دسته‌بندی متن‌ها
  • GPT-4o برای تحلیل پیشرفته احساسات و عواطف

تحلیل آماری و ارزیابی

  • Bootstrap confidence intervals برای تخمین دقت مدل‌ها
  • McNemar’s test برای مقایسه نتایج مدل‌های مختلف

آماده‌ سازی محیط و پیش‌نیازها

برای اجرای پروژه و استفاده از دیتاست نیاز به محیط Google Colab یا یک سیستم محلی با ابزارهای زیر دارید:

  • Python نسخه 3.11.12
  • کتابخانه‌های Pandas، NumPy، Matplotlib، Seaborn
  • کلیدهای API برای Claude، DeepSeek، Gemini و GPT-4o

راه‌اندازی پروژه

دستورات اصلی نصب و اجرا در GitHub به صورت زیر ارائه شده‌اند و باید دقیقا همین‌طور استفاده شوند:

git clone https://github.com/KianTohidi/Persian_Sentiment_and_Emotion
cd Persian_Sentiment_and_Emotion

سپس می‌توانید فایل‌ها را در محیط Google Colab آپلود کرده و بر اساس ترتیب عددی موجود در کدها اجرا کنید.

مثال ساده از استفاده در پایتون

برای نشان دادن نحوه استفاده از دیتاست، یک مثال ساده برای بارگذاری داده‌ها و بررسی توزیع برچسب‌ها در پایتون:

import pandas as pd
import matplotlib.pyplot as plt

# بارگذاری دیتاست نمونه
data = pd.read_csv("persian_sentiment_emotion.csv")

# نمایش پنج ردیف اول
print(data.head())

# شمارش تعداد نمونه‌ها برای هر برچسب
label_counts = data['label'].value_counts()

# رسم نمودار میله‌ای
label_counts.plot(kind='bar', color=['green', 'blue', 'red'])
plt.title("توزیع برچسب‌ها در دیتاست Persian Sentiment and Emotion")
plt.xlabel("نوع احساس")
plt.ylabel("تعداد نمونه‌ها")
plt.show()

این کد به شما امکان می‌دهد بفهمید چه میزان داده برای هر دسته احساس وجود دارد و مدل یادگیری ماشین باید با چه توزیعی آموزش ببیند.

کاربردهای دیتاست در NLP فارسی

این دیتاست در پروژه‌های مختلفی می‌تواند مورد استفاده قرار گیرد:

  • تشخیص احساسات در شبکه‌های اجتماعی: برای شناسایی نظرات مثبت و منفی کاربران
  • تحلیل بازخورد مشتریان: برای درک بهتر نیازها و نارضایتی‌ها
  • پایش رویدادهای اجتماعی: تحلیل واکنش عمومی به حوادث یا تصمیمات دولتی
  • آموزش مدل‌های Transformer فارسی: مانند BERT یا T5 برای دسته‌بندی احساسات

نتیجه‌ گیری

وجود یک دیتاست ۱۲هزار نمونه‌ای از توییت‌های فارسی با برچسب احساسات، فرصت بزرگی برای پژوهشگران و توسعه‌دهندگان NLP است. با این مجموعه داده می‌توان ابزارهایی ساخت که توانایی تحلیل دقیق احساسات کاربران را دارند و در زمینه‌هایی مانند بازاریابی، مدیریت ارتباط با مشتری و تحلیل اجتماعی بسیار ارزشمند هستند. ترکیب این دیتاست با مدل‌های پیشرفته‌ای مثل GPT-4o یا DeepSeek می‌تواند به توسعه سیستم‌های تحلیل احساسات پیشرفته در زبان فارسی منجر شود.