زبان فارسی در حوزه پردازش زبان طبیعی و بینایی ماشین همواره با کمبود منابع و ابزارهای تخصصی مواجه بوده است. بیشتر کتابخانه‌ها و مدل‌های موجود برای زبان انگلیسی توسعه داده شده‌اند و پژوهشگران فارسی‌زبان ناچار بودند از آن‌ها با تغییرات محدود استفاده کنند. Hezar به عنوان اولین کتابخانه چندمنظوره هوش مصنوعی فارسی، این مشکل را هدف گرفته و بستری ساده و یکپارچه برای توسعه‌دهندگان و محققان فراهم کرده است. این کتابخانه با پوشش حوزه‌هایی مانند NLP، Computer Vision و پردازش صوت، گام مهمی در بومی‌سازی فناوری هوش مصنوعی برداشته است.

Hezar چیست؟

واژه Hezar به معنای هزار در فارسی است و نشان‌دهنده تنوع گسترده ابزارها و مدل‌های این کتابخانه است. Hezar یک پلتفرم چندمنظوره است که ویژگی‌های زیر را ارائه می‌دهد:

  • گردآوری بهترین مدل‌های هوش مصنوعی فارسی
  • استفاده آسان تنها با چند خط کدنویسی
  • یکپارچگی کامل با Hugging Face Hub برای دسترسی به مدل‌ها
  • رابط کاربری توسعه‌دهنده‌پسند و ساده
  • ارائه ابزارهای جانبی مانند توکنایزرها، امبدینگ‌ها و متریک‌های ارزیابی
  • پشتیبانی از آموزش، استقرار و بهینه‌سازی مدل‌ها

این قابلیت‌ها باعث شده Hezar نه‌تنها برای پژوهشگران بلکه برای شرکت‌ها و تیم‌های توسعه محصول نیز ارزشمند باشد.

حوزه‌های تحت پوشش Hezar

پردازش زبان طبیعی (NLP)

مدل‌های متنوعی در این حوزه ارائه شده‌اند، از جمله:

  • تحلیل احساسات برای شناسایی مثبت یا منفی بودن متون
  • برچسب‌گذاری توالی شامل POS و NER
  • تکمیل ماسک برای پیش‌بینی کلمات حذف‌شده
  • خلاصه‌سازی و دسته‌بندی متون طولانی

بینایی ماشین (Computer Vision)

در حوزه تصویر، Hezar مدل‌هایی ارائه می‌دهد که شامل:

  • تشخیص متن در تصویر (Pre-OCR)
  • OCR فارسی برای تبدیل متن تصویری به دیجیتال
  • تشخیص پلاک خودرو
  • Image Captioning برای تولید توضیحات خودکار از تصاویر

پردازش صوت

مدل‌های تشخیص گفتار (ASR) فارسی یکی از بخش‌های مهم Hezar هستند که می‌توانند فایل‌های صوتی را به متن تبدیل کنند.

امبدینگ‌ها

امبدینگ‌ها پایه بسیاری از مدل‌های NLP هستند. Hezar مدل‌های FastText و Word2Vec را برای زبان فارسی آماده کرده که امکان محاسبه شباهت معنایی میان کلمات را فراهم می‌کنند.

نصب Hezar

نصب Hezar از طریق PyPI امکان‌پذیر است:

pip install hezar

همچنین بسته به نیاز می‌توانید نسخه‌های خاص را نصب کنید:

pip install hezar[all]      # نصب کامل
pip install hezar[nlp]      # فقط NLP
pip install hezar[vision]   # فقط بینایی ماشین
pip install hezar
    # فقط صوت
pip install hezar[embeddings]  # فقط امبدینگ‌ها

کاربران حرفه‌ای هم می‌توانند نسخه جدید را از سورس نصب کنند:

git clone https://github.com/hezarai/hezar.git
pip install ./hezar

مثال‌های عملی Hezar

تحلیل احساسات

from hezar.models import Model

texts = [
    "این کتابخانه عالی است",
    "کیفیت سرویس اصلا خوب نبود",
    "نتیجه بد نبود اما می‌توانست بهتر باشد"
]

model = Model.load("hezarai/bert-fa-sentiment-dksf")
preds = model.predict(texts)

for t, out in zip(texts, preds):
    label = out[0]["label"]
    score = round(float(out[0]["score"]), 3)
    print(f"text: {t} => {label} ({score})")

برچسب‌گذاری توالی و NER

from hezar.models import Model

sentence = "شرکت هوش مصنوعی هزار امروز یک مدل جدید منتشر کرد"

pos_model = Model.load("hezarai/bert-fa-pos-lscp-500k")
ner_model = Model.load("hezarai/bert-fa-ner-arman")

pos_out = pos_model.predict([sentence])[0]
ner_out = ner_model.predict([sentence])[0]

print("POS Tags:", [(t['token'], t['label']) for t in pos_out])
print("NER Tags:", [(t['token'], t['label']) for t in ner_out])

تکمیل ماسک

from hezar.models import Model

inputs = ["امروز حال من <mask>"]
model = Model.load("hezarai/roberta-fa-mask-filling")
outputs = model.predict(inputs, top_k=1)

best = outputs[0][0]
print("sequence:", best["sequence"], "| score:", round(best["score"], 3))

تشخیص گفتار

from hezar.models import Model
import os

audio_path = "samples/speech_example.mp3"
assert os.path.exists(audio_path), "فایل صوتی پیدا نشد"

model = Model.load("hezarai/whisper-small-fa")
transcripts = model.predict(audio_path)
print("transcript:", transcripts[0]["text"])

OCR فارسی

from hezar.models import Model

model = Model.load("hezarai/crnn-base-fa-v2")
result = model.predict("samples/ocr_example.jpg")
print("ocr:", result[0]["text"])

کپشن‌گذاری تصویر

from hezar.models import Model

model = Model.load("hezarai/vit-roberta-fa-image-captioning-flickr30k")
caps = model.predict("samples/caption.jpg")
print("caption:", caps[0]["text"])

امبدینگ واژه‌ها

from hezar.embeddings import Embedding

fasttext = Embedding.load("hezarai/fasttext-fa-300")
sim = fasttext.most_similar("هزار")[:5]
print("FastText:", [(w["word"], round(float(w["score"]), 3)) for w in sim])

مزایای استفاده از Hezar

  • تمرکز بر هوش مصنوعی فارسی
  • پوشش همزمان NLP، Computer Vision و صوت
  • دسترسی ساده به مدل‌ها از طریق Hugging Face Hub
  • قابلیت آموزش و استقرار مدل‌ها
  • جامعه متن‌باز فعال برای توسعه و بهبود

محدودیت‌ها و چالش‌ها

  • برخی مدل‌ها هنوز در حال بهبود هستند
  • نیاز به سخت‌افزار قوی برای پروژه‌های سنگین
  • تمرکز اولیه بیشتر روی داده‌های محدود موجود

آینده Hezar

Hezar به عنوان بزرگ‌ترین پروژه متن‌باز هوش مصنوعی فارسی در حال گسترش است. توسعه مدل‌های جدید، افزایش دیتاست‌ها و یکپارچگی بیشتر با ابزارهای جهانی می‌تواند جایگاه آن را تقویت کند. انتظار می‌رود Hezar در آینده به مرجع اصلی NLP و Computer Vision فارسی تبدیل شود.

جمع‌ بندی

Hezar تنها یک کتابخانه نیست، بلکه بستری کامل برای پژوهشگران و توسعه‌دهندگان در حوزه هوش مصنوعی فارسی است. این ابزار با پوشش گسترده وظایف در NLP، Computer Vision و پردازش صوت، امکان ساخت پروژه‌های پیشرفته را ساده کرده است. با ادامه توسعه و مشارکت جامعه متن‌باز، Hezar می‌تواند به موتور محرک نوآوری در حوزه هوش مصنوعی بومی تبدیل شود.