لطفا وارد شوید یا ثبت‌نام کنید تا به انجمن‌ها دسترسی کامل داشته باشید.



 
امتياز موضوع :
  • 0 رأي - معدل امتيازات : 0
  • 1
  • 2
  • 3
  • 4
  • 5
استخراج خودكار متن از سايتها
2010-05-21, 09:38 PM,
ارسال : #1
استخراج خودكار متن از سايتها
سلام به همه دوستان

من براي يه پروژه پردازش متن، نيار به حجم زيادي از متون فارسي دارم. تعداد جملات بايد يه چيزي در حدود 10 ميليون جمله باشه ....
Confusedhock:
طبيعتا براي انجام چنين كاري نميشه به صورت دستي نشست و متون مورد نظر رو از سايتها جمع آوري كرد. يه جا خوندم كه ميشه از خزنده ها (crawlers) براي اينكار استفاده كرد. كسي كدي در اين زمينه سراغ نداره؟
جستجوی تمامی ارسال های کاربر
نقل قول این ارسال در یک پاسخ
2010-05-21, 10:27 PM,
ارسال : #2
پاسخ: استخراج خودكار متن از سايتها
wget -r irna.ir
جستجوی تمامی ارسال های کاربر
نقل قول این ارسال در یک پاسخ
2010-05-22, 08:00 AM,
ارسال : #3
Re: پاسخ: استخراج خودكار متن از سايتها
kakilik نویسنده :wget -r irna.ir

دی
نقل قول این ارسال در یک پاسخ
2010-05-23, 05:20 PM,
ارسال : #4
پاسخ: Re: پاسخ: استخراج خودكار متن از سايتها
kakilik عزیز سلام،

ممنونم. خیلی عالی و راحت بود. فکر نمیکردم به این راحتی باشه. باز هم ازت ممنونم. حالا تنها کاری که باید بکنم اینه که بشینم و Tagهای HTML رو از توی این فایلهای حذف کنم و فقط اون قسمت از متن رو نگه دارم که به دردم میخوره.
باز هم از شما ممنونم.
موفق باشید و در پناه حضرت حق.
جستجوی تمامی ارسال های کاربر
نقل قول این ارسال در یک پاسخ


رفتن به انجمن :


کاربران در حال مشاهده موضوع : 1 مهمان