استخراج خودكار متن از سايتها
|
2010-05-21, 09:38 PM,
ارسال : #1
|
|||
|
|||
استخراج خودكار متن از سايتها
سلام به همه دوستان
من براي يه پروژه پردازش متن، نيار به حجم زيادي از متون فارسي دارم. تعداد جملات بايد يه چيزي در حدود 10 ميليون جمله باشه .... hock: طبيعتا براي انجام چنين كاري نميشه به صورت دستي نشست و متون مورد نظر رو از سايتها جمع آوري كرد. يه جا خوندم كه ميشه از خزنده ها (crawlers) براي اينكار استفاده كرد. كسي كدي در اين زمينه سراغ نداره؟ |
|||
2010-05-21, 10:27 PM,
ارسال : #2
|
|||
|
|||
پاسخ: استخراج خودكار متن از سايتها
wget -r irna.ir
|
|||
2010-05-22, 08:00 AM,
ارسال : #3
|
|||
|
|||
Re: پاسخ: استخراج خودكار متن از سايتها
kakilik نویسنده :wget -r irna.ir دی |
|||
2010-05-23, 05:20 PM,
ارسال : #4
|
|||
|
|||
پاسخ: Re: پاسخ: استخراج خودكار متن از سايتها
kakilik عزیز سلام،
ممنونم. خیلی عالی و راحت بود. فکر نمیکردم به این راحتی باشه. باز هم ازت ممنونم. حالا تنها کاری که باید بکنم اینه که بشینم و Tagهای HTML رو از توی این فایلهای حذف کنم و فقط اون قسمت از متن رو نگه دارم که به دردم میخوره. باز هم از شما ممنونم. موفق باشید و در پناه حضرت حق. |
|||
|