OCR ซับหนังสำหรับขาโมหนัง
ต้นเรื่องจาก How to convert .IDX .SUB to .SRThttps://1080ip.com/thread/16/1/1
ณ.วันนี้
http://code.google.com/p/subtitleedit/downloads/list
http://www.nikse.dk/
http://subtitleedit.googlecode.com/files/SE323.zip
(optical character recognition) หรือมักเรียกอย่างย่อว่า โอซีอาร์ (OCR) คือกระบวนการทางกลไกหรือทางอิเล็กทรอนิกส์เพื่อแปลภาพของข้อความจากการเขียนหรือจากการพิมพ์ ไปเป็นข้อความที่สามารถแก้ไขได้โดยเครื่องคอมพิวเตอร์
หลังจากติดตั้ง แนะนำให้ใช้ตัวพอร์ทเทเบิ้ล (โหลดมา แตกไฟล์ออก เป็นโฟลเดอร์เช่น SE323)
เข้าไปดับเบิ้ลคลิกที่ SubtitleEdit.exe หรือตัว SE จะมีหน้าต่างใหม่เปิดขึ้นมา
เปิดไปหาซับที่เราได้เก็บไว้
0.เลือก Import/OCR VobSub (sub/idx) subtitle
เมื่อเปิดหน้าต่างใหม่ขึ้นมา
1.
- OCR method คลิกเลือกOCR via image compare
- Image database คลิกเลือกNew แล้วก็ตั้งชื่อให้เหมือนชื่อเรื่องหนังนั้น ๆ
- Image palelte ติกเพื่อเลือกตัวหนังสือที่เป็นรูปภาพ ลองคลิกดู จะเห็นความแตกต่าง
2.
OCR method
- OCR via image compare คลิกเลือกตรงลูกศรขวามือถึงเห็น
- New เปิดหน้าต่างใหม่ขึ้นมา ให้พิมพ์ในช่องว่าง เป็นชื่อหนัง ถ้าผิดก็คลิกแก้ไขตรงอิดิท
- Start OCR คลิกเริ่มให้โปรแกรมทำงาน
3. บางเรื่อง โปรแกรมจะเห็นสระในภาษาไทยเป็นอีกแถวหนึ่ง ถ้าเป็นแบบนี้ส่วนตัวแล้วจะคลิกตรง Skip เพื่อข้ามไป
4.ตัวอักษรที่เราจะต้องพิมพ์ (พิมพ์แค่นั้น) โปรแกรมจะจดจำไว้ในฐานข้อมูล ตัวเหมือนกันในคราวต่อไป เราจะได้ไม่ต้องพิมพ์
5. ตัวที่แก้ไขไปครั้งสุดท้าย พวกที่พิมพ์เร็ว ๆ จะพลาดตรงนี้
ถ้าจะแก้ไข ในรุ่นก่อน ๆ ต้องคลิกเข้าไปแก้ไขกว่าจะเจอนานมาก
6. หลังจากพิมพ์เสร็จแล้ว อย่าพึ่งออกจากหน้านี้
ตัวที่ละเว้นไว้ จะเป็น * แทน ทำให้เราตรวจพบได้ง่าย แก้ไขได้ง่าย
วิธีแก้ไข ก็เข้าไปคลิกที่แถวนั้น ๆ จะให้ตัวภาพด้านบน ที่เป็นอักษร ทำให้เราพิมพ์ตามได้เลย
ถ้าออกจากตรงนี้แล้ว จะหาตัวเปรียบลำบาก ต้องเข้ามาใหม่
เสร็จแล้ว ก็กดปุ่ม OK
จัดเก็บเป็นชื่อหนังได้เลย
หลังจากนั้น เปิดไฟล์นี้ขึ้นมา คัดลอกลงเวิร์ด เพื่อตรวจสอบตัวสะกด เปลี่ยนตัวหนังสือที่เหมือน ๆ กัน
เช่นสระแอ (แ) โปรแกรมจะจำเป็นสระเอ (เ) เปิดเวิร์ดมาให้ให้แทน เ-เ เป็น แ
สระอำโปรแกรมจะไม่รู้จัก ให้ใช้ํ (เรียกว่าอะไรหว่า) ตรงไม้หันอากาศ หรือ ไม้ผัด หรือ หางกังหัน(-ั)แทน แล้วก็สระอา (า)อีกตัว
เป็นข้อมูล
คนเขียนโปรแกรมนี้อัธยาศัยดีมาก ๆ เคยเมลไปสอบถาม ได้รับการแนะนำมาทุกฉบับ :D สุดยอดมากครับ :D ยอดเยี่ยมจริงๆ เข้าใจแจ่มแจ้งเลยท่าน ขอบคุณมากๆ ครับ เป็นโปรแกรม ocr ที่ผมใช้ประจำ ซึ่งในรุ่นใหม่ 3.2.3 เจ๋งตรงรูปในข้อ 5 อย่างที่บอกละครับ
ไม่ต้องไปควานหารูปที่พิมพ์ผิดไปก่อนหน้านี้
แต่ผมยังไม่ได้โหลดมาลอง เพราะยังไม่ค่อยมีเวลา + ไม่แน่ใจเรื่องความฉลาดของระบบ ocr ของเวอร์ชันนี้
(ผมวัดเอาเองจากจำนวนครั้งในการที่เราต้องพิมพ์สอนมัน โดยเทียบจากซับเรื่องเดียวกัน) ถ้าคนเขียนโปรแกรมมีความเข้าใจเรื่องวรรณยุกต์ภาษาไทย พวกเราคงสบายกว่านี้ :lol thank verymut
หน้า:
[1]