หัวข้อเรื่อง ประสบการณ์การวิเคราะห์ข้อมูลด้วยวิธีการทำเหมืองข้อมูล (Text Mining) วิทยากรโดย ดร.อลิสา คงทน นักวิจัย ห้องปฏิบัติการวิจัยวิทยาการมนุษยภาษา ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ สวทช.
การทำเหมือง (Text Mining) หรือ การวิเคราะห์ข้อมูล เป็นการหาวิธีในการสกัดหาองค์ความรู้จากข้อมูล ด้วยเหตุผลที่ข้อมูลมีขนาดใหญ่และจำนวนมาก จะมีวิธีการสกัดหาองค์ความรู้ และใช้ประโยชน์จากข้อมูลได้อย่างไร การทำ Text Mining คือ นำความสามารถในการวิเคราะห์ภาษาของมนุษย์ (Natural Language Processing: NLP) และ ความสามารถของคอมพิวเตอร์ (Data Mining) ผนวกรวมเข้าด้วยกัน วิธีการทำ Text Mining มีหลายวิธี คือ
1. Information extraction: การสกัด วิเคราะห์ข้อความที่ไม่มีโครงสร้างออกมา แล้วนำไปวิเคราะห์
2. Topic detection and tracking: การค้นหาหัวข้อเรื่องที่สำคัญ
3. Summarization: การย่อความ ดึงประเด็นสำคัญออกมา
4. Categorization: การจัดหมวดหมู่ (ต้องมีหมวดหมู่เดิมไว้อยู่แล้ว)
5. Clustering: การจัดกลุ่มเอกสาร โดยที่ไม่ทราบหมวดหมู่ วิธีการจัดกลุ่มเอกสาร คือ จัดกลุ่มเอกสารที่มีคำสำคัญ (Keyword) ใกล้เคียงกัน ไว้ด้วยกัน
6. Concept linkage: หลังจากจัดกลุ่มเอกสารแล้ว พยายามหาความสำคัญของกรอบความคิด(Concept)
7. Information visualization: นำเสนอเอกสารที่วิเคราะห์ได้ในรูปกราฟิก แผนภูมิ ตาราง เพื่อให้เข้าใจง่าย
8. Question and anserwing (Q&A): พยายามสกัดหาคำตอบให้กับผู้ใช้
Application ของ Tech Mining ที่สำคัญคือ การประยุกต์ใช้ Text Mining เพื่อดูความสามารถด้าน S&T โดยดูจากข้อมูลรายการบรรณานุกรมและบทคัดย่อ (Bibliographic Abstract) เพื่อให้มองเห็นความสำคัญ Topic ไหนสำคัญ สามารถนำไปสู่ Technology Forecast ได้
กระบวนการทำงานของ Tech Mining มี 3 ส่วน คือ Data – Software – TIP’s
Data ได้แก่ ฐานข้อมูลสิทธิบัตร และฐานข้อมูลผลงานตีพิมพ์งานวิจัยและพัฒนา
Software ได้แก่ โปรแกรมที่วิเคราะห์และนำเสนอข้อมูล
TIP’s (Technology Intelligence Products) เป็นการนำเสนอรายงานผลการวิเคราะห์ข้อมูล เพื่อการสนับสนุนการตัดสินใจ
Technical Intelligence: เป็นการย่อยข้อมูลจากหลายแหล่งข้อมูล เพื่อหารายละเอียดงานวิจัย 4 ด้าน สำคัญ คือ Who What When Where พร้อมจัดทำแผนที่แสดงความสัมพันธ์เชื่อมโยง และวิเคราะห์แนวโน้มเทคโนโลยี แสดงถึงหัวข้อเรื่องใดที่กำลังได้รับความสนใจ
Software เช่น Vantage Point วิเคราะห์ Bibliographic Abstract (R&D Publication) และข้อมูลสิทธิบัตร หากไม่มีโปรแกรมวิเคราะห์ข้อมูล ปัจจุบันฐานข้อมูลออนไลน์ชุดใหม่ เช่น ฐานข้อมูล Web of Science, ScienceDirect มีฟังก์ชันในการวิเคราะห์ข้อมูลเบื้องต้นอยู่แล้ว
ปัจจุบันทางห้องปฏิบัติการวิจัยวิทยาการมนุษยภาษา ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ สวทช. ได้ทำงานวิจัย และประยุกต์ใช้เทคโนโลยี Text Mining เป็นต้นแบบงานวิจัย (Prototype) อยู่หลายเรื่อง เช่น
1. Expert Finder ระบบค้นหานักวิจัยไทย ผู้เชี่ยวชาญ เป็น Prototype ในงานวิจัย TNRR Expert Finder (Thai National Research Repository)
2. ABDUL (Artificial BudDy U Love) ระบบการค้นหาแหล่งข้อมูลออนไลน์ด้านต่าง ๆ เช่น พยากรณ์อากาศ ข้อมูลราคาหุ้น ข้อมูลสำหรับนักท่องเที่ยว อัตราแลกเปลี่ยนเงินตรา
3. Opinion Mining ระบบการแสดงความคิดเห็น เป็น Prototype กับ Hotel Reviewers
สรุป ปัจจุบันข้อมูลเพิ่มขึ้นทุกวัน เครื่องมือ (Tools) ในลักษณะ Text Mining ก็จะเข้ามามีบทบาทในการสกัดองค์ความรู้ และประยุกต์ใช้งานได้อีกมาก