»
S
I
D
E
B
A
R
«
การประชุมวิชาการประจำปี 2554 STKS (ตอนที่ 8)
July 25th, 2011 by pornpan 272 views

หัวข้อเรื่อง ประสบการณ์การวิเคราะห์ข้อมูลด้วยวิธีการทำเหมืองข้อมูล (Text Mining) วิทยากรโดย ดร.อลิสา คงทน นักวิจัย ห้องปฏิบัติการวิจัยวิทยาการมนุษยภาษา ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ สวทช.

การทำเหมือง  (Text Mining) หรือ การวิเคราะห์ข้อมูล เป็นการหาวิธีในการสกัดหาองค์ความรู้จากข้อมูล ด้วยเหตุผลที่ข้อมูลมีขนาดใหญ่และจำนวนมาก จะมีวิธีการสกัดหาองค์ความรู้ และใช้ประโยชน์จากข้อมูลได้อย่างไร การทำ Text Mining คือ นำความสามารถในการวิเคราะห์ภาษาของมนุษย์ (Natural Language Processing: NLP) และ ความสามารถของคอมพิวเตอร์ (Data Mining) ผนวกรวมเข้าด้วยกัน วิธีการทำ Text Mining มีหลายวิธี คือ
1. Information extraction: การสกัด วิเคราะห์ข้อความที่ไม่มีโครงสร้างออกมา แล้วนำไปวิเคราะห์
2. Topic detection and tracking: การค้นหาหัวข้อเรื่องที่สำคัญ
3. Summarization: การย่อความ ดึงประเด็นสำคัญออกมา
4. Categorization: การจัดหมวดหมู่ (ต้องมีหมวดหมู่เดิมไว้อยู่แล้ว)
5. Clustering: การจัดกลุ่มเอกสาร โดยที่ไม่ทราบหมวดหมู่ วิธีการจัดกลุ่มเอกสาร คือ จัดกลุ่มเอกสารที่มีคำสำคัญ (Keyword) ใกล้เคียงกัน ไว้ด้วยกัน
6. Concept linkage: หลังจากจัดกลุ่มเอกสารแล้ว พยายามหาความสำคัญของกรอบความคิด(Concept)
7. Information visualization: นำเสนอเอกสารที่วิเคราะห์ได้ในรูปกราฟิก แผนภูมิ ตาราง เพื่อให้เข้าใจง่าย
8. Question and anserwing (Q&A): พยายามสกัดหาคำตอบให้กับผู้ใช้

Application ของ Tech Mining ที่สำคัญคือ การประยุกต์ใช้ Text Mining เพื่อดูความสามารถด้าน S&T โดยดูจากข้อมูลรายการบรรณานุกรมและบทคัดย่อ (Bibliographic Abstract) เพื่อให้มองเห็นความสำคัญ Topic ไหนสำคัญ สามารถนำไปสู่ Technology Forecast ได้

กระบวนการทำงานของ Tech Mining มี 3 ส่วน คือ  Data – Software – TIP’s
Data ได้แก่ ฐานข้อมูลสิทธิบัตร และฐานข้อมูลผลงานตีพิมพ์งานวิจัยและพัฒนา
Software ได้แก่ โปรแกรมที่วิเคราะห์และนำเสนอข้อมูล
TIP’s (Technology Intelligence Products) เป็นการนำเสนอรายงานผลการวิเคราะห์ข้อมูล เพื่อการสนับสนุนการตัดสินใจ

Technical Intelligence: เป็นการย่อยข้อมูลจากหลายแหล่งข้อมูล เพื่อหารายละเอียดงานวิจัย 4 ด้าน สำคัญ คือ Who What When Where พร้อมจัดทำแผนที่แสดงความสัมพันธ์เชื่อมโยง และวิเคราะห์แนวโน้มเทคโนโลยี แสดงถึงหัวข้อเรื่องใดที่กำลังได้รับความสนใจ

Software เช่น Vantage Point วิเคราะห์ Bibliographic Abstract (R&D Publication) และข้อมูลสิทธิบัตร หากไม่มีโปรแกรมวิเคราะห์ข้อมูล ปัจจุบันฐานข้อมูลออนไลน์ชุดใหม่ เช่น ฐานข้อมูล Web of Science, ScienceDirect มีฟังก์ชันในการวิเคราะห์ข้อมูลเบื้องต้นอยู่แล้ว

ปัจจุบันทางห้องปฏิบัติการวิจัยวิทยาการมนุษยภาษา ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ สวทช. ได้ทำงานวิจัย และประยุกต์ใช้เทคโนโลยี Text Mining เป็นต้นแบบงานวิจัย (Prototype) อยู่หลายเรื่อง เช่น
1. Expert Finder ระบบค้นหานักวิจัยไทย ผู้เชี่ยวชาญ เป็น Prototype ในงานวิจัย TNRR Expert Finder (Thai National Research Repository)
2. ABDUL (Artificial BudDy U Love) ระบบการค้นหาแหล่งข้อมูลออนไลน์ด้านต่าง ๆ เช่น พยากรณ์อากาศ ข้อมูลราคาหุ้น ข้อมูลสำหรับนักท่องเที่ยว อัตราแลกเปลี่ยนเงินตรา
3. Opinion Mining ระบบการแสดงความคิดเห็น เป็น Prototype กับ Hotel Reviewers

สรุป ปัจจุบันข้อมูลเพิ่มขึ้นทุกวัน เครื่องมือ (Tools) ในลักษณะ Text Mining ก็จะเข้ามามีบทบาทในการสกัดองค์ความรู้ และประยุกต์ใช้งานได้อีกมาก

Share

One Response  
ศรีอร เจนประภาพงศ์ writes:
July 25th, 2011 at 12:40

ไม่เข้าใจขั้นตอน Categorization กับ Clustering ค่ะว่ามันคืออะไร แตกต่างกันอย่างไร แต่ที่ฟังวิทยากรพูดเหมือนกับ Categorization เป็นระบบหมวดหมู่ที่จัดทำไว้แล้ว (เช่นอาจอาศัย DDC –อันนี้คิดเองน่ะค่ะ) ส่วน Clustering ไม่เข้าใจค่ะ ช่วยอธิบาย แล้วมันเชื่อมดยงกันอย่างไรใน 2 ขั้นตอนข้างต้น รบกวนช่วยส่งคำตอบให้ทางอีเมล์ดิฉันด้วยค่ะ

»  Substance: WordPress   »  Style: Ahren Ahimsa