»
S
I
D
E
B
A
R
«
การประชุมวิชาการประจำปี 2554 STKS (ตอนที่ 8)
Jul 25th, 2011 by pornpan 272 views

หัวข้อเรื่อง ประสบการณ์การวิเคราะห์ข้อมูลด้วยวิธีการทำเหมืองข้อมูล (Text Mining) วิทยากรโดย ดร.อลิสา คงทน นักวิจัย ห้องปฏิบัติการวิจัยวิทยาการมนุษยภาษา ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ สวทช.

การทำเหมือง  (Text Mining) หรือ การวิเคราะห์ข้อมูล เป็นการหาวิธีในการสกัดหาองค์ความรู้จากข้อมูล ด้วยเหตุผลที่ข้อมูลมีขนาดใหญ่และจำนวนมาก จะมีวิธีการสกัดหาองค์ความรู้ และใช้ประโยชน์จากข้อมูลได้อย่างไร การทำ Text Mining คือ นำความสามารถในการวิเคราะห์ภาษาของมนุษย์ (Natural Language Processing: NLP) และ ความสามารถของคอมพิวเตอร์ (Data Mining) ผนวกรวมเข้าด้วยกัน วิธีการทำ Text Mining มีหลายวิธี คือ
1. Information extraction: การสกัด วิเคราะห์ข้อความที่ไม่มีโครงสร้างออกมา แล้วนำไปวิเคราะห์
2. Topic detection and tracking: การค้นหาหัวข้อเรื่องที่สำคัญ
3. Summarization: การย่อความ ดึงประเด็นสำคัญออกมา
4. Categorization: การจัดหมวดหมู่ (ต้องมีหมวดหมู่เดิมไว้อยู่แล้ว)
5. Clustering: การจัดกลุ่มเอกสาร โดยที่ไม่ทราบหมวดหมู่ วิธีการจัดกลุ่มเอกสาร คือ จัดกลุ่มเอกสารที่มีคำสำคัญ (Keyword) ใกล้เคียงกัน ไว้ด้วยกัน
6. Concept linkage: หลังจากจัดกลุ่มเอกสารแล้ว พยายามหาความสำคัญของกรอบความคิด(Concept)
7. Information visualization: นำเสนอเอกสารที่วิเคราะห์ได้ในรูปกราฟิก แผนภูมิ ตาราง เพื่อให้เข้าใจง่าย
8. Question and anserwing (Q&A): พยายามสกัดหาคำตอบให้กับผู้ใช้

Application ของ Tech Mining ที่สำคัญคือ การประยุกต์ใช้ Text Mining เพื่อดูความสามารถด้าน S&T โดยดูจากข้อมูลรายการบรรณานุกรมและบทคัดย่อ (Bibliographic Abstract) เพื่อให้มองเห็นความสำคัญ Topic ไหนสำคัญ สามารถนำไปสู่ Technology Forecast ได้

กระบวนการทำงานของ Tech Mining มี 3 ส่วน คือ  Data – Software – TIP’s
Data ได้แก่ ฐานข้อมูลสิทธิบัตร และฐานข้อมูลผลงานตีพิมพ์งานวิจัยและพัฒนา
Software ได้แก่ โปรแกรมที่วิเคราะห์และนำเสนอข้อมูล
TIP’s (Technology Intelligence Products) เป็นการนำเสนอรายงานผลการวิเคราะห์ข้อมูล เพื่อการสนับสนุนการตัดสินใจ

Technical Intelligence: เป็นการย่อยข้อมูลจากหลายแหล่งข้อมูล เพื่อหารายละเอียดงานวิจัย 4 ด้าน สำคัญ คือ Who What When Where พร้อมจัดทำแผนที่แสดงความสัมพันธ์เชื่อมโยง และวิเคราะห์แนวโน้มเทคโนโลยี แสดงถึงหัวข้อเรื่องใดที่กำลังได้รับความสนใจ

Software เช่น Vantage Point วิเคราะห์ Bibliographic Abstract (R&D Publication) และข้อมูลสิทธิบัตร หากไม่มีโปรแกรมวิเคราะห์ข้อมูล ปัจจุบันฐานข้อมูลออนไลน์ชุดใหม่ เช่น ฐานข้อมูล Web of Science, ScienceDirect มีฟังก์ชันในการวิเคราะห์ข้อมูลเบื้องต้นอยู่แล้ว

ปัจจุบันทางห้องปฏิบัติการวิจัยวิทยาการมนุษยภาษา ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ สวทช. ได้ทำงานวิจัย และประยุกต์ใช้เทคโนโลยี Text Mining เป็นต้นแบบงานวิจัย (Prototype) อยู่หลายเรื่อง เช่น
1. Expert Finder ระบบค้นหานักวิจัยไทย ผู้เชี่ยวชาญ เป็น Prototype ในงานวิจัย TNRR Expert Finder (Thai National Research Repository)
2. ABDUL (Artificial BudDy U Love) ระบบการค้นหาแหล่งข้อมูลออนไลน์ด้านต่าง ๆ เช่น พยากรณ์อากาศ ข้อมูลราคาหุ้น ข้อมูลสำหรับนักท่องเที่ยว อัตราแลกเปลี่ยนเงินตรา
3. Opinion Mining ระบบการแสดงความคิดเห็น เป็น Prototype กับ Hotel Reviewers

สรุป ปัจจุบันข้อมูลเพิ่มขึ้นทุกวัน เครื่องมือ (Tools) ในลักษณะ Text Mining ก็จะเข้ามามีบทบาทในการสกัดองค์ความรู้ และประยุกต์ใช้งานได้อีกมาก

Share
การประชุมวิชาการประจำปี 2554 STKS (ตอนที่ 7)
Jul 25th, 2011 by pornpan 59 views

หัวข้อเรื่อง การเสวนาเรื่อง การใช้ Online Database ในมุมมองของภาคเอกชน และแนวทางการบอกรับในลักษณะ National Site License วิทยากรโดย นางสุวคนธ์ ศิริวงศ์วรวัฒน์ ผู้อำนวยการศูนย์สนเทศและหอสมุด มหาวิทยาลัยธุรกิจบัณฑิตย์ นางศรีจันทร์ จันทร์ชีวะ ผู้อำนวยการสำนักหอสมุด มหาวิทยาลัยธรรมศาสตร์ นางพัชราวิไล พงษ์วิชชุลดา นักทรัพย์สินทางปัญญา บริษัท สยามวิจัยและนวัตกรรม จำกัด ดร.ชฎามาศ ธุวะเศรษฐกุล รองผู้อำนวยการสำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ ดำเนินรายการโดย นางสาวสุภาพร ชัยธัมมะปกรณ์ ผู้อำนวยการฝ่ายบริการความรู้ทางวิทยาศาสตร์และเทคโนโลยี (STKS) สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช.)

เวทีการเสวนาครั้งนี้ เป็นการกล่าวถึงการใช้ฐานข้อมูลออนไลน์ในมหาวิทยาลัยภาครัฐ มหาวิทยาลัยภาคเอกชน และ หน่วยงานภาคธุรกิจ เอกชน ว่าหน่วยงานแต่ละแห่ง บอกรับฐานข้อมูลออนไลน์อะไรบ้าง และมีประสบการณ์ในการบอกรับฐานข้อมูลออนไลน์อย่างไร  รวมทั้งร่วมแลกเปลี่ยนความคิดเห็น แนวทาง ความเป็นไปได้ในการบอกรับฐานข้อมูลออนไลน์ในลักษณะ National Site License ในระดับประเทศไทย

มหาวิทยาลัยภาครัฐ กรณีของสำนักหอสมุด มหาวิทยาลัยธรรมศาสตร์ ได้ดำเนินการบอกรับฐานข้อมูลออนไลน์ จำนวน 70 ชื่อ จากที่มา 3 แหล่ง คือ
1.  สกอ. สนับสนุน จำนวน 13 ฐานข้อมูล
2. สำนักหอสมุด บอกรับเอง
3. หน่วยงานอื่น ๆ (ภาควิชา คณะ) ในมหาวิทยาลัยบอกรับให้ รวมทั้งฐานข้อมูลที่ได้รับฟรี

ฐานข้อมูลออนไลน์จากที่บอกรับทั้ง 3 แหล่ง รวมราคาหลายล้านบาท สำหรับประเด็นการพิจารณาเรื่องความคุ้มค่า คิดว่าสถิติการใช้เป็นเพียงองค์ประกอบหนึ่งเท่านั้น เนื่องจากเป็นที่รับรู้กันทั่วไปว่า ฐานข้อมูลออนไลน์เหล่านี้เป็นสิ่งสำคัญในการเรียน การสอน และการวิจัย

มหาวิทยาลัยภาคเอกชน มีความร่วมมือของห้องสมุดสถาบันอุดมศึกษาเอกชน ในชุดคณะอนุกรรมการพัฒนาระบบและเครือข่ายห้องสมุดสถาบันอุดมศึกษาเอกชน (อพส.)  มีความร่วมมือกันในหลายด้าน คือ
1. การร่วมกันบอกรับฐานข้อมูลออนไลน์ในรูปของภาคีเครือข่าย ประเด็นสำคัญในการเจรจาต่อรอง คือ ไม่นับ FTE เป็นเกณฑ์ในการคิดราคา แต่ใช้จำนวนผู้ใช้จริง (User)
2. การช่วยเหลือกันในรูปของ Inter-library loan
3. การให้ความรู้เกี่ยวกับฐานข้อมูลออนไลน์
4. กระตุ้นให้ภาครัฐซึ่งเป็นตัวจักรสำคัญ เห็นความสำคัญของการบอกรับฐานข้อมูลออนไลน์ และผลักดันให้เกิดการบอกรับในระดับประเทศ โดยไม่มีขอบเขตภาครัฐและเอกชน ขอให้ภาคเอกชนได้ร่วมใช้ฐานข้อมูลด้วย 
และนำเสนอกรณีการศึกษา National Site Licesne ประเทศเกาหลี ในโครงการ Korean Electronic Site License Initiative (KESLI)

หน่วยงานภาคธุรกิจ เอกชน เห็นว่าทุกภาคส่วนต้องใช้ฐานข้อมูลออนไลน์ ซึ่งมีความสำคัญ เดิมภาคเอกชนใช้บริการจากภาครัฐ ปัจจุบันองค์กรภาคเอกชนกำลังพัฒนาเป็น Innovation ปูนซีเมนต์มุ่งเป็น Innovation Organization จำเป็นต้องใช้ฐานข้อมูล ต้องเป็นสมาชิกเอง ไม่มีภาคีความร่วมมือใด ๆ การบอกรับฐานข้อมูลกำหนดด้วยจำนวนคน (FTE)  เหมือนภาครัฐ การต่อรองไม่ธรรมดา ถ้าเป็น SME เล็ก ๆ คงยาก นอกจากนั้นยังเป็นสมาชิกกับห้องสมุดมหาวิทยาลัยต่าง ๆ เพื่อขอใช้บริการฐานข้อมูลด้วย ให้ข้อคิดเห็นว่า การร่วมมือกันนั้น หน่วยงานขนาดเล็กกับเล็กนั้นง่าย แต่หากเป็นหน่วยงานขนาดใหญ่กับเล็กนั้นยาก โดยเฉพาะในเรื่องงบประมาณค่าใช้จ่าย

ในด้านหน่วยงานภาครัฐ สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช.) เกี่ยวข้องกับ National Site License ด้วยเป็นองค์กรวิจัย อยากมองภาพรวมของประเทศ ในบทบาทงานวิจัย การเข้าถึงข้อมูลเป็นโครงสร้างพื้นฐานทางด้านวิทยาศาสตร์และเทคโนโลยีที่สำคัญ เป้าหมายของประเทศ คือ เพิ่มขีดความสามารถในการแข่งขัน สิ่งที่เราอ่อนคือ โครงสร้างพื้นฐาน (Infrastructure) ด้านวิทยาศาสตร์และเทคโนโลยี และ ICT รวมทั้งกำลังคน ต้องเพิ่มขีดความสามารถในการแข่งขัน ที่ สวทช. เกี่ยวข้อง คือ การวิจัยและพัฒนา สอดคล้องกับแผนพัฒนาเศรษฐกิจและสังคมแห่งชาติฉบับที่ 11 (พ.ศ. 2555-2559) ต้องเพิ่มมูลค่าการวิจัย จากเดิม 0.02 เพิ่มขึ้นเป็น 1% (ของ GDP) และปรับสัดส่วนในการวิจัย ทั้งภาครัฐและเอกชน เอื้อให้ทำกิจกรรมวิจัยได้มากขึ้น ทรัพยากรสารสนเทศสำคัญเป็นพื้นฐานในการสร้างความรู้ งานวิจัยใหม่
STKS จัดหาทรัพยากรสารสนเทศ ฐานข้อมูลออนไลน์ให้กับ สวทช. ราคาค่าบอกรับเพิ่มขึ้นเฉลี่ย 6-8% โดยพยายามทำงานร่วมกับเครือข่าย ดีขึ้นกว่าเดิม ใช่จ่ายน้อยลง คุ้มค่่ามากขึ้น ในภาพรวมของประเทศควรมีการจัดโครงสร้างพื้นฐานนี้อย่างเป็นระบบด้วย ขณะนี้กำลังมีการศึกษาวิจัยเชิงนโยบาย ความเป็นไปได้ กลไก และรูปแบบที่เหมาะสมในการบอกรับในลักษณะ National Site License ของประเทศไทย เดิมมีระดับหนึ่งคือ สกอ. แต่มีข้อจำกัด ไม่รวมภาคเอกชน ธุรกิจ ประเด็นการเข้าถึง สกอ. ยังไม่กว้างขวางเท่าที่ควร National Site License ควรสนับสนุนภาคเอกชนด้วย โดยพยายามศึกษากรณีตัวอย่าง National Site License จากหลายประเทศ บางประเทศเป็น Education, Research บางประเทศเน้นประชากรทั้งประเทศ ไม่จำกัดเนื้อหาเฉพาะ S&T

อย่างไรก็ตามการศึกษาวิจัยเชิงนโยบายต้องมีข้อมูลประกอบ เช่น สถานภาพการบอกรับ ค่าใช้จ่าย จึงขอความร่วมมือจากทุกหน่วยงานช่วยกันให้ข้อมูล ที่สำคัญขณะนี้กำลังมีแรงผลักดัน (Momentum) ฝ่ายวิจัยนโยบาย สวทช. ร่วมกับ STKS จัดเตรียมโครงการวิจัยเชิงนโยบาย ศึกษาแนวทางและรูปแบบในการขับเคลื่อน National Site License นำเสนอในการประชุม Thai National Research Repository (TNRR) โครงการคลังข้อมูลงานวิจัยไทย ที่มีหน่วยให้ทุนวิจัยหลักของประเทศ หน่วยงาน 5 ส. 1 ว. โครงสร้างวิจัย คือ สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช.) สำนักงานกองทุนสนับสนุนการวิจัย (สกว.) สำนักงานคณะกรรมการวิจัยแห่งชาติ (วช.) และ สถาบันวิจัยระบบสาธารณสุข (สวรส.) ที่มี วช. เป็นเจ้าภาพ และให้ไปสู่การพิจารณาของสำนักงานคณะกรรมการนโยบายวิทยาศาสตร์ เทคโนโลยี และนวัตกรรมแห่งชาติ (สวทน.) ที่เป็นหน่วยกำหนดนโยบายทิศทางวิจัยวิทยาศาสตร์และเทคโนโลยีของประเทศต่อไป

Share
การประชุมวิชาการประจำปี 2554 STKS (ตอนที่ 5)
Jul 22nd, 2011 by suthiwan 251 views

หัวข้อเรื่อง Semantic web กรณีการประยุกต์ใช้ในห้องสมุด โดย ดร.มารุต บูรณรัช
นักวิจัย ห้องปฏิบัติการวิจัยวิทยาการมนุษยภาษา ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ  สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ

วิวัฒนาการของห้องสมุดยุคแรกที่มีที่เก็บหนังสือ  แคตตาล็อก และเจ้าหน้าที่ห้องสมุดที่ให้บริการ พัฒนามาเป็นห้องสมุดดิจิทัล  ที่ต้องมี เมทาดาทา เครื่องมือช่วยสืบค้นที่ยังมีปัญหาในการสืบค้นอยู่ จึงมีการคิดค้น Smart Search/ Integrated Metadata และ ฺBrowsing  เกิด tagging /ontology /Folksonomy /user profiles

สิ่งที่มองว่าห้องสมุดในยุคถัดไปจะมีการพัฒนาไปทางใดและเป็นในรูปแบบใดนั้น เป็นความฝันที่จะนำเทคโนโลยีมาช่วยเพื่อให้เกิดการทำงานร่วมกัน มีข้อมูลอยู่ในเว็บมากขึ้น ผู้ใช้ข้อมูลเป็นผู้สร้างเมทาดาทาเอง  และเป็นที่รวมแหล่งความรู้ให้ทุกคนเข้าถึงได้อย่างถูกต้องตรงตามความต้องการ   ซึ่งเป็นความพยายามของ W3C (หน่วยงานที่สร้างมาตรฐานข้อมูลต่าง ๆ )โดยใช้เทคโนโลยีเชิงความหมาย หรือ Semantic web  บูรณาการข้อมูลที่มีเมทาดาทาต่างกันให้เป็นข้อมูลเดียวกันได้  โดยมีกลุ่มมาตรฐานข้อมูล ชื่อ RDF, OWL , SKOS, SPARQL ตัวอย่างเช่น    วิกิเชิงความหมาย ระบบห้องสมุดดิจิทัล ช่วยในการบูรณาการที่ใช้มาตรฐานแตกต่างกัน เช่น Dublin Core , MARC21 เป็นต้น

RDF หรือ Resource Description Framework เป็นมาตรฐานที่อิงมาจากภาษา XML แต่มีโครงสร้างรูปแบบหลากหลายกว่า XML แบบจำลองของ RDF เมทาดาทาอยู่บนพื้นฐานของความคิดในการสร้างข้อความที่มี 3 ส่วนประกอบกันได้แก่ ประธาน  ความสัมพันธ์ และกรรม หรือ “Subject-Predicate-Object” โดยจะมี URI (Uniform Resource Identifier ) แทนของ 1 สิ่งเสมอ ยกตัวอย่าง เช่น เราต้องการสร้างข้อมูลเกี่ยวกับประเทศ ในทวีปแอฟริกา  เราก็จะใช้ URI แทนที่ข้อมูลประเทศ แล้วสร้าง Label ให้สร้างเป็นเอกสาร XML ไว้ก็จะเกิดกลุ่มข้อมูลที่มีความสัมพันธ์กันขึ้นเรื่อยๆ

Semantic web  กับการประยุกต์ใช้ในงานห้องสมุด มี 2 ส่วนคือ

  1. Linked Data  ส่งเสริมให้มีการแบ่งปันข้อมูล ในแบบของข้อมูล RDF (โปรแกรมคอมพิวเตอร์ สามารถนำไปใช้งานได้ง่ายกว่าในปัจจุบัน) เป็นลักษณะข้อมูลดิบจะเกิดข้อมูลที่สามารถนำไป Integrate ได้  ปัจจุบันมีการแบ่งเป็นกลุ่มๆ ที่ใหญ่ที่สุดคือในส่วนของสำนักพิมพ์และห้องสมุด
  2. Faceted Search (การค้นหาตามมิติ)  จากปัญหาการสืบค้นของห้องสมุดดิจิทัล ยังไม่เพียงพอสำหรับผู้ใช้ จึงมีการติดค้นวิธีการสืบค้น เกิด Faceted Search ที่สามารถกรองข้อมูลตามมิติต่าง ๆ ได้ (หรือตามเขตข้อมูลของเมทาดาทา) เครื่องมือที่ช่วยในการค้นโดย Faceted Search ได้แก่ Exhibit , Fedora Commons

โดยสรุป Semantic web หมายถึงการเชื่อมโยงสิ่งต่างๆ ที่มีความสัมพันธ์กันให้เป็นแหล่งความรู้ขนาดใหญ่ที่ใช้ร่วมกันได้  ปัจจุบันยังมีการใช้น้อยมาก คาดว่าในอีก 2-3 ข้างหน้า Semantic web  จะเป็นที่นิยมและใช้กันอย่างแพร่หลาย ด้วยความสามารถที่ฉลาดกว่า

Share
การประชุมวิชาการประจำปี 2554 STKS (ตอนที่ 4)
Jul 22nd, 2011 by suthiwan 142 views

Cloud Computing กรณีสำนักหอสมุด มหาวิทยาลัยธรรมศาสตร์
โดย นางศรีจันทร์  จันทร์ชีวะ ผู้อำนวยการสำนักหอสมุด มหาวิทยาลัยธรรมศาสตร์

Cloud Computing ในกรณีของสำนักหอสมุด มหาวิทยาลัยธรรมศาสตร์ นั้นมีเป้าหมายในการดำเนินการคือ เพื่อแบ่งปันข้อมูลระหว่างคนทำงานด้วยกัน ภายใต้การบริหารที่เป็นแบบศูนย์รวม เพื่อใช้ข้อมูลร่วมกันในห้องสมุดทุกสาขาของ มหาวิทยาลัยธรรมศาสตร์ (มธ.)

มหาวิทยาลัยธรรมศาสตร์ ได้จัดทำ SaaS ใช้กับห้องสมุดทุกสาขาใน มธ.  ใช้ในเรื่องห้องสมุดอัตโนมัติ ที่ซื้อบริการจาก OCLC เรื่อง Local Catalog ร่วมกันเปิดให้บริการ ILL ขณะนี้กำลังปรับเปลี่ยน LIS ให้เป็นซอฟต์แวร์ระบบเปิด Koha (แทน โปรแกรม Horizon เดิมที่จะปิดตัว) ซึ่งถือว่าเป็น cloud แบบเล็กๆ  โดย Server กลาง ตั้งอยู่ที่คณะวิศวกรรมศาสตร์ มธ.รังสิต และถือเป็นการเรียนรู้ ให้บริการยืมคืนแก่ผู้ใช้ในต่างประเทศที่สนใจ Thai Study  นอกจากนี้ Software ต่างๆ ที่ มธ.นำมาช่วยในการทำงานในแบบ Cloud Computing ประกอบด้วย

  1. Server Monkey แบบสอบถามความพึงพอใจของผู้ใช้บริการ แบบ SaaS ซึ่งมีความสะดวก ประมวลผลที่เป็นข้อเท็จจริงและได้คำตอบภายใน 2 สัปดาห์
  2. Dropbox  เป็นการแบ่งปันข้อมูลร่วมกัน โดยนำข้อมูลไปไว้บน Dropbox ซึ่งมีความสะดวกไม่ว่าอยู่ที่ไหนที่มีการเชื่อมต่อ Internet  ก็สามารถทำงานได้ทุกที่และมีประโยชน์มากสำหรับงานห้องสมุด คืองานจัดหาทรัพยากรสารสนเทศ  ช่วยลดความซ้ำซ้อนในการจัดหาเพราะแต่ละสาขาสามารถตรวจสอบได้รวดเร็วว่า สาขาใดมีความต้องการตรงกัน
  3. Google Docs  ใช้ในงานหนังสือบริจาค สร้างโฟลเดอร์ ทำหน้าปกหน้าสารบัญส่งให้ห้องสมุดสาขา คัดเลือกร่วมกันรับไปบริการต่อไป
  4. OCLC CONTETdm ใช้กับงานจดหมายเหตุ ห้องสมุดมีแผนงานจะดำเนินการต่อไป ในเรื่องประชาธิปไตยประเทศไทย เริ่มเก็บภาพโปสเตอร์หาเสียง การเลือกตั้ง เมื่อวันที่ 3 กรกฎาคม 2554 ที่ผ่านมา

ถือเป็นนวัตกรรมของห้องสมุด ด้วยการพัฒนาร่วมมือการใช้เทคโนโลยีที่เหมาะสม

Share
»  Substance: WordPress   »  Style: Ahren Ahimsa