Data Mining / Text Mining คือกระบวนการวิเคราะห์สารสนเทศเพื่อให้ค้นพบสารสนเทศเรื่องใหม่ / เรื่องที่ไม่เคยรับรู้มาก่อน ด้วยวิธีการสกัดคำ/ตัดคำ information extraction ด้วยโปรแกรมคอมพิวเตอร์แบบอัตโนมัติ นำเสนอผลการวิเคราะห์ให้เป็นความรู้ใหม่ รวมถึงสามารถแสดงความสัมพันธ์ของข้อมูลใหม่ด้วย
Text Mining แตกต่างกับการสืบค้น การสืบค้น / ค้นคืน Searching เป็นความต้องการค้นหาเรื่องที่ผู้สืบค้นรู้จักมาก่อน รวมทั้งเป็นเรื่องที่มีการเขียน/บันทึกไว้แล้ว ส่วน Text Mining เป็นการค้นพบข้อมูลที่ไม่เคยรับรู้มาก่อนหรือไม่มีข้อมูลที่ถูกบันทึกไว้ก่อน
Text Mining มีการนำไปประยุกต์ใช้ในหลายสาขา จึงมีชื่อเรียกแตกต่างกันไปเช่น Data Mining Scientometrics Webometrics Bibliometrics etc.
การประยุกต์ Text Mining ปัจจุบันมีความสนใจนำ TM ไปประยุกต์ใช้ในหลายสาขา ตัวอย่างเช่น
การวิเคราะห์หาข้อมูลรูปแบบการใช้จ่ายของผู้บริโภค Consumer purchasing patternจากข้อมูล บัตรเครดิตการ์ด บัตรสมาชิกต่างๆ มีการจัดเรียงสินค้าบนชั้นให้อยู่ใกล้กัน (กรณีพบว่ามีการซื้อสินค้าพร้อมกันในอัตราสูง) มีการแจกบัตรคูปองต่างๆเพื่อส่งเสริมการขาย สาขา Bioscience ในเป็นเรื่องที่รู้จักกันอย่างดี การศึกษาของ Don Swanson เรื่อง Hypothesizing causes of rare diseases โดยศึกษาดูจากการเชื่อมโยงของเอกสารงานวิจัย มีการคาดการณ์ว่า TM จะมีบทบาทและมีผลกระทบอย่างสูง great impact ต่อวงการนี้ในอนาคตอย่างแน่นอน
ปัจจุบัน TM ได้รับความสนใจในหลายสาขา Security Application (CIA analyze terrorist events)
Software Application IBM, Microsoft กำลังพัฒนา Academic Application สำนักพิมพ์ ผู้ผลิตข้อมูลวิชาการ เช่น nature/ NIH USA. / UK. (Univ.manchester) / Uinv.California Customer Service ต้องการ quick response เช่น ได้รับ อีเมล ร้องเรียน1000 ฉบับ/วัน
เทคโนโลยี TM ใช้เทคนิคหลายส่วนประกอบกัน ได้แก่ Text Extraction / Summarized Extraction / Feature Selection / Cluster Generation / Topic Identification / Information Mapping / Text Categorization
TM เป็นสหสาขาวิชาผสมผสานกัน ในหลายสาขา คือ Data Mining / Information Retrieval / Linguistics / Machine pattern / Statistics/ Pattern recognition / Database / Visualization