ระบบจะค้นหาอักขระซ่อน เช่น Zero Width Space (U+200B), BOM (U+FEFF), NBSP (U+00A0) และตัวควบคุมอื่นๆ
สรุปผล
-
รายการอักขระที่พบ
| ชนิด | อักขระ | Unicode | ตำแหน่ง | บริบท |
|---|
ยังไม่พบอักขระซ่อน
ตรวจสอบอักขระพิเศษหรือช่องว่างแปลกๆ ที่มองไม่เห็นด้วยตาเปล่า (Zero-width characters)
ระบบจะค้นหาอักขระซ่อน เช่น Zero Width Space (U+200B), BOM (U+FEFF), NBSP (U+00A0) และตัวควบคุมอื่นๆ
-
| ชนิด | อักขระ | Unicode | ตำแหน่ง | บริบท |
|---|
ยังไม่พบอักขระซ่อน
Hidden Text Finder เป็นเครื่องมือที่ช่วยค้นหาและแสดงอักขระ Unicode ที่ซ่อนอยู่ในข้อความ ซึ่งมองไม่เห็นด้วยตาเปล่าแต่มีอยู่จริงใน string และอาจทำให้เกิดปัญหาในการประมวลผลข้อมูล อักขระเหล่านี้มักเกิดจากการ copy-paste จากแหล่งต่างๆ เช่น PDF, Microsoft Word, เว็บไซต์ หรือแอปพลิเคชัน chat
str.split(" ") ไม่ตัดคำในจุดนี้ พบบ่อยมากในข้อความที่ copy จาก Word หรือ Wikipediaปัญหาเหล่านี้พบได้ในงานพัฒนาซอฟต์แวร์จริง:
/^\w+$/ ที่ควร match คำเดียวอาจ fail เพราะมี Zero Width Space แทรกอยู่กลางคำ"hello" === "hello" อาจ return false ถ้าหนึ่งในสองมี invisible character แทรกอยู่[email protected] กับ user@example.com (มี ZWS) ระบบอาจมองเป็นคนละคนหรือเป็นคนเดียวกัน ขึ้นอยู่กับ collationtext.replace(/[-]/g, '') ใน JavaScriptunicodedata.category(char) ตรวจสอบว่าอักขระอยู่ใน category "Cf" (Format characters) ซึ่งครอบคลุม invisible chars ส่วนใหญ่Zero-width characters คืออักขระ Unicode ที่มองไม่เห็นด้วยตาเปล่าแต่มีอยู่จริงในข้อความ ตัวอย่างที่พบบ่อย ได้แก่ Zero Width Space (U+200B), Zero Width Non-Joiner (U+200C), Zero Width Joiner (U+200D) และ BOM (U+FEFF) อักขระเหล่านี้มักถูกแทรกโดยโปรแกรมประมวลผลคำ เว็บไซต์ หรือผู้ไม่หวังดีที่ต้องการซ่อนข้อความหรือ fingerprint ข้อมูล
ปัญหานี้มักเกิดจากอักขระซ่อนที่แฝงอยู่ในข้อความ เช่น Zero-width space หรือ Non-breaking space (U+00A0) ที่ดูเหมือนช่องว่างปกติแต่มี Unicode code point ต่างกัน นอกจากนี้ยังอาจเกิดจากตัวอักษรที่มีรูปร่างเหมือนกันแต่เป็น Unicode ต่างตัว เช่น a ภาษาอังกฤษกับ а ภาษาซีริลลิก เครื่องมือนี้ช่วยตรวจจับและแสดง code point ที่แท้จริงของแต่ละอักขระ
อักขระซ่อนในเนื้อหาเว็บส่งผลเสียต่อ SEO หลายประการ เช่น Google อาจอ่านคำ keyword ผิดเพราะมีอักขระแปลกแทรกอยู่, เนื้อหาที่คัดลอกมาจากเอกสาร Word หรือ PDF มักมีอักขระควบคุม (control characters) ที่ทำให้ indexing ผิดพลาด และอาจทำให้เนื้อหาถูกมองว่าเป็น duplicate content ควรทำความสะอาดข้อความก่อนเผยแพร่บนเว็บเสมอ
มีหลายวิธีลบอักขระมองไม่เห็นออกจากข้อความ เช่น ใช้เครื่องมือนี้กดปุ่ม "ล้างอักขระซ่อน" เพื่อลบอัตโนมัติ, ใช้ regular expression เช่น /[\u200B-\u200D\uFEFF]/g ใน JavaScript, หรือ paste ผ่าน Notepad แล้ว copy ใหม่เพื่อกรองอักขระบางประเภท สำหรับข้อมูลจาก API หรือ user input ควร sanitize ข้อมูลที่ฝั่ง server ด้วย