From 85ee87997e3ee4eb579084f92d109b9b78dcf9c7 Mon Sep 17 00:00:00 2001
From: Tor Andersson <tor.andersson@artifex.com>
Date: Thu, 25 Aug 2016 12:44:13 +0200
Subject: Use U+FFFD instead of '?' for bad encodings in text extraction.

---
 source/pdf/pdf-op-run.c  | 2 +-
 source/pdf/pdf-unicode.c | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

(limited to 'source/pdf')

diff --git a/source/pdf/pdf-op-run.c b/source/pdf/pdf-op-run.c
index 96084cdf..aad0aebf 100644
--- a/source/pdf/pdf-op-run.c
+++ b/source/pdf/pdf-op-run.c
@@ -902,7 +902,7 @@ pdf_show_char(fz_context *ctx, pdf_run_processor *pr, int cid)
 	}
 	if (ucslen == 0 || (ucslen == 1 && ucsbuf[0] == 0))
 	{
-		ucsbuf[0] = '?';
+		ucsbuf[0] = 0xFFFD;
 		ucslen = 1;
 	}
 
diff --git a/source/pdf/pdf-unicode.c b/source/pdf/pdf-unicode.c
index ca84341d..65bda460 100644
--- a/source/pdf/pdf-unicode.c
+++ b/source/pdf/pdf-unicode.c
@@ -96,7 +96,7 @@ pdf_load_to_unicode(fz_context *ctx, pdf_document *doc, pdf_font_desc *font,
 			if (strings[cpt])
 				font->cid_to_ucs[cpt] = pdf_lookup_agl(strings[cpt]);
 			else
-				font->cid_to_ucs[cpt] = '?';
+				font->cid_to_ucs[cpt] = 0xFFFD; /* replacement character */
 		}
 	}
 
-- 
cgit v1.2.3