Tag: 元数据

从研究论文的PDF中提取信息

我需要一种从PDF文档中提取书目元数据的机制,以保存用户手动input或剪切粘贴的机制。 至less,标题和摘要。 作者名单和他们的从属关系是好的。 提取参考将是惊人的。 理想情况下,这将是一个开源解决scheme。 问题在于并不是所有的PDF都对文本进行编码,而且许多文件不能保留文本的逻辑顺序,所以只要做pdf2text就可以得到第1列的第1行,第2列的第1行,第1列的第2行等等。 我知道有很多图书馆。 它是在我需要解决的文件上识别摘要,标题作者等等。 这是不可能的每一次,但80%将节省大量的人力。

VisualStudio 2008中没有足够的存储空间来处理此命令

当我尝试在VS 2008中编译程序集时,(有时候,通常在项目工作2-3小时后)出现以下错误 Metadata file '[name].dll' could not be opened — 'Not enough storage is available to process this command. 通常要摆脱我需要重新启动Visual Studio 我需要在我的项目中使用的程序集足够大(> 70 Mb),可能这就是这个错误的原因,在我以前的项目中我从来没有见过这样的东西。 好吧,如果这是我的问题是为什么发生这种情况,我需要做什么来阻止它的原因。 我有足够的可用内存在我的驱动器和2Gb的RAM(只有约1.2 Gb的exception发生时利用) 我search了这样的问题的答案。 build议通常涉及到: 到在WinXP中有限的用户处理程序的数量… 到每个进程可用内存的物理限制 我想也不能解释我的情况 对于用户处理程序和其他GUI资源 – 我不认为这可能是一个问题。 大的70Mb程序集实际上是一个无GUI的代码,可以与套接字一起工作,并实现专有协议的parsing器。 在我目前的项目中,我只有3个GUI窗体,GUI控件总数<100。 我想我的情况更接近这样一个事实,即在Windows XP中,进程地址空间受到2 GB内存的限制(考虑到内存分段,有可能我没有足够大的空闲段来分配内存)。 然而,很难相信在Visual Studio中使用这个项目2-3个小时之后,细分可能会如此之大。 任务pipe理器显示VS消耗大约400-500 Mb(OM + VM)。 在编译期间,VS只需要加载元数据。 那么这个库中有很多类和接口,但是我仍然期望1-2 Mb的数量足以分配编译器用来查找所有公共类和接口的元数据 (尽pipe这只是我的build议,我不知道当CLR加载程序集元数据时究竟发生了什么)。 另外,我会说,整个程序集的大小是如此之大,只是因为它是C++ CLI库,有其他的Um托pipe库静态链接到一个DLL 。 我估计(使用Reflector).NET(托pipe)代码大约是此程序集的5-10%。 任何想法如何定义该错误的真正原因? […]

EF映射和元数​​据信息找不到EntityType错误

当我使用Entity Framework 4.0 RC时遇到了一个exception。 我的entity framework模型封装在一个名为Procurement.EFDataProvider的私人程序集中,而我的POCO类在另一个程序集Procurement中。Core(业务逻辑)和EFDataProvider(数据访问)之间的关系是一个名为DataProvider 所以当我尝试创build一个对象集 objectSet = ObjectContext.CreateObjectSet<TEntity>(); 我收到一个错误: 无法findEntityType“Procurement.Core.Entities.OrganizationChart”的映射和元数​​据信息。

HDF5与带有文件的文件夹有什么不同?

我正在开发一个处理文件夹添加元数据的开源项目 。 提供的(Python)API允许您浏览和访问元数据,就像它只是另一个文件夹。 因为它只是另一个文件夹。 \folder\.meta\folder\somedata.json 然后我遇到了HDF5及其衍生Alembic 。 阅读Python和HDF5这本书中的HDF5 ,与使用文件夹中的文件相比,我一直在寻找使用它的好处,但是我所遇到的大部分内容都讲述了分层文件格式在添加数据方面的优点通过它的API: >>> import h5py >>> f = h5py.File("weather.hdf5") >>> f["/15/temperature"] = 21 或者是根据请求只读取其中某些部分的能力(例如随机访问),以及单个HDF5文件的并行执行(例如,用于多处理) 你可以挂载HDF5文件, https://github.com/zjttoefs/hdfuse5 它甚至拥有一个强大而简单的基本概念的组和数据集 ,从wiki中读取: 数据集,这是一个同types的multidimensional array 组,这是可以容纳数据集和其他组的容器结构 将数据集replace为文件和文件夹 组 ,整个function集听起来像是文件夹中的文件已经完全能够做到。 对于我所遇到的每一个好处,都没有一个是HDF5专有的。 所以我的问题是,如果我要给你一个HDF5文件和一个带有相同内容的文件夹,在这种情况下HDF5会更适合吗? 编辑: 对HDF5的可移植性有了一些反应。 这听起来很可爱,但是我仍然没有给出一个例子,一个HDF5会将文件夹放在一个文件夹中的场景。 为什么有人会考虑在任何计算机上读取文件夹时使用HDF5,通过networking支持“并行I / O”的任何文件系统,都可以在没有HDF5解释器的情况下被人读取。 我甚至会说,带有文件的文件夹比任何HDF5都要便携得多。 编辑2: Thucydides411刚刚举了一个可移植性问题的例子。 https://stackoverflow.com/a/28512028/478949 我认为我从这个线索中得到的答案是,当你需要文件和文件夹的组织结构时,HDF5非常适合,就像在上面的示例场景中,有很多(百万)小(〜1字节)数据结构; 像个人号码或string。 它通过提供一个“小文件系统”来弥补文件系统缺乏的优势。 在计算机graphics学中,我们用它来存储几何模型和有关各个顶点的任意数据,这似乎与它在科学界的使用非常吻合。

读取JPEG元数据时的问题(方向)

我有一个在iPhone上拍摄的JPEG图像。 在我的台式电脑(Windows照片查看器,谷歌浏览器等)方向是不正确的。 我正在一个ASP.NET MVC 3 Web应用程序,我需要上传照片(目前正在使用plupload)。 我有一些服务器端代码来处理图像,包括读取EXIF数据。 我已经尝试读取EXIF元数据中的PropertyTagOrientation字段(使用GDI – Image.PropertyItems ),但该字段不存在。 所以它是一些特定的iPhone元数据,或者其他元数据。 我已经使用了像Aurigma Photo Uploader这样的工具,它正确地读取元数据并旋转图像。 这是怎么做到的? 有没有人知道其他JPEG元数据可能包含所需的信息,以便知道它需要旋转,这是由Aurigma使用? 这里是我用来读取EXIF数据的代码: var image = Image.FromStream(fileStream); foreach (var prop in image.PropertyItems) { if (prop.Id == 112 || prop.Id == 5029) { // do my rotate code – eg "RotateFlip" // Never get's in here – can't find these properties. […]

使用FFmpeg检索和保存媒体元数据

我想读取媒体文件中的元数据,然后将这些元数据保存在文本/ xml文件中,以便稍后可以将该数据插入到我的数据库中。 我宁愿使用ffmpeg。 MediaInfo也可能是同样的事情? 我知道我可以使用MediaInfo获取单个曲目的元数据,但是我想将其自动化; 就像每当find新的媒体文件一样,读取其元数据,然后将其存储在txt / xml文件中。 或者,有没有其他的工具/实用程序/ API,我可以使用这个?

如何在单个结果集中列出SQL Server中所有数据库中的所有表?

我正在寻找T-SQL代码来列出SQL Server中的所有数据库中的所有表(至less在SS2005和SS2008;将不错,也适用于SS2000)。 但是,我想要一个结果集 。 这排除了Pinal Dave的其他优秀答案: sp_msforeachdb 'select "?" AS db, * from [?].sys.tables' 上面存储的proc 为每个数据库生成一个结果集,如果你在像SSMS这样的可以显示多个结果集的IDE中,这是很好的。 然而,我想要一个单一的结果集,因为我想要一个本质上是“查找”工具的查询:如果我添加一个像WHERE tablename like '%accounts'的子句, WHERE tablename like '%accounts'那么它会告诉我在哪里可以find我的BillAccounts,ClientAccounts和VendorAccounts不pipe他们驻留在哪个数据库中。 2010.05.20更新,约20分钟后… 到目前为止,Remus的回答看起来很有趣。 而不是发表这个答案,并奖励给自己,我在这里张贴它的一个版本,我已经修改,包括数据库名称和样本筛选器条款。 看起来Remus会得到这个答案的功劳,尽pipe如此! declare @sql nvarchar(max); set @sql = N'select b.name as "DB", a.name collate Latin1_General_CI_AI as "Table", object_id, schema_id, cast(1 as int) as database_id from master.sys.tables a join sys.databases […]

什么是Greasemonkey命名空间需要?

我正在学习如何使用Greasemonkey,并想知道@namespace元数据ID是什么。 它必须是一个url吗? 或者它可以是我的电脑上的文件夹/目录? 它甚至需要填写?

PHP提取GPS EXIF数据

我想从使用php的图片中提取GPS EXIF标签。 我使用exif_read_data()返回所有标签+数据的数组: GPS.GPSLatitudeRef: N GPS.GPSLatitude:Array ( [0] => 46/1 [1] => 5403/100 [2] => 0/1 ) GPS.GPSLongitudeRef: E GPS.GPSLongitude:Array ( [0] => 7/1 [1] => 880/100 [2] => 0/1 ) GPS.GPSAltitudeRef: GPS.GPSAltitude: 634/1 我不知道如何解释46/1 5403/100和0/1? 46可能是46°,但其余的尤其是0/1呢? angle/1 5403/100 0/1 这个结构是什么? 如何将它们转换成“标准”(如来自wikipedia的46°56'48“N 7°26'39”E)? 我想通过坐标到谷歌地图API来显示在地图上的图片位置!

从“显示表”中select数据MySQL查询

是否有可能从MySQL中的show tables中select? SELECT * FROM (SHOW TABLES) AS `my_tables` 一些沿着这些线,虽然上述不起作用(在5.0.51a,至less)。